企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。
企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。
Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。
海尔集团在泰国罗勇工业园奠基了东南亚规模最大的中央空调智造基地。该基地总投资超10亿元,占地约180亩,是海尔在海外首座中央空调AI智能体工厂。此举旨在应对东南亚城市化带来的商用暖通需求增长,预计到2030年区域订单需求将突破22万台。此前,海尔磁悬浮中央空调已实现全球市场8连冠,并在国内市场占据超45%份额。去年,海尔在泰国投产的年产600万套家用空调基地,已成为中国品牌在东南亚最大的家用空调制造基地。
AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。
据《华尔街日报》报道,谷歌正与SpaceX谈判火箭发射协议,以推进其名为“Project Suncatcher”的太空数据中心计划,目标是在2027年前发射原型卫星。谷歌是SpaceX的早期投资者,持有其6.1%股份。为支撑这一愿景,SpaceX已申请发射多达100万颗卫星,旨在解决地面数据中心面临的土地与能耗问题。此外,SpaceX在筹备大规模IPO的同时,近期还宣布收购xAI等多项重大投资与合作。
微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。
在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。
研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。
datasette 发布了 1.0a29 版本。本次更新新增了用于创建“_r”字典的 TokenRestrictions.abbreviated() 工具方法。界面改进方面,现在即使表格行数为零,表头和列选项也会正常显示,并修复了移动版 Safari 上列操作对话框的显示问题。此外,还解决了一个严重的段错误 bug,该问题源于 Datasette.close() 方法在多线程环境下可能引发的竞态条件。开发者通过 Codex CLI 配合 GPT-5.5 xhigh 创建了能复现问题的 Dockerfile,从而定位并修复了此问题。
本次更新包含多项错误修复与体验优化。核心改进包括:增强了Agent工具的subagent_type匹配逻辑,现对大小写和分隔符不敏感;修复了/goal命令在特定钩子设置下无响应的问题,现会显示明确提示;解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外,还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、/loop命令调度冗余以及Read工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。
We're excited to announce our partnership with @MiniMax_AI! Read more at https://getlilac.com/blog/minimax-m2-7-partners...
亚马逊员工因公司强制使用人工智能工具而进行“tokenmaxxing”,即通过优化输入策略以最大化AI工具输出,应对绩效压力。这一行为揭示了AI技术集成到工作流程中时,员工被迫适应新系统带来的挑战,可能影响工作效率和职场动态。报道在Hacker News上获得110点关注,显示科技社区对该议题的重视。
本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。
通过RoCEv2 CX-7以太网和Tomahawk交换机连接多台B200 8-GPU机器,并采用名为PD disaggregation的推理优化技术,单GPU的token吞吐量最高可提升7倍。吞吐量的大幅提升使得每百万token的成本也相应降低了最多7倍。这一成果得益于Inferact和vLLM项目开发的开源引擎,以及NVIDIA团队构建的动态推理编排器。未来针对B200 disaggregation的性能还将有进一步改进。
JBS Dev总裁Joe Rose指出,在部署生成式与代理AI系统时存在一个普遍误解,即认为数据必须完美无缺才能开展相关工作。文章结合AI Fieldbook近期内容,探讨了AI应用从模型能力提升到实现成本可持续性的实际挑战,强调在真实场景中应对不完美数据是突破AI落地“最后一公里”的关键。
研究团队提出键值均值注意力机制,这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层,仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异,仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现,无需定制内核,支持分块并行化训练与预填充,兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存,并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择,也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。
软银集团CEO孙正义正商讨在法国投资高达1000亿美元,建设专注于人工智能的半导体晶圆厂与数据中心。该计划是其“伊邪那岐计划”的延伸,旨在依托旗下Arm的芯片设计技术,打造独立的人工智能半导体生态体系。法国因其有利的监管环境和充足的核电产能被选为核心选址。软银预计自身出资约300亿美元,其余资金可能由中东主权财富基金支持。此举被视为孙正义构建AI商业帝国的关键一步,但也引发了市场对其财务风险的担忧。
韩国科技部选定由三星SDS牵头的财团,负责运营国家人工智能计算中心项目。该财团已落实4000亿韩元初始资本,计划今年三季度启动建设,总投资将达2.5万亿韩元。项目目标是在2028年前部署1.5万颗高端AI芯片,建成后将向韩国本土初创企业、中小企业和科研机构提供低成本、具全球竞争力的AI算力。项目还包括配套研发专区,旨在支持本土神经网络处理器的验证与商业化,完善韩国AI半导体产业生态。
松下控股宣布将大力发展人工智能相关业务以提升整体利润,目标在2029年3月财年实现调整后营业利润7500亿日元及以上,其中AI相关基础设施业务计划贡献1300亿日元利润增量。与此同时,其电动汽车电池部门因美国关税、新工厂投产成本及日本本土销量下滑等因素承压,上一财年营业利润大幅下滑42%至698亿日元,且在2024年1至3月季度录得38亿日元亏损。为应对AI需求,公司已开始在美国和日本工厂生产数据中心专用电池电芯。
小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。
Claude 平台现已在 AWS 上正式发布,使开发者能够通过亚马逊云服务直接访问 Anthropic 的先进 AI 模型。这一集成将 Claude 平台扩展至 AWS 生态系统,提升了部署灵活性和可扩展性,可能支持更高效的 AI 应用开发。该公告在 Hacker News 上获得了 104 点关注,反映了科技社区对此的高度兴趣。
瑞声科技旗下远地科技实现ATAHORAN系列2.2MW/2.6MW集中式液冷CDU的规模化量产,并启动全球批量交付。该产品为当前商用顶级高功率规格,专为AI智算中心与超算集群设计。公司月交付产能达400台,位居行业第一梯队及国内前三,已建成专用总装与测试产线,具备快速扩产能力。全球仅少数企业能实现此类产品的规模化量产。
Theo发出严重警告,新型软件供应链攻击“Mini Shai-Hulud”通过污染GitHub Action缓存,在CI/CD环节注入恶意依赖,已毒化从TanStack扩散到UiPath、Mistral AI相关包等总计205个制品。攻击速度极快,6分钟内发布84个恶意版本,并利用窃取的凭证形成蠕虫式自我繁殖闭环。由于攻击发生在上游,恶意包拥有合法签名,使传统安全机制失效。AI编程助手和自动化工具的普及使得零人工审查成为常态,加剧了风险。当前,更新依赖已成为极高风险操作,必须采取强制lockfile、手动批准升级、轮转所有凭证等严格措施。
I hope you guys understand that this is going to keep getting worse
AMD 发布 vLLM-ATOM 插件,旨在提升大语言模型在 AMD Instinct GPU 上的推理性能。该插件无需改动现有 vLLM 的命令、API 及工作流,即可为 DeepSeek-R1、Kimi-K2、Qwen3 等模型提供加速,覆盖 MoE、稠密模型及视觉语言模型场景。其三层架构在后台接管优化,重点面向 MI350、MI400 等系列 GPU,通过融合内核与注意力后端路由等技术,降低部署门槛,实现“零学习成本”的平滑迁移。
在香港具身智能产业峰会上,智元机器人董事长邓泰华指出,具身智能产业潜力巨大,未来可能成为规模最大的单品工业品,市场规模可达“单车价格×手机数量”,长远甚至可能超过手机数量。他透露,智元已实现规模量产,3月底累计下线1万台机器人,2026年目标为数万台量产,并在香港落地行业首批7大部署态解决方案。同时,公司发布香港产业共创计划,未来5年将设立香港国际研发总部,通过“个十百千万”目标培育企业、发展伙伴,目标创造数千亿营收和数万亿港交所市值。
Claude Code发布智能体视图,将多会话管理集成于单一面板,旨在降低开发者并行工作的认知负担,标志着AI辅助编程进入“多线程”阶段。OpenAI宣布成立独立部署子公司,初始投入超四十亿美元,并派驻约150名前线部署工程师进入企业,表明AI竞争焦点已从模型能力转向实际落地能力。同时,行业观点认为,AI的“英雄主义时代”已经过去,当前稀缺的是靠谱、细致、负责任的工程执行力,而非天才洞察。
OpenAI宣布成立独立子公司OpenAI Deployment Company,旨在解决企业AI落地难题。该公司通过收购AI咨询公司Tomoro,组建了约150名前线部署工程师团队,将常驻企业内部,识别高价值场景并将AI系统整合至工作流。OpenAI指出,当前企业AI的瓶颈已从模型能力转向实际业务落地。此轮融资超40亿美元,由TPG领投。此举标志着AI竞争焦点转向落地能力,OpenAI将该业务提升至战略层级,直接与主要云厂商的企业服务竞争。
Anthropic在AWS上正式推出Claude Platform,与现有的Claude on Amazon Bedrock形成两条独立产品线。平台版由双方共同运营,数据由Anthropic处理,但功能与原生API完全对齐且同步更新。其核心优势在于整合了AWS的IAM认证、CloudTrail审计、统一账单及承诺消费抵扣,同时提供Claude全功能套件,包括Managed Agents、Skills、联网搜索等。该服务适合需要完整功能并能接受数据由Anthropic处理的客户,而Bedrock版则面向对数据必须驻留AWS有严格合规要求的场景。
The Claude Platform on AWS is now generally available. AWS customers get the full set of Claude API features, with AWS a...
Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。
当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。
本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。
Anthropic正式在AWS上推出Claude Platform,使开发者能在其自有AWS环境中使用与原生API相同的模型和功能,包括Claude Managed Agents。关键突破在于工作负载、计费和IAM权限全部保留在企业自身的AWS账户内,无需数据出境。此举直接解决了大型企业以往采用前沿AI代理时面临的数据安全、采购流程和安全审查等核心障碍,为企业级应用扫清了最后的关键阻碍。
We're introducing the Claude Platform on AWS. This gives developers access to the same models and features as our native...
Build and deploy agents at scale with Claude Managed Agents, or use features like the advisor strategy, code execution, ...
Anthropic在AWS上推出了Claude平台,此举并非发布新模型,而是旨在简化企业采购与部署流程的战略举措。AWS客户现在可以直接通过AWS的身份验证、账单系统、承诺消费抵扣及治理工具访问原生Claude平台,无需强制使用Amazon Bedrock服务。该平台为客户提供完整的原生Claude体验,但服务本身由Anthropic运营,数据处理在AWS的边界之外进行。这显著降低了企业用户的采用门槛,是Anthropic推动其模型在企业市场广泛采用的关键一步。