在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。
在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。
GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。
这算是冷知识吗?问豆包 AI 10 个问题竟然会消耗 500 毫升的矿泉水? 原来 AI 的算力竟然还是需要消耗水的,每年竟然要消耗 230 亿立方米的水,而且还是淡水。Oh my god! 我原来以为只是消耗电。
2026 年 Q1 全球晶圆代工 2.0 市场营收 860 亿美元,同比增长 23%。AI GPU 和 AI ASIC 需求升温,带动先进制程与先进封装利用率提升。台积电 Q1 营收同比增长 41%,预计全年增 36%。联发科在 Google TPU 供应份额提升,推高晶圆需求。封装测试环节成 AI 供应链瓶颈,ASE 营收同比增 18%,并将 2026 年先进封装营收目标上调至 35 亿美元以上。
something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...
Dockerless是一种无需运行环境的智能体补丁验证器,通过仓库探索收集证据判断补丁正确性。在评估基准上,其AUC得分领先最强开源验证器14.3分。将Dockerless同时用作监督微调的轨迹筛选器和强化学习奖励信号,可实现完全无需环境的后训练流程。训练模型在SWE-bench Verified、Multilingual和Pro上解决率分别达62.0%、50.0%和35.2%,较Qwen3.5-9B基线高出2.4、8.7和2.9个百分点,性能与基于环境的后训练持平。
视觉-语言-动作(VLA)模型继承预训练VLM中过大的语言骨干,引发冗余质疑。Drop-Then-Recovery(DTR)协议通过删除Transformer块并微调恢复,结合单次虚拟门控敏感度指标GateProbe评测容量必要性。在LIBERO上,删除半数LLM块后OpenVLA-OFT在相同微调预算下从95.0%升至98.3%,仅保留两个语言块仍恢复基线性能;但视觉与动作路径对删除耐受性显著更低。结果表明现有VLA基准对深层语言理解压力不足,未来架构应更均衡分配语言、视觉、动作容量。代码已开源。
针对无害数据微调可部分撤销早期训练获得的安全行为,论文提出几何假设:早期训练创建主导行为流形,后续对齐仅产生浅层位移,后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021,24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动,使最终对齐从0.648±0.009降至-0.211±0.021,harmfulness从19.0%±4.0%降至8.5%±1.5%,任务成本极小,表明v_rev是早期对齐后反转的因果中介。
简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。
MultiHashFormer 使用多个独立哈希函数将每个 token 编码为短哈希 ID 序列,由 Hash Encoder 压缩为隐向量后经 Transformer 解码器处理,再由 Hash Decoder 生成下一 token 的哈希签名并映射回文本,实现基于哈希的自回归生成。在 100M、1B 和 3B 参数规模下,它在多项基准上持续优于标准 Transformer 语言模型,并支持多语言词汇表扩展而不增加参数量。
针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。
扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人(2020)及Chinchilla扩展定律的三种拟合方法(固定模型大小改变token预算、等FLOP曲线、参数拟合),以及Amari等人(1992)和Hestness等人(2017)的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟,核心在于最优分配计算资源于N和D。
Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。
Fairgen 推出“AI Chief Insights Officer”,其核心产品 Fairgen Twin 基于每月 10 万次真实访谈为每位消费者构建 1:1 数字孪生。用户可筛选特定人群,在 20 分钟内完成定价、概念、广告测试并生成完整分析报告,替代传统 5 千至 20 万美元的研究。数据来源包括访谈、调查、交易、报告和面板数据,而非通用角色。系统通过 6 维质量门控(逻辑、忠实度、语调、合理性、参与度、数值一致性)确保输出质量。欧莱雅、T-Mobile 等品牌已使用四年,现正式向公众开放。
We've built the first AI Chief Insights Officer. Every brand has optimized for visibility. SEO, GEO, paid media. billion...
Today we're announcing our $320M Series A at a $2.3B valuation, led by @khoslaventures , with @generalcatalyst, @JeffBez...
IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。
Rohan Paul 引用 @TangriKunal 指出,机构知识长期依赖文档索引,但文档只是判断的产出物,判断本身存在于资深员工交付前修改的差异(diffs)中,而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”,即通过软件保存真实工作中的编辑,将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识,而是存储的判断——AI 需要学习初稿与终稿之间的差距,因为那里藏着企业的好标准。
"Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...
Apple has drastically increased prices due to rising costs. The fully loaded 16-inch MacBook Pro now costs $9999. Via Ma...
Meta提出Autodata,将合成数据生成视为智能体数据科学家的任务。核心方法“Agentic Self-Instruct”让AI智能体生成并元优化合成训练与评估数据。循环流程:生成示例→弱模型与强模型分别尝试→判断结果→修订配方直至示例处于有用区间。论文强调难度不是美德,示例应针对弱模型的学习点。关键结果:在法律任务上,4B模型训练后超越了更大的397B基线。
General Intuition 周四以23亿美元估值完成3.2亿美元融资,累计融资4.54亿美元。其AI智能体通过分析数亿小时游戏视频中的动作标签(玩家按键记录)训练,掌握时空推理能力,能从游戏泛化到仿真和现实世界。仅用8分钟真实机器人数据微调即可控制四足机器人自主导航。公司计划夏季末开放API。本轮由Khosla Ventures领投,General Catalyst、Jeff Bezos、Eric Schmidt、Nico Rosberg及Google DeepMind、MIT研究人员参投。
General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。
保险公司、银行和能源公司正使用扩散模型生成数万个合成天气事件,改进灾害风险评估,尤其针对缺乏历史数据的罕见灾难。Fathom用约1000年气候模拟数据训练扩散模型,再通过图像锐化模型将分辨率从100×100公里细化至10×10公里,生成2030年气候场景。Verisk用生成式AI同时建模极端风和雨,Moody's RMS则利用AI分析野火和飓风后的卫星图像估计保险损失。但扩散模型存在幻觉,可能生成看似合理却违反物理规律的事件。更精准的模型理论上可覆盖孟加拉国等被忽视地区,但研究显示保险公司可能倾向于采购产出较低损失估计的模型以承接更多业务,先进科学与销售逻辑可能冲突。
Anthropic's letter accusing Alibaba of distillation.
The idea that distilling from Opus 4.8 lets you reach Mythos is very encouraging. It would mean that some GLM 5.3 would ...
福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。
IBM 发布全球首个亚 1 纳米芯片技术,采用名为 nanostack 的垂直堆叠晶体管架构,在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为上一代 2 纳米节点的两倍。该技术基于 0.7 纳米节点(7 埃),可带来 50% 的计算性能提升或 70% 的能效提升,并实现 SRAM 缩放 40% 的改进。IBM 预期采用 nanostack 架构的商用芯片有望在未来 5 至 10 年内量产。
Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因:大模型遗忘更少,额外容量保护了弱学习信号。常见任务优先占据神经元,罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号,但随后被常见任务更新覆盖。实验使用OLMo模型(4M到4B参数),结果显示大模型更好掌握低频任务,保留更多任务特征,梯度干扰更小。
联想昨日发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB,访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,支持40卡/32卡配置,采用无线缆正交直插架构,兼容标准19英寸机箱,部署周期压缩至数小时。同时发布的万全异构智算平台V5.0升级两大技术:集群训推加速技术通过分层解耦PD分离架构和KV Cache共享缓存优化提升资源利用率;芯模编译优化技术实现计算图自适应匹配与算子自动生成,适配多元算力芯片生态。
Anthropic 指控阿里千问用 25000 个伪装账号来蒸馏 Claude 这个数量比之前指控 DeepSeek、MiniMax 和 Kimi 加起来好像都多 懂了,都传出去:Qwen 3.8 值得期待 😂 Anthropic 的蒸馏账号报告,也是一种 Benchmark。。。
BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.
距开幕1天,阿里云正式公布Flink Forward Asia 2026主论坛议程。大会聚焦实时数据智能,展现从Agent-native到AI-native的阿里云演进路径,并覆盖汽车、具身AI等产业场景。会议将于6月26-27日在深圳华侨城洲际酒店举行,所有演讲均以中文进行。席位有限,需提前报名。
Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者,但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek,引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。
Anthropic指控阿里巴巴未经授权提取了其Claude AI模型的能力。该指控基于Anthropic的调查,认为阿里巴巴通过逆向工程或其他手段复制了Claude的核心技术。目前阿里巴巴尚未公开回应。
关联讨论 1 条Ars Technica:AI(RSS)Did you know? Pangram learns the difference between Claude, ChatGPT, and Gemini in its internal representations, even wi...
Anthropic 致信美国参议院银行委员会和白宫,指控阿里通义千问(Qwen)关联方在 4 月 22 日至 6 月 5 日通过约 25,000 个虚假账号与 Claude 产生超 2880 万次交互,实施蒸馏攻击,目标锁定软件工程和 Agent 推理能力。此前 2 月 Anthropic 曾点名 DeepSeek、MiniMax、Moonshot AI 三家共 1600 万次交互。同时美国商务部以国家安全为由限制其 Fable 5 和 Mythos 5 模型对外国人提供。国会两党计划在国防授权法中提出修正案,对非法获取美国 AI 模型输出的中国公司实施制裁。Anthropic 估值 9650 亿美元,已秘密提交 IPO 申请。
Anthropic claims: Alibaba continues to distill Claude on a large scale to train Qwen. Via Bloomberg Anthropic is accusin...
Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。
Anthropic 向美国白宫提交申请,指控阿里巴巴通过创建近 25,000 个假账户,在 2026 年 4 月 22 日至 6 月 5 日期间与 Claude 进行了约 2,880 万次对话,以提取模型能力用于知识蒸馏(即用竞争对手模型的输出来训练自己的模型)。Anthropic 已在中国屏蔽 Claude,但阿里巴巴仍找到了绕过方法。推文同时质疑 Anthropic 自身训练数据的来源。
BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.