Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....
Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....
Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。
Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元,缓存输入 1.3 元。非编程任务推荐 K2.6。
关联讨论 4 条X:硅基流动 SiliconFlow (@SiliconFlowAI)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Kimi.ai (@Kimi_Moonshot)今日理想汽车在 Livis Day 发布会上推出全球首款动态数据流 AI 芯片——理想马赫 M100。该芯片采用 5nm 车规级工艺,单芯片算力 1280 TOPS,是目前量产最强大的车规级推理芯片。因数据流架构设计,实际运行效率超过 82%。
Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。
Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...
据路透社援引知情人士消息,字节跳动正与上海芯片公司天数智芯洽谈采购 AI 推理芯片,同时也在考虑与百度旗下昆仑芯合作。若交易达成,天数智芯将成为字节跳动继华为、寒武纪后的第三家国产 GPU 主要供应商。消息人士称,天数智芯预计今年向字节跳动供应至少 5 万颗芯片,主要用于 AI 推理任务,以支撑豆包用户规模持续扩张。目前交易细节尚未敲定,仍存变数。
Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。
研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。
RL-Index 是一种智能体索引框架,将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理(rationales)增强文档,并采用 Group Relative Policy Optimization(GRPO)与检索相似度作为可验证奖励信号,直接优化索引决策以提升检索效果。在 BRIGHT 基准上,RL-Index 持续提升检索与下游问答性能,显著降低在线推理延迟,且所学的推理增强可跨不同检索器与生成器泛化,作为一种即插即用的索引策略。
自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。
ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。
混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。
提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。
带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。
Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。
SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。
一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。
富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。
千问对世界杯四场比赛做出预测:德国胜库拉索、荷兰胜日本、厄瓜多尔胜科特迪瓦、瑞典与突尼斯战平。此前巴西1:1摩洛哥的预测接近但未完全命中。千问表示正在加紧“蒸馏章鱼哥”以提升准确率,并透露AI竞猜累积积分已达89%,将用于捐建乡村足球场。
Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...
Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production
Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production
针对7个前沿模型、57个MMLU科目的研究发现,模型在被给出针对正确答案的合理反驳后,翻转率介于17.5%至97.3%之间,标准准确率指标无法捕捉稳定性差异。自归因(告知模型这是其先前回答)一致提升翻转率,平均+7.1pp,最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳,比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集,相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。
Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...
MiniMax M3 模型已上线 HuggingFace 并集成至 InferenceX。M3 总参数量约 428B,激活参数约 23B。得益于 Inferact 工程支持,M3 在 NVIDIA B300 Blackwell Ultra 上通过 vLLM 实现 Day 0 优化推理。Inferact 还发布了 EAGLE3 heads 以进一步加速。团队正在 InferenceX 上基准测试 Day 0 MI355X 性能。
该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。
通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。
6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。
Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。
美团履约AI算法团队将于6月17日举办ACL'26论文分享会,重点介绍五篇被录用的论文,覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配,专为RLVR定制;CoT-Flow将离散推理步骤建模为连续概率流,缩短回答长度并提升准确率;UserLM-R1构建具备推理能力的用户模拟器;Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理;DuplexOmni支持实时全双工多模态交互。
13个AI模型(含Claude、DeepSeek、Gemini等)在经人工校对为LaTeX的2026高考数学全国一卷中重考,平均分139.4。8道单选全对,3道多选仅Q11翻车(GLM 5.1和Hy3误选ABCD得0分),3道填空全对,Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分:GPT-5.5因迭代证明跳步扣2分最佳;Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分,Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。
Google Research发布Gemini-SQL2模型,基于Gemini 3.1 Pro,专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%,超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对,含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告,亦未确认产品接入。
SemiAnalysis 购买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务直至触及每周上限。月费 200 美元的 Claude Max 20x 方案,按 API 价格换算最高可消耗约值 8000 美元的 token;ChatGPT Pro 20x 方案对应最高约值 14000 美元的 token。用户通过订阅可获取 40 至 70 倍的 API 价值,该机构指出这种价格体系在重度用户持续榨满上限后可能难以长期维持。