AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1188 条
全部一手资讯X论文
标签「推理」清除
6月16日周二
11:00IT之家(RSS)44Tensordyne Napier 流片:宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统
10:40公众号:蚂蚁百灵(Ling)79同事件精选蚂蚁百灵发布 Ling & Ring 2.6 技术报告同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
08:00HuggingFace Daily Papers(社区热门论文)46LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境
08:00HuggingFace Daily Papers(社区热门论文)70精选SAE干预不可靠:干预后抑制行为的恢复
06:36MarkTechPost(RSS)59Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
6月15日周一
22:23Hacker News 热门(buzzing.cc 中文翻译)63Openrouter Fusion API
21:55Cloudflare Blog50Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
21:30公众号:百度智能云(文心)50上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA
18:31公众号:月之暗面(Kimi)69精选6倍速!Kimi K2.7 Code 高速版已上线
17:43IT之家(RSS)52理想马赫 M100 发布:全球首款动态数据流 AI 芯片,5nm 车规级工艺,单芯算力 1280 TOPS
15:42IT之家(RSS)51消息称字节跳动正与天数智芯洽谈购买 AI 芯片
14:38MarkTechPost(RSS)63Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度
08:00HuggingFace Daily Papers(社区热门论文)51后训练如何塑造生物推理模型
08:00HuggingFace Daily Papers(社区热门论文)41RL-Index:面向检索索引推理的强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)46ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)44Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)54基于梯度的 RLVR 稳定性分析与 WAPO
6月14日周日
23:45HuggingFace Daily Papers(社区热门论文)42SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理
18:38IT之家(RSS)49富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片
17:50公众号:千问APP(阿里)10千问预测世界杯四场比赛结果:荷兰胜日本、德国胜库拉索
08:00HuggingFace Daily Papers(社区热门论文)53谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性
00:17OpenRouter:Announcements(RSS)73同事件精选OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
6月13日周六
20:33The Decoder:AI News(RSS)50Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先
18:36IT之家(RSS)63科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型
18:33The Decoder:AI News(RSS)35Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点
17:54公众号:龙猫LongCat(美团)26美团履约AI算法团队ACL'26论文分享会
17:54公众号:卡尔的AI沃茨5813个顶级AI重考2026高考数学,咋还没一个拿到满分
14:36IT之家(RSS)55谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶
14:36IT之家(RSS)73精选SemiAnalysis 洞察 Token 经济:200 美元 AI 订阅榨出 70 倍用量
08:00HuggingFace Daily Papers(社区热门论文)77同事件精选Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
05:28MarkTechPost(RSS)58Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率
01:48Hacker News 热门(buzzing.cc 中文翻译)71精选Maxproof 论文发布
6月12日周五
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
20:36IT之家(RSS)49英伟达向中国客户推介 Vera 数据中心 CPU,最快 8 月上市
20:36IT之家(RSS)43国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台
16:26MarkTechPost(RSS)53Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
11:00
IT之家(RSS)
44
Tensordyne Napier 流片:宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统

Tensordyne 于当地时间6月15日发布 AI 推理系统 Napier (TDN),宣称按 token 计能效达 NVIDIA Blackwell 系统的 17 倍、吞吐量达 13 倍。Napier 处理器采用对数数学设计,以台积电 3nm 制程生产,集成大量 SRAM 缓存和 HBM 内存,处理器间通信延迟<1μs。Tensordyne 构建了集成 72 颗 Napier 芯片的 TDN72“推理舱”,一个机柜可容纳 4 个舱共 288 颗芯片。机架级 TDN 系统可支持以 1000 Token/s/user 速率进行 T 级 LLM 推理,每年额外创造 3300 万美元收入。

产品更新推理
10:40
公众号:蚂蚁百灵(Ling)
同事件精选79
蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节,开源模型在OpenClaw登顶,把万亿模型从聊天拉到真实工作流,做Agent应用的值得细读。
08:00
HuggingFace Daily Papers(社区热门论文)
46
LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
SAE干预不可靠:干预后抑制行为的恢复

稀疏自编码器(SAE)将残差流激活分解为可解释特征,但干预特定特征后,通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式:干预阻断一条可见行为路径,却未消除行为本身。即使干预在整个优化和生成期间保持激活,恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%,被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差,表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由:这篇论文给 SAE 防御泼了冷水,恢复率高达 95.8%,让我觉得仅靠钳制特征来控制模型行为很不靠谱,安全社区需要重新审视干预路径。
06:36
MarkTechPost(RSS)
59
Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片

东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。

智能体产品更新开源生态推理
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
6月15日
22:23
Hacker News 热门(buzzing.cc 中文翻译)
63
Openrouter Fusion API

Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。

智能体产品更新推理
21:55
Cloudflare Blog
50
Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程
21:30
公众号:百度智能云(文心)
50
上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究
18:31
公众号:月之暗面(Kimi)
精选69
6倍速!Kimi K2.7 Code 高速版已上线

Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元,缓存输入 1.3 元。非编程任务推荐 K2.6。

产品更新推理编码
关联讨论 3 条X:硅基流动 SiliconFlow (@SiliconFlowAI)IT之家(RSS)X:Kimi.ai (@Kimi_Moonshot)
推荐理由:这不是 K2.7 的换代,而是给开发者开了条高速车道,180 token/s 让代码补全几乎无感,虽然贵但省时间,重度编程用户值得切。
17:43
IT之家(RSS)
52
理想马赫 M100 发布:全球首款动态数据流 AI 芯片,5nm 车规级工艺,单芯算力 1280 TOPS

今日理想汽车在 Livis Day 发布会上推出全球首款动态数据流 AI 芯片——理想马赫 M100。该芯片采用 5nm 车规级工艺,单芯片算力 1280 TOPS,是目前量产最强大的车规级推理芯片。因数据流架构设计,实际运行效率超过 82%。

产品更新具身智能推理
15:42
IT之家(RSS)
51
消息称字节跳动正与天数智芯洽谈购买 AI 芯片

据路透社援引知情人士消息,字节跳动正与上海芯片公司天数智芯洽谈采购 AI 推理芯片,同时也在考虑与百度旗下昆仑芯合作。若交易达成,天数智芯将成为字节跳动继华为、寒武纪后的第三家国产 GPU 主要供应商。消息人士称,天数智芯预计今年向字节跳动供应至少 5 万颗芯片,主要用于 AI 推理任务,以支撑豆包用户规模持续扩张。目前交易细节尚未敲定,仍存变数。

推理行业动态
14:38
MarkTechPost(RSS)
63
Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度

Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。

推理模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
51
后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
RL-Index:面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架,将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理(rationales)增强文档,并采用 Group Relative Policy Optimization(GRPO)与检索相似度作为可验证奖励信号,直接优化索引决策以提升检索效果。在 BRIGHT 基准上,RL-Index 持续提升检索与下游问答性能,显著降低在线推理延迟,且所学的推理增强可跨不同检索器与生成器泛化,作为一种即插即用的索引策略。

检索增强推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法

混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
基于梯度的 RLVR 稳定性分析与 WAPO

带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。

GitHub推理数据/训练论文/研究
6月14日
23:45
HuggingFace Daily Papers(社区热门论文)
42
SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理

SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。

智能体推理论文/研究
18:38
IT之家(RSS)
49
富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片

富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。

推理行业动态部署/工程
17:50
公众号:千问APP(阿里)
10
千问预测世界杯四场比赛结果:荷兰胜日本、德国胜库拉索

千问对世界杯四场比赛做出预测:德国胜库拉索、荷兰胜日本、厄瓜多尔胜科特迪瓦、瑞典与突尼斯战平。此前巴西1:1摩洛哥的预测接近但未完全命中。千问表示正在加紧“蒸馏章鱼哥”以提升准确率,并透露AI竞猜累积积分已达89%,将用于捐建乡村足球场。

推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
53
谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现,模型在被给出针对正确答案的合理反驳后,翻转率介于17.5%至97.3%之间,标准准确率指标无法捕捉稳定性差异。自归因(告知模型这是其先前回答)一致提升翻转率,平均+7.1pp,最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳,比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集,相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准
00:17
OpenRouter:Announcements(RSS)
同事件精选73
OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

AnthropicDeepSeekOpenAI产品更新
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
推荐理由:OpenRouter 的 Fusion API 用多个模型合成输出,基准测试里预算模型组合能接近前沿,这个思路对有质量要求又在意成本的开发者挺实用。
6月13日
20:33
The Decoder:AI News(RSS)
50
Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google推理模型发布
18:36
IT之家(RSS)
63
科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型

6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布
18:33
The Decoder:AI News(RSS)
35
Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。

AnthropicOpenAI推理评测/基准
17:54
公众号:龙猫LongCat(美团)
26
美团履约AI算法团队ACL'26论文分享会

美团履约AI算法团队将于6月17日举办ACL'26论文分享会,重点介绍五篇被录用的论文,覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配,专为RLVR定制;CoT-Flow将离散推理步骤建模为连续概率流,缩短回答长度并提升准确率;UserLM-R1构建具备推理能力的用户模拟器;Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理;DuplexOmni支持实时全双工多模态交互。

智能体推理行业动态
17:54
公众号:卡尔的AI沃茨
58
13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个AI模型(含Claude、DeepSeek、Gemini等)在经人工校对为LaTeX的2026高考数学全国一卷中重考,平均分139.4。8道单选全对,3道多选仅Q11翻车(GLM 5.1和Hy3误选ABCD得0分),3道填空全对,Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分:GPT-5.5因迭代证明跳步扣2分最佳;Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分,Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。

推理评测/基准
14:36
IT之家(RSS)
55
谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型,基于Gemini 3.1 Pro,专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%,超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对,含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告,亦未确认产品接入。

Google推理模型发布
14:36
IT之家(RSS)
精选73
SemiAnalysis 洞察 Token 经济:200 美元 AI 订阅榨出 70 倍用量

SemiAnalysis 购买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务直至触及每周上限。月费 200 美元的 Claude Max 20x 方案,按 API 价格换算最高可消耗约值 8000 美元的 token;ChatGPT Pro 20x 方案对应最高约值 14000 美元的 token。用户通过订阅可获取 40 至 70 倍的 API 价值,该机构指出这种价格体系在重度用户持续榨满上限后可能难以长期维持。

AnthropicOpenAI推理现象/趋势

推荐理由:SemiAnalysis 通过高强度编码测试戳破了 200 美元订阅的真实性价比,虽然数据来自推文未附复现步骤,但这个价差足够让重度用户重新算账。
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能

Ling-2.6优化即时响应与输出token能力,Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计,提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练,通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。

智能体推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:万亿参数开源 Agent 模型,一个走即时响应,一个专攻复杂推理,对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。
05:28
MarkTechPost(RSS)
58
Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 驱动的文本转 SQL(Text-to-SQL)能力,在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码
01:48
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Maxproof 论文发布

6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。

推理数据/训练论文/研究

推荐理由:MiniMax把数学证明拉到IMO金牌线以上,用的不是更大模型而是群体搜索+验证-修复的test-time scaling,做推理产品的人该看看这套流程。
6月12日
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
20:36
IT之家(RSS)
49
英伟达向中国客户推介 Vera 数据中心 CPU,最快 8 月上市

英伟达已开始向中国客户推介其下一代数据中心 CPU Vera,该芯片不受美国出口禁令限制,最快今年 8 月上市,客户可启动下单。Vera 是英伟达首款独立 CPU,专为智能体 AI 和强化学习设计,运行速度达竞品 1.8 倍,已全面量产。中国客户计划先在海外数据中心部署测试,其中一家头部云服务商拟订购超 300 台双 Vera 服务器。单颗 Vera 售价超 2 万美元,满配 256 芯片机架约 1000 万美元。英伟达预计本财年 Vera 业务贡献约 200 亿美元收入。

产品更新推理
20:36
IT之家(RSS)
43
国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台

沐曦股份董事会通过议案,拟发行H股并在香港联交所主板上市,初始发行规模不超过发行后总股本的5%,另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市,2025年营收16.44亿元同比增121.26%,GPU累计销量超5.5万颗;2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。

推理数据/训练行业动态
16:26
MarkTechPost(RSS)
53
Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。

多模态开源生态推理模型发布
‹ 上一页
1…45678…30
下一页 ›