AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月23日周二
04:10Artificial Analysis60AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿
03:54Tomer Tunguz 博客(VC 分析)25AI推理销售:成本加成 vs. 价值定价
02:40Artificial Analysis59GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型
02:08Ethan Mollick64宾大教授实测Sakana Fugu Ultra-high:速度极慢,效果仅"fine"未达官方宣称水平
01:12SemiAnalysis69SemiAnalysis发布CUDA MOAT警报:70天内软件优化使GB200 NVL72服务成本降低2.5倍
00:12Berryxia.AI63Sakana AI 推出多智能体编排系统 Sakana Fugu
00:12Berryxia.AI75精选东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu
6月22日周一
18:05IT之家(RSS)48联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型
18:05IT之家(RSS)69百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测
16:41karminski-牙医54想买Mac运行大模型? 这是劝退贴
15:08Hacker News 热门(buzzing.cc 中文翻译)62微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%
14:10郭明錤|Ming-Chi Kuo52Google 与联发科合作开发 TPU v9 升级版 Triggerfish
14:10郭明錤|Ming-Chi Kuo39Google与联发科深化TPU v9合作,升级版Triggerfish芯片针对AI智能体与强化学习
13:07Rohan Paul50《LLM智能体能推断世界模型吗?来自智能体自动机学习的证据》
13:04IT之家(RSS)512026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误
12:07Rohan Paul36李飞飞:AI远未及牛顿爱因斯坦水平
08:06Orange AI22正在测试一个全新系统的模型 太有想象力了 有些激动 人类又朝前迈进了一步
08:00HuggingFace Daily Papers(社区热门论文)52ReasoningLens:大型推理模型层级可视化与诊断审计框架
08:00HuggingFace Daily Papers(社区热门论文)35SingGuard:政策自适应多模态LLM护栏模型系列
08:00HuggingFace Daily Papers(社区热门论文)49ReNIO:为大语言模型同策略蒸馏重加权负轨迹重要性
08:00HuggingFace Daily Papers(社区热门论文)60VeriEvol: 通过可验证进化指令扩展多模态数学推理
03:26Chubby♨️50Anthropic Mythos 更强版本完成训练
6月21日周日
20:56Chubby♨️41GLM-5.2 表现出色,创始人称今年可推 Mythos 级模型
19:05AYi78精选美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型
17:04meng shao26LLM对比投票:GLM-5.2 vs Gemini 3.5 Flash
10:03Ethan Mollick65GPT-5.5 Pro 更新旧论文发现新数据
08:00HuggingFace Daily Papers(社区热门论文)61Look Light, Think Heavy:多模态Chain-of-Thought推理能做什么、不能做什么
08:00HuggingFace Daily Papers(社区热门论文)52PlanBench-XL:评估大规模工具生态中LLM智能体的长时域规划
6月20日周六
16:59IT之家(RSS)49中国科学家提出BabelTele"AI语言":压缩至27.9%仍保留99.5%语义,人类难懂但LLM能懂
14:59IT之家(RSS)62OpenAI 最强 AI 模型:GPT-5.6 系列有望下周登场
12:28Yuchen Jin30GLM-5.2 表现接近 Opus 4.8/GPT-5.5
08:00HuggingFace Daily Papers(社区热门论文)74精选可验证搜索不是可学习的链式思维
08:00HuggingFace Daily Papers(社区热门论文)54更深并非总是更好:通过Confident Decoding缓解对齐税
06:54MarkTechPost(RSS)77精选NVIDIA Research 发布 SpatialClaw:免训练空间推理框架
06:24MarkTechPost(RSS)68VibeThinker-3B:基于Qwen2.5-Coder-3B的3B密集推理模型,开源MIT
05:53Ethan Mollick51企业低估高智能模型的价值
01:54Rohan Paul64DeepAdapt 推出 ACI 运行时学习层:GPU 转 CPU,成本降 82%、推理快 33 倍
6月19日周五
21:52The Decoder:AI News(RSS)55AA-Briefcase 基准测试:最佳 AI 模型仅完全解决 3% 真实知识工作
19:52Rohan Paul81OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant
18:51The Decoder:AI News(RSS)67OpenAI研究人员:少量"有益特质"训练让AI模型更安全且更难被操纵
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
04:10
Artificial Analysis@ArtificialAnlys
60
AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。

智能体AnthropicDeepSeek推理
03:54
Tomer Tunguz 博客(VC 分析)
25
AI推理销售:成本加成 vs. 价值定价

以成本价转售推理(inference)是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆,知识蒸馏(distillation)可暂时提供防御性优势。自带密钥(BYOK)模式打破了成本加成,保留了价值定价。

大佬观点推理
02:40
Artificial Analysis@ArtificialAnlys
59
GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型

智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。

智能体开源生态推理评测/基准
02:08
Ethan Mollick@emollick
64
宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型,指出其速度极慢--典型编码测试需30分钟,实际效果仅"fine",未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示,在真实编码场景中Fugu Ultra远不及Fable,并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准
01:12
SemiAnalysis@SemiAnalysis_
69
SemiAnalysis发布CUDA MOAT警报:70天内软件优化使GB200 NVL72服务成本降低2.5倍

SemiAnalysis发布CUDA MOAT警报:在不到70天内,通过纯软件优化,Kimi架构(与xAI的Cursor Composer 2.5相同模型架构)在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel,作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板,带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。

推理行业动态部署/工程
00:12
Berryxia.AI@berryxia
63
Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,用户仅需调用单个模型 API。其 Fugu Ultra 版本在工程、科学、推理等硬核基准上性能匹敌 Fable 和 Mythos。系统内部自主拆解任务、挑选最优模型、递归调用自身或其他智能体、验证结果并合成答案,用户无需关心底层编排。关键优势在于动态编排全球各类模型,天然避开单一供应商的出口管制风险,将多智能体从复杂工程变为开箱即用的产品形态。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新推理
00:12
Berryxia.AI@berryxia
精选75
东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 是 2023 年成立于东京的 AI 公司,由前 Google Brain 的 David Ha(CEO)、Transformer 论文共同作者 Llion Jones(CTO)及前日本外交官 Ren Ito(主席)联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险,被视为将多智能体从复杂工程变为开箱即用的产品形态。

Berryxia.AI: 这个是小日子搞的嘛?Fugu? 今天被刷屏了很多次! Sakana直接发布了一个能匹配Fable和Mythos性能的多智能体编排系统,而且还是通过单个API调用。 地址:https://sakana.ai/fugu 他们推出的Sakana ...

智能体产品更新推理
关联讨论 1 条MarkTechPost(RSS)
推荐理由:Sakana 把多智能体编排变成开箱即用的 API,性能宣称对标 Fable/Mythos,更关键的卖点是靠集体智能自然规避单一供应商出口管制。这是把架构选择变成了地缘策略,做全球 Agent 产品的值得一看。
6月22日
18:05
IT之家(RSS)
48
联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型

联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器,集成 Radeon 8060S 显卡与 50 TOPS NPU,板载 128GB LPDDR5x 统一内存(可分配 96GB 显存)。本地部署 OpenClaw 和 Qwen3.6 35B 模型;LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s,120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts,3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体,可接入微信、钉钉等平台。

推理端侧评测/基准
18:05
IT之家(RSS)
69
百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测

6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准
16:41
karminski-牙医@karminski3
54
想买Mac运行大模型? 这是劝退贴

买MacStudio运行大模型性价比不高。以M3 Ultra 96G(32999元)为例,运行Qwen3.6-27B 4bit量化版并开投机解码,速度约65 token/s。设备成本换算成API调用(GLM-5.2,每百万token 28元)可买约1178M token,需连续运行209天才能回本。512G版(108749元)运行量化GLM-5.2速度仅17 token/s,回本约7年。模型每1.5个月更新,建议普通用户买coding plan或租卡。已有Mac或显卡者,闲置时跑模型才划算。

推理教程/实践端侧
15:08
Hacker News 热门(buzzing.cc 中文翻译)
62
微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%

一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。

推理教程/实践数据/训练
14:10
郭明錤|Ming-Chi Kuo@mingchikuo
52
Google 与联发科合作开发 TPU v9 升级版 Triggerfish

郭明錤产业调查显示,Google 在 TPU v9 (Humufish) 基础上开发升级版晶片 Triggerfish,由联发科独家代工。升级包括:SRAM 容量提升至 Humufish 的 2–3 倍、新增 simulation die(聚焦强化学习与 AI 代理协作)、内存升级至 HBM4E。Google 额外追加 100–200 万颗订单,单价较 Humufish 高约 30%。预计 2027 年底开始生产,2028 年放量。Humufish 生命周期出货量 400–500 万颗预估不变。

Google推理行业动态
14:10
郭明錤|Ming-Chi Kuo@mingchikuo
39
Google与联发科深化TPU v9合作,升级版Triggerfish芯片针对AI智能体与强化学习

郭明錤爆料,Google基于TPU v9 / Humufish开发升级版芯片Triggerfish,由MediaTek独家代工。相比Humufish,Triggerfish的SRAM容量提升2-3倍,新增模拟die(用于强化学习和AI智能体协同),内存升级至HBM4E(Humufish为HBM4),强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗,Triggerfish追加订单100-200万颗,预计2027年底试产、2028年放量,单价高约30%,有望推动联发科2028年业绩增长。

智能体Google推理行业动态
13:07
Rohan Paul@rohanpaul_ai
50
《LLM智能体能推断世界模型吗?来自智能体自动机学习的证据》

Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。

智能体arXiv推理论文/研究
13:04
IT之家(RSS)
51
2026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误

2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。

推理现象/趋势
12:07
Rohan Paul@rohanpaul_ai
36
"AI 能成为牛顿吗?AI 能成为爱因斯坦吗?AI 能成为毕加索吗?" 李飞飞博士给出了一个非常简单的解释,说明今天的 AI 还有很长的路要走。 --- 来自 'FII Institute' 的 YouTube 频道(完整链接在评论中)。
大佬观点推理
08:06
Orange AI@oran_ge
22
正在测试一个全新系统的模型 太有想象力了 有些激动 人类又朝前迈进了一步
其他推理
08:00
HuggingFace Daily Papers(社区热门论文)
52
ReasoningLens:大型推理模型层级可视化与诊断审计框架

ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。

开源生态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
SingGuard:政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列,可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式,并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准,含56,340个样本,覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族(35个数据集)上均取得平均F1 SOTA;动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXivGitHub多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
49
ReNIO:为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
VeriEvol: 通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架,将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示;HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上,将进化 SFT 数据从 10K 扩展至 250K 样本,平均准确率从 35.42 升至 54.73;固定 backbone、SFT 初始化和 GRPO 配方后,VeriEvol 相比未进化 RL 基线累积提升 +3.88,其中进化提示贡献 +1.82,验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究
03:26
Chubby♨️@kimmonismus
50
Anthropic 的 Mythos 模型更强大版本已结束训练。Mythos 于 4 月 7 日通过 Project Glasswing 上线,仅两个月后即迎来新迭代。目前仍存三点疑问:新版是否仍通过 Project Glasswing 发布;性能相比 Mythos-1 提升多少;能否通过 Fable 5.1(或后续命名)获得权限。消息来自可靠信源 Andrew Curran。

Chubby♨️: A new, more capable version of Anthropics Mythos has emerged from training. In itself, this is nothing out of the ordina...

Anthropic推理行业动态
6月21日
20:56
Chubby♨️@kimmonismus
41
当我读到所有那些关于大家对 GLM-5.2 真的如宣传中那样出色感到惊讶的帖子,以及众多基准测试支持这一点(通常仅次于 GPT-5.5 和 Opus 4.8,位列第三)时,我甚至能想象创始人声称今年能发布一个 Mythos 级别的模型并非夸大其词。
大佬观点推理模型发布
19:05
AYi@AYi_AInotes
精选78
美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型

美团近期上线tabbit国际版应用,免费集成多家顶级AI模型的最新旗舰版,包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash,以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意:只有国际版包含海外模型,国内版仅提供国内模型。该应用旨在抢占AI入口,目前处于免费推广阶段。

风渡fengdu: 分享一个免费用 Claude 、Gemini、GPT的方法,都是可用他们的最新旗舰模型。 除了御三家,还有国内的明星模型:Kimi-2.6、GLM-5.1、MiniMax-M3 只要下载一个美团的「tabbit 国际版」,记住要用国际版的才...

产品更新推理

推荐理由:美团做AI入口的野心藏不住了,tabbit国际版一口吞下三家旗舰模型还全免费,对不想开多订阅的用户是实用降本方案,趁未收费值得试试。
17:04
meng shao@shao__meng
26
LLM对比投票:GLM-5.2 vs Gemini 3.5 Flash

邵猛发推讨论一项LLM对比投票,对比双方为GLM-5.2(智谱)与Gemini 3.5 Flash(Google DeepMind)。他认为结果毫无悬念,Gemini 3.5 Flash表现不佳,并感叹自Gemini 3.0多模态惊艳发布后,Google便一路沉寂。最后提问:目前几款国产LLM中,谁更强?

DeepMind大佬观点推理
10:03
Ethan Mollick@emollick
65
AI 与过往学术成果之间的交互将变得越来越奇特。 我把自己研究生时期发表的第一篇论文交给了 GPT-5.5 Pro,让它找出错误并进行更新。 它找到了新数据,分析了这些数据,创建了可复现的文件,并扩展了核心论点……
OpenAI大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
61
Look Light, Think Heavy:多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务(14个非推理模型、8个推理模型),发现:①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能,在数学、科学、多图像推理中有效;②现有开源多模态推理模型相比原始模型整体提升有限,可能因过度侧重数学推理而牺牲其他能力;③视觉推理是瓶颈,模型呈现“Look Light, Think Heavy”模式——语言反思起伏,视觉反思持续减弱,缺乏全程深度视觉内省。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
PlanBench-XL:评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试,包含327个零售任务和1,665个工具,用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性,迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示,GPT-5.4在无阻塞条件下准确率为51.90%,最严重阻塞下骤降至11.36%。分析表明,当故障缺乏明确错误信号或恢复需要更长替代工具路径时,智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体MCP/工具推理论文/研究
6月20日
16:59
IT之家(RSS)
49
中国科学家提出BabelTele"AI语言":压缩至27.9%仍保留99.5%语义,人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究,提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情,生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”,可将文本压缩至27.9%,语义准确率保持99.5%。在QuALITY问答中,人类阅读压缩文本后准确率下降,而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2,支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token,任务完成度超96%。

智能体推理论文/研究
14:59
IT之家(RSS)
62
OpenAI 最强 AI 模型:GPT-5.6 系列有望下周登场

科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。

AnthropicOpenAI推理模型发布
12:28
Yuchen Jin@Yuchenj_UW
30
使用 GLM-5.2 一天后,我惊讶于它经常感觉接近 Opus 4.8/GPT-5.5 的水平。 我将它与 Opus 4.8 进行了并排比较,有时我甚至更喜欢 GLM-5.2 的结果。 开源大语言模型令人印象深刻,尤其是考虑到它们训练的 GPU 数量少得多。
开源生态推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选74
可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床,证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中,即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练,蒸馏后准确率始终为0.01–0.07,而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八(71%),但无法前向推导。干预实验揭示密码键后,同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录,让模型仅做回忆加验证,才能学会该任务(Private LB 0.92)。结论:蒸馏学到的是记忆和验证,而非搜索。

推理数据/训练论文/研究

推荐理由:这篇论文给CoT蒸馏泼了盆冷水,证明回溯搜索这种过程是学不会的,模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。
08:00
HuggingFace Daily Papers(社区热门论文)
54
更深并非总是更好:通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码,但研究发现最终层可能将预测扰动到通用或对齐偏好的token,造成对齐税。Confident Decoding是一种无需训练的解码策略,通过熵引导的保守向后搜索动态选择最可靠的近最终层,并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上,该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进,零内存开销,延迟增加不到2%。结果表明,动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究
06:54
MarkTechPost(RSS)
精选77
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架

NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由:NVIDIA 把空间推理的动作接口从工具调用换成代码,这个思路很巧,20 个基准平均拉升到 59.9%,无训练即插即用,做机器人和视频理解的人该直接跑一下 repo。
06:24
MarkTechPost(RSS)
68
VibeThinker-3B:基于Qwen2.5-Coder-3B的3B密集推理模型,开源MIT

新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。

开源生态推理模型发布
05:53
Ethan Mollick@emollick
51
我怀疑企业低估了使用更高智能的价值,即便在较弱AI似乎能以更低价格达成KPI的任务中也是如此。 至少应构建能灵活尝试更智能模型的架构,看看是否会带来不同。
大佬观点推理部署/工程
01:54
Rohan Paul@rohanpaul_ai
64
DeepAdapt 推出 ACI 运行时学习层:GPU 转 CPU,成本降 82%、推理快 33 倍

DeepAdapt 发布 ACI(自适应持续智能)运行时学习层,通过将重复工作负载从 GPU 转移至标准 CPU,实现运营成本降低 82%、推理速度提升 33 倍(中位延迟 159 ms)。ACI 在推理时实时学习模型决策、人工修正与反馈,已知请求直接本地 CPU 处理,仅不确定或复杂请求回传底层 LLM。基准测试:token 消耗降 90%、生产级成本降 5.7 倍、准确率 96%(对比无 ACI 的 85%)、每千次决策能耗降 85.7%、规则违规减 4.8 倍。无需微调或重训,即插即用,GPU 依赖随系统成熟递减。该架构先用于云端 LLM 智能体,未来对个人设备同样重要。

产品更新推理部署/工程
6月19日
21:52
The Decoder:AI News(RSS)
55
AA-Briefcase 基准测试:最佳 AI 模型仅完全解决 3% 真实知识工作

Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。

推理评测/基准
19:52
Rohan Paul@rohanpaul_ai
81
OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant

OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。

OpenAI: GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...

OpenAI产品更新安全/对齐推理
关联讨论 3 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)
18:51
The Decoder:AI News(RSS)
67
OpenAI研究人员:少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI安全/对齐推理论文/研究
‹ 上一页
1…678910…50
下一页 ›