6月23日

04:10

Artificial Analysis@ArtificialAnlys

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试，评估模型在长期任务中的表现。任务成本差异超700倍，最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上，除Anthropic两个最高分模型外，其余大部分由开放权重模型占据。关键性价比：GLM 5.2 (max)每任务$2.40，得分仅比Claude Opus 4.8低90 Elo，成本低65%；DeepSeek V4 Pro (max)每任务$0.08，得分比Gemini 3.5 Flash高约60 Elo，成本低98%以上。

智能体 Anthropic DeepSeek 推理

03:54

Tomer Tunguz 博客（VC 分析）

AI推理销售：成本加成 vs. 价值定价

以成本价转售推理（inference）是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆，知识蒸馏（distillation）可暂时提供防御性优势。自带密钥（BYOK）模式打破了成本加成，保留了价值定价。

大佬观点推理

02:40

Artificial Analysis@ArtificialAnlys

GLM-5.2 在 GDPval-AA 基准排名第三，领先开源权重模型

智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo，排名第三，仅次于 Claude Fable 5 和 Claude Opus 4.8，与 GPT-5.5 持平。它是开源权重模型中领先的，超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型，平均每任务约 31 轮。此外，GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重，并在 Agentic Index 和 AA-Briefcase 上均排名第三。

智能体开源生态推理评测/基准

02:08

Ethan Mollick@emollick

宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型，指出其速度极慢--典型编码测试需30分钟，实际效果仅"fine"，未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示，在真实编码场景中Fugu Ultra远不及Fable，并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准

01:12

SemiAnalysis@SemiAnalysis_

SemiAnalysis发布CUDA MOAT警报：70天内软件优化使GB200 NVL72服务成本降低2.5倍

SemiAnalysis发布CUDA MOAT警报：在不到70天内，通过纯软件优化，Kimi架构（与xAI的Cursor Composer 2.5相同模型架构）在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel，作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板，带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。

推理行业动态部署/工程

00:12

Berryxia.AI@berryxia

Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 发布 Sakana Fugu，一个多智能体编排系统，用户仅需调用单个模型 API。其 Fugu Ultra 版本在工程、科学、推理等硬核基准上性能匹敌 Fable 和 Mythos。系统内部自主拆解任务、挑选最优模型、递归调用自身或其他智能体、验证结果并合成答案，用户无需关心底层编排。关键优势在于动态编排全球各类模型，天然避开单一供应商的出口管制风险，将多智能体从复杂工程变为开箱即用的产品形态。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新推理

00:12

Berryxia.AI@berryxia

精选75

东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 是 2023 年成立于东京的 AI 公司，由前 Google Brain 的 David Ha（CEO）、Transformer 论文共同作者 Llion Jones（CTO）及前日本外交官 Ren Ito（主席）联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用，内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos，通过动态编排多模型天然绕开单一供应商出口管制风险，被视为将多智能体从复杂工程变为开箱即用的产品形态。

Berryxia.AI: 这个是小日子搞的嘛?Fugu? 今天被刷屏了很多次! Sakana直接发布了一个能匹配Fable和Mythos性能的多智能体编排系统,而且还是通过单个API调用。地址:https://sakana.ai/fugu 他们推出的Sakana ...

智能体产品更新推理

关联讨论 1 条

推荐理由：Sakana 把多智能体编排变成开箱即用的 API，性能宣称对标 Fable/Mythos，更关键的卖点是靠集体智能自然规避单一供应商出口管制。这是把架构选择变成了地缘策略，做全球 Agent 产品的值得一看。

6月22日

18:05

IT之家（RSS）

联想百应 AI 主机 300 体验：AI Max+395 芯片加持，能跑 120B 本地大模型

联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器，集成 Radeon 8060S 显卡与 50 TOPS NPU，板载 128GB LPDDR5x 统一内存（可分配 96GB 显存）。本地部署 OpenClaw 和 Qwen3.6 35B 模型；LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s，120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts，3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体，可接入微信、钉钉等平台。

推理端侧评测/基准

18:05

IT之家（RSS）

百川智能联合清华发布医疗增强大模型 Baichuan-M4，登顶 OpenAI 医疗评测

6月22日，百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一，综合得分68.6，领先第二名GPT-5.5超10分，幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中，M4初诊79.0、复诊74.7，全面领先GPT-5.5等模型。模型具备“全病程记忆”，长上下文临床记忆得分86.9；首创“证据锚定”循证引用，精度达90.0，远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准

16:41

karminski-牙医@karminski3

想买Mac运行大模型？这是劝退贴

买MacStudio运行大模型性价比不高。以M3 Ultra 96G（32999元）为例，运行Qwen3.6-27B 4bit量化版并开投机解码，速度约65 token/s。设备成本换算成API调用（GLM-5.2，每百万token 28元）可买约1178M token，需连续运行209天才能回本。512G版（108749元）运行量化GLM-5.2速度仅17 token/s，回本约7年。模型每1.5个月更新，建议普通用户买coding plan或租卡。已有Mac或显卡者，闲置时跑模型才划算。

推理教程/实践端侧

15:08

Hacker News 热门（buzzing.cc 中文翻译）

微调 Qwen 3：0.6B 实现家庭问题分类，准确率从 10% 提升至 92%

一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型，将其作为家庭问题分类器。基线测试中，仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条（约 10%）。使用 Unsloth 框架和 QLoRA 微调后，准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID（如 hvac 改为固定代码），准确率升至约 92%。训练数据集约 850 条，按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。

推理教程/实践数据/训练

14:10

郭明錤｜Ming-Chi Kuo@mingchikuo

Google 与联发科合作开发 TPU v9 升级版 Triggerfish

郭明錤产业调查显示，Google 在 TPU v9 (Humufish) 基础上开发升级版晶片 Triggerfish，由联发科独家代工。升级包括：SRAM 容量提升至 Humufish 的 2–3 倍、新增 simulation die（聚焦强化学习与 AI 代理协作）、内存升级至 HBM4E。Google 额外追加 100–200 万颗订单，单价较 Humufish 高约 30%。预计 2027 年底开始生产，2028 年放量。Humufish 生命周期出货量 400–500 万颗预估不变。

Google 推理行业动态

14:10

郭明錤｜Ming-Chi Kuo@mingchikuo

Google与联发科深化TPU v9合作，升级版Triggerfish芯片针对AI智能体与强化学习

郭明錤爆料，Google基于TPU v9 / Humufish开发升级版芯片Triggerfish，由MediaTek独家代工。相比Humufish，Triggerfish的SRAM容量提升2-3倍，新增模拟die（用于强化学习和AI智能体协同），内存升级至HBM4E（Humufish为HBM4），强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗，Triggerfish追加订单100-200万颗，预计2027年底试产、2028年放量，单价高约30%，有望推动联发科2028年业绩增长。

智能体 Google 推理行业动态

13:07

Rohan Paul@rohanpaul_ai

《LLM智能体能推断世界模型吗？来自智能体自动机学习的证据》

Rohan Paul引用新论文指出，尽管LLM智能体有时能通过交互发现隐藏结构，但其推断世界模型的能力存在根本局限：随着隐藏世界复杂度增加，AI智能体的表现迅速落后，难以将积累的反馈转化为稳定的内部模型，尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是，在复杂环境中，LLM智能体建立可靠心智模型的速度跟不上难度增长。

智能体 arXiv 推理论文/研究

13:04

IT之家（RSS）

2026世界杯佛得角连续逼平两个世界冠军，12家AI集体预测错误

2026年世界杯小组赛，佛得角2:2战平乌拉圭，此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜，0家预测平局或佛得角胜，命中率0%。佛得角连续两场让AI预测模型翻车：AI依赖历史战绩、世界排名、球员身价等量化指标，而佛得角的团队执行力、防守纪律和反击效率难以被数字描述，成为系统性的预测盲区。

推理现象/趋势

12:07

Rohan Paul@rohanpaul_ai

"AI 能成为牛顿吗？AI 能成为爱因斯坦吗？AI 能成为毕加索吗？" 李飞飞博士给出了一个非常简单的解释，说明今天的 AI 还有很长的路要走。 --- 来自 'FII Institute' 的 YouTube 频道（完整链接在评论中）。

大佬观点推理

08:06

Orange AI@oran_ge

正在测试一个全新系统的模型太有想象力了有些激动人类又朝前迈进了一步

其他推理

08:00

HuggingFace Daily Papers（社区热门论文）

ReasoningLens：大型推理模型层级可视化与诊断审计框架

ReasoningLens是一个开源框架，用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题：将推理轨迹组织成交互式层级，分离高级策略与低级执行；利用智能体审计器自动检测错误并进行工具增强验证；综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察，为解释、调试和优化推理AI提供基础。

开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现，仅用错误输出训练效果优于仅用正确输出，因错误输出保留模型能力边界附近的探索性推理。为此，ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token，聚合为归一化样本权重，无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上，ReNIO同时提升同策略蒸馏和同策略自蒸馏，对Qwen3-1.7B最高提升8.90%，对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VeriEvol：通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架，将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示；HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上，将进化 SFT 数据从 10K 扩展至 250K 样本，平均准确率从 35.42 升至 54.73；固定 backbone、SFT 初始化和 GRPO 配方后，VeriEvol 相比未进化 RL 基线累积提升 +3.88，其中进化提示贡献 +1.82，验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究

03:26

Chubby♨️@kimmonismus

Anthropic 的 Mythos 模型更强大版本已结束训练。Mythos 于 4 月 7 日通过 Project Glasswing 上线，仅两个月后即迎来新迭代。目前仍存三点疑问：新版是否仍通过 Project Glasswing 发布；性能相比 Mythos-1 提升多少；能否通过 Fable 5.1（或后续命名）获得权限。消息来自可靠信源 Andrew Curran。

Chubby♨️: A new, more capable version of Anthropics Mythos has emerged from training. In itself, this is nothing out of the ordina...

Anthropic 推理行业动态

6月21日

20:56

Chubby♨️@kimmonismus

当我读到所有那些关于大家对 GLM-5.2 真的如宣传中那样出色感到惊讶的帖子，以及众多基准测试支持这一点（通常仅次于 GPT-5.5 和 Opus 4.8，位列第三）时，我甚至能想象创始人声称今年能发布一个 Mythos 级别的模型并非夸大其词。

大佬观点推理模型发布

19:05

AYi@AYi_AInotes

精选78

美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型

美团近期上线tabbit国际版应用，免费集成多家顶级AI模型的最新旗舰版，包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash，以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意：只有国际版包含海外模型，国内版仅提供国内模型。该应用旨在抢占AI入口，目前处于免费推广阶段。

风渡fengdu: 分享一个免费用 Claude 、Gemini、GPT的方法,都是可用他们的最新旗舰模型。除了御三家,还有国内的明星模型:Kimi-2.6、GLM-5.1、MiniMax-M3 只要下载一个美团的「tabbit 国际版」,记住要用国际版的才...

产品更新推理

推荐理由：美团做AI入口的野心藏不住了，tabbit国际版一口吞下三家旗舰模型还全免费，对不想开多订阅的用户是实用降本方案，趁未收费值得试试。

17:04

meng shao@shao__meng

LLM对比投票：GLM-5.2 vs Gemini 3.5 Flash

邵猛发推讨论一项LLM对比投票，对比双方为GLM-5.2（智谱）与Gemini 3.5 Flash（Google DeepMind）。他认为结果毫无悬念，Gemini 3.5 Flash表现不佳，并感叹自Gemini 3.0多模态惊艳发布后，Google便一路沉寂。最后提问：目前几款国产LLM中，谁更强？

DeepMind 大佬观点推理

10:03

Ethan Mollick@emollick

AI 与过往学术成果之间的交互将变得越来越奇特。我把自己研究生时期发表的第一篇论文交给了 GPT-5.5 Pro，让它找出错误并进行更新。它找到了新数据，分析了这些数据，创建了可复现的文件，并扩展了核心论点……

OpenAI 大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务（14个非推理模型、8个推理模型），发现：①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能，在数学、科学、多图像推理中有效；②现有开源多模态推理模型相比原始模型整体提升有限，可能因过度侧重数学推理而牺牲其他能力；③视觉推理是瓶颈，模型呈现“Look Light, Think Heavy”模式——语言反思起伏，视觉反思持续减弱，缺乏全程深度视觉内省。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

6月20日

16:59

IT之家（RSS）

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

14:59

IT之家（RSS）

OpenAI 最强 AI 模型：GPT-5.6 系列有望下周登场

科技媒体 testingcatalog 报道，OpenAI 有望下周推出 GPT-5.6 系列，涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro，理解力增强，前端/Web 开发认知有进步。性能方面，上下文窗口从 100 万 tokens 扩展至 150 万 tokens，优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中，GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上，OpenAI 当前 token 价格仅为 Anthropic 一半左右，计划进一步降价。

Anthropic OpenAI 推理模型发布

12:28

Yuchen Jin@Yuchenj_UW

使用 GLM-5.2 一天后，我惊讶于它经常感觉接近 Opus 4.8/GPT-5.5 的水平。我将它与 Opus 4.8 进行了并排比较，有时我甚至更喜欢 GLM-5.2 的结果。开源大语言模型令人印象深刻，尤其是考虑到它们训练的 GPU 数量少得多。

开源生态推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选74

可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床，证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中，即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练，蒸馏后准确率始终为0.01–0.07，而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八（71%），但无法前向推导。干预实验揭示密码键后，同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录，让模型仅做回忆加验证，才能学会该任务（Private LB 0.92）。结论：蒸馏学到的是记忆和验证，而非搜索。

推理数据/训练论文/研究

推荐理由：这篇论文给CoT蒸馏泼了盆冷水，证明回溯搜索这种过程是学不会的，模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。

08:00

HuggingFace Daily Papers（社区热门论文）

更深并非总是更好：通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码，但研究发现最终层可能将预测扰动到通用或对齐偏好的token，造成对齐税。Confident Decoding是一种无需训练的解码策略，通过熵引导的保守向后搜索动态选择最可靠的近最终层，并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上，该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进，零内存开销，延迟增加不到2%。结果表明，动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

06:24

MarkTechPost（RSS）

VibeThinker-3B：基于Qwen2.5-Coder-3B的3B密集推理模型，开源MIT

新浪微博研究人员发布VibeThinker-3B，一个仅3B参数的密集推理模型，基于Qwen2.5-Coder-3B，采用谱到信号后训练流水线（SFT、强化学习与自蒸馏），MIT开源。在AIME26上得分94.3，比肩DeepSeek V3.2（671B）和Kimi K2.5（1T）；LiveCodeBench v6达80.2 Pass@1；2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB，单GPU可运行，推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。

开源生态推理模型发布

05:53

Ethan Mollick@emollick

我怀疑企业低估了使用更高智能的价值，即便在较弱AI似乎能以更低价格达成KPI的任务中也是如此。至少应构建能灵活尝试更智能模型的架构，看看是否会带来不同。

大佬观点推理部署/工程

01:54

Rohan Paul@rohanpaul_ai

DeepAdapt 推出 ACI 运行时学习层：GPU 转 CPU，成本降 82%、推理快 33 倍

DeepAdapt 发布 ACI（自适应持续智能）运行时学习层，通过将重复工作负载从 GPU 转移至标准 CPU，实现运营成本降低 82%、推理速度提升 33 倍（中位延迟 159 ms）。ACI 在推理时实时学习模型决策、人工修正与反馈，已知请求直接本地 CPU 处理，仅不确定或复杂请求回传底层 LLM。基准测试：token 消耗降 90%、生产级成本降 5.7 倍、准确率 96%（对比无 ACI 的 85%）、每千次决策能耗降 85.7%、规则违规减 4.8 倍。无需微调或重训，即插即用，GPU 依赖随系统成熟递减。该架构先用于云端 LLM 智能体，未来对个人设备同样重要。

产品更新推理部署/工程

6月19日

21:52

The Decoder：AI News（RSS）

AA-Briefcase 基准测试：最佳 AI 模型仅完全解决 3% 真实知识工作

Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高，但仅在 3% 的任务中完全达标；91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败，强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍，从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。

推理评测/基准

19:52

Rohan Paul@rohanpaul_ai

OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant

OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant，使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏：由更强教师模型与 260+ 名医生（覆盖 60 国、49 种语言、26 专科）审查超 70 万条模型响应，训练学生模型学习临床回答模式。训练结合监督微调与偏好训练，重点提升“不确定性下的行为”（如主动询问年龄、症状等缺失信息）。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。

OpenAI: GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...

OpenAI 产品更新安全/对齐推理

关联讨论 3 条

18:51

The Decoder：AI News（RSS）

OpenAI研究人员：少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程，模型便在53个独立基准（衡量欺骗、谄媚、奖励黑客等）中的44个上获得改进。健康数据训练也提升非健康评估，反之亦然。模型对有害提示和有害微调更具抵抗力，同时保持有用可操控性，研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI 安全/对齐推理论文/研究