6月3日

13:08

Alibaba Cloud@alibaba_cloud

Qwen：面向智能体时代的基座模型，由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破，全面升级了工具使用、编码和长程任务的原生智能体能力。

智能体推理模型发布

12:42

HuggingFace Daily Papers（社区热门论文）

面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率，但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现，淘汰少量大数值价值状态会导致模型陷入重复推理循环；引入随机性则能提升缓存多样性以改善准确率。基于此，本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明，该方法进行4倍缓存压缩时，在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法，并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

12:32

Josh Woodward@joshwoodward

✅ 已修复：思考级别功能现已在 Gemini 的 Web、iOS 和 Android 平台上线。

Google 产品更新推理

10:49

Berryxia.AI@berryxia

兄弟们，Google DeepMind 团队又来整活儿！

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist，旨在实现科研流程自动化。该系统能够生成、辩论和验证假设，帮助科学家从高强度脑力劳动中解放出来。过去一年，它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家，而是作为“专职研究伙伴”。目前，其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体 DeepMind Google 推理

10:09

IT之家（RSS）

江苏无锡打造城市智算云平台"词元超市"：汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户

江苏全省首个商用万卡集群“词元超市（Token 超市）”已试运行，汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商，提供阿里通义、DeepSeek、阶跃星辰等主流大模型，用户可按需选择文本创作、智能问答等业务场景，并依据实际 Token 用量按需付费。该模式已服务近五十家客户，帮助本地企业降低研发成本。

推理行业动态部署/工程

08:36

SenseTime@SenseTime_AI

商汤发布SenseNova U1模型及Neo-Unify架构

商汤联合创始人兼首席科学家在2026 AI创新论坛指出，模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构，实践了这一理念，在生成信息图时实现了显著更低的计算成本，并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展，以创造商业价值与长期竞争力。

多模态大佬观点推理端侧

08:16

Rohan Paul@rohanpaul_ai

斯坦福研究：AI在合同法教学中优于同行教授

斯坦福研究人员发现，在评估合同法问题时，法律教授有75%的次数更倾向于选择AI给出的答案，而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案，并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高，而且教授们仅将3.5%的AI答案标记为“有害”，而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅，其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究