5月1日

13:17

小互@xiaohu

一位开发了DeepSeek-TUI终端工具的美国开发者，希望与国内开发者社群建立联系，共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信，特请求社区帮助：一是转发推广其开源项目，二是协助验证微信号以便建群交流。作为回报，他承诺工具将通过cargo install方式安装。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

DeepSeek 开源/仓库开源生态推理

13:11

Emad@EMostaque

似乎 @OpenAI 已经破解了 Codex 的递归自我改进

OpenAI 大佬观点推理编码

10:45

SemiAnalysis@SemiAnalysis_

AI价值捕获--向模型实验室的转变 Vera Rubin VR NVL72：V代表价值-- Rubin在每单位总拥有成本性能上实现了阶跃式提升。投资回报将累积给用户、Neoclouds、超大规模云商、 AI实验室、内存供应商还是GPU制造商？立即阅读：https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model

推理现象/趋势部署/工程

10:09

Elon Musk@elonmusk

Grok Grok-4.3 的发布价格低于 Grok-4.2，同时智能体性能大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 分至 1500，尽管价格更低，却超越了其他顶级模型。

OpenRouter: The new Grok-4.3 from @xai is live on OpenRouter! Grok-4.3 releases at a lower price than Grok-4.2, while seeing a large...

xAI 推理模型发布

09:15

宝玉@dotey

Demis Hassabis谈AGI瓶颈、智能体现状与科学突破

Demis Hassabis认为当前AI范式（预训练+RLHF+思维链）可能是AGI架构的一部分，但仍有50%概率需要一两个关键突破，未解决持续学习、长程推理和记忆等问题。他指出，百万token上下文窗口处理实时视频仅够20分钟，现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段，投入产出比不匹配。完整虚拟细胞等科学突破还需约10年，关键瓶颈是活细胞成像技术。

智能体 DeepMind 大佬观点推理

08:44

elvis@omarsar0

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体 DeepSeek 开源生态推理

08:10

IT之家（RSS）

IT早报 0501：追觅 CEO 要求员工开通社媒账号；OPPO 将推四曲面手机；iPhone 18 Pro 相机大升级

本期IT早报主要内容包括：追觅科技CEO要求全体员工开通社交媒体账号并发布视频；OPPO计划下半年推出效仿苹果风格的四曲面设计手机；iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外，极越汽车关联主体进入合并重整程序，DeepSeek发布多模态模型技术报告，央视曝光部分充电头功率虚标，宇树发布起售价2.69万元的双臂人形机器人，比亚迪与高德地图达成充电合作，支付宝等17家支付机构牌照获续展，华为鸿蒙新版本占比提升，以及小米大屏旗舰手机预计5月下旬发布。

DeepSeek 多模态推理行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

针对可验证奖励强化学习可能抑制生成多样性的问题，本文提出负样本投影残差强化学习框架。该方法通过理论分析，将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间，并利用投影残差来调制负梯度，从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中，ResRL平均表现优于基线方法，尤其在数学推理上较负样本强化学习方法显著提升，实现了推理能力与生成多样性的协同优化。代码已开源。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXiv GitHub 多模态推理

07:14

Artificial Analysis@ArtificialAnlys

xAI发布Grok 4.3模型：智能指数提升且成本大幅降低

xAI推出Grok 4.3模型，其在Artificial Analysis智能指数得分达53，超越Muse Spark等模型，较前代提升4分。模型在显著降低成本的同时保持智能水平，输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出，GDPval-AA基准得分大幅提升至1500 ELO，超越Gemini 3.1 Pro Preview等多款模型，但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲，但AA-Omniscience非幻觉率略有下降。

智能体 xAI 推理模型发布

05:14

elvis@omarsar0

在推理过程中何时检索

传统RAG系统在推理前单次检索，无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架，能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性，学习判断何时引入外部证据有效，并将单次检索开销降低3.2倍。在多个QA数据集上，该框架比标准RAG的F1绝对值提升10.1%，且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中，仅用平均1.8次检索即可达到71.2%的F1值，表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究

04:14

SemiAnalysis@SemiAnalysis_

AWS正通过Trainium和Inferentia芯片在定制AI芯片领域做出重大举措。来自@awscloud团队的Rachel Zheng和Karthik Venna详细介绍了他们如何在全球最大的云基础设施上扩展这些处理器。@makora_ai https://youtu.be/mgrQWLERync

推理教程/实践部署/工程

04:12

Chubby♨️@kimmonismus

本地LLM游戏开发对决：Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B

在@atomic_chat_hq平台的本地LLM游戏开发竞赛中，Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快（32 tokens/秒）且回答更具创意，但Gemma仅用3分51秒和6209个token，输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上，Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试，Qwen或可通过调整设置提升表现，并邀请社区验证。

开源生态推理评测/基准

03:14

karminski-牙医@karminski3

精选72

DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理（如Claude Code、Kimi CLI）和AI IDE（如Cursor）时，频繁遇到HTTP 400报错。错误信息指出，在思考模式下必须将reasoning_content字段回传给API。核心问题在于，当任务步骤的tool_call过于简单直接时，DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段，导致该字段未被回传，从而触发API报错，致使编码任务或代理中断。经测试，在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传，不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具，使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek 推理教程/实践

推荐理由：如果你在用 DeepSeek-V4 写代码，这个坑迟早会踩到，作者把问题和解法都讲清楚了，不用等 IDE 修，看完就能自己改。

03:14

Artificial Analysis@ArtificialAnlys

GPT-5.5 Pro以更低成本实现性能微升，在尖端科学评估中领先

在名为CritPt的尖端科学评估中，GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量，实现了0.5个百分点的性能提升，将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来，最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出，GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考，以提供更稳定的优质答案”。该模型每令牌定价相同，但通过使用更少的令牌完成了评估。

OpenAI 推理评测/基准

02:10

阿绎 AYi@AYi_AInotes

GPT与Claude官方提示指南理念相反，提示工程核心转向使用者思考清晰度

OpenAI与Anthropic同天发布官方提示指南，核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤，让其自主选择路径；Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效：模糊指令使Claude输出变窄，而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”，真正的瓶颈可能在于人的思考清晰度，而非模型能力。

阿绎 AYi: 我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...

Anthropic OpenAI 大佬观点推理

00:44

向阳乔木@vista8

DeepSeek提出"视觉原语"多模态推理框架，用"指"的方式思考

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek 多模态推理论文/研究

00:14

Noam Brown@polynoamial

在1亿个标记之后，性能仍在持续提升。我们在这里看到的并非能力上限。报告指出："TLO上的性能随着推理计算量的增加而持续扩展，我们尚未在最佳模型中观察到性能平台期。" 【引用 @AISecurityInst】：OpenAI的GPT-5.5是第二个端到端完成我们多步骤网络攻击模拟的模型🧵

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI 安全/对齐推理

00:13

Artificial Analysis@ArtificialAnlys

阿里发布Qwen3.6系列开源模型，27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型：27B密集模型和35B A3B混合专家模型。其中，Qwen3.6 27B在Artificial Analysis智能指数上得分46，成为150B参数以下最智能的开源模型，领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍，成本高出约21倍。两款模型均采用Apache 2.0许可，支持262K上下文，具备多模态能力。值得注意的是，其幻觉率较前代大幅下降，但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准

4月30日

23:10

IT之家（RSS）

精选72

DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告，提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元，旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题，使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低，其在多项挑战性计数和空间推理基准测试上的性能，可与GPT-5.4等前沿模型相媲美。

DeepSeek 多模态推理论文/研究

推荐理由：DeepSeek 把视觉概念直接变成推理单元，绕开了语言描述空间的先天模糊，在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平，做多模态应用的人值得细读。

22:41

Chubby♨️@kimmonismus

Demis Hassabis：我们正走在通往AGI的正确道路上；我们可能已经具备了所有组件。我们只是缺少一些东西，比如持续学习和解决记忆问题。

DeepMind 大佬观点推理

22:11

Artificial Analysis@ArtificialAnlys

腾讯发布开源推理模型Hy3-preview，综合评分42分落后于近期同类模型

腾讯发布开源混合专家模型Hy3-preview，总参数量2950亿，激活参数量210亿。其在Artificial Analysis综合智能指数上得分42，落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡：在真实世界任务基准GDPval-AA上落后于主要竞品，但在研究级物理评测CritPt上与高分模型GLM-5.1持平；其相对弱项在于AA-Omniscience指数，幻觉率较高。模型采用Tencent HY社区许可协议，商业使用受限，已在Hugging Face和SiliconFlowAI平台提供。

开源/仓库推理模型发布评测/基准

18:10

Berryxia.AI@berryxia

文心5.1 Preview登顶国内文本榜，揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一，是全球前十五名中唯一的国产模型，排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态，但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基，代码、推理等多维度能力均由此衍生，地基差异直接影响上层性能，因此文本仍是模型拉开差距的关键分水岭。引用推文显示，文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

Arena.ai: Ernie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest ...

大佬观点推理模型发布

17:10

IT之家（RSS）

联发科 CEO 蔡力行：AI 浪潮仍在延续，数据中心需求加速增长

联发科CEO蔡力行表示，人工智能浪潮持续，数据中心需求正加速增长。他预计到2027年，全球数据中心专用芯片市场规模将达700亿至800亿美元，联发科相关芯片有望实现数十亿美元营收。尽管公司一季度营收和净利润因手机业务拖累同比下滑，但AI相关业务增长强劲。受AI热潮推动，台积电一季度净利润大增58%，三星电子营业利润暴涨8倍。联发科股价今年已上涨83%。

推理行业动态

16:09

SemiAnalysis@SemiAnalysis_

GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍

在 DeepSeek-V4 Pro 1.6T 模型上，采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核，该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源，使整个社区受益。

DeepSeek 推理评测/基准

15:09

IT之家（RSS）

英特尔携手 AMD 发布 ACE 架构提升 AI 性能，x86 矩阵计算密度提升 16 倍

英特尔与AMD联合发布人工智能计算扩展（ACE）白皮书，将其确立为x86架构的标准矩阵加速方案。该扩展旨在突破现有SIMD扩展在计算密度与扩展性上的局限，通过引入基于外积运算的矩阵加速机制，无缝集成AVX10。据白皮书数据，在消耗相同数量输入向量的前提下，ACE的计算密度比等效的AVX10乘加运算高出16倍。它支持INT8、FP8、BF16等主流AI数据格式，并计划适配PyTorch、TensorFlow等机器学习框架，目标是为从笔记本电脑到超级计算机的全场景提供高效的矩阵加速支持。

推理端侧行业动态部署/工程

14:35

IT之家（RSS）

谷歌确认将开始向部分客户交付 TPU 硬件设备

谷歌母公司Alphabet在财报会议上确认，将开始向部分精选客户交付TPU硬件设备，供其部署在自有数据中心，这为TPU系列AI硬件开辟了云端算力之外的新变现模式。谷歌近期发布了第八代TPU新品TPU 8t和TPU 8i，性能较上代大幅提升。相关协议预计在今年晚些时候带来少量收入，大部分收入将在2027年实现。此外，Google Cloud在2026年第一季度营收首次突破200亿美元，同比增长63%。

Google 推理行业动态

10:57

Baidu Inc.@Baidu_Inc

精选65

百度ERNIE 5.1 Preview模型正式上线。该模型采用更轻量高效的架构，在总参数量压缩至前代约1/3、激活参数量约1/2的同时，仅消耗可比模型约6%的预训练成本，实现了在其规模下的领先基础性能。根据@arena的Text Arena榜单，ERNIE 5.1 Preview在全球总排名第13位，并位列中国实验室第一。其在多个细分领域进入全球前十，特别是在法律与政府领域排名第一。百度预告将在2026年的Baidu Create大会上发布更多ERNIE模型更新。

ERNIE for Developers: Introducing ERNIE 5.1 Preview - now live! 🚀 Ranked #13 globally and #1 among Chinese labs on @arena 's Text Arena. Top-...

推理模型发布

推荐理由：ERNIE 5.1 Preview 把参数量砍到前代的 1/3，性能还稳住了，6% 的训练成本近乎白嫖，国产模型打榜的意义不大，但这效率提升对做应用落地的人来说是实打实的好处。

10:42

HuggingFace Daily Papers（社区热门论文）

通过系统集成推测解码加速强化学习后训练中的生成过程

前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中，在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现，支持同步与异步流水线，允许在RL生成阶段进行推测。实验表明，在8B规模的同步RL推理任务中，推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测，在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。

arXiv 推理论文/研究部署/工程

09:40

ginobefun@hongming731

AGI 2030年临近，创业者需战略布局与技术攻坚

Demis Hassabis预测AGI将在2030年左右到来，科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题，智能体被视为通向AGI的必经之路，但受限于持续学习能力难以适应复杂环境。模型生态上，大小模型协同运作成为趋势，蒸馏技术使轻量级模型以低成本达到高性能，端侧模型降低成本并保障隐私，未来与云端超大模型协同构建理解物理世界的基础设施。

智能体 DeepMind 大佬观点开源生态

09:34

IT之家（RSS）

万亿级综合旗舰模型：蚂蚁集团百灵大模型开源 Ling-2.6-1T

蚂蚁集团正式开源百灵大模型万亿级综合旗舰模型 Ling-2.6-1T。该模型不单纯追求参数规模，而是通过MLA与Linear Attention混合架构等创新，系统性优化智效比与复杂任务执行能力。其核心是在更低Token开销下实现强综合智能，减少对冗长思考链的依赖，并在AIME26、SWE-bench Verified等多个执行类基准测试中达到开源SOTA水平。模型具备完整的工程落地能力，并与主流Agent框架兼容，旨在成为可部署于真实业务系统的底座。为方便体验，其在OpenRouter平台的免费API调用服务将延期一周。

开源生态推理模型发布编码

09:14

meng shao@shao__meng

GPT-5.5提示词指南

GPT-5.5因推理能力增强，提示词应转向精确定义结果、约束与停止条件，而非详细规定流程。相比前代，需采用更简短的结果导向提示，并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示，避免限制模型搜索空间。此外，还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。

Adam.GPT: https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...

OpenAI 推理教程/实践

08:45

向阳乔木@vista8

DeepSeek V4 Flash模型因响应速度快、成本低，获海外用户好评。用户强调应重实际效果而非基准测试，例如建议沉浸式翻译改用该模型。有用户称其速度优势显著，已将非复杂推理API调用切换至V4 Flash，体验无感秒处理，成本比Claude Haiku省90%且质量更优。

明盛: @vista8 Deepseek的速度绝对是一大未被完全发掘的优势. 试了v4flash之后我把所有不涉及复杂推理的llm api调用全切到flash了. 速度基本都是无感秒处, 价格比haiku省90% 质量比haiku强.

DeepSeek 大佬观点推理

08:34

IT之家（RSS）

苹果发布 AI 框架 LaDiR：突破单一思维，并行探索多条推理路径

苹果公司与加州大学圣迭戈分校团队联合发布名为LaDiR的AI推理框架。该框架并非新模型，而是一个可叠加于现有大语言模型之上的通用架构，其核心创新在于结合扩散模型与自回归模型。在推理阶段，LaDiR利用扩散过程并行探索多条独立路径，并通过多样性鼓励机制防止思维过早收敛，最后以自回归方式输出最终答案。测试显示，该框架在LLaMA 3.1 8B等模型上，于数学推理、代码生成及谜题规划任务中，其准确率和可靠性均优于现有通用方法。

Meta 推理论文/研究

08:30

公众号：智谱（GLM）

Scaling Pain：智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践，聚焦Scaling Pain（扩展痛点）及其应对经验。

推理教程/实践部署/工程

08:09

Rohan Paul@rohanpaul_ai

研究揭示语言模型遇难题时内部活动会"收缩"

研究发现，当语言模型面对困难问题时，其内部“脑活动”会收缩到更少的路径中。模型在感到困惑时会压缩内部思考，表现为从广泛分散的神经元激活，坍缩为最终处理层中高度集中的信号。这是因为系统放弃了稳健的分布式记忆，将计算强制压缩到狭小的专门空间以应对陌生挑战。关键在于，这种收缩效应可被量化为一个原始数值，从而无需猜测问题对AI是否过难。通过读取此内部信号，便能自动为系统提供恰如其分的“垫脚石”以辅助其解决问题。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RouteProfile：阐释用于路由的LLM画像设计空间

随着大语言模型生态发展，路由技术需依据模型能力选择合适模型，但刻画模型能力的“LLM画像”设计尚未被深入探索。本研究将LLM画像构建视为对异构交互历史的结构化信息整合问题，提出了名为RouteProfile的通用设计空间，涵盖组织形式、表示类型、聚合深度和学习配置四个维度。通过在三种典型路由器上的系统评估发现：结构化画像优于扁平化设计；查询级信号比领域级信号更可靠；在可训练配置下，结构化画像最能提升对新引入模型的泛化能力。该工作明确了LLM画像设计是路由研究的重要方向。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MASCing：通过激活引导掩码配置专家混合模型行为

MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系，通过优化引导矩阵识别行为相关专家回路，并在推理时对路由门应用引导掩码以覆盖专家选择，从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中，该框架以可忽略开销显著提升性能：多轮越狱防御平均成功率从52.5%提升至83.9%，成人内容生成平均成功率从52.6%提升至82.0%，最高增益分别达89.2%和93.0%。

安全/对齐推理论文/研究

07:14

宝玉@dotey

OpenAI发布GPT-5.5官方提示词指南：主张简短指令，转向结果导向

OpenAI在发布GPT-5.5后推出官方提示词指南，核心主张是摒弃冗长指令。指南指出，新模型具备更强推理能力，用户只需清晰描述期望结果、成功标准和限制条件，过细的步骤规划反而会限制模型搜索空间，导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示；为搜索设定“检索预算”以控制成本；在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。

Adam.GPT: https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...

OpenAI 推理教程/实践

07:08

Anthropic@AnthropicAI

科学博客上新：我们给Claude出了99个分析真实生物学数据的难题，并将其表现与专家小组进行了比较。在23个问题上，专家们被难住了。我们最新的模型解决了其中大约30%--以及其余的大部分问题。

Anthropic 推理论文/研究