AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1187 条
全部一手资讯X论文
标签「推理」清除
12月2日周二
00:00字节 Seed:Research Papers(网页内嵌数据)GR-RL:实现灵巧精准的长程机器人操作
12月1日周一
18:52公众号:DeepSeek(深度求索)66同事件精选DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理同一事件,精选展示《DeepSeek-V3 正式发布》
11月25日周二
08:00Hugging Face:Blog(RSS)76精选从第一性原理看连续批处理
11月19日周三
13:19Hugging Face:Blog(RSS)78精选Apriel-H1:蒸馏高效推理模型的关键要素
11月18日周二
00:54Dwarkesh Patel:Podcast & Blog(RSS)RL 的信息效率比你想象的还要低
11月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)83精选2025年11月电路更新:解读模型在危害压力下的多选题行为机制
11月13日周四
22:52Google DeepMind:Blog(RSS)精选SIMA 2:在虚拟3D世界中与你共玩、推理和学习的智能体
10月29日周三
22:31Google DeepMind:Blog(RSS)借助 AI for Math Initiative 加速科学发现
10月24日周五
11:12Google DeepMind:Blog(RSS)精选带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准
08:02Google DeepMind:Blog(RSS)发现流体力学百年难题的新解法
10月22日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速
10月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)83精选Circuits 更新 - 2025年10月
10月2日周四
00:00Berkeley RDI:Blog(AI 安全与评测)RL顿悟配方:如何让大模型通过强化学习攻克无解任务?
9月29日周一
18:01公众号:DeepSeek(深度求索)59DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
16:07蚂蚁 inclusionAI:GitHub 新仓库58精选inclusionAI/dInfer
9月26日周五
00:00LMSYS:Blog(Chatbot Arena 团队)蚂蚁集团联合SGLang:H20-96G部署DeepSeek-R1最佳实践
9月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐
9月22日周一
23:49蚂蚁 inclusionAI:GitHub 新仓库49InclusionAI/Ring-V2
9月21日周日
16:54美团 LongCat:HuggingFace 新模型meituan-longcat 发布 LongCat-Flash-Thinking-FP8
9月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)73精选Circuits 更新 - 2025年9月
9月10日周三
15:01Thinking Machines Lab:官方博客(RSS)60精选破解LLM推理中的非确定性
9月9日周二
08:10Sam Altman:Blog(RSS)精选Jakub 与 Szymon
8月21日周四
14:25公众号:DeepSeek(深度求索)63精选DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
8月15日周五
08:00Anthropic:Transformer Circuits(可解释性研究)73精选角色如何改变AI的回答?--Anthropic可解释性团队2025年8月电路分析案例
8月8日周五
20:11公众号:小米 MiMo47小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh: 小米推出了 MiMo-VL-7B-2508 多模态模型。
01:02Ethan Mollick:One Useful Thing(RSS)精选GPT-5:只管做事
8月7日周四
08:00OpenRouter:Announcements(RSS)68同事件精选GPT-5 已在 OpenRouter 上线同一事件,精选展示《GPT-5 现已上线》
08:00OpenRouter:Announcements(RSS)68精选GPT-5 现已上线
08:00OpenRouter:Announcements(RSS)66精选GPT-5 现已上线
8月4日周一
00:00字节 Seed:Research Papers(网页内嵌数据)Seed Diffusion:支持高速推理的大规模扩散语言模型
7月31日周四
00:00LMSYS:Blog(Chatbot Arena 团队)精选智谱发布 GLM-4.5 系列模型并原生支持 SGLang
00:00字节 Seed:Research Papers(网页内嵌数据)Seed-Prover:面向自动定理证明的深度与广度推理
7月17日周四
00:00Mistral AI:News(网页)51Mistral AI 为 Le Chat 推出五项重要更新
00:00LMSYS:Blog(Chatbot Arena 团队)使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案
7月15日周二
08:00Anthropic:Transformer Circuits(可解释性研究)83精选2025年7月电路更新:特征语言重构数学框架与生物AI可解释性应用
7月11日周五
00:00Moonshot AI:Kimi Blog精选Kimi 发布 K2 模型
7月10日周四
08:00OpenRouter:Announcements(RSS)55精选OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理
7月9日周三
08:00xAI:News(网页)精选Grok 4
6月16日周一
00:00LMSYS:Blog(Chatbot Arena 团队)在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速
6月15日周日
08:00Anthropic:Transformer Circuits(可解释性研究)78精选Crosscoder模型差异分析见解
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月2日
00:00
字节 Seed:Research Papers(网页内嵌数据)
GR-RL:实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究
12月1日
18:52
公众号:DeepSeek(深度求索)
同事件精选66
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
智能体DeepSeek推理模型发布
同一事件,精选展示《DeepSeek-V3 正式发布》
推荐理由:半年前的这版更新,把 Agent 和思考推理揉进了开源模型,回头看算是 DeepSeek 在智能体能力上的关键一刀,做 Agent 开发的至今绕不开它。
11月25日
08:00
Hugging Face:Blog(RSS)
精选76
从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由:深入理解LLM推理优化原理,助力高效模型部署。
11月19日
13:19
Hugging Face:Blog(RSS)
精选78
Apriel-H1:蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face推理数据/训练模型发布

推荐理由:新蒸馏方法可能大幅降低推理模型部署成本,开发者可借鉴实践。
11月18日
00:54
Dwarkesh Patel:Podcast & Blog(RSS)
RL 的信息效率比你想象的还要低

强化学习(RL)在样本效率方面的缺陷比普遍认知更为严重,尤其在近期备受关注的可验证奖励强化学习(RLVR)领域。研究表明,RLVR 在训练大语言模型时所需的数据量远超预期,其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战,暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈,可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练
11月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
2025年11月电路更新:解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题,当添加有害意图语句时,模型准确率从100%骤降至48.1%。机制分析表明,注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互,显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控,即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知,而是通过干扰注意力机制来主动拒绝提供正确答案,为理解模型拒绝行为提供了新视角。

Anthropic推理论文/研究

推荐理由:揭示模型拒绝有害请求的内部机制,助力 AI 安全与可解释性研究。
11月13日
22:52
Google DeepMind:Blog(RSS)
精选
SIMA 2:在虚拟3D世界中与你共玩、推理和学习的智能体

Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。

智能体DeepMindGoogle产品更新

推荐理由:DeepMind发布SIMA 2,可在3D虚拟世界中交互推理的通用AI Agent
10月29日
22:31
Google DeepMind:Blog(RSS)
借助 AI for Math Initiative 加速科学发现

AI for Math Initiative 汇聚全球顶尖研究机构,率先探索 AI 在数学研究中的创新应用,加速科学发现。

DeepMindGoogle推理论文/研究
10月24日
11:12
Google DeepMind:Blog(RSS)
精选
带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMindGoogle推理模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Gemini Deep Think在IMO数学竞赛达到金牌标准,推理能力获重大突破
08:02
Google DeepMind:Blog(RSS)
发现流体力学百年难题的新解法

新方法可帮助数学家利用AI技术攻克数学、物理与工程领域的长期挑战,为流体力学百年难题提供全新解决思路。

DeepMind推理论文/研究
10月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek开源/仓库推理部署/工程
10月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由:为AI可解释性研究提供新实验方法,启发跨模态模型设计。
10月2日
00:00
Berkeley RDI:Blog(AI 安全与评测)
RL顿悟配方:如何让大模型通过强化学习攻克无解任务?

研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究
9月29日
18:01
公众号:DeepSeek(深度求索)
59
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek推理模型发布
16:07
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/dInfer

inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由:蚂蚁把扩散语言模型的推理框架开源了,这类模型的推理效率一直是落地瓶颈,做端侧或低成本部署的团队值得看看能不能接上。
9月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
蚂蚁集团联合SGLang:H20-96G部署DeepSeek-R1最佳实践

蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。

DeepSeek推理论文/研究部署/工程
9月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程
9月22日
23:49
蚂蚁 inclusionAI:GitHub 新仓库
49
InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布
9月21日
16:54
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Flash-Thinking-FP8

meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型,采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力,致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。

Hugging Face推理模型发布
9月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
Circuits 更新 - 2025年9月

Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示,模型在不同语言间的特征相似性(通过交并比IoU衡量)会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句,团队发现末句的IoU显著高于首句,且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解,而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。

Anthropic推理论文/研究

推荐理由:揭示语言模型随上下文深化理解的机制,助力可解释性研究进展。
9月10日
15:01
Thinking Machines Lab:官方博客(RSS)
精选60
破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由:Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size,并给出了可落地的 batch-invariant 内核实现,做推理部署和 RL 的工程师都该看看。
9月9日
08:10
Sam Altman:Blog(RSS)
精选
Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor,二人多次联手攻克被认为不可能的技术难题,主导 Dota RL 扩展、GPT-4 预训练及推理突破,被形容为“不知疲倦”的黄金搭档。

OpenAI大佬观点推理数据/训练

推荐理由:Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程
8月21日
14:25
公众号:DeepSeek(深度求索)
精选63
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。

智能体DeepSeek开源生态推理

推荐理由:DeepSeek V3.1 不是小修小补,混合推理和 Agent 支持让它从‘对话模型’转向‘行动模型’,开源这一步让 Agent 开发有了新底座。
8月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
角色如何改变AI的回答?--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中,通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型,当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时,模型会以“我不知道!”回应并提议玩耍;而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路:模型能将“学龄前学生”关联到“扮演儿童”,从而激活“我不知道”特征。研究还发现,问题难度会调节此效应,并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic推理论文/研究

推荐理由:揭示模型角色扮演的内部机制,为可解释性研究提供新视角。
8月8日
20:11
公众号:小米 MiMo
47
小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh: 小米推出了 MiMo-VL-7B-2508 多模态模型。
多模态推理模型发布
01:02
Ethan Mollick:One Useful Thing(RSS)
精选
GPT-5:只管做事

GPT-5 不再需要详细提示工程,只需给出目标即可自主完成任务。将 AI 置于主导地位,用户只需设定方向,具体执行由模型自行处理。

智能体OpenAI大佬观点推理

推荐理由:Ethan Mollick 深度解读 GPT-5 自主执行能力,洞察 AI 代理新范式
8月7日
08:00
OpenRouter:Announcements(RSS)
同事件精选68
GPT-5 已在 OpenRouter 上线

GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。

OpenAI推理模型发布编码
同一事件,精选展示《GPT-5 现已上线》
推荐理由:GPT-5 是 AI 史上的分水岭,长上下文和推理能力直接催生了一整代 agent 工具,哪怕过了快一年回头看,仍然值得搞清楚它改变了什么。
08:00
OpenRouter:Announcements(RSS)
精选68
GPT-5 现已上线

OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。

OpenAI推理模型发布编码
关联讨论 1 条X:ChatGPT (@ChatGPTapp)
推荐理由:这是 GPT-5 首次以大上下文和推理能力亮相,1M token 上下文让 code agent 直接从 demo 变成可用,现在看虽是旧闻,但节点意义不减。
08:00
OpenRouter:Announcements(RSS)
精选66
GPT-5 现已上线

GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力,专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络,为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。

产品更新推理编码

推荐理由:OpenRouter 上架 GPT-5 本身不算新闻,但对用 OpenRouter 做多模型路由的开发者来说,这是终于能切到最新旗舰的信号,值得第一时间跑一遍自己的 benchmark。
8月4日
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed Diffusion:支持高速推理的大规模扩散语言模型

字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。

arXiv推理论文/研究
7月31日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
智谱发布 GLM-4.5 系列模型并原生支持 SGLang

智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。

智能体推理模型发布编码

推荐理由:国产大模型Agent与编码能力跻身第一梯队,为开发者提供Claude/GPT之外的高性价比替代方案
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed-Prover:面向自动定理证明的深度与广度推理

Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。

推理数据/训练论文/研究
7月17日
00:00
Mistral AI:News(网页)
51
Mistral AI 为 Le Chat 推出五项重要更新

Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。

产品更新多模态推理语音
00:00
LMSYS:Blog(Chatbot Arena 团队)
使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
2025年7月电路更新:特征语言重构数学框架与生物AI可解释性应用

Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架,将注意力头的OV和QK电路描述为特征及其变换(如检测属性X、前一标记X、触发输出X的特征),并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统(如蛋白质语言模型ESM-2)可解释性中的应用进展,强调此类研究对确保药物发现等应用的安全与有效性至关重要。

Anthropic推理论文/研究

推荐理由:可解释性研究新进展,帮助理解 AI 内部机制,提升模型透明度和安全性。
7月11日
00:00
Moonshot AI:Kimi Blog
精选
Kimi 发布 K2 模型

Kimi K2 采用混合专家(MoE)架构,拥有 320 亿激活参数和 1 万亿总参数,在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。

推理模型发布编码
关联讨论 1 条Moonshot AI:Kimi Blog
推荐理由:月之暗面发布 Kimi K2,万亿参数 MoE 架构,多基准 SOTA
7月10日
08:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理

OpenRouter 发布免费套餐更新,通过引入新模型来维持可持续的 AI 推理服务,旨在继续为广大用户提供可访问的 AI 能力。

产品更新推理部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 一年前把几个新模型塞进免费层,当时对白嫖开发者是利好,但现在点开只能闻到时间的灰尘。
7月9日
08:00
xAI:News(网页)
精选
Grok 4

xAI 正式发布 Grok 4,新一代大模型在数学推理和代码生成能力上大幅提升,延续实时获取 X 平台信息的特色。该版本支持更长上下文窗口和图像理解,即日起向 X Premium+ 订阅者开放。

xAI推理模型发布
关联讨论 1 条xAI:News(网页)
推荐理由:xAI正式发布Grok 4旗舰大模型,重要版本更新值得关注
6月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。

DeepSeek开源/仓库推理部署/工程
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选78
Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现,模型独占特征往往多义性高、激活密集,难以解释。实验表明,这是由于有限特征容量下的竞争:共享特征能同时解释两个模型的激活模式,而独占特征需编码更多信息以证明其存在。团队提出缓解策略,即引入少量指定共享特征并降低其稀疏性惩罚,使独占特征变得更可解释和单义。该方法应用于真实模型时,成功分离出能捕捉模型间行为差异的可解释特征。此外,观察到独占特征激活频率比共享特征高一个数量级,且两模型独占特征数量相近。

Anthropic推理数据/训练论文/研究

推荐理由:为 AI 可解释性提供新视角,助力模型行为分析与安全研究。
‹ 上一页
1…2627282930
下一页 ›