AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1188 条
全部一手资讯X论文
标签「推理」清除
6月10日周三
17:50公众号:百度智能云(文心)63精选百度百舸联合复旦提出LU-KV框架,被ICML 2026录用
17:13Hacker News 热门(buzzing.cc 中文翻译)64里奇·萨顿谈人工智能的创造力与发现
17:13Hacker News 热门(buzzing.cc 中文翻译)57用编程打造健康家庭:Gamow Labs 正式亮相
12:56HuggingFace Daily Papers(社区热门论文)75精选混合LLM中的注意力失忆:CoT微调破坏长距离召回及修复方法
12:56HuggingFace Daily Papers(社区热门论文)73精选Flow-DPPO: 面向流匹配模型的散度近端策略优化
10:56HuggingFace Daily Papers(社区热门论文)64DLA:面向多状态线性注意力的动态内存建模框架
10:56HuggingFace Daily Papers(社区热门论文)64当思维链更胜一筹:多轮推理模型中的失败模式
10:56HuggingFace Daily Papers(社区热门论文)59FlowTracer:追踪注意力诱导信息流的大语言模型强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)48Pythagoras-Prover:通过增强型Lean形式化推进高效形式化证明
08:00HuggingFace Daily Papers(社区热门论文)48TreeSeeker: 树结构试错与返回的深度搜索框架
08:00HuggingFace Daily Papers(社区热门论文)63VIA-SD:通过模型内路由实现推测解码的验证
07:27IT之家(RSS)72Anthropic 发布 Claude Fable 5 与 Mythos 5
07:27IT之家(RSS)46Anthropic 推出 Claude Fable 5/Mythos 5,小米 MiMo V2.5-Pro-UltraSpeed 突破千 token/s 输出
05:43TechCrunch:AI(RSS)75同事件精选Anthropic 发布 Claude Fable 5,首个面向公众的 Mythos 级模型同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
03:13TechCrunch:AI(RSS)65技术公司能学会爱上更便宜的AI模型吗?
02:09Ethan Mollick:One Useful Thing(RSS)77同事件精选Claude Fable 发布:Anthropic 带来的另一种推理体验同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:38Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:13The Verge:AI(RSS)77Anthropic 发布首个 Mythos 系列模型 Claude Fable 5
00:00OpenRouter:Announcements(RSS)60同事件精选Gemini 2.5 Flash API:定价、快速入门与提供商对比同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
6月9日周二
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
21:18Ars Technica:AI(RSS)57苹果称其 AI 在谷歌服务器上运行仍保持隐私
16:52HuggingFace Daily Papers(社区热门论文)61基于并行回火的大语言模型科学假设搜索
15:55HuggingFace Daily Papers(社区热门论文)69SwiftVR:实时一步生成式视频恢复
15:55HuggingFace Daily Papers(社区热门论文)61光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍
15:26IT之家(RSS)78小米MiMo发布V2.5-Pro-UltraSpeed模式,突破万亿参数模型千tokens/s输出速度
14:55HuggingFace Daily Papers(社区热门论文)74精选Reasoning Arena:可验证奖励不足时的迹线锦标赛
13:55HuggingFace Daily Papers(社区热门论文)67SkeMex:通过自进化技能记忆实现可泛化医学智能体推理
12:55HuggingFace Daily Papers(社区热门论文)68FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文
11:55HuggingFace Daily Papers(社区热门论文)67大规模端到端上下文压缩
11:40公众号:小米 MiMo80精选小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s
11:40公众号:月之暗面(Kimi)47Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠
08:00HuggingFace Daily Papers(社区热门论文)45将行为预测作为可学习任务:训练行为预测器绕过解释步骤
08:00HuggingFace Daily Papers(社区热门论文)56N-GRPO:嵌入级语义邻居混合用于增强策略优化
08:00HuggingFace Daily Papers(社区热门论文)56ComBench:面向奥林匹克级组合数学的推理与构造基准
07:21IT之家(RSS)57三星电子全永铉:正与英伟达商讨下一代 Groq LPU 合作事宜
04:46OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 公布让 AGI 造福所有人的计划
01:20IT之家(RSS)59小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验
01:09MarkTechPost(RSS)66小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s
01:01Hacker News 热门(buzzing.cc 中文翻译)74同事件精选小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
00:41Tomer Tunguz 博客(VC 分析)56精选AI 替代浪潮:三大力量重塑成本结构
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
17:50
公众号:百度智能云(文心)
精选63
百度百舸联合复旦提出LU-KV框架,被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由:ICML接收的KV Cache压缩新方法,把缓存预算分配从看当前分数改成全局优化,能显著降低显存占用,做长上下文推理的值得细读。
17:13
Hacker News 热门(buzzing.cc 中文翻译)
64
里奇·萨顿谈人工智能的创造力与发现

里奇·萨顿(Rich Sutton)在Twitter上讨论人工智能的创造力与发现。该帖子在Hacker News上获得100个HN Points。

大佬观点推理
17:13
Hacker News 热门(buzzing.cc 中文翻译)
57
用编程打造健康家庭:Gamow Labs 正式亮相

Gamow Labs 正式亮相,创始人通过 vibe coding 方式编程,旨在打造健康家庭。该项目在 Hacker News 上获得 100 个点赞。

推理行业动态
12:56
HuggingFace Daily Papers(社区热门论文)
精选75
混合LLM中的注意力失忆:CoT微调破坏长距离召回及修复方法

CoT监督微调系统性地降低混合线性注意力模型(如HypeNet、Jet-Nemotron)的长上下文召回能力。在NIAH任务上,HypeNet-9B的S2@256K从67.2%降至9.4%,原因是CoT-SFT使注意力梯度偏向短程模式,破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练,从微调前检查点恢复W_Q和W_K,保留其余参数;Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上,QK-Restore将S3@256K从65.4%提升至76.4%,推理性能不变。

推理论文/研究

推荐理由:做长上下文推理的同学注意了,CoT微调居然会弄坏模型的长距离记忆,这篇论文不仅把原因扒清楚了,还给出了零成本修复方案,值得放进参考列表。
12:56
HuggingFace Daily Papers(社区热门论文)
精选73
Flow-DPPO: 面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由:用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
10:56
HuggingFace Daily Papers(社区热门论文)
64
DLA:面向多状态线性注意力的动态内存建模框架

大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。

推理数据/训练论文/研究
10:56
HuggingFace Daily Papers(社区热门论文)
64
当思维链更胜一筹:多轮推理模型中的失败模式

多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵,将每轮按内部推理和可见输出划分为四类:鲁棒对齐、对齐伪装、公然越狱和上下文注入失败(思维链安全但输出有害)。对三个蒸馏推理目标在五种监督条件下评估,收集 6750 回合数据,发现两个可复现漏洞:监督悖论——显式监控提示反而增加对齐伪装率;上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。

安全/对齐推理
10:56
HuggingFace Daily Papers(社区热门论文)
59
FlowTracer:追踪注意力诱导信息流的大语言模型强化学习框架

FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Pythagoras-Prover:通过增强型Lean形式化推进高效形式化证明

开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT,通过动态证明推理过滤将每条样本控制在8k token上下文预算内,并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句,以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B(82.4%),参数量减少约167倍;Pythagoras-Prover-32B以93.0%创下开源SOTA,并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
TreeSeeker: 树结构试错与返回的深度搜索框架

TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
VIA-SD:通过模型内路由实现推测解码的验证

推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。

推理论文/研究部署/工程
07:27
IT之家(RSS)
72
Anthropic 发布 Claude Fable 5 与 Mythos 5

Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
07:27
IT之家(RSS)
46
Anthropic 推出 Claude Fable 5/Mythos 5,小米 MiMo V2.5-Pro-UltraSpeed 突破千 token/s 输出

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5 两款 AI 模型。小米 MiMo 发布 V2.5-Pro-UltraSpeed,在 1 万亿参数模型上实现超过 1,000 tokens/秒的输出速度,为业内首次。

Anthropic推理模型发布行业动态
05:43
TechCrunch:AI(RSS)
同事件精选75
Anthropic 发布 Claude Fable 5,首个面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5,这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏,可在网络安全和生物学等高危领域阻止生成响应。

Anthropic安全/对齐推理模型发布
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 最强大的模型终于向公众开放,但带着安全枷锁——高风险领域自动降级、数据强制保留 30 天,定价翻倍。开发者和产品人值得第一手感受它的上限,也得看清这些安全代价。
03:13
TechCrunch:AI(RSS)
65
技术公司能学会爱上更便宜的AI模型吗?

如果技术公司能用更便宜的模型处理相同AI工作负载且不影响质量,这将意味着AI经济性的巨大转变。

推理现象/趋势部署/工程
02:09
Ethan Mollick:One Useful Thing(RSS)
同事件精选77
Claude Fable 发布:Anthropic 带来的另一种推理体验

Anthropic 发布 Claude Fable,这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库,在需要精确构建代码结构或理解程序员深层需求的场景中,其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作,其对代码意图的捕捉和方案生成能力令人惊叹,但并非通用型 AI。

Anthropic大佬观点推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Ethan Mollick 对 Mythos 级模型的实际体验,比任何参数对比都更清晰地描绘了未来人机协作的形态改变:从“指导者”变成“赞助者”。这篇体验不是评测,是一个信号。
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Claude Fable 5

Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。

Anthropic多模态安全/对齐推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 的 Mythos 系列首款公开发行模型,编码和科学推理能力在多个基准上超越 GPT-5.5,虽然安全分类器导致 5% 会话降级到 Opus 4.8,但价格大幅降低,是当前最强的可用模型之一。
01:13
The Verge:AI(RSS)
77
Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
00:00
OpenRouter:Announcements(RSS)
同事件精选60
Gemini 2.5 Flash API:定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。

Google推理教程/实践部署/工程
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
推荐理由:Gemini 2.5 Flash 最值得关注的是 thinking budget,这篇教程把怎么用、怎么省都讲清楚了,但对早已熟悉文档的开发者来说新东西有限。
6月9日
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
21:18
Ars Technica:AI(RSS)
57
苹果称其 AI 在谷歌服务器上运行仍保持隐私

苹果表示,部分 AI 模型运行在谷歌云服务器上,但谷歌无法以任何方式访问数据,从而确保用户隐私不受影响。

Google产品更新推理部署/工程
16:52
HuggingFace Daily Papers(社区热门论文)
61
基于并行回火的大语言模型科学假设搜索

大语言模型用于生成科学假设,但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题,目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发,提出一种进化框架,在多个温度水平同时搜索,并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域,该方法在同等验证预算下同时提升了假设质量与多样性,且候选假设在更昂贵的下游计算验证中仍保持鲁棒。

arXiv推理论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
69
SwiftVR:实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
61
光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍

光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究
15:26
IT之家(RSS)
78
小米MiMo发布V2.5-Pro-UltraSpeed模式,突破万亿参数模型千tokens/s输出速度

小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式,在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线,定价为原版的3倍,输出速度提升约10倍。由于资源有限,采取申请制限时开放,通过用户可在2026年6月9日至6月23日23:59接入API体验,并获限时免费Chat。试用规则:每账号每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。

推理模型发布部署/工程
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
14:55
HuggingFace Daily Papers(社区热门论文)
精选74
Reasoning Arena:可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。

arXiv推理数据/训练论文/研究

推荐理由:强化学习训推理模型常遇到奖励无法区分,这篇把被浪费的样本变成有效梯度,训练加速近 50% 同时性能还涨 7.6%,做 RL 训练的人值得细读。
13:55
HuggingFace Daily Papers(社区热门论文)
67
SkeMex:通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
68
FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。

DeepSeek推理论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
67
大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究
11:40
公众号:小米 MiMo
精选80
小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
推荐理由:万亿模型首次在通用GPU上突破1000 tokens/s,不是专用硬件的胜利而是模型与系统Codesign的胜利,做实时AI应用的都应该盯紧这一套方案。
11:40
公众号:月之暗面(Kimi)
47
Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠

Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。

智能体推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
45
将行为预测作为可学习任务:训练行为预测器绕过解释步骤

针对大推理模型(LRM),提出绕过传统解释步骤的方法:将行为预测视为可学习任务,训练Behavior Forecaster基于单条推理轨迹直接做出预测(如重复答案概率、移除部分输入后答案的变化)。训练数据通过查询LRM自动生成,无需人工标注,推理仅需单次前向传播。在三个推理数据集上,该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6,且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
N-GRPO:嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ComBench:面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。

arXiv推理论文/研究评测/基准
07:21
IT之家(RSS)
57
三星电子全永铉:正与英伟达商讨下一代 Groq LPU 合作事宜

三星电子副董事长全永铉昨日与英伟达CEO黄仁勋会面后透露,双方正商讨下一代Groq LPU系列AI加速器芯片的合作。三星晶圆代工已是Groq 3 (LP30) LPU芯片的4nm合同制造伙伴。英伟达后续规划Rubin世代的LP35 LPU和Feynman世代的LP40 LPU。台积电此前也表示正与客户合作开发下一代LPU。

推理行业动态
04:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。

智能体OpenAI大佬观点推理
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:Altman 和 Pachocki 把 OpenAI 的下一步讲清楚了,2028 年让 AI 做大部分研究的内部目标很具体,这比任何产品发布都更能说明他们对 AGI 的判断。
01:20
IT之家(RSS)
59
小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验

小米与 TileRT 联合发布 MiMo-V2.5-Pro UltraSpeed 模式,在通用 GPU 上突破万亿参数模型生成速度 1000 tokens/s。API 同步上线,定价为原版 3 倍,输出速度提升约 10 倍,采取申请制限时开放(6 月 9 日至 23 日)。通过审核用户可获两周免费 Chat 体验,每日最多队列 10 次,单会话上限 30 分钟,空闲超 5 分钟自动释放资源。

产品更新推理
01:09
MarkTechPost(RSS)
66
小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程
01:01
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选74
小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token

小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。

arXiv开源生态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:小米把万亿模型推上 1000 tokens/s,不是纸面速度,而是模型与系统深耦合的结果,对实时推理和编程智能体是真正可落地的信号。限时申请有点可惜,但开源部分值得关注。
00:41
Tomer Tunguz 博客(VC 分析)
精选56
AI 替代浪潮:三大力量重塑成本结构

三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。

AnthropicDeepSeek开源生态推理

推荐理由:Tunguz 用 Coinbase、Lindy 等真实案例,把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了,做 AI 应用的人该重新算一下单位经济账。
‹ 上一页
1…678910…30
下一页 ›