AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月6日周六
06:00Chubby♨️65MIT团队提出自我修正发现系统,推动AI从搜索走向真正科学发现
04:59Rohan Paul79Claude Opus 4.7化学突破:反向推断分子结构,媲美专业NMR软件
03:21Hacker News 热门(buzzing.cc 中文翻译)69Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)59AURA: 面向隐式需求的定向探测方法
21:15IT之家(RSS)69腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
20:58Rohan Paul93Anthropic呼吁全球减缓前沿AI:其模型可能接近递归自我改进
20:29Chubby♨️47Kim反驳RSI言论为IPO炒作的质疑:Anthropic数据证实发展加速
19:27MarkTechPost(RSS)54Perplexity AI 推出混合本地-服务器推理编排器:自动在设备端与云端间路由 AI 任务
19:27MarkTechPost(RSS)62NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统
19:22公众号:腾讯混元62精选腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录
18:52公众号:百度智能云(文心)48百度伐谋走进北工大实验室:从制氢安全到空间站监测,加速科研探索
18:15IT之家(RSS)58视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片
17:48HuggingFace Daily Papers(社区热门论文)51SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法
16:50SiliconFlow64DeepSeek连四周蝉联OpenRouter份额第一
15:57Tencent Hy74精选腾讯混元联合人大开源PlanningBench评估框架
13:47HuggingFace Daily Papers(社区热门论文)65AdaPlanBench:评估大语言模型智能体在双重约束下的自适应规划
12:26Yuchen Jin51把自己当作LLM来对待
11:46HuggingFace Daily Papers(社区热门论文)57强化学习驱动未见语言翻译的上下文学习
10:46HuggingFace Daily Papers(社区热门论文)69OPRD:在线策略表示蒸馏
10:46HuggingFace Daily Papers(社区热门论文)68NF-CoT:基于归一化流的潜在推理框架
10:24公众号:龙猫LongCat(美团)55ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化
09:26Rohan Paul60Harness-1:通过状态外部化提升搜索智能体性能
08:14IT之家(RSS)67三大运营商"词元产品"服务上架中国算力平台
08:00HuggingFace Daily Papers(社区热门论文)54MemDreamer:通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解
08:00HuggingFace Daily Papers(社区热门论文)54DuMate-DeepResearch:具有递归搜索与准则推理的多智能体可审计深度研究框架
08:00HuggingFace Daily Papers(社区热门论文)58论在线策略蒸馏的几何特性
08:00HuggingFace Daily Papers(社区热门论文)63基于MLLM的人类视角视频理解:观看、记忆、推理
06:24Rohan Paul70Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%
06:17Hacker News 热门(buzzing.cc 中文翻译)69KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端
04:24Rohan Paul70Sam Altman 承认 AI 预算已成"巨大问题":外部客户月耗 token 达 603B,智能体加剧隐藏成本
04:03🚨 AI News | TestingCatalog72NVIDIA 发布 Nemotron 3 Ultra 开源模型,推理速度提升 5 倍
02:25Artificial Analysis65NVIDIA 发布 Nemotron 3 Ultra,专注低延迟智能体性能
01:50HuggingFace Daily Papers(社区热门论文)49上下文多实例学习
01:30NotebookLM60NotebookLM 推出福尔摩斯游戏笔记本
01:28AI Notkilleveryoneism Memes ⏸️73Anthropic:Claude或开启递归自我改进
00:52Yuchen Jin60Anthropic递归自我改进:速度从3倍跃升至52倍
6月4日周四
23:23Chubby♨️81NVIDIA Nemotron 3 Ultra 发布:完全开源 550B MoE 模型
23:15SiliconFlow72精选Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平
22:43HuggingFace Daily Papers(社区热门论文)60DAR:道义推理与智能体框架
21:54Artificial Analysis74NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
06:00
Chubby♨️@kimmonismus
65
MIT团队提出自我修正发现系统,推动AI从搜索走向真正科学发现

MIT Buehler团队提出Self-Revising Discovery Systems框架,让AI能自主扩展科学词汇(变量、工具、验证器、模型结构),而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流,证明真正发现是可验证的schema扩展:旧证据通过Left Kan extension迁移,新异性由pointwise残差客观量化,区分发现与搜索。三种模态:检索(添加已知对象)、搜索(固定schema)、发现(验证的范式转换)。案例包括Builder/Breaker发现蛋白质模式条件合规性,CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体推理论文/研究
04:59
Rohan Paul@rohanpaul_ai
79
Claude Opus 4.7化学突破:反向推断分子结构,媲美专业NMR软件

Anthropic最新化学报告显示,通用大模型Claude Opus 4.7(无化学微调)在NMR核磁共振谱分析上匹配甚至超越专用软件MestReNova,氢预测误差最小,碳预测近乎一致。更关键的是,它能从NMR光谱反向推导分子结构——这一任务以往只能由人类化学家完成。这意味着AI现在可以处理化学中的关键瓶颈:在分子结构、谱图与最终确认之间自动翻译。

Anthropic: New Anthropic Science Blog: Making Claude a chemist. To manipulate a molecule, chemists first need to understand its str...

Anthropic推理论文/研究
关联讨论 2 条Anthropic:Research(发表成果 · 网页)X:Anthropic (@AnthropicAI)
03:21
Hacker News 热门(buzzing.cc 中文翻译)
69
Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效

Google 发布 Gemma 4 QAT 模型,该模型通过量化感知训练(QAT)技术优化压缩,旨在提升移动设备和笔记本电脑上的运行效率与能效。文章来源于 Google 官方博客,介绍了这一面向移动端和笔记本端的模型优化方案。

Google推理模型发布端侧
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
59
AURA: 面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤,生成包含隐式需求估计和标量差距分数(gap score)的 IntentFrame,用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上,AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07(p < 10⁻⁶),其中三个场景统计显著,且在第二个骨干模型上复现;消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中,控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究
21:15
IT之家(RSS)
69
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究
20:58
Rohan Paul@rohanpaul_ai
93
Anthropic呼吁全球减缓前沿AI:其模型可能接近递归自我改进

Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。

Rohan Paul: Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...

Anthropic安全/对齐推理政策/监管
关联讨论 12 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
20:29
Chubby♨️@kimmonismus
47
Kim反驳RSI言论为IPO炒作的质疑:Anthropic数据证实发展加速

Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据:即使模型能力冻结,智能体扩散也将使100人公司完成1000人工作;实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务,一年后Sonnet 3.7达1.5小时,再一年后Opus 4.6达12小时,翻倍周期从7个月缩短至4个月。若趋势持续,今年内可处理数天级任务。OpenAI同样认可该方向。

Chubby♨️: I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quit...

智能体AnthropicOpenAI推理
19:27
MarkTechPost(RSS)
54
Perplexity AI 推出混合本地-服务器推理编排器:自动在设备端与云端间路由 AI 任务

Perplexity AI 发布面向个人电脑的混合本地-服务器推理编排器,可自动将 AI 任务在设备端模型与云端模型之间动态路由,实现推理负载的智能分配与优化。

产品更新推理端侧
19:27
MarkTechPost(RSS)
62
NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具,在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复,实现快速启动。

开源/仓库推理部署/工程
19:22
公众号:腾讯混元
精选62
腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录

Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由:把稀疏注意力从一刀切升级成按信息流分配预算,算子在Hopper上把理论加速几乎无损转化,3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。
18:52
公众号:百度智能云(文心)
48
百度伐谋走进北工大实验室:从制氢安全到空间站监测,加速科研探索

百度伐谋进入北京工业大学苗扬团队实验室,辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中,模型准确率从92.26%提升至95.04%,探索周期从“周级”缩短至“小时级”;在空间站色谱柱优化中,72小时内生成方案,体积缩小40%、分离效率提升3倍、误差降低8.17%;海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”,而是围绕目标、变量和评价标准进行大规模搜索试错。

推理搜索行业动态
18:15
IT之家(RSS)
58
视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

Pinterest 宣布大幅扩展与 AWS 的合作,计划在 2031 年前投入 40 亿美元,扩大对 AWS 定制芯片(包括 CPU 和 AI ASIC)的使用。目前约 1/3 的计算基础设施已运行在 AWS Graviton 系列 Arm CPU 上,未来还将利用 AWS Trainium 托管和运行 LLM / VLM 模型,支持个性化视觉搜索和 AI 辅助发现。首席技术官 Matt Madrigal 表示,深化合作将加速 AI 创新,提升用户体验和广告主效果。

推理行业动态部署/工程
17:48
HuggingFace Daily Papers(社区热门论文)
51
SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量,定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩(有效秩熵减少),且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当,在特定任务上表现出优势,成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程
16:50
SiliconFlow@SiliconFlowAI
64
DeepSeek 在 @OpenRouter 的 token 份额位列第一--已连续四周 我们很自豪为其提供了很大一部分支持 你可以在 @SiliconFlow 上找到完整的 @deepseek_ai 模型阵容: → V4 Pro & Flash(最佳性价比 🔥) → V3.2 · V3.2 Exp · V3.1 · V3.1 Terminus · V3 0324 · R1 0528

OpenRouter: DeepSeek has now topped our token share rankings 4 weeks in a row: https://openrouter.ai/rankings

DeepSeek推理行业动态
15:57
Tencent Hy@TencentHunyuan
精选74
腾讯混元联合人大开源PlanningBench评估框架

腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务,支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

智能体arXivGitHub开源/仓库

推荐理由:腾讯混元联合人大开源的 PlanningBench,补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口,做 Agent 的同学可以直接用来评测和训练,开源即用。
13:47
HuggingFace Daily Papers(社区热门论文)
65
AdaPlanBench:评估大语言模型智能体在双重约束下的自适应规划

AdaPlanBench是一个动态交互基准,用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务,通过多轮交互协议仅在计划违反约束时暴露隐藏约束,迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示,最佳模型准确率仅达67.75%,性能随约束累积下降,用户约束挑战尤为显著,失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。

智能体推理论文/研究
12:26
Yuchen Jin@Yuchenj_UW
51
把自己当作一个大语言模型。 每个社交互动、每个会议都在消耗你的 token。 除非有人付费订阅你的注意力,否则你没有义务回答低质量的提示词。
大佬观点推理
11:46
HuggingFace Daily Papers(社区热门论文)
57
强化学习驱动未见语言翻译的上下文学习

大语言模型(LLM)翻译极低资源语言时,现有方法(继续训练或编码语法书)易过拟合特定语言,零样本迁移有限。本文提出一种强化学习(RL)方法,以字符级翻译指标chrF作为奖励,训练模型从丰富语言上下文中提取并应用语言知识,实现对完全未见语言的翻译。实验表明,即使使用轻量级奖励,RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示,结果导向的RL可超越数学、编程等传统推理任务,成为从上下文中学习语言的通用方案。

推理数据/训练论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
69
OPRD:在线策略表示蒸馏

传统在线策略蒸馏(OPD)仅在输出空间匹配下一个token概率,受限于大词汇表(如Qwen约150k token)的采样方差,且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间,在同一rollout上对齐学生与教师选定层的表示,绕过LM头。理论上消除采样方差,提供逐层结构信息。在AIME 2024/2025和AIMO上,OPRD缩小师生差距,而OPD基线低于教师。训练速度提升1.44倍,内存减少54%。代码已开源。

推理数据/训练论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
68
NF-CoT:基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。

arXiv推理编码论文/研究
10:24
公众号:龙猫LongCat(美团)
55
ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。

开源/仓库推理论文/研究评测/基准
09:26
Rohan Paul@rohanpaul_ai
60
Harness-1:通过状态外部化提升搜索智能体性能

Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。

智能体arXiv推理搜索
08:14
IT之家(RSS)
67
三大运营商"词元产品"服务上架中国算力平台

6月3日,中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元,具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版(基于GLM-5)和个人/家庭版(基于DeepSeek V3.2);移动云Coding Plan(基于MiniMax-2.5)支持Claude Code等编程工具;联通云推出Coding Plan(整合DeepSeek V4、GLM-5、MiniMax M2.5)和Token Plan(个人版支持DeepSeek V4-Flash、MiniMax M2.5,团队版采用Credits弹性计费)。服务已在中国算力平台·算力超市上架。

产品更新推理编码
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemDreamer:通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DuMate-DeepResearch:具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏(OPD)与监督微调(SFT)及带可验证奖励的强化学习(RLVR)在参数空间中的更新轨迹。OPD的更新影响更少权重,更强地避开主方向,且约束比RLVR松弛。OPD表现出子空间锁定:累积更新快速进入低维通道,且锁定子空间对OPD功能足够。控制实验表明,稀疏化更新token或off-policy生成不改变秩动态,而混合RLVR目标会改变。结论:OPD并非SFT与RLVR的中间点,而具有自身独特的更新几何。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于MLLM的人类视角视频理解:观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv多模态推理视频
06:24
Rohan Paul@rohanpaul_ai
70
Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%

Google 新论文 LEAP 提出智能体框架,通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈,将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差,而 LEAP 将证明存储为有向图结构,先规划再逐步验证。在 Putnam 2025 竞赛中,LEAP 成功解出全部 12 道题;在包含 60 道 IMO 风格题目的 Lean 基准测试中,也实现了上述性能跃升。

Google推理论文/研究
06:17
Hacker News 热门(buzzing.cc 中文翻译)
69
KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程
04:24
Rohan Paul@rohanpaul_ai
70
Sam Altman 承认 AI 预算已成"巨大问题":外部客户月耗 token 达 603B,智能体加剧隐藏成本

Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。

智能体OpenAI大佬观点推理
04:03
🚨 AI News | TestingCatalog@testingcatalog
72
NVIDIA 在 Huggingface 上发布 Nemotron 3 Ultra(Nemotron-3-Ultra-550B-A55B-NVFP4),一个 550B 参数的 MoE 前沿智能开源大语言模型,专为长时间运行的 AI 智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。模型具备强大的智能体、推理和对话能力。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布
02:25
Artificial Analysis@ArtificialAnlys
65
NVIDIA 发布 Nemotron 3 Ultra,专注低延迟智能体性能

NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。

智能体推理评测/基准
01:50
HuggingFace Daily Papers(社区热门论文)
49
上下文多实例学习

多实例学习(MIL)解决监督信号仅存在于包级别的问题,现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器,能通过少量标注包解决新任务,推理时仅需单次前向传播,无需梯度更新。研究比较了多种包结构合成数据生成器,发现其互补的归纳偏置经混合预训练后能继承各自优势,在12个MIL基准测试上取得平均最佳性能,超越需要任务特定训练的监督基线。

推理数据/训练论文/研究
01:30
NotebookLM@NotebookLM
60
专业技巧:将笔记本游戏化 不要只是阅读笔记--去调查它们。我们全新的福尔摩斯笔记本将学习变成一款互动侦探游戏。推理事实,发现线索,证明即使是最复杂的问题也能迎刃而解。 ➡️ https://goo.gle/Sherlock
Google产品更新推理
01:28
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
73
HOLY SHIT LET'S FUCKING GOO 我们内部数据显示,Claude 正在加速 AI 发展--这可能通往递归自我改进,即 AI 自主构建更强大的后继者。 这发生得比我们想象的更快,其影响值得更多关注。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

Anthropic安全/对齐推理论文/研究
00:52
Yuchen Jin@Yuchenj_UW
60
Anthropic 发布的递归自我改进帖子: "每次我们发布一个模型,都会给它代码,让它训练一个小型 AI 模型,然后让新模型加速训练。 2024 年 5 月,Claude Opus 4 平均实现约 3 倍加速。今年 4 月,Mythos Preview 达到约 52 倍。" RSI 正在发生,我等不及要看到 Mythos 了。
Anthropic大佬观点推理数据/训练
6月4日
23:23
Chubby♨️@kimmonismus
81
NVIDIA Nemotron 3 Ultra 发布:完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra,550B 总参数(55B 活跃)的完全开源 MoE 模型,权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构,专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上,吞吐量约为可比开源模型的 6 倍(推理速度提升 5 倍),复杂智能体任务成本降低最多 30%。该模型在 4-bit(NVFP4)精度下预训练 20T tokens,后训练使用 MOPD 技术,由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
23:15
SiliconFlow@SiliconFlowAI
精选72
Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

多模态推理模型发布编码

推荐理由:后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。
22:43
HuggingFace Daily Papers(社区热门论文)
60
DAR:道义推理与智能体框架

DAR(Deontic Agentic Reasoning)是一种让模型按需与法规交互的智能体推理设置,用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现,智能体框架能推动道义推理的前沿性能,但改进并不均匀:较弱的模型在数值任务中表现退化,同时消耗更多模型token。

智能体推理论文/研究
21:54
Artificial Analysis@ArtificialAnlys
74
NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。

开源生态推理模型发布评测/基准
‹ 上一页
1…1617181920…50
下一页 ›