AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月4日周四
21:18StepFun77同事件精选阶跃星辰 Step 3.7 Flash 在 Fireworks AI 上架同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
20:52LMSYS:Blog(Chatbot Arena 团队)81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra
20:36HuggingFace Daily Papers(社区热门论文)49IR3DE:大语言模型的线性路由器
20:00OpenRouter:Announcements(RSS)58同事件精选OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
19:42Hugging Face:Blog(RSS)68精选Nemotron 预训练的任务种子合成问答生成
17:42X.PIN59字节跳动火山引擎MaaS收入预期上调
12:17StepFun73阶跃星辰开源 Step 3.7 Flash:MoE 架构、400+ tokens/s、Apache 2.0
12:10Hacker News 热门(buzzing.cc 中文翻译)25它们是用哑铃做的
11:52Artificial Analysis67StepFun 开源 Step 3.7 Flash 模型,性能与速度并进
11:42HuggingFace Daily Papers(社区热门论文)65ThoughtFold: 通过内省偏好学习折叠推理链
11:10IT之家(RSS)52AMD 高管回应英伟达 RTX Spark 入局:欢迎竞争,自家 Strix Halo 系列足以应对
10:42HuggingFace Daily Papers(社区热门论文)73精选StreamMA:多智能体推理中的流式通信
10:01公众号:阶跃星辰(Step)45阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一
09:42HuggingFace Daily Papers(社区热门论文)63GRAIL:面向可验证奖励强化学习的梯度重加权优势方法
09:10IT之家(RSS)61苹果 iOS 27 Siri 部分查询将经 Google Cloud 调用授权版 Gemini,使用 NVIDIA Blackwell B200 集群处理
08:00HuggingFace Daily Papers(社区热门论文)47PoLar:让大语言模型跳过或循环层,学习生成动态执行程序
08:00HuggingFace Daily Papers(社区热门论文)48MRAgent:面向LLM智能体的关联记忆图与主动重建机制
08:00HuggingFace Daily Papers(社区热门论文)57压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩
08:00HuggingFace Daily Papers(社区热门论文)43Astra:借助世界模拟器实现智能体视觉空间推理
08:00HuggingFace Daily Papers(社区热门论文)57WorldBench:一个挑战性强且视觉多样化的多模态推理基准
07:58MiniMax (official)77MiniMax M3 1M token 解码加速 15.6 倍
05:39OpenAI67GPT-Rosalind 新增企业生命科学能力
04:39Hacker News 热门(buzzing.cc 中文翻译)57随着人工智能迅速发展,数学家们发出警告
04:26OpenAI:官网动态(RSS · 排除企业/客户案例)66精选GPT-Rosalind 新功能发布
01:51Artificial Analysis71Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能
00:33Microsoft Research62微软研究:装瓶厂AI从聊天到决策
00:08Hacker News 热门(buzzing.cc 中文翻译)78精选多伦多大学研究人员演示AI蠕虫可攻击任何联网设备
6月3日周三
23:42HuggingFace Daily Papers(社区热门论文)68KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积
23:17elvis72Google 新研究 LEAP:通用大模型封装在智能体框架中,解决全部 Putnam 2025 问题
22:16The Verge:AI(RSS)67微软与OpenAI分手--如今他们准备开战
21:46The Decoder:AI News(RSS)61Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行
21:37Tomer Tunguz 博客(VC 分析)66精选智能性价比
21:09IT之家(RSS)64英特尔:2030 年八成数据中心新服务器将用 x86 架构
20:40Alibaba Cloud63阿里云:智能体成本从token转向任务总成本
19:16The Decoder:AI News(RSS)71Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶
19:09IT之家(RSS)45中兴与腾讯合作,将发布搭载混元大模型的 WorkBuddy AI 云电脑
14:34swyx46swyx 称赞推理效率最佳奖励函数
13:42HuggingFace Daily Papers(社区热门论文)55Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling
13:08Alibaba Cloud71Qwen3.7发布,推理与智能体能力全面升级
12:42HuggingFace Daily Papers(社区热门论文)59面向推理模型的价值感知随机KV缓存淘汰策略
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
21:18
StepFun@StepFun_ai
同事件精选77
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:198B稀疏MoE加MTP解码把速度推到400 tok/s,还开源Apache 2.0,这规格做agent的大脑正合适,做实时应用的可以试试手。
20:52
LMSYS:Blog(Chatbot Arena 团队)
81
SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。

智能体开源生态推理模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)
20:36
HuggingFace Daily Papers(社区热门论文)
49
IR3DE:大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器,为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模(CLM)任务中,IR3DE性能与其他基线相当;在推理任务中,归一化性能达到98.4%,超越其他方法。该路由器支持动态添加或移除领域专家,无需重新训练,代码已开源。

推理论文/研究部署/工程
20:00
OpenRouter:Announcements(RSS)
同事件精选58
OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。

智能体AnthropicxAI推理
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:第一次看到对齐税被游戏化量化,Grok能赢是因为它没被训练成好人,Claude总想组队则拖后腿,怎么选模型得看你想要哪种人。
19:42
Hugging Face:Blog(RSS)
精选68
Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由:NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论,用 70 个公开任务训练集做种子生成新题目,100B token 实验把 GPQA 拉高 11 个点,做预训练的人值得看看他们怎么造的数据。
17:42
X.PIN@thexpin
59
Anthropic不是唯一赚钱的。 字节跳动也是。 火山引擎2026年MaaS收入预期在4月上调至约22亿美元,而2025年底约为15亿美元。 知情人士表示,仅Seedance 2.0每月就能带来约1.5亿美元收入,而其API甚至尚未在海外全面上线。
推理行业动态
12:17
StepFun@StepFun_ai
73
阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布
12:10
Hacker News 热门(buzzing.cc 中文翻译)
25
它们是用哑铃做的

一篇来自 maxleiter.com 的博文,标题为“它们是用哑铃做的”。正文内容极为简短,仅包含一张图片和一句声明“They're made out of weights”(中文翻译为“它们是用哑铃做的”),未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明,读者无法得知所指对象以及“哑铃”的真实含义。

推理现象/趋势
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
11:42
HuggingFace Daily Papers(社区热门论文)
65
ThoughtFold: 通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习(RLVR)下取得进展,但长思维链中的试错和冗余探索被强化,导致过度思考。ThoughtFold 提出细粒度偏好学习框架:通过内省策略识别正确轨迹中的冗余段,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤,从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%,同时保持 SOTA 准确率。

推理数据/训练论文/研究
11:10
IT之家(RSS)
52
AMD 高管回应英伟达 RTX Spark 入局:欢迎竞争,自家 Strix Halo 系列足以应对

AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场,表示欢迎竞争,认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争,Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU,统一内存最高 192GB。软件生态方面,AMD 主推 ROCm,称 CUDA 的壁垒影响已较三年前下降,开发者迁移难度较低。

推理端侧行业动态
10:42
HuggingFace Daily Papers(社区热门论文)
精选73
StreamMA:多智能体推理中的流式通信

StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由:让多 Agent 一边想一边传,不仅快了一倍还更准,这种流式思路要改写 pipeline 设计了,做多智能体的该认真读读。
10:01
公众号:阶跃星辰(Step)
45
阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。

智能体推理评测/基准
09:42
HuggingFace Daily Papers(社区热门论文)
63
GRAIL:面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。

arXiv推理数据/训练论文/研究
09:10
IT之家(RSS)
61
苹果 iOS 27 Siri 部分查询将经 Google Cloud 调用授权版 Gemini,使用 NVIDIA Blackwell B200 集群处理

科技媒体 The Information 报道,苹果 iOS 27 版 Siri 的部分用户查询将跳转至 Google Cloud,调用授权版 Gemini 模型,并由谷歌的 NVIDIA Blackwell B200 GPU 集群处理。Blackwell B200 基于 Blackwell 架构,面向大模型训练与推理。为降低云端隐私风险,苹果将启用英伟达机密计算(confidential compute)硬件级安全功能,在 GPU 处理数据时加密,保护 AI 模型在共享云环境中的机密性与完整性。

Google安全/对齐推理端侧
08:00
HuggingFace Daily Papers(社区热门论文)
47
PoLar:让大语言模型跳过或循环层,学习生成动态执行程序

研究发现,预训练LLM的层可作为模块,对每个输入灵活跳过或循环,形成动态程序(PoLar)。多数输入使用更少层即可达到相同或更高准确率,且原始模型的错误预测可通过更少层的替代程序纠正。为此,研究者提出轻量级PoLar预测网络,为每个输入生成动态跳过或重复层的执行程序。在数学推理基准上,PoLar一致优于标准推理和此前动态深度方法,常在使用更少层时提升准确率,在分布外评估中表现稳定。结果表明,固定深度执行仅捕捉了LLM潜在推理能力的一小部分。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
MRAgent:面向LLM智能体的关联记忆图与主动重建机制

MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图,并通过主动重建机制将 LLM 推理直接融入记忆访问,使智能体在推理过程中基于累积证据动态探索和剪枝检索路径,避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上,MRAgent 相比强基线最高提升 23%,同时显著降低 token 和运行时开销。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹,经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%,训练速度提升2.0–7.6倍,推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率;压缩学生模型可保留高达96%的原始准确率,同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时,压缩轨迹缩小了与原始轨迹的差距,但未超过原始。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
Astra:借助世界模拟器实现智能体视觉空间推理

视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。

具身智能多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
WorldBench:一个挑战性强且视觉多样化的多模态推理基准

WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准,通过构建涵盖多个领域(如生物)的数千个视觉概念分类体系,从搜索引擎和现有数据集中广泛收集图片,并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示,最强模型准确率仅达64.0%,部分模型性能略高于随机水平,揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。

多模态推理论文/研究
07:58
MiniMax (official)@MiniMax_AI
77
15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。 立即尝试 👇

Fireworks AI: MiniMax M3 arrives with MiniMax Sparse Attention (MSA), 15.6x faster decoding at 1M tokens. We're partnering with @MiniM...

推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
05:39
OpenAI@OpenAI
67
我们正在为 GPT-Rosalind 带来新功能,这是一个专为企业级生命科学研究打造的模型系列。 它将 GPT-5.5 的智能体编码和工具使用能力与更强大的智能相结合,用于药物发现、分析、设计和实验工作流程。 https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind
OpenAI推理模型发布
04:39
Hacker News 热门(buzzing.cc 中文翻译)
57
随着人工智能迅速发展,数学家们发出警告

Science.org 报道称,数学家们对人工智能的快速进展发出警告。

推理现象/趋势
04:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布

推荐理由:GPT-Rosalind 把 GPT-5.5 的智能带进了生命科学核心流程,从分子设计到 FDA 审评准备都能直接参与,是行业模型走向实用化的一个关键节点,虽然现在只对机构开放,但未来可能重塑药物研发工具链。
01:51
Artificial Analysis@ArtificialAnlys
71
Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能

Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表,介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。

推理模型发布评测/基准
00:33
Microsoft Research@MSFTResearch
62
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
Microsoft推理论文/研究部署/工程
00:08
Hacker News 热门(buzzing.cc 中文翻译)
精选78
多伦多大学研究人员演示AI蠕虫可攻击任何联网设备

多伦多大学研究人员展示了一种人工智能蠕虫,能够主动传播并攻击任何联网设备,无需人工干预即可在系统间移动。这项研究揭示了AI驱动自主攻击的潜在威胁。

安全/对齐推理

推荐理由:多伦多大学团队首次证明能用公开AI模型构建自适应蠕虫,成本近乎零,所有联网设备都在射程内,而现有防御还没准备好。安全圈该坐不住了。
6月3日
23:42
HuggingFace Daily Papers(社区热门论文)
68
KVarN:方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv推理论文/研究部署/工程
23:17
elvis@omarsar0
72
Google 新研究 LEAP:通用大模型封装在智能体框架中,解决全部 Putnam 2025 问题

Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。

智能体Google推理论文/研究
22:16
The Verge:AI(RSS)
67
微软与OpenAI分手--如今他们准备开战

在年度Build大会上,微软宣布了一系列AI新举措,包括超级应用、自研推理模型、网络安全工具和OpenClaw风格的AI智能体。该公司此前长期依赖与OpenAI的独家合作,但这段充满戏剧性的关系已在4月底实质上破裂(微软仍保留OpenAI主要云合作伙伴身份)。微软正以独立姿态成为AI领域的重要玩家。

智能体Microsoft产品更新推理
21:46
The Decoder:AI News(RSS)
61
Perplexity 宣布推出混合 AI 系统,自动决定任务在本地还是云端运行

Perplexity 发布了一个编排器,将本地计算机上的 AI 模型与云端强大模型相结合,并自动决定每个任务分配至本地处理还是云端处理。

产品更新推理部署/工程
21:37
Tomer Tunguz 博客(VC 分析)
精选66
智能性价比

微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。

MicrosoftOpenAI推理现象/趋势

推荐理由:微软在模型发布卡上悄悄加了“平均token消耗”这个指标,这不是小改动,而是宣告AI从堆算力转向算账时代。Uber和Salesforce的预算教训已经很清楚了。
21:09
IT之家(RSS)
64
英特尔:2030 年八成数据中心新服务器将用 x86 架构

英特尔 CEO 陈立武在 2026 台北电脑展上预测,到 2030 年每 10 台新数据中心服务器中 8 台基于 x86 架构。智能体 AI 场景下 CPU 与 GPU 算力比例可能从传统 AI 的 7:1(偏向 GPU)反转至最高 1:1.3。英特尔同步发布 18A 制程至强 6+ “Clearwater Forest” 处理器(288 个 E 核),推出开放标准整机架方案 “Rack Scale Blueprint”,并宣布进入定制 ASIC 市场,已为谷歌供应 IPU,与爱立信合作开发无线通信 ASIC。

推理行业动态
20:40
Alibaba Cloud@alibaba_cloud
63
智能体性能不再取决于每个token的成本,而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统,将token转化为实际的商业价值。
智能体推理现象/趋势
19:16
The Decoder:AI News(RSS)
71
Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)X:Satya Nadella (@satyanadella)
19:09
IT之家(RSS)
45
中兴与腾讯合作,将发布搭载混元大模型的 WorkBuddy AI 云电脑

中兴通讯在 AI 云电脑体验日宣布与腾讯达成合作,推出搭载腾讯原生 WorkBuddy 的 AI 云电脑,融合腾讯云算力和混元大模型能力,面向学生、职场人士、小微团队。中兴副总裁华新海指出,我国家庭电脑拥有率为 67.5%,20% 设备长期闲置。2025 年中兴云电脑终端销量突破 200 万台,连续两年蝉联中国云终端市场冠军。

产品更新推理
14:34
swyx@swyx
46
可能是我见过的最好的推理效率奖励函数。

elie: length penalty is very elegant and simple tbh

大佬观点推理
13:42
HuggingFace Daily Papers(社区热门论文)
55
Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。

推理论文/研究
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
12:42
HuggingFace Daily Papers(社区热门论文)
59
面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程
‹ 上一页
1…1718192021…50
下一页 ›