AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月3日周三
13:08Alibaba Cloud71Qwen3.7发布,推理与智能体能力全面升级
12:42HuggingFace Daily Papers(社区热门论文)59面向推理模型的价值感知随机KV缓存淘汰策略
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
12:32Josh Woodward53Gemini 全平台上线思考级别功能
10:49Berryxia.AI76兄弟们,Google DeepMind 团队又来整活儿!
10:09IT之家(RSS)54江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户
08:36SenseTime34商汤发布SenseNova U1模型及Neo-Unify架构
08:16Rohan Paul57斯坦福研究:AI在合同法教学中优于同行教授
08:00HuggingFace Daily Papers(社区热门论文)48SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构
08:00HuggingFace Daily Papers(社区热门论文)55Imaginative Perception Tokens 增强多模态语言模型的空间推理
08:00HuggingFace Daily Papers(社区热门论文)61DistIL:基于分布化DAgger的丰富反馈强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)62Flash-WAM:面向世界动作模型的模态感知蒸馏
06:57Simon Willison 博客61微软发布新MAI模型
06:55MiniMax (official)74MiniMax M3模型发布细节公开
05:35Hacker News 热门(buzzing.cc 中文翻译)66微软推出 MAI-Thinking-1 模型
05:16Rohan Paul81微软发布 MAI-Thinking-1 模型
04:47Chubby♨️50微软 Mai-1 thinking 推理模型发布
03:41HuggingFace Daily Papers(社区热门论文)66DOT-MoE:用于MoE化的可微最优传输
03:09IT之家(RSS)69微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充
02:47Chubby♨️63微软首款推理模型 Mai-1 发布
02:45The Verge:AI(RSS)78精选微软首款高级推理AI模型MAI-Thinking-1发布
02:23🚨 AI News | TestingCatalog70微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型
01:31Google DeepMind61Google DeepMind 发布 Gemini 多智能体科研系统
01:17Chubby♨️33RTX显卡本地运行1200亿参数模型
01:08IT之家(RSS)49微软推出 Surface RTX Spark Dev Box 开发机:100W TDP,今年晚些时候发售
00:48Berryxia.AI50Kimi K2创始人杨植麟拆解训练过程
00:29OpenRouter68精选DigitalOcean AI云服务上线OpenRouter
00:15AK62GPU预测器:大语言模型优化内核运行时
6月2日周二
20:08IT之家(RSS)64CPU 需求与日俱增,英特尔陈立武自曝许多公司 CEO 来电"求供货"
19:34蚂蚁 inclusionAI:HuggingFace 新模型61同事件精选蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
18:40HuggingFace Daily Papers(社区热门论文)67几何潜推理使LLM生成更短
17:55蚂蚁 inclusionAI:HuggingFace 新模型54蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型
16:53MiniMax (official)72MiniMax发布M3模型:首个结合三大前沿能力的开源权重模型
13:40HuggingFace Daily Papers(社区热门论文)69Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
13:40HuggingFace Daily Papers(社区热门论文)73精选OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
13:36StepFun74阶跃星辰谈Step 3.7 Flash的"可用性"突破
12:07IT之家(RSS)52英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"
12:06StepFun69阶跃星辰Step 3.7 Flash发布,专为高效推理设计
11:40HuggingFace Daily Papers(社区热门论文)69VLM作为视频推理教师:通过自适应测试时优化实现
11:07IT之家(RSS)45华硕公布全球首款高通骁龙 X2 Elite 迷你主机 Ascent QN10
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
12:42
HuggingFace Daily Papers(社区热门论文)
59
面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
12:32
Josh Woodward@joshwoodward
53
✅ 已修复:思考级别功能现已在 Gemini 的 Web、iOS 和 Android 平台上线。
Google产品更新推理
10:49
Berryxia.AI@berryxia
76
兄弟们,Google DeepMind 团队又来整活儿!

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理
10:09
IT之家(RSS)
54
江苏无锡打造城市智算云平台"词元超市":汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户

江苏全省首个商用万卡集群“词元超市(Token 超市)”已试运行,汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商,提供阿里通义、DeepSeek、阶跃星辰等主流大模型,用户可按需选择文本创作、智能问答等业务场景,并依据实际 Token 用量按需付费。该模式已服务近五十家客户,帮助本地企业降低研发成本。

推理行业动态部署/工程
08:36
SenseTime@SenseTime_AI
34
商汤发布SenseNova U1模型及Neo-Unify架构

商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。

多模态大佬观点推理端侧
08:16
Rohan Paul@rohanpaul_ai
57
斯坦福研究:AI在合同法教学中优于同行教授

斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
DistIL:基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flash-WAM:面向世界动作模型的模态感知蒸馏

世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程
06:57
Simon Willison 博客
61
微软发布新MAI模型

微软发布了MAI-Thinking-1与MAI-Code-1-Flash两款新大语言模型。MAI-Thinking-1为35B参数的推理模型,目前向部分早期合作伙伴开放,官方称其在盲测中优于Sonnet 4.6。MAI-Code-1-Flash为5B参数模型,专为GitHub Copilot和VS Code优化,将逐步向VS Code的Copilot个人用户推出。两款模型均强调使用清洁、商业授权的数据从零开始进行端到端训练,未使用第三方模型进行蒸馏。

Microsoft大佬观点推理编码
06:55
MiniMax (official)@MiniMax_AI
74
MiniMax M3模型发布细节公开

MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。

Together AI: MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...

多模态推理模型发布编码
05:35
Hacker News 热门(buzzing.cc 中文翻译)
66
微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。

Microsoft推理模型发布编码
05:16
Rohan Paul@rohanpaul_ai
81
微软发布 MAI-Thinking-1 模型

微软发布了 MAI-Thinking-1,这是一款采用 MoE 架构的模型,拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练,且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中,该模型于 AIME 2025 获得 97.0%,在 LiveCodeBench v6 获得 87.7%,在 SWE-Bench Pro 获得 52.8% 的成绩。

Microsoft推理模型发布
关联讨论 2 条The Decoder:AI News(RSS)X:Satya Nadella (@satyanadella)
04:47
Chubby♨️@kimmonismus
50
刚刚发现"Mai"-1 thinking 代表: 微软 AI 思考。 🤯

Chubby♨️: Mai-1 thinking: Mid size model, 45b active parameter, MoE, side by side with sonnet 4.6 0 distillation "Microsoft's firs...

Microsoft大佬观点推理
03:41
HuggingFace Daily Papers(社区热门论文)
66
DOT-MoE:用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。

arXiv推理数据/训练论文/研究
03:09
IT之家(RSS)
69
微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。

Microsoft推理模型发布编码
02:47
Chubby♨️@kimmonismus
63
Mai-1 thinking:中型模型,45b 活跃参数,MoE,与 Sonnet 4.6 并列 0 知识蒸馏 "微软的首个推理模型"

Chubby♨️: Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitud...

Microsoft推理模型发布
02:45
The Verge:AI(RSS)
精选78
微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”,能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。

Microsoft推理模型发布
关联讨论 2 条The Decoder:AI News(RSS)X:Satya Nadella (@satyanadella)
推荐理由:微软自己从头训练的推理模型,不用任何第三方蒸馏数据,这可能是微软系 Agent 和 Copilot 底座更换的信号,值得盯着看。
02:23
🚨 AI News | TestingCatalog@testingcatalog
70
微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型

微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

Microsoft多模态推理模型发布
01:31
Google DeepMind@GoogleDeepMind
61
我们相信 AI 可以成为专属研究伙伴,帮助发现下一个突破。 隆重推出 Co-Scientist:我们最新的基于 Gemini 的多智能体系统,能够为复杂科学问题生成、辩论和演进新颖的假设 🧵
智能体Google产品更新推理
01:17
Chubby♨️@kimmonismus
33
RTX显卡本地运行1200亿参数模型。 说实话,挺酷的。
产品更新推理端侧
01:08
IT之家(RSS)
49
微软推出 Surface RTX Spark Dev Box 开发机:100W TDP,今年晚些时候发售

微软在Build 2026大会上推出Surface RTX Spark Dev Box开发机。这是一款搭载英伟达RTX Spark芯片的迷你主机,采用铝制机身,热设计功耗为100W。它配备128GB统一内存,可本地运行最高1200亿参数的大语言模型,专为AI推理工作优化。该产品出厂预装VS Code等开发环境,计划于今年晚些时候在美国市场发售。

Microsoft产品更新推理端侧
00:48
Berryxia.AI@berryxia
50
Moonshot AI创始人杨植麟的40分钟视频近日被广泛转发。他在视频中详细拆解了Kimi K2的训练过程,其核心突破在于仅以460万美元的极低成本完成训练。在近期一场8模型实时编程大赛中,Kimi K2获得第一名。杨植麟通过分享强调了极致优化与架构设计的重要性。

Berryxia.AI: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的...

推理现象/趋势编码
00:29
OpenRouter@OpenRouter
精选68
⚡ 新增服务商:DigitalOcean 的 AI-Native Cloud 现已在 OpenRouter 上线。 提供高性能推理,覆盖热门开源权重模型。在 DeepSeek V3.2 的输出速度和延迟方面排名第一(数据来自 @ArtificialAnlys)。 查看其数据并试用模型:https://openrouter.ai/provider/digitalocean
DeepSeek产品更新推理部署/工程

推荐理由:OpenRouter 新上线的 DigitalOcean 推理服务,把 DeepSeek V3.2 的延迟压到了全场最低,比官方还快,做实时应用的值得立刻切过去试一下。
00:15
AK@_akhaliq
62
GPU预测器 大语言模型作为内核运行时优化的选择性代理
推理论文/研究
6月2日
20:08
IT之家(RSS)
64
CPU 需求与日俱增,英特尔陈立武自曝许多公司 CEO 来电"求供货"

英特尔 CEO 陈立武在台北电脑展上表示,受 AI 智能体兴起带动,CPU 需求日增但供给受限。过去四周内,多位公司 CEO 致电要求更多 CPU 供应。他强调 CPU 在强化学习与编排中作用重要,并将台积电称为“重要合作伙伴”,英伟达称为“朋友”。

智能体推理行业动态
19:34
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选61
蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型(总参约 1T,激活 63B)。它由 Ling-2.0-1T-base 升级而来,采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构,经约 9.6T token 的迁移预训练、持续预训练和中训练,上下文窗口从 4K 分阶段扩展至 256K。在 MMLU(86.82)、SimpleQA、LongBenchv2(43.54)等基准上超越前代。该模型仅供研究(继续预训练、微调、蒸馏等),不直接提供对话功能。

Hugging Face开源生态推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K,对于研究长上下文和 MoE 的团队是个有价值的基座,但它是未对齐的预训练模型,不能直接当对话助手用。
18:40
HuggingFace Daily Papers(社区热门论文)
67
几何潜推理使LLM生成更短

研究提出几何潜推理方法,将推理建模为模型预训练嵌入空间中的几何路径逼近问题,使用轻量级过渡头预测方向更新。在Qwen3模型上评估发现,该方法能诱导模型生成显著更短的输出,用连续潜步骤替代早期显式推理后,模型常以更少总步数得出正确答案。研究揭示了连续轨迹作为紧凑中间推理状态,暴露了潜计算预算、输出长度与准确率之间的新权衡。

推理论文/研究
17:55
蚂蚁 inclusionAI:HuggingFace 新模型
54
蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。

推理模型发布部署/工程
16:53
MiniMax (official)@MiniMax_AI
72
MiniMax发布M3模型,宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出:SWE-Bench Pro得分59.0%,Terminal Bench 2.1得分66.0%,SWE-fficiency 34.8%,KernelBench Hard 28.8%,MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务,模型权重和技术报告预计约10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态推理模型发布编码
13:40
HuggingFace Daily Papers(社区热门论文)
69
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Chunk-Level Guided Generation 是一种无需训练的推理时方法,它利用现成的大语言模型(如 Qwen2.5-32B 或 Llama-3.1-70B)作为过程评分器,引导小模型进行数学推理。该方法在每个步骤让小模型生成多个固定长度候选块,由大模型通过似然度评分选择,从而提前引导推理方向,避免错误传播。它包含似然引导选择(LGS)和对比引导选择(CGS)两种规则,其中CGS通过减去小模型似然度来偏好与大模型偏好不同的块。在多个基准测试中,该方法在匹配计算预算下,性能匹配或优于需要奖励模型训练的PRM引导搜索,并且生成的推理轨迹显著更短。

推理论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
精选73
OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架

OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。

智能体开源生态推理论文/研究

推荐理由:做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。
13:36
StepFun@StepFun_ai
74
我们可能对"可用性"的讨论还不够。 当Flash模型同时将速度、成本和智能带入"可用"范围时,智能的供给方式发生了结构性变化。

E01: A Lab note for Step 3.7 Flash launch. -- When Flash models bring speed, cost, and intelligence into the "usable" range a...

推理模型发布
12:07
IT之家(RSS)
52
英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"

英伟达CEO黄仁勋在媒体招待会上表示,新推出的Vera CPU是为智能体而非人类设计的,开辟了新市场。同时推出的RTX Spark电脑芯片被定位为面向智能体AI时代的计算平台。黄仁勋认为智能体AI将是未来十年最重要的算力变革,并表示英伟达将尽可能使用现成的ARM技术。他坦言公司目前供应仍显紧张。此外,黄仁勋支持SK海力士与三星电子的高薪政策,认为公司“应该尽可能多地奖励员工”。

智能体推理行业动态
12:06
StepFun@StepFun_ai
69
阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构,从设计之初就专注于推理效率。其采用多矩阵分解注意力机制,使KV-cache成本仅为DeepSeek模型的约22%;同时通过注意力与FFN解耦技术,实现了硬件优化的高效服务。该模型已通过Fireworks AI提供,采用Apache 2.0许可,并可用于构建智能体应用。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ...

智能体开源/仓库推理模型发布
11:40
HuggingFace Daily Papers(社区热门论文)
69
VLM作为视频推理教师:通过自适应测试时优化实现

本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。

多模态推理视频论文/研究
11:07
IT之家(RSS)
45
华硕公布全球首款高通骁龙 X2 Elite 迷你主机 Ascent QN10

华硕推出全球首款搭载高通骁龙 X2 Elite 平台的迷你主机 Ascent QN10,其内置算力达 80 TOPS 的神经处理单元(NPU)。该主机体积不足 0.7L,配备 18 核 4.7GHz CPU,提供最高 32GB LPDDR5X-9600 内存和 512GB PCIe Gen4 NVMe SSD。接口包括 3 个 USB-C 40Gbps、3 个 USB-A 10Gbps、HDMI 2.1 及 2.5GbE 网口,并支持 Wi-Fi 7 与蓝牙 5.4。

产品更新推理端侧
‹ 上一页
1…1819202122…50
下一页 ›