AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月2日周二
10:40HuggingFace Daily Papers(社区热门论文)64X-Stream: 探索MLLM作为多路复用器的多流理解能力
10:07IT之家(RSS)57英特尔第 3 代酷睿 Ultra 处理器适配群联 aiDAPTIV:16GB 内存能跑 26B 模型
10:07IT之家(RSS)60图灵奖得主萨顿:普通生成式AI难当科学发现重任
09:23MiniMax (official)55MiniMax M3 模型架构与推理直播讨论
09:07IT之家(RSS)59微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光
09:00公众号:蚂蚁百灵(Ling)50KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题
08:00HuggingFace Daily Papers(社区热门论文)53Prompt-Level Distillation:无需微调的模型推理效率提升方法
08:00HuggingFace Daily Papers(社区热门论文)41小模型是GRPO中策略级多样性的天然探索者:S2L-PO框架
08:00HuggingFace Daily Papers(社区热门论文)51大语言模型对自己的回答过度自信
08:00HuggingFace Daily Papers(社区热门论文)49EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具
08:00HuggingFace Daily Papers(社区热门论文)38语法推理:合成语言学推理轨迹能否增强低资源机器翻译?
08:00HuggingFace Daily Papers(社区热门论文)65推理的影子价格:LLM最优预算分配的经济学视角
08:00HuggingFace Daily Papers(社区热门论文)70精选ACTS:面向高效可控LLM推理的智能体链式思维引导
08:00HuggingFace Daily Papers(社区热门论文)63Graph Tokens Sink:图语言模型的机制分析
08:00HuggingFace Daily Papers(社区热门论文)63多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL
08:00HuggingFace Daily Papers(社区热门论文)65AgentCL:面向语言智能体持续学习的严格评估框架
07:33Hacker News 热门(buzzing.cc 中文翻译)42微软推出搭载英伟达显卡的Surface Laptop Ultra,与MacBook Pro一较高下
03:49AYi65NVIDIA RTX Spark发布,3nm SoC整合ARM CPU、Blackwell GPU及128GB统一内存
03:48MiniMax (official)61MiniMax M3 上线 AI/ML API,价格对比凸显性价比
02:40Rohan Paul57英特尔将发布低成本AI数据中心芯片,主打推理场景
02:30xAI67xAI 发布 Composer 2.5 模型
02:15xAI:News(网页)78精选xAI发布Composer 2.5
02:09Qwen83通义千问发布 Qwen3.7-Plus 多模态智能体模型
00:38Hugging Face:Blog(RSS)71精选JetBrains 发布 Mellum2:12B 参数混合专家模型
00:09Rohan Paul74Nvidia即将发布Nemotron 3 Ultra混合架构模型
6月1日周一
23:36The Verge:AI(RSS)64微软将在Build大会发布新AI模型及Windows改进
23:05elvis71关于自我改进智能体的宝贵建议
22:38Hugging Face:Blog(RSS)60精选超越LLM:为何可扩展的企业AI采用取决于智能体逻辑
21:41Ars Technica:AI(RSS)34英特尔:我们的下一代AI芯片将比英伟达、AMD的选项更便宜、更凉爽
21:35The Decoder:AI News(RSS)68Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型,但中国仍然领先
20:43🚨 AI News | TestingCatalog55NVIDIA将发布550B参数开放权重模型Nemotron 3 Ultra
19:11Ars Technica:AI(RSS)54OpenAI 数学突破发挥 AI 优势
18:47MiniMax (official)64MiniMax M3与GPT 5.5差距仅2.1%
18:47MiniMax (official)77MiniMax M3 模型在 Novita AI 平台上线
18:42Berryxia.AI71KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B
17:05IT之家(RSS)52高通发布数据中心品牌 Dragonfly
13:04IT之家(RSS)66英伟达 Vera 处理器发布:专为 AI 智能体打造,OpenAI、SpaceXAI、字节跳动都要用
13:04IT之家(RSS)62"全球最强大的桌面 AI 超级计算机",英伟达 DGX Station for Windows 发布
13:04IT之家(RSS)66英伟达推出 Alpamayo 2 Super 开源推理模型,助力 L4 自动驾驶研发
12:35Artificial Analysis81NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
10:40
HuggingFace Daily Papers(社区热门论文)
64
X-Stream: 探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。

arXiv多模态推理论文/研究
10:07
IT之家(RSS)
57
英特尔第 3 代酷睿 Ultra 处理器适配群联 aiDAPTIV:16GB 内存能跑 26B 模型

群联电子宣布其Pascari aiDAPTIV内存延伸技术现已适配英特尔第3代酷睿Ultra处理器(Panther Lake)并支持OpenVINO工具套件。该技术通过将AI工作内存从系统DRAM拓展至高性能NAND,降低了本地AI负载对DRAM的需求。内部测试显示,搭载该技术的系统仅需16GB DRAM即可执行26B参数规模的AI模型,而未适配的系统则需32GB DRAM才能完成相同任务。这增强了AI PC本地运行更大模型、支持更长会话及代理式AI工作流的能力。

推理端侧行业动态
10:07
IT之家(RSS)
60
图灵奖得主萨顿:普通生成式AI难当科学发现重任

图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。

智能体大佬观点推理
09:23
MiniMax (official)@MiniMax_AI
55
我们现在正在直播 🔴 与 @togethercompute 一起深入探讨 M3:模型、MSA 架构以及驱动它的推理技术。 欢迎加入 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

Together AI: Make sure to join our live Spaces chat on MiniMax M3 starting in 4 hours. You can pre-submit questions by replying to th...

推理教程/实践部署/工程
09:07
IT之家(RSS)
59
微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1,该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型,以完善其自有模型矩阵。此外,微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态,但该功能测试版预计要到夏末才会推出。

Microsoft推理模型发布
09:00
公众号:蚂蚁百灵(Ling)
50
KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题

KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Prompt-Level Distillation:无需微调的模型推理效率提升方法

提出 Prompt-Level Distillation (PLD),从 Teacher 模型提取显式推理模式并组织为结构化指令列表,注入 Student 模型的 System Prompt。在 Gemma-3 4B 上,PLD 将 StereoSet Macro F1 从 57% 提升至 90.0%,Contract-NLI 从 67% 提升至 83%,LogiQA 准确率达 70%;在 Mistral Small 3.1 上取得相似结果,验证跨架构泛化能力。PLD 无需微调,推理延迟极低,决策过程透明可人工验证,适合法律、金融、内容审核等监管行业及高吞吐边缘设备。

推理教程/实践论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
小模型是GRPO中策略级多样性的天然探索者:S2L-PO框架

针对GRPO训练中rollout多样性不足的问题,研究发现同一模型家族内的小模型天然具有更高的策略级多样性(pass@k优于大模型),且这种多样性具有时序相关性、逻辑一致性和结构化探索信号。提出S2L-PO框架,利用固定小模型作为探索者训练大模型,并设计渐进退火策略从小模型离线rollout过渡到大模型自身采样,避免性能下降、加速收敛。S2L-PO在多个数学推理基准上提升准确率,例如用1.7B探索者引导8B模型在AIME 24上提升8.8%,同时减少rollout计算量。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
大语言模型对自己的回答过度自信

指令微调使大语言模型校准性本就低于基座模型,而聊天模板通过“所有权偏见”进一步加剧偏差:模型对自己的回答比用户给出的相同答案显著更自信。在6个开源权重LLM、3个基准和3种置信度获取方法上,模型给自己回答分配的置信度最高高出26%。研究者提出简单推理时策略:获取置信度时将模型回答伪装成用户输入,无需重新训练即可将过度自信降低、校准性提升最高26%,缩小了基座与指令微调模型间的差距。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具

EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。

智能体推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
38
语法推理:合成语言学推理轨迹能否增强低资源机器翻译?

大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发,研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道,并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明,作为推理时引导(ICL),可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能;而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息,但自主生成分析仍是主要瓶颈。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
推理的影子价格:LLM最优预算分配的经济学视角

本文将推理预算分配建模为受经济学原理支配的全局约束优化问题。通过移位激增函数(shifted-surge function)量化每查询推理效用,推导出基于全局影子价格的最优分配策略,实现资源稀缺下边际效用均衡。据此提出的CLEAR方法,将资不抵债的查询理性放弃,资源重新分配给接近涌现阈值的可解查询。在多种推理任务与流量模式实验中,CLEAR显著改善总token成本与平均准确率的Pareto前沿,资源稀缺时全局准确率相比均匀分配最高提升3倍。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ACTS:面向高效可控LLM推理的智能体链式思维引导

ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。

智能体arXiv推理论文/研究

推荐理由:ACTS 把 LLM 推理过程变成可控制的 MDP,用预算感知的策略节省 token 同时保持精度,做推理加速的研究者应该试试他们开源的代码。
08:00
HuggingFace Daily Papers(社区热门论文)
63
Graph Tokens Sink:图语言模型的机制分析

图语言模型将图拓扑与节点信息转化为图token供大语言模型处理。研究发现图token的内部显著性不等于图信息利用:图沉没token表现为少数隐藏维度的激活异常值,且偏向早期图token位置,但并未吸引查询token的最大注意力权重。剪枝、重定位和交换实验表明,这类token并非关键语义或结构token。这表明当前GLM映射后的图token表示未形成可用的拓扑感知内部表示,存在激活显著性与图语义效用之间的解耦。

推理现象/趋势论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL

针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
AgentCL:面向语言智能体持续学习的严格评估框架

AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。

智能体推理论文/研究
07:33
Hacker News 热门(buzzing.cc 中文翻译)
42
微软推出搭载英伟达显卡的Surface Laptop Ultra,与MacBook Pro一较高下

微软发布了新款Surface Laptop Ultra,其核心卖点在于搭载了英伟达RTX系列独立显卡。这款产品的目标是打造一款足以与苹果MacBook Pro正面竞争的笔记本电脑。

Microsoft产品更新推理端侧
03:49
AYi@AYi_AInotes
65
NVIDIA RTX Spark发布,3nm SoC整合ARM CPU、Blackwell GPU及128GB统一内存

NVIDIA发布RTX Spark,一款3nm制程的SoC,整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本,可本地运行120B大模型,并在1440p分辨率下满帧运行3A游戏,拔电后性能不降。此举被视为PC行业竞争规则的转变,从比拼CPU性能转向比拼AI算力与CUDA软件生态,标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制,并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径,旨在争夺未来三十年的PC行业主导权。

推理现象/趋势端侧
03:48
MiniMax (official)@MiniMax_AI
61
MiniMax M3 模型现已登陆 AI/ML API 平台。平台方通过 one-shot Doodle Jump 游戏对多个模型进行了测试,结果显示各模型输出效果相近,但价格差异显著:MiniMax M3 价格为 $0.05,Qwen 3.7 Max 为 $0.08,DeepSeek V4 Pro 为 $0.10,GPT-5.5 为 $0.42。MiniMax 方面以此强调其高性价比,并宣布该模型目前提供限时 50% 折扣。

AI/ML API: MiniMax M3 is now available on AI/ML API! To test it, we asked several leading models to oneshot Doodle Jump from the sc...

产品更新推理
02:40
Rohan Paul@rohanpaul_ai
57
英特尔将发布低成本AI数据中心芯片,主打推理场景

英特尔计划在年底前推出一款新的AI数据中心芯片,主打低成本策略以与英伟达、AMD竞争。其代号“Crescent Island”的策略聚焦推理任务,采用空气冷却和LPDDR5内存以降低总体成本,而非追求极致性能。这是在Gaudi芯片未能成功突围后,英特尔选择进入一个对自身制造优势更有利的细分市场。

推理行业动态
02:30
xAI@xai
67
Composer 2.5 现已在 Grok Build 中可用。 Composer 2.5 是一个快速、高度智能的模型,擅长处理长时间运行的任务和遵循复杂指令。
xAI推理模型发布
02:15
xAI:News(网页)
精选78
xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过/models菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布

推荐理由:xAI 的 Composer 2.5 主攻长任务和复杂指令,如果你在用 Grok 搭 Agent,这模型值得切过去试试,可能比之前的编码模型更稳。
02:09
Qwen@Alibaba_Qwen
83
通义千问发布 Qwen3.7-Plus 多模态智能体模型

通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。

智能体多模态推理模型发布
关联讨论 5 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)
00:38
Hugging Face:Blog(RSS)
精选71
JetBrains 发布 Mellum2:12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由:JetBrains 开源了 Mellum2,一个激活参数仅 2.5B 的 12B MoE 模型,专为代码和问答管道设计的快模型。做实时 RAG 或子代理时,终于不用硬扛大模型了。
00:09
Rohan Paul@rohanpaul_ai
74
Nemotron 3 Ultra将在几天内由Nvidia发布。 采用混合SSM(状态空间模型)+ 混合专家架构。 SSM部分专为长序列设计,因此模型可以更长时间地持续推理或使用工具,而不会被通常的注意力成本压垮。 黄仁勋在NVIDIA GTC台北2026上表示。 ---- 来自'NVIDIA' YouTube频道(链接在评论中)
推理模型发布
6月1日
23:36
The Verge:AI(RSS)
64
微软将在Build大会发布新AI模型及Windows改进

微软本周在旧金山举办Build大会,旨在赢回开发者。会议将披露Windows中的新AI模型、微软AI推出的新推理模型,以及Copilot“超级应用”。大会背景是微软围绕AI全面重组业务,但Windows和GitHub的信任度处于低谷,微软希望借此机会与开发者重建联系,并勾勒未来蓝图。

Microsoft推理端侧行业动态
23:05
elvis@omarsar0
71
关于自我改进智能体的宝贵建议

该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。

智能体arXiv推理论文/研究
22:38
Hugging Face:Blog(RSS)
精选60
超越LLM:为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由:不是又一篇炒作 agent 的文章,IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。
21:41
Ars Technica:AI(RSS)
34
英特尔:我们的下一代AI芯片将比英伟达、AMD的选项更便宜、更凉爽

英特尔即将推出的AI芯片Crescent Island采用了风冷设计并配备LPDDR5内存。英特尔表示,该芯片的运行成本将低于英伟达和AMD的同类产品,并且运行时更为凉爽。

产品更新推理
21:35
The Decoder:AI News(RSS)
68
Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型,但中国仍然领先

根据Artificial Analysis基准评估,Nvidia发布的Nemotron 3 Ultra模型被评为目前最强大的美国开源大语言模型。但这一成就并未改变中国在开源大语言模型领域仍然保持领先的格局。

开源生态推理模型发布
20:43
🚨 AI News | TestingCatalog@testingcatalog
55
NVIDIA宣布将于本周晚些时候发布Nemotron 3 Ultra,这是一个550B参数的开放权重模型。 根据Artificial Analysis,它被定位为美国实验室最智能的开放权重模型。 Soon 👀

NVIDIA AI: Nemotron 3 Ultra is coming this week. ⌛️

开源/仓库推理模型发布
19:11
Ars Technica:AI(RSS)
54
OpenAI 数学突破发挥 AI 优势

作者尝试对 OpenAI 的数学突破解决方案进行更清晰的解释,声称其解释比 OpenAI 自己的表述更为明晰。

OpenAI推理现象/趋势
18:47
MiniMax (official)@MiniMax_AI
64
确实如此 😎 #M3

Arif: MiniMax M3 scores 90.3% GPT 5.5 Scores 92.4% Just a 2.1% gap now at @convex. Incredible to see the open-source models cl...

开源生态推理模型发布
18:47
MiniMax (official)@MiniMax_AI
77
MiniMax M3 模型现已在 Novita AI 平台上线,并提供首周半价优惠。作为首个开源权重模型,它集成了前沿编码与智能体能力,在 SWE-Bench Pro 上得分 59.0%,Terminal Bench 2.1 上得分 66.0%,MCP Atlas 上得分 74.2%。该模型上下文窗口最高可达 1M tokens,由 MiniMax Sparse Attention 技术支持,并从一开始即支持原生多模态,可处理文本与视觉理解任务。Novita AI 作为其 Day-0 API 发布合作伙伴,为开发者提供接入服务。

Novita AI: 🚀 We're launching MiniMax M3 from @MiniMax_AI on Novita AI as a Day-0 API launch partner. The first open-weights model ...

多模态推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
18:42
Berryxia.AI@berryxia
71
KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布
17:05
IT之家(RSS)
52
高通发布数据中心品牌 Dragonfly

高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly,预计包含数据中心CPU与AI ASIC产品,并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测,到2030年AI Token(词元)需求将达到401.48×10^16。更多细节将于6月24日揭晓。

产品更新推理部署/工程
13:04
IT之家(RSS)
66
英伟达 Vera 处理器发布:专为 AI 智能体打造,OpenAI、SpaceXAI、字节跳动都要用

英伟达在2026年台北电脑展上正式推出Vera处理器。这是一款专为AI智能体设计的CPU,速度比x86处理器快1.8倍。它配备88个Olympus CPU核心和LPDDR5X内存子系统,内存带宽达1.2TB/s。作为Vera Rubin平台的主机CPU,Vera通过NVLink-C2C技术提供高达1.8TB/s的一致性带宽。首批客户包括OpenAI、Anthropic、SpaceXAI、字节跳动、纽约证券交易所等,计划于今年秋季上市。

产品更新推理
13:04
IT之家(RSS)
62
"全球最强大的桌面 AI 超级计算机",英伟达 DGX Station for Windows 发布
产品更新推理
13:04
IT之家(RSS)
66
英伟达推出 Alpamayo 2 Super 开源推理模型,助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作(VLA)模型,参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注,专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩,部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布
12:35
Artificial Analysis@ArtificialAnlys
81
NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra

NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

开源/仓库推理模型发布评测/基准
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)
‹ 上一页
1…1920212223…50
下一页 ›