专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。
专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。
群联电子宣布其Pascari aiDAPTIV内存延伸技术现已适配英特尔第3代酷睿Ultra处理器(Panther Lake)并支持OpenVINO工具套件。该技术通过将AI工作内存从系统DRAM拓展至高性能NAND,降低了本地AI负载对DRAM的需求。内部测试显示,搭载该技术的系统仅需16GB DRAM即可执行26B参数规模的AI模型,而未适配的系统则需32GB DRAM才能完成相同任务。这增强了AI PC本地运行更大模型、支持更长会话及代理式AI工作流的能力。
图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。
Make sure to join our live Spaces chat on MiniMax M3 starting in 4 hours. You can pre-submit questions by replying to th...
微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1,该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型,以完善其自有模型矩阵。此外,微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态,但该功能测试版预计要到夏末才会推出。
KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。
提出 Prompt-Level Distillation (PLD),从 Teacher 模型提取显式推理模式并组织为结构化指令列表,注入 Student 模型的 System Prompt。在 Gemma-3 4B 上,PLD 将 StereoSet Macro F1 从 57% 提升至 90.0%,Contract-NLI 从 67% 提升至 83%,LogiQA 准确率达 70%;在 Mistral Small 3.1 上取得相似结果,验证跨架构泛化能力。PLD 无需微调,推理延迟极低,决策过程透明可人工验证,适合法律、金融、内容审核等监管行业及高吞吐边缘设备。
针对GRPO训练中rollout多样性不足的问题,研究发现同一模型家族内的小模型天然具有更高的策略级多样性(pass@k优于大模型),且这种多样性具有时序相关性、逻辑一致性和结构化探索信号。提出S2L-PO框架,利用固定小模型作为探索者训练大模型,并设计渐进退火策略从小模型离线rollout过渡到大模型自身采样,避免性能下降、加速收敛。S2L-PO在多个数学推理基准上提升准确率,例如用1.7B探索者引导8B模型在AIME 24上提升8.8%,同时减少rollout计算量。
指令微调使大语言模型校准性本就低于基座模型,而聊天模板通过“所有权偏见”进一步加剧偏差:模型对自己的回答比用户给出的相同答案显著更自信。在6个开源权重LLM、3个基准和3种置信度获取方法上,模型给自己回答分配的置信度最高高出26%。研究者提出简单推理时策略:获取置信度时将模型回答伪装成用户输入,无需重新训练即可将过度自信降低、校准性提升最高26%,缩小了基座与指令微调模型间的差距。
EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。
大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发,研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道,并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明,作为推理时引导(ICL),可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能;而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息,但自主生成分析仍是主要瓶颈。
本文将推理预算分配建模为受经济学原理支配的全局约束优化问题。通过移位激增函数(shifted-surge function)量化每查询推理效用,推导出基于全局影子价格的最优分配策略,实现资源稀缺下边际效用均衡。据此提出的CLEAR方法,将资不抵债的查询理性放弃,资源重新分配给接近涌现阈值的可解查询。在多种推理任务与流量模式实验中,CLEAR显著改善总token成本与平均准确率的Pareto前沿,资源稀缺时全局准确率相比均匀分配最高提升3倍。
ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。
图语言模型将图拓扑与节点信息转化为图token供大语言模型处理。研究发现图token的内部显著性不等于图信息利用:图沉没token表现为少数隐藏维度的激活异常值,且偏向早期图token位置,但并未吸引查询token的最大注意力权重。剪枝、重定位和交换实验表明,这类token并非关键语义或结构token。这表明当前GLM映射后的图token表示未形成可用的拓扑感知内部表示,存在激活显著性与图语义效用之间的解耦。
针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。
AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。
微软发布了新款Surface Laptop Ultra,其核心卖点在于搭载了英伟达RTX系列独立显卡。这款产品的目标是打造一款足以与苹果MacBook Pro正面竞争的笔记本电脑。
NVIDIA发布RTX Spark,一款3nm制程的SoC,整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本,可本地运行120B大模型,并在1440p分辨率下满帧运行3A游戏,拔电后性能不降。此举被视为PC行业竞争规则的转变,从比拼CPU性能转向比拼AI算力与CUDA软件生态,标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制,并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径,旨在争夺未来三十年的PC行业主导权。
MiniMax M3 is now available on AI/ML API! To test it, we asked several leading models to oneshot Doodle Jump from the sc...
英特尔计划在年底前推出一款新的AI数据中心芯片,主打低成本策略以与英伟达、AMD竞争。其代号“Crescent Island”的策略聚焦推理任务,采用空气冷却和LPDDR5内存以降低总体成本,而非追求极致性能。这是在Gaudi芯片未能成功突围后,英特尔选择进入一个对自身制造优势更有利的细分市场。
xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过/models菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。
通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。
关联讨论 5 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。
微软本周在旧金山举办Build大会,旨在赢回开发者。会议将披露Windows中的新AI模型、微软AI推出的新推理模型,以及Copilot“超级应用”。大会背景是微软围绕AI全面重组业务,但Windows和GitHub的信任度处于低谷,微软希望借此机会与开发者重建联系,并勾勒未来蓝图。
该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
英特尔即将推出的AI芯片Crescent Island采用了风冷设计并配备LPDDR5内存。英特尔表示,该芯片的运行成本将低于英伟达和AMD的同类产品,并且运行时更为凉爽。
根据Artificial Analysis基准评估,Nvidia发布的Nemotron 3 Ultra模型被评为目前最强大的美国开源大语言模型。但这一成就并未改变中国在开源大语言模型领域仍然保持领先的格局。
Nemotron 3 Ultra is coming this week. ⌛️
MiniMax M3 scores 90.3% GPT 5.5 Scores 92.4% Just a 2.1% gap now at @convex. Incredible to see the open-source models cl...
🚀 We're launching MiniMax M3 from @MiniMax_AI on Novita AI as a Day-0 API launch partner. The first open-weights model ...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...
高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly,预计包含数据中心CPU与AI ASIC产品,并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测,到2030年AI Token(词元)需求将达到401.48×10^16。更多细节将于6月24日揭晓。
英伟达在2026年台北电脑展上正式推出Vera处理器。这是一款专为AI智能体设计的CPU,速度比x86处理器快1.8倍。它配备88个Olympus CPU核心和LPDDR5X内存子系统,内存带宽达1.2TB/s。作为Vera Rubin平台的主机CPU,Vera通过NVLink-C2C技术提供高达1.8TB/s的一致性带宽。首批客户包括OpenAI、Anthropic、SpaceXAI、字节跳动、纽约证券交易所等,计划于今年秋季上市。
英伟达开源了 Alpamayo 2 Super 视觉-语言-动作(VLA)模型,参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注,专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩,部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。
NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)