AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月13日周六
12:14Berryxia.AI60黄碧薇提出因果世界模型:AI需从相关性理解进化到因果机制
10:45MiniMax (official)80MiniMax M3 开源模型发布:1M-token 上下文与 MSA 稀疏注意力
08:07SemiAnalysis63MiniMax M3第0天发布
08:00HuggingFace Daily Papers(社区热门论文)77同事件精选Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
07:44AI Notkilleveryoneism Memes ⏸️65AI一年内攻克几乎全部最难数学题
06:34Artificial Analysis59Artificial Analysis 发布 AA-AgentPerf 基准,首批测试 DeepSeek V4 Pro 推理能效
06:04Rohan Paul53《从AGI到ASI》--Google DeepMind论文
05:43MiniMax (official)82同事件精选MiniMax M3 获 vLLM 日零支持,1M 上下文窗口与 MSA 稀疏注意力同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
05:28MarkTechPost(RSS)58Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率
04:52Chubby♨️49Apple用NVIDIA机密计算在谷歌云保护推理隐私
04:21Chubby♨️24Fable 5领先或止于GPT-5.6
03:33Ethan Mollick57Claude Fable 5 FrontierMath 成绩亮眼
03:26Epoch AI41Claude Fable 5 FrontierMath 得分 87-88%
03:13MiniMax (official)50MiniMax M3上线Telnyx推理,支持1M上下文
03:13MiniMax (official)64MiniMax M3 登陆 Fireworks AI,配 512K 上下文与 MSA 稀疏注意力
03:04AK46SpenseGPT:LLM推理的一次性剪枝方法
01:56Epoch AI64FrontierMath v2 上线,GPT-5.5 与 Google AI 领先
01:48Hacker News 热门(buzzing.cc 中文翻译)71精选Maxproof 论文发布
00:41Jeff Dean48单真实神经元可完成网络级任务
6月12日周五
22:12MiniMax (official)81同事件精选MiniMax M3 开源权重模型发布,已上架 HuggingFace同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:41🚨 AI News | TestingCatalog57Kimi K2.7 Code 开源发布,编码与智能体性能提升
21:20Chubby♨️66Moonshot 发布并开源 Kimi-K2.7-Code 编程模型
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
20:36IT之家(RSS)49英伟达向中国客户推介 Vera 数据中心 CPU,最快 8 月上市
20:36IT之家(RSS)43国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台
19:32meng shao70Kimi 开源发布编码模型 Kimi-K2.7-Code
18:24Kimi.ai70同事件精选Kimi 发布并开源最新代码模型 Kimi-K2.7-Code同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
16:26MarkTechPost(RSS)53Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
15:35IT之家(RSS)64华为发布开源盘古2.0模型:最高505B参数,余承东坦言算力有限
14:00HuggingFace Daily Papers(社区热门论文)77同事件精选MiniMax Sparse Attention(MSA)块状稀疏注意力同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
13:08Alibaba Cloud66阿里云NLAH:用自然语言替代代码
12:34IT之家(RSS)38Analog Tech 推出 5L 边缘 AI PC,内置 214 TOPS dNPU 加速卡
11:00HuggingFace Daily Papers(社区热门论文)58SpatialClaw:重新思考智能体空间推理的动作接口
11:00HuggingFace Daily Papers(社区热门论文)79同事件精选MaxProof:面向数学证明的群体级别测试时扩展框架(MiniMax-M3)同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
11:00HuggingFace Daily Papers(社区热门论文)63InterleaveThinker:强化智能体交错生成管线
11:00HuggingFace Daily Papers(社区热门论文)59SWITCH:可切换潜在推理框架
10:37karminski-牙医50FlashMemory: 将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率
10:00HuggingFace Daily Papers(社区热门论文)62HarnessBridge:面向LLM智能体调控的可学习双向控制器
08:06karminski-牙医62Google 发布 Diffusion Gemma,支持多模态输入,针对 4090/5090 优化
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
12:14
Berryxia.AI@berryxia
60
黄碧薇提出因果世界模型:AI需从相关性理解进化到因果机制

当前视频生成模型仅学到“手靠近→杯子动”的相关性,而非因果机制,导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型(Causal World Model),旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示,引入因果结构可使机器人成功率提升 25-50%,样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”,尤其在机器人、自动驾驶等真实物理场景中。

huangserva: 当前的 AI,连一个杯子都还没"真懂"。 极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。 画面看着挺...

具身智能大佬观点推理
10:45
MiniMax (official)@MiniMax_AI
80
MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
08:07
SemiAnalysis@SemiAnalysis_
63
祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B!MiniMax M3 包含: 🟠 块稀疏注意力,预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外,@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持 期待尝试 MiniMax M3 的性能!
开源生态推理模型发布部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能

Ling-2.6优化即时响应与输出token能力,Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计,提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练,通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。

智能体推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:万亿参数开源 Agent 模型,一个走即时响应,一个专攻复杂推理,对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。
07:44
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
65
一年之内,AI从几乎无法解决任何最难数学问题,发展到几乎能解决所有它们。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
06:34
Artificial Analysis@ArtificialAnlys
59
Artificial Analysis 发布 AA-AgentPerf 基准,首批测试 DeepSeek V4 Pro 推理能效

Artificial Analysis 发布新基准 AA-AgentPerf,首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell(GB300、B300)、Hopper(H200)及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数(要求 20 tokens/s 且 TTFT≤10s):GB300(机架级解耦)达 61,354,B300(单节点解耦)21,053,MI355X 3,551,H200 2,594。基准使用真实编码 agent 轨迹(最多 200 轮、序列超 100K tokens),允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍,且代际大幅领先 Hopper;MI355X 配置较早且未稳定启用推测解码,仍有优化空间。

DeepSeek推理评测/基准
06:04
Rohan Paul@rohanpaul_ai
53
《从AGI到ASI》--Google DeepMind论文

Google DeepMind新论文提出从通用人工智能到超级智能的四条路径:持续扩展(计算、模型规模、数据、测试时推理)、算法范式革新(超越Transformer架构)、递归自我改进(AI加速自身研发)、多智能体集体智能(众多专业AI智能体协作出超人类智能)。扩展可能遇到数据、算力、能源瓶颈;递归改进最不确定;多智能体路径最易被低估,通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁,而是AI辅助创造更好AI的加速链。

智能体推理论文/研究
05:43
MiniMax (official)@MiniMax_AI
同事件精选82
MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3把1M上下文从‘理论上能做’变成了‘今天就能部署’,MSA稀疏注意力是关键,开源社区和推理框架的深度合作值得关注。
05:28
MarkTechPost(RSS)
58
Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 驱动的文本转 SQL(Text-to-SQL)能力,在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码
04:52
Chubby♨️@kimmonismus
49
Apple用NVIDIA机密计算在谷歌云保护推理隐私

Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。

大佬观点推理部署/工程
04:21
Chubby♨️@kimmonismus
24
观察图表,我认为 Fable 5 只会保持领先直到 GPT-5.6。 其次,我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

AnthropicOpenAI推理评测/基准
03:33
Ethan Mollick@emollick
57
Claude Fable 5 在 FrontierMath 基准测试(Tiers 1-4, v2)中表现优异,Tiers 1-3 得分 87%,Tier 4 得分 88%,延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道:"图形的形状越来越熟悉了。"

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
03:26
Epoch AI@EpochAIResearch
41
Claude Fable 5 在 FrontierMath(Tiers 1-4,v2)上得分很高,在 Tiers 1-3 上达到 87%,在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。
Anthropic推理评测/基准
03:13
MiniMax (official)@MiniMax_AI
50
MiniMax M3现已登陆Telnyx推理平台。M3是首个结合前沿编码与智能体能力的开源权重模型,拥有1M token上下文窗口和原生多模态理解。凭借M3的1M上下文与Telnyx自有GPU基础设施,一次对话即可处理整个代码库。官方鼓励开发者立即使用。

Telnyx: @MiniMax_AI M3 is live on Telnyx Inference 🚀 M3 is the first open-weight model combining frontier coding & agent capabi...

产品更新推理
03:13
MiniMax (official)@MiniMax_AI
64
MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Fireworks AI: MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...

智能体多模态推理模型发布
03:04
AK@_akhaliq
46
SpenseGPT 实用的一次性剪枝,实现LLM推理的稀疏和密集GEMM
推理论文/研究
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
01:48
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Maxproof 论文发布

6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。

推理数据/训练论文/研究

推荐理由:MiniMax把数学证明拉到IMO金牌线以上,用的不是更大模型而是群体搜索+验证-修复的test-time scaling,做推理产品的人该看看这套流程。
00:41
Jeff Dean@JeffDean
48
据 Jeff Dean 转发,Ido Aizenbud 与合作者的新研究发现,单个皮层神经元能够对猫狗进行分类、识别口语单词并解决 10 位奇偶校验--这些任务此前被认为需要整个网络才能完成。

Ido Aizenbud: What can a neuron compute? Real biological neurons are complex, but how capable are they? Using a new method, we found t...

大佬观点推理论文/研究
6月12日
22:12
MiniMax (official)@MiniMax_AI
同事件精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:41
🚨 AI News | TestingCatalog@testingcatalog
57
KIMI AI🔥: 一个新的开源"Kimi K2.7 Code"模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

Hugging Face开源生态推理模型发布
21:20
Chubby♨️@kimmonismus
66
Moonshot 发布并开源 Kimi-K2.7-Code 编程模型,相比 K2.6 在多个基准上大幅提升:Kimi Code Bench v2 提高 21.8%,Program Bench 提高 11.0%,MLS Bench Lite 提高 31.5%。推理效率优化,推理 token 使用量降低 30%,指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

开源生态推理模型发布编码
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
20:36
IT之家(RSS)
49
英伟达向中国客户推介 Vera 数据中心 CPU,最快 8 月上市

英伟达已开始向中国客户推介其下一代数据中心 CPU Vera,该芯片不受美国出口禁令限制,最快今年 8 月上市,客户可启动下单。Vera 是英伟达首款独立 CPU,专为智能体 AI 和强化学习设计,运行速度达竞品 1.8 倍,已全面量产。中国客户计划先在海外数据中心部署测试,其中一家头部云服务商拟订购超 300 台双 Vera 服务器。单颗 Vera 售价超 2 万美元,满配 256 芯片机架约 1000 万美元。英伟达预计本财年 Vera 业务贡献约 200 亿美元收入。

产品更新推理
20:36
IT之家(RSS)
43
国产GPU厂商沐曦股份筹划赴港上市,拟搭建"A+H"双资本平台

沐曦股份董事会通过议案,拟发行H股并在香港联交所主板上市,初始发行规模不超过发行后总股本的5%,另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市,2025年营收16.44亿元同比增121.26%,GPU累计销量超5.5万颗;2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。

推理数据/训练行业动态
19:32
meng shao@shao__meng
70
Kimi 开源发布编码模型 Kimi-K2.7-Code

Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体开源生态推理模型发布
18:24
Kimi.ai@Kimi_Moonshot
同事件精选70
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。

开源生态推理模型发布编码
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:月之暗面这次把编码模型做到 K2.7 还直接开源,Bench 提升不小,关键是把「想太多」的毛病治了,推理 token 省了三成,做 coding agent 的可以立刻换上试试。
16:26
MarkTechPost(RSS)
53
Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。

多模态开源生态推理模型发布
15:35
IT之家(RSS)
64
华为发布开源盘古2.0模型:最高505B参数,余承东坦言算力有限

华为在HDC 2026上发布开源盘古openPangu 2.0模型,拥有512K上下文,提供Pro和Flash两个版本:Pro总参数505B、激活18B,Flash总参数92B、激活6B。该模型更亲和昇腾算力,单卡吞吐率可达其他主流开源模型2倍;更适配鸿蒙,Agent任务更快更准更省。计划从6月30日起陆续开源7大组件,包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B,因算力大量支持国内其他企业,自身留用有限,且AI算力成本高,华为更聚焦时延和吞吐率提升。

开源生态推理模型发布
14:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
MiniMax Sparse Attention(MSA)块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHubHugging Face开源/仓库推理
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍,而且直接开源了高效CUDA kernel和模型,做agent和代码仓库级推理的团队可以赶紧试试。
13:08
Alibaba Cloud@alibaba_cloud
66
🚀 驯服智能体混乱? 论文揭示NLAH:用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码,模型token降低95%(60k→2.9k) ✅ 模块化设计实现精确的价值归因 ✅ 识别"负面资产",如多候选搜索 从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering
智能体推理编码论文/研究
12:34
IT之家(RSS)
38
Analog Tech 推出 5L 边缘 AI PC,内置 214 TOPS dNPU 加速卡

日本 Analog Tech 发布紧凑型边缘 AI PC 系统 AironiA AIR-AD-AI-001,体积约 5L(200×250×95mm)。该机型基于酷睿 Ultra 5 处理器 225,通过 PCIe 扩展一颗 INT8 算力 214 TOPS 的 dNPU 加速卡(AxeleraAI Metis AIPU,三星 5nm,8~15W)。运行 YOLOv5 模型可同时处理 24 条视频流,支持升级至 AxeleraAI Europa。标配 32GB DDR5 5600MT/s 内存、512GB M.2 NVMe SSD,配备 2.5GbE+1GbE 双网卡、HDMI 2.1/2.0、DP 1.4a 及 4 个 USB 3.X 接口。

产品更新推理端侧
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
同事件精选79
MaxProof:面向数学证明的群体级别测试时扩展框架(MiniMax-M3)

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架,用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力,验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时,MaxProof 将模型用作生成器、验证器、精炼器和排序器,在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42,USAMO 2026 达 36/42,均超过人类金牌阈值。

推理论文/研究
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平,IMO 2025 35/42,USAMO 2026 36/42。这篇的意义不只分数,而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
11:00
HuggingFace Daily Papers(社区热门论文)
59
SWITCH:可切换潜在推理框架

SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。

arXiv推理论文/研究
10:37
karminski-牙医@karminski3
50
FlashMemory: 将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4支持1M上下文,显存约10GB(对比DeepSeek-V3.2约84GB)。FlashMemory论文进一步将显存压至1.3GB,并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器(小模型),通过预测所需历史片段按需加载,实现注意力降噪。训练采用解耦双编码器架构,无需加载DeepSeek-V4基座模型,训练成本大幅下降。论文:arxiv.org/abs/2606.09079;项目:github.com/libertywing/FlashMemory-Deepseek-V4。

DeepSeek推理教程/实践部署/工程
10:00
HuggingFace Daily Papers(社区热门论文)
62
HarnessBridge:面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。

智能体MCP/工具推理论文/研究
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型

Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。

智能体推理模型发布
‹ 上一页
1…1112131415…50
下一页 ›