AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月27日周三
02:02Ethan Mollick63无限上下文窗口对AI的挑战
01:34Rohan Paul52"第一滴墨水:误导信息对长上下文推理的非线性影响"
01:20AYi71纳瓦尔财富创造思维体系系统提示词
01:07Artificial Analysis60Gemini 3.5 Flash速度与agent能力提升,但成本显著增加
00:32Chubby♨️73Claude Mythos 解决 Erdős 问题 #90
00:15公众号:小米 MiMo57MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官
00:13IT之家(RSS)63首个被纳入的 AI 训练推理芯片,摩尔线程 MTT S5000(PH100 芯片)通过国家《安全可靠测评》
00:01Chubby♨️70MiniMax发布M3稀疏注意力,1M上下文下解码加速15.6倍
5月26日周二
23:49Nathan Lambert:Interconnects(RSS)67精选未来展望:2026年5月的一些想法
23:27Berryxia.AI44论文《Language Models Need Sleep》摘要
23:27Berryxia.AI62大语言模型需要"睡眠"来巩固记忆
23:27Berryxia.AI65大语言模型需要"睡眠"以提升推理准确率
22:28Ant Ling62SwiGLU在大输入下呈二次增长,PowLU应运而生
20:19HuggingFace Daily Papers(社区热门论文)64语言模型需要睡眠
19:13IT之家(RSS)42存内 AI 计算企业 TetraMem 完成 22nm SoC 验证,瞄准低功耗低延迟应用
16:19HuggingFace Daily Papers(社区热门论文)63预见与学习:释放主动智能体的空闲时间计算能力
16:00Alibaba Cloud39推理成AI竞赛新焦点,云端重构迎智能体时代
14:59Alibaba Cloud68Qwen3.7-Max 成为全球第二AI编程模型
14:29Alibaba Cloud48Qwen大会2026:AI关键帧直播预告
13:11IT之家(RSS)77同事件精选谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
11:35公众号:面壁智能(MiniCPM)59面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B
10:18HuggingFace Daily Papers(社区热门论文)64DVAO:面向多奖励强化学习的动态方差自适应优势优化
08:00HuggingFace Daily Papers(社区热门论文)59DEI:演化推理中的多样性用于质量-多样性搜索
08:00HuggingFace Daily Papers(社区热门论文)55如何与想象什么?--统一多模态模型中用于跨视图空间推理的视觉思考
08:00HuggingFace Daily Papers(社区热门论文)63SkillGrad:像梯度下降一样优化智能体技能
05:36MarkTechPost(RSS)55Together AI开源OSCAR:面向长上下文大语言模型服务的注意力感知2位KV缓存量化系统
5月25日周一
23:53Qwen61Qwen3.7-Max隐式缓存功能上线
18:58The Decoder:AI News(RSS)72同事件精选Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
15:28Rohan Paul67华为提出"τ缩放定律",以侧向创新突破芯片与存储瓶颈
14:28Rohan Paul32AI在为现实建模后方能取胜
13:11IT之家(RSS)77精选华为何庭波"韬定律"论文发布,逻辑折叠技术提升芯片性能
12:11IT之家(RSS)50英特尔被曝规划 8E+12Xe 款 "Nova Lake" 处理器:面向边缘应用的特殊型号
11:35公众号:面壁智能(MiniCPM)59面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN
10:20StepFun39用 Step 3.5 Flash 整理会议纪要
08:00HuggingFace Daily Papers(社区热门论文)50可验证奖励强化学习中的时间调度策略
08:00HuggingFace Daily Papers(社区热门论文)50三元组块扩散 RWKV
08:00HuggingFace Daily Papers(社区热门论文)60推进大型多模态模型的创造性物理智能
08:00HuggingFace Daily Papers(社区热门论文)53LLaVA-OneVision-2:迈向新一代感知智能
08:00HuggingFace Daily Papers(社区热门论文)68看得越多,就懂得越多吗?单锚点优势归一化实现多源视觉推理
07:27Rohan Paul47Chamath解析AI计算中的预填充与解码
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
02:02
Ethan Mollick@emollick
63
无限上下文窗口似乎给AI应用带来了巨大问题。当今的模型已经将太多旧信息泄露到当前回复中,这种干扰是它们使用起来令人认知疲劳的部分原因。 我不想与博尔赫斯的"记忆者富内斯"共事。
大佬观点推理现象/趋势
01:34
Rohan Paul@rohanpaul_ai
52
"第一滴墨水:误导信息对长上下文推理的非线性影响"

ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。

Muhan Gao: 🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...

arXiv推理教程/实践
01:20
AYi@AYi_AInotes
71
纳瓦尔财富创造思维体系系统提示词

该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。

AYi: http://x.com/i/article/2057300084354670592

推理教程/实践
01:07
Artificial Analysis@ArtificialAnlys
60
Gemini 3.5 Flash速度与agent能力提升,但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

智能体Google推理评测/基准
00:32
Chubby♨️@kimmonismus
73
Claude Mythos 解决 Erdős 问题 #90

数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是,Mythos 未复制 OpenAI 已知解法(题号 #1196),而是反复采用了另一条论证路径,被评价为更“简洁”且无“分析复杂性”,且整个过程与网络隔离。此前,GPT-5.5 已解决过多道 Erdős 问题,深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明,凸显了一个 80 年难题在数周内被接连攻破的趋势。

levent: over the weekend i checked the obvious thing, which is whether mythos is able to solve the erdos unit distance problem, ...

Anthropic推理现象/趋势
00:15
公众号:小米 MiMo
57
MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官

MiMo-V2.5 系列 API 永久降价,新定价最高降幅达 99%,不再区分上下文窗口长度,于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化,用量提升至原来 5-8 倍,计费规则更清晰。百万亿 Token 创造者激励计划提前收官,100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置,按新规则执行。推理优化基于 SGLang HiCache 支持 SWA,KV Cache 搬运量降至近 1/7,可缓存 token 数量提升至近 5 倍。

产品更新推理部署/工程
00:13
IT之家(RSS)
63
首个被纳入的 AI 训练推理芯片,摩尔线程 MTT S5000(PH100 芯片)通过国家《安全可靠测评》

摩尔线程 MTT S5000(基于 PH100 芯片)成为首款通过国家《安全可靠测评》的人工智能训练推理芯片。该芯片单卡 AI 算力(稠密)达 1000 TFLOPS,配备 80GB 显存(带宽 1.6TB/s),卡间互联带宽为 784GB/s。

推理政策/监管端侧
00:01
Chubby♨️@kimmonismus
70
MiniMax发布M3稀疏注意力,1M上下文下解码加速15.6倍

MiniMax预览了其M3架构采用的新稀疏注意力(Sparse Attention)技术。测试显示,在1M token上下文下,该技术相比M2实现了9.7倍的预填充(prefilling)加速和15.6倍的解码(decoding)加速。M2曾为保证生产环境就绪而采用全注意力机制,M3则采用了新的两阶段方法:先用轻量级索引分支选择数据块,再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。

MiniMax (official): #MSA #OpenSource #M3 🫣😎

开源生态推理模型发布
5月26日
23:49
Nathan Lambert:Interconnects(RSS)
精选67
未来展望:2026年5月的一些想法

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡(open-closed balance)的讨论、美国开源力量的显著增长(America's open-source surge),以及由此引发的新兴权力博弈(emerging power struggles)。

AnthropicGoogle大佬观点开源生态

推荐理由:Nathan Lambert 对开源模型追赶闭源的周期判断、Gemini 在编码代理领域的缺位分析,以及美国开源模型崛起的观察,为理解当前鼎立格局提供了扎实的坐标,值得从业者细读。
23:27
Berryxia.AI@berryxia
44
论文《Language Models Need Sleep》摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv开源生态推理论文/研究
23:27
Berryxia.AI@berryxia
62
大语言模型需要"睡眠"来巩固记忆

CMU与UMD的研究指出,当前长上下文大语言模型(如Mamba、Jet-Nemotron、Qwen3.5)的瓶颈并非记忆容量,而是“巩固计算”不足。论文《Language Models Need Sleep》提出,可模仿人类睡眠的海马回放机制,在清空前对模型的fast weights进行多次迭代更新(N次forward pass),以提升推理能力。实验表明,该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能,且不增加推理延迟。

推理现象/趋势
23:27
Berryxia.AI@berryxia
65
大语言模型需要"睡眠"以提升推理准确率

研究者提出新方法,认为大语言模型在处理长上下文信息后,需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前,让模型对当前context进行多次forward pass,将信息沉淀进模型的快速权重中,而非在用户等待时进行思考。实验表明,在相同token预算下,此方法可将多跳推理任务的准确率大幅提升52%,且推理延迟不变。

Berryxia.AI: http://x.com/i/article/2059287655335206912

大佬观点推理
22:28
Ant Ling@AntLingAGI
62
SwiGLU在现代大语言模型中无处不在--但对于大输入,它的行为类似于x2。这种二次增长会膨胀激活值,放大异常值,并使深层网络或低精度(FP8/FP4)训练容易出现损失尖峰。 我们提出了PowLU,一种为稳定大规模预训练而设计的即插即用激活函数。🧵
推理数据/训练论文/研究
20:19
HuggingFace Daily Papers(社区热门论文)
64
语言模型需要睡眠

针对Transformer架构在处理长上下文时注意力机制效率低的问题,研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重,并清空键值缓存。期间,模型通过N次离线循环处理累积上下文,并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段,从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务(常规Transformer及SSM-Attention混合模型均失败)上进行了测试。结果表明,增加睡眠持续期N能提升性能,在需要更深层次推理的任务上增益最大。

推理论文/研究
19:13
IT之家(RSS)
42
存内 AI 计算企业 TetraMem 完成 22nm SoC 验证,瞄准低功耗低延迟应用

硅谷AI芯片初创企业TetraMem完成22nm SoC MLX200在台积电制程上的芯片验证,评估套件预计2026H2推出。该芯片采用存内计算技术,通过模拟内存计算直接在内存中完成向量矩阵乘法,瞄准可穿戴设备、边缘IoT等低功耗低延迟应用场景。

推理端侧行业动态
16:19
HuggingFace Daily Papers(社区热门论文)
63
预见与学习:释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。

智能体arXiv推理论文/研究
16:00
Alibaba Cloud@alibaba_cloud
39
AI Key Frames - 直击 Qwen 直播现场。 最大的模型不会赢得 AI 竞赛--最快的系统才会。Fireworks AI 工程副总裁云锦解释了为何推理已成为真正的战场,以及云端如何为智能体时代而重建。步入 AI 原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/
推理行业动态部署/工程
14:59
Alibaba Cloud@alibaba_cloud
68
Qwen3.7-Max 正式成为全球第二大 AI 编程模型。在 Code Arena 上得分 1541,仅次于 Claude。专为生产环境打造:可运行 35 小时任务、1000+ 次工具调用,并在数小时内交付两周的项目。
推理模型发布编码
14:29
Alibaba Cloud@alibaba_cloud
48
AI Key Frames - 您在Qwen Conference 2026的Qwen直播前排席位。 解码AI生产力的核心。用全栈AI重塑增长曲线。 与行业先驱独家对话,跨越AI新前沿--推理、内容创作与开放AI生态系统。步入AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/ #AlibabaCloud #AINative #QwenConference2026 #Qwen #LLM
开源生态推理行业动态
13:11
IT之家(RSS)
同事件精选77
谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
智能体DeepMind开源生态推理
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
推荐理由:AlphaProof Nexus 不是刷榜,是真解了 Erdős 难题,56 年悬而未决的那两道——这说明 AI 开始从具身数学题爬向纯数学研究了,做理论的人该认真看一眼。
11:35
公众号:面壁智能(MiniCPM)
59
面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B,一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分,超越所有2B以下参数模型,包括Qwen3.5-2B(16.3分),验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB,可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain(全球首个完全由AI编写,训练速度比Megatron快10%)在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案,支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face开源生态推理模型发布
10:18
HuggingFace Daily Papers(社区热门论文)
64
DVAO:面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
DEI:演化推理中的多样性用于质量-多样性搜索

DEI是一个分布式质量-多样性(QD)搜索框架,将异构大语言模型分配为变异算子,通过非阻塞集体通信共享局部最优解。在Core War基准上,四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5)在相同LLM调用预算下,合并归档QD-Score达45.90(比单节点20.46高124%),覆盖率80.6%(比63.0%高28%),且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。

AnthropicOpenAI推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
如何与想象什么?--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
SkillGrad:像梯度下降一样优化智能体技能

针对智能体技能不可靠的问题,SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数,利用任务执行产生的轨迹级损失证据生成基于文本的梯度,并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示,SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线,平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。

智能体推理论文/研究
05:36
MarkTechPost(RSS)
55
Together AI开源OSCAR:面向长上下文大语言模型服务的注意力感知2位KV缓存量化系统

Together AI开源OSCAR,一种用于长上下文大语言模型服务的注意力感知2位KV缓存量化方法。该方法在离线状态下,从注意力感知的协方差结构中为键和值推导出独立的旋转。在2.28 bits per KV element的量化精度下,OSCAR将通义千问(Qwen3-4B-Thinking-2507)和通义千问(Qwen3-8B)的BF16精度差距分别缩小至3.78点和1.42点,同时实现约8倍的KV内存缩减,并在100K上下文长度下带来高达3倍的解码速度提升。

开源/仓库推理部署/工程
5月25日
23:53
Qwen@Alibaba_Qwen
61
✅隐式缓存现已在Qwen3.7-Max上线--自动启用,无需设置。 ⚡️开箱即用,更快更便宜。 需要更高、更确定的命中率?请尝试显式缓存。🙌 🔗最佳实践🔗:https://www.alibabacloud.com/help/en/model-studio/explicit-cache-best-practice
产品更新推理部署/工程
18:58
The Decoder:AI News(RSS)
同事件精选72
Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题,其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤,而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMindGoogle推理论文/研究
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
推荐理由:AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题,虽然成功率只有 2.5%,但这条路证明形式化验证+强化学习是走得通的,做推理的该盯着看了。
15:28
Rohan Paul@rohanpaul_ai
67
华为提出"τ缩放定律",以侧向创新突破芯片与存储瓶颈

华为提出τ缩放定律,旨在不依赖更先进制程的情况下,通过LogicFolding技术折叠逻辑模块、缩短信号传输距离来提升芯片性能与密度。华为称已量产采用此思路的381颗芯片,并计划于2031年实现等效1.4nm(14Å)密度,该定律以海思负责人何庭波命名。同样,华为在存储领域也展示了类似的“侧向创新”路径,其通过改变封装方式(Die-on-Board)而非追求最先进的NAND层数,推出了容量达122.88TB的AI SSD。

Rohan Paul: 🇨🇳 🇺🇸 China's Huawei's new 122TB SSD shows how export controls can move innovation sideways instead of simply stoppi...

大佬观点推理端侧
14:28
Rohan Paul@rohanpaul_ai
32
当现实被为AI翻译后,AI便能取胜。
大佬观点推理
13:11
IT之家(RSS)
精选77
华为何庭波"韬定律"论文发布,逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”,并介绍逻辑折叠(LogicFolding)技术。该技术通过三维空间拓扑重组提升芯片性能,不依赖新光刻工艺。在麒麟2026芯片测试中,晶体管密度从155 MTr/mm²提升至238 MTr/mm²,性能核心能效提高41%,最大时钟频率提升近13%。论文显示,麒麟2027芯片已进入Silicon状态,后续规划包括麒麟2028、2029。AI芯片方面,昇腾990计划在2030年左右引入逻辑折叠,硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:华为用‘逻辑折叠’替代光刻进步,在不依赖新工艺下实现代际性能提升,这是中国芯片行业的一个技术转折,做硬件和AI推理的值得仔细看看。
12:11
IT之家(RSS)
50
英特尔被曝规划 8E+12Xe 款 "Nova Lake" 处理器:面向边缘应用的特殊型号

英特尔正在规划一款专用于边缘应用的特殊型号“Nova Lake”处理器,其核心配置为 8 个能效核 (8E) 搭配 12 个 Xe GPU 单元 (12Xe)。这种设计使 CPU 部分仅具备能效核,而 GPU 规模达到了 Nova Lake 家族中的最大级别,旨在强化图形与计算性能,以适配 SLM 本地推理等边缘 AI 应用场景。

推理端侧行业动态
11:35
公众号:面壁智能(MiniCPM)
59
面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN,实现6倍显存效率提升,可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧
10:20
StepFun@StepFun_ai
39
@aresotik 用 Step Plan 和 Step 3.5 Flash 构建了一个轻量级会议纪要助手,以解决普遍存在的会议记录杂乱、行动项难以追踪的问题。用户粘贴原始笔记后,工具能输出包含摘要、行动项、风险、截止日期和跟进文案的结构化内容。其中 Step Plan 是 StepFun 提供的订阅制服务,支持开发者在各类工具中高效调用 Step 3.5 Flash 等模型。该工具设计简单,旨在提供实际帮助。

ares. 🎧: I built a lightweight meeting notes assistant with Hermes + StepFun's Step Plan. Step Plan is a subscription-based AI se...

推理教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
50
可验证奖励强化学习中的时间调度策略

本文指出,在大语言模型后训练的可验证奖励强化学习中,学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定,而本文引入时间维度,在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token,并逐渐转向一般化优化,从而使学习过程更稳定高效。实验表明,这种时间调度方法在数学和通用推理基准上实现了持续改进,并能引导更健康的策略演进。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
三元组块扩散 RWKV

B³D-RWKV 是一种扩散 RWKV 变体,旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法,将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下,在 8 项任务套件中达到了与现有模型相当的准确率,同时解码吞吐量显著优于基线,平均速度提升达 1.6 倍。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
60
推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型(LMMs)在开放环境中发现物理可行视觉解决方案的能力。为此,推出了MM-CreativityBench基准,用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明,当前LMMs因无法维持扎根式探索而表现不佳,常忽略实体、检查不足或产生模型幻觉。为此,研究提出功能可供性扎根对齐方法,将创造性工具使用建模为偏好学习问题,利用DPO引导模型选择基于视觉证据的推理,并结合可供性知识库监督,以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
LLaVA-OneVision-2:迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术,通过分析压缩视频的比特成本动态进行自适应分组,并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标,并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中,其 8B 版本达到 74.9 分的 mAP,显著超越 Qwen3-VL-8B(30.1 分),且在匹配 token 预算下,编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
看得越多,就懂得越多吗?单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习(RLVR)视觉推理方法在处理多源输入时,常将其视为简单信息堆叠,缺乏机制区分融合带来的信息增益与噪声干扰,导致多源性能可能低于单源。为此,本文提出MARS框架,将每种视觉模态建模为独立信息源,并以单源奖励为动态锚点,将多源融合引入的信息增益显式纳入优势归一化过程,以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明,该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究
07:27
Rohan Paul@rohanpaul_ai
47
Chamath谈AI计算中至关重要的"预填充"和"解码"。 预填充是计算密集型;大规模并行GPU胜出,因此随着上下文增长,Nvidia占据主导。 解码是内存带宽密集型,因为每个下一个token都依赖于扫描已生成的内容。
大佬观点推理
‹ 上一页
1…2526272829…50
下一页 ›