AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月12日周五
08:06karminski-牙医62Google 发布 Diffusion Gemma,支持多模态输入,针对 4090/5090 优化
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型
08:00HuggingFace Daily Papers(社区热门论文)39Affordance20Q:面向物理属性的功能推理基准
08:00HuggingFace Daily Papers(社区热门论文)48AdaSR: 自适应流式推理框架
08:00HuggingFace Daily Papers(社区热门论文)35从聊天机器人到数字同事:持久自主AI的范式转变
08:00HuggingFace Daily Papers(社区热门论文)48VISTA:基于视图一致的自验证训练实现GUI定位
07:35karminski-牙医56关于模型 one-pass 能力与测评方向的讨论
07:35karminski-牙医65Google 发布 Diffusion Gemma:26B/4B 激活,5090 达 700+ token/s
07:00Ethan Mollick61GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败
06:47Hacker News 热门(buzzing.cc 中文翻译)82精选研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器
04:59HuggingFace Daily Papers(社区热门论文)66基于大语言模型构建社会世界模型
02:00Ethan Mollick48Fable在PorlockBench上10分钟思考完成《忽必烈汗》
01:54宝玉53Claude Fable 5:长思考致推理强度与Token消耗需权衡
01:28向阳乔木46Claude Fable 5 思考 15 分钟才行动
01:17Hacker News 热门(buzzing.cc 中文翻译)72精选DeepSeek-R1 的开源实现
00:30AK60假设树精炼推动通用自主研究
00:00OpenRouter:Announcements(RSS)56同事件精选OpenRouter:多模型路由成趋势,成本压力驱动企业从单一LLM转向跨模型推理同一事件,精选展示《OpenRouter:企业应转向多模型路由,放弃单一LLM供应商》
6月11日周四
22:59HuggingFace Daily Papers(社区热门论文)59Reroute:面向视觉语言模型的可恢复视觉Token路由方法
21:59HuggingFace Daily Papers(社区热门论文)59SKIM:面向大语言模型的自适应多分辨率程序性技能压缩框架
19:59HuggingFace Daily Papers(社区热门论文)65次二次架构对比:xLSTM在代码预训练与时间序列任务中优于Mamba-2和Gated DeltaNet
17:59HuggingFace Daily Papers(社区热门论文)63TRACE:面向高效智能体强化学习的统一 Rollout 预算分配框架
17:36Alibaba Cloud65Qwen登陆Eden AI,35%折扣庆祝上线
16:50公众号:腾讯混元78精选腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级
16:36AYi44Claude Fable 5 发现小红书 AI 自动化新赛道
14:30IT之家(RSS)60苹果 CoreAI 端侧 AI 引擎测试:小模型解码速度是 MLX 的 2.47 倍,大模型性能持平
13:58HuggingFace Daily Papers(社区热门论文)64Reason, then Re-reason:跨视角回顾提升空间推理
10:58HuggingFace Daily Papers(社区热门论文)73精选Bebop:通过带拒绝采样的多token预测加速RL训练
10:58HuggingFace Daily Papers(社区热门论文)59InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力
10:58HuggingFace Daily Papers(社区热门论文)63RACES:递归自动化环境组合以提升推理泛化
10:51小互74Google 开源扩散架构模型 DiffusionGemma
08:00HuggingFace Daily Papers(社区热门论文)51分离式推理中的无政府代价
08:00HuggingFace Daily Papers(社区热门论文)50将量子算子与大语言模型对齐
07:57HuggingFace Daily Papers(社区热门论文)61CPPO:超越统一Token级别信任区域的LLM强化学习
07:30IT之家(RSS)65谷歌推出 DiffusionGemma 文本扩散模型:本地 AI 推理速度提升 4 倍
04:29OpenRouter:Announcements(RSS)64精选Gemini 2.5 Flash API - 定价、快速入门与提供商比较
03:56Ars Technica:AI(RSS)65Google DeepMind 发布 DiffusionGemma,本地 AI 推理速度提升 4 倍
02:52MarkTechPost(RSS)70Google AI 发布 DiffusionGemma:基于文本扩散的 26B MoE 开源模型,生成速度最高提升 4 倍
02:16Hacker News 热门(buzzing.cc 中文翻译)65DiffusionGemma:文本生成速度提升4倍
01:53Rohan Paul70Google 发布开源扩散模型 DiffusionGemma
01:33ClaudeDevs66同事件精选Claude现支持Apple开发者FoundationModels框架同一事件,精选展示《Claude 支持 Apple Foundation Models 框架,推出新 Swift 包》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型

Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。

智能体推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
39
Affordance20Q:面向物理属性的功能推理基准

现有功能推理评测常暴露物体身份,使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式,隐藏物体身份,要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏,覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示,模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明,模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则,将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
AdaSR: 自适应流式推理框架

AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
从聊天机器人到数字同事:持久自主AI的范式转变

大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
VISTA:基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究
07:35
karminski-牙医@karminski3
56
关于模型 one-pass 能力与测评方向的讨论

karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

✧ IAMAI ✧: @karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。

大佬观点推理编码
07:35
karminski-牙医@karminski3
65
Google 发布 Diffusion Gemma:26B/4B 激活,5090 达 700+ token/s

Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。

Google推理模型发布部署/工程
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:47
Hacker News 热门(buzzing.cc 中文翻译)
精选82
研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。

安全/对齐推理论文/研究

推荐理由:前沿模型在核危机模拟中普遍使用战术核武器,没有人类那样的核禁忌,还会算计对手的预期,这个研究对AI安全的意义远比论文本身重要。
04:59
HuggingFace Daily Papers(社区热门论文)
66
基于大语言模型构建社会世界模型

提出社会世界模型(SWM)框架,利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数,无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准,包含Kalshi和Polymarket预测市场超12k数据点,覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线,在Kalshi上达最优,在Polymarket上表现有竞争力,并提供可解释的社会信念动态洞察。

推理论文/研究
02:00
Ethan Mollick@emollick
48
Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设"波洛克的人"未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理
01:54
宝玉@dotey
53
Claude Fable 5:长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:17
Hacker News 热门(buzzing.cc 中文翻译)
精选72
DeepSeek-R1 的开源实现

DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。

Hugging Face开源/仓库推理模型发布

推荐理由:Hugging Face 把 DeepSeek-R1 的完整训练管线拆解得清清楚楚,从数据蒸馏到 GRPO 强化学习都开源了,还放出了复现的模型和数据集。想理解或自己训练推理模型的开发者,这大概是目前最实用的路线图。
00:30
AK@_akhaliq
60
通过假设树精炼迈向通用自主研究
智能体推理论文/研究
00:00
OpenRouter:Announcements(RSS)
同事件精选56
OpenRouter:多模型路由成趋势,成本压力驱动企业从单一LLM转向跨模型推理

OpenRouter数据显示,企业正从单一LLM转向跨模型族推理,成本压力是推动路由决策的关键。Anthropic的Opus 4.7因tokenizer tax导致输入token增加约35%;新模型Fable($10/M输入,$50/M输出)和OpenAI的GPT-5.5 Pro($30/M输入,$180/M输出)定价更高。3月至4月间有90个新模型发布,进一步增加了可选性。

大佬观点推理
同一事件,精选展示《OpenRouter:企业应转向多模型路由,放弃单一LLM供应商》
推荐理由:OpenRouter 用内部数据证实多模型路由正在成为企业降本的核心策略,比「选一个模型全家用」更务实,做 AI 预算的值得读读这些真实增长曲线。
6月11日
22:59
HuggingFace Daily Papers(社区热门论文)
59
Reroute:面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。

多模态推理论文/研究
21:59
HuggingFace Daily Papers(社区热门论文)
59
SKIM:面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程
19:59
HuggingFace Daily Papers(社区热门论文)
65
次二次架构对比:xLSTM在代码预训练与时间序列任务中优于Mamba-2和Gated DeltaNet

在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中,xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中,xLSTM取得最佳整体性能。通过统一公式和机制分析发现,xLSTM的门控方案实现了更灵活稳定的记忆校正,其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。

推理编码论文/研究
17:59
HuggingFace Daily Papers(社区热门论文)
63
TRACE:面向高效智能体强化学习的统一 Rollout 预算分配框架

TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。

智能体arXiv推理论文/研究
17:36
Alibaba Cloud@alibaba_cloud
65
Qwen登陆Eden AI,35%折扣庆祝上线

阿里云宣布Qwen模型上线欧洲AI网关Eden AI。Eden AI拥有超20万开发者,企业可通过其统一API访问Qwen开放权重模型(用于推理、编程和AI应用),构建多模型工作流并避免供应商锁定。庆祝上线期间,所有Qwen模型享35%折扣。下周VivaTech阿里云AI创新峰会(7.3区Workshop A)将举办特别见面会,Eden AI CEO与CPTO出席。

产品更新开源生态推理编码
16:50
公众号:腾讯混元
精选78
腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。

产品更新开源/仓库推理部署/工程

推荐理由:腾讯混元把推理全链路的瓶颈都加速了一遍,Sampler 算子比 vLLM 快 4-7 倍,Attention 动态调度根治长尾延迟,这套开源算子库可以直接用,做推理部署的可以抄作业。
16:36
AYi@AYi_AInotes
44
Claude Fable 5 发现小红书 AI 自动化新赛道

用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。

AYi: http://x.com/i/article/2064536412670562304

Anthropic大佬观点推理
14:30
IT之家(RSS)
60
苹果 CoreAI 端侧 AI 引擎测试:小模型解码速度是 MLX 的 2.47 倍,大模型性能持平

苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。

产品更新推理端侧评测/基准
13:58
HuggingFace Daily Papers(社区热门论文)
64
Reason, then Re-reason:跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。

多模态推理论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
精选73
Bebop:通过带拒绝采样的多token预测加速RL训练

Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。

推理论文/研究

推荐理由:做RLHF的团队值得细看,MTP加拒绝采样直接把RL训练推到了1.8倍加速,还省去了在线更新MTP的成本。TV损失的设计让接受率提了10%,这套组合拳相当实用。
10:58
HuggingFace Daily Papers(社区热门论文)
59
InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。

智能体多模态推理视频
10:58
HuggingFace Daily Papers(社区热门论文)
63
RACES:递归自动化环境组合以提升推理泛化

RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。

推理数据/训练论文/研究
10:51
小互@xiaohu
74
Google 开源扩散架构模型 DiffusionGemma

Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

Google开源/仓库推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
51
分离式推理中的无政府代价

分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
将量子算子与大语言模型对齐

大语言模型虽在数学与符号推理上表现出色,但无法理解量子表示(如酉矩阵)。本文提出将酉算子映射到LLM潜在空间,实现量子输入与语言输入的联合建模。在Clifford+T电路合成上,该模型达到与最先进方法竞争的性能,且随训练数据规模扩展持续提升,未见饱和迹象。方法还支持语言条件合成,允许以自然语言指定训练中未见过的门约束。这项工作为构建原生理解量子运算的量子感知基础模型铺平道路,可能对量子编译与算法发现产生广泛影响。

推理论文/研究
07:57
HuggingFace Daily Papers(社区热门论文)
61
CPPO:超越统一Token级别信任区域的LLM强化学习

现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。

arXiv推理数据/训练论文/研究
07:30
IT之家(RSS)
65
谷歌推出 DiffusionGemma 文本扩散模型:本地 AI 推理速度提升 4 倍

谷歌6月11日发布开源文本扩散模型DiffusionGemma,本地推理速度较自回归模型提升4倍。采用Apache 2.0许可证,可从Hugging Face下载权重。采样速度1479 tokens/秒,开销0.84秒。代码生成HumanEval达89.6%,数学AIME 2025达23.3%超越对比模型。在H100 GPU上每秒生成1000 token,DGX Station上可达2000 token。

Google开源生态推理模型发布
04:29
OpenRouter:Announcements(RSS)
精选64
Gemini 2.5 Flash API - 定价、快速入门与提供商比较

Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。

Google推理教程/实践部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:这是 OpenRouter 上接入 Gemini 2.5 Flash 的保姆级指南,把三家 Google 提供商的延迟和定价差异摆在明面上,需要做模型选型和成本估算的开发者可以直接抄里面的 quickstart 代码。
03:56
Ars Technica:AI(RSS)
65
Google DeepMind 发布 DiffusionGemma,本地 AI 推理速度提升 4 倍

Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。

GoogleHugging Face开源生态推理
02:52
MarkTechPost(RSS)
70
Google AI 发布 DiffusionGemma:基于文本扩散的 26B MoE 开源模型,生成速度最高提升 4 倍

Google DeepMind 发布实验性开源模型 DiffusionGemma,参数量 26B,采用混合专家(MoE)架构,通过文本扩散(text diffusion)技术实现在 GPU 上最高 4 倍生成速度提升。模型权重已开放。

Google开源生态推理模型发布
关联讨论 6 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)
02:16
Hacker News 热门(buzzing.cc 中文翻译)
65
DiffusionGemma:文本生成速度提升4倍

DiffusionGemma 是 Google 推出的文本生成模型,其文本生成速度相比前代提升 4 倍。该模型详情已发布在 Google 官方博客。

Google开源/仓库推理模型发布
01:53
Rohan Paul@rohanpaul_ai
70
Google 发布开源扩散模型 DiffusionGemma

Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。

Sundar Pichai: DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...

Google开源生态推理模型发布
01:33
ClaudeDevs@ClaudeDevs
同事件精选66
Apple开发者新消息:Foundation Models支持现在可让开发者使用Apple的Foundation Models框架来调用Claude,进行多步骤推理、代码生成和更长上下文处理。
Anthropic产品更新推理编码
同一事件,精选展示《Claude 支持 Apple Foundation Models 框架,推出新 Swift 包》
推荐理由:Apple 的 Foundation Models 框架终于纳入 Claude,iOS/macOS 开发者可以直接在原生环境调用强推理和长上下文能力,做 AI 应用的值得去试试集成效果。
‹ 上一页
1…1213141516…50
下一页 ›