AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1187 条
全部一手资讯X论文
标签「推理」清除
6月26日周五
03:01Hacker News 热门(buzzing.cc 中文翻译)78精选IBM 首度推出亚纳米级芯片技术
00:16Hugging Face:Blog(RSS)65精选OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
00:00LMSYS:Blog(Chatbot Arena 团队)58精选SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡
6月25日周四
18:58IT之家(RSS)43富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍
18:25Ars Technica:AI(RSS)65IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构
18:07The Decoder:AI News(RSS)64高通凭借自研处理器进入数据中心市场
17:07The Decoder:AI News(RSS)65Google将电脑控制功能直接集成到Gemini 3.5 Flash中
14:07Artificial Intelligence News(RSS)53OpenAI Jalapeño芯片背后的成本逻辑
13:12HuggingFace Daily Papers(社区热门论文)44V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理
11:12HuggingFace Daily Papers(社区热门论文)70精选Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
11:12HuggingFace Daily Papers(社区热门论文)67iLLaDA:改进的大型语言扩散模型
09:58IT之家(RSS)41高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器
09:58IT之家(RSS)56快手系芯片公司"凌川科技"用上韬定律,全国产 3D 堆叠芯片完成流片
08:58IT之家(RSS)55美光、高通业绩展望超预期,AI 芯片板块市值单日暴涨 4000 亿美元
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)65何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限
08:00HuggingFace Daily Papers(社区热门论文)49InfoKV:信息感知的KV缓存压缩用于长推理
07:07TechCrunch:AI(RSS)57Cerebras财报后股价暴跌,CEO称利润率指引被误解
06:58IT之家(RSS)50消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能
04:07The Decoder:AI News(RSS)51OpenAI 称 ChatGPT Instant 更能理解用户真实意图
02:59Hacker News 热门(buzzing.cc 中文翻译)57OpenAI 发布首款定制芯片 Jalapeño,由博通制造
01:29Hacker News 热门(buzzing.cc 中文翻译)69OpenAI 与博通推出 LLM 推理优化芯片
01:05Google Research:Blog(网页)69精选思考即回忆:推理如何解锁LLM中的参数化知识
6月24日周三
23:09The Verge:AI(RSS)56OpenAI 发布首款自研 AI 处理器:Jalapeño
22:04The Decoder:AI News(RSS)60OpenAI与Broadcom发布首款定制芯片"Jalapeño",专为LLM推理设计
21:12HuggingFace Daily Papers(社区热门论文)51AGORA:一个基于档案的智能体工作场所文档推理基准
21:01OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño
15:37MarkTechPost(RSS)74精选DFlash:块扩散草稿模型实现最高15倍吞吐量提升
15:20公众号:蚂蚁百灵(Ling)49Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
10:49HuggingFace Daily Papers(社区热门论文)51CF-World:一个用于测试T2I模型因果推理的反事实基准
00:19IT之家(RSS)39小米 MiMo-V2.5-Pro-UltraSpeed 限时体验延期
6月23日周二
19:10公众号:小红书技术(dots.llm)54小红书QEcon分享:Agent驱动的服务端端到端测试
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
15:07IT之家(RSS)54Sakana AI 推出多智能体编排系统 Sakana Fugu
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:45Hacker News 热门(buzzing.cc 中文翻译)49VibeThinker-3B:探索小语言模型中可验证推理的前沿
14:41MarkTechPost(RSS)68GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
03:01
Hacker News 热门(buzzing.cc 中文翻译)
精选78
IBM 首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

推理数据/训练论文/研究

推荐理由:IBM 把芯片制程推进到亚纳米,0.7nm 意味着 AI 芯片能塞进两倍晶体管,这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年,但技术路线图清晰,值得关注。
00:16
Hugging Face:Blog(RSS)
精选65
OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face开源生态推理论文/研究

推荐理由:OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里,优势在名词动词等意义词,但在重复 token 上接近消失,这份洞察对做模型架构的人很有启发性。
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选58
SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由:SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法,实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%,用 SGLang 跑 MoE 推理的开发者值得一试。
6月25日
18:58
IT之家(RSS)
43
富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON(自上而下网络并行分层计算)架构,宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割,降低计算复杂度并提升并行性,减少长上下文或多线程同步时的访存开销。测试显示,600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用,其中1.2B模型达475倍性能但质量略低。此外,每次迭代所需KV Cache更少,可提升最大迭代次数,有助降低GPU成本。

推理论文/研究
18:25
Ars Technica:AI(RSS)
65
IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构

IBM 发布全球首个亚 1 纳米芯片技术,采用名为 nanostack 的垂直堆叠晶体管架构,在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为上一代 2 纳米节点的两倍。该技术基于 0.7 纳米节点(7 埃),可带来 50% 的计算性能提升或 70% 的能效提升,并实现 SRAM 缩放 40% 的改进。IBM 预期采用 nanostack 架构的商用芯片有望在未来 5 至 10 年内量产。

推理数据/训练行业动态
18:07
The Decoder:AI News(RSS)
64
高通凭借自研处理器进入数据中心市场

高通推出数据中心处理器 Dragonfly C1000,针对 AI 智能体优化,主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时,高通以约 40 亿美元收购 AI 初创公司 Modular,其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振,高通盘后股价上涨 15%,公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元,其中数据中心目标 150 亿美元。

智能体Meta产品更新推理
17:07
The Decoder:AI News(RSS)
65
Google将电脑控制功能直接集成到Gemini 3.5 Flash中

Google将“Computer Use”功能直接集成到Gemini 3.5 Flash,模型可自主看、理解并操作电脑、浏览器和移动设备,此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具,开发者可构建跨平台智能体,用于软件测试或办公自动化。在OSWorld基准测试中,Gemini 3.5 Flash得分78.4,高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1),略低于GPT-5.5(78.7),Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护:敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供,附带Browserbase演示和GitHub参考实现。

智能体Google产品更新推理
14:07
Artificial Intelligence News(RSS)
53
OpenAI Jalapeño芯片背后的成本逻辑

OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。

OpenAI产品更新推理部署/工程
13:12
HuggingFace Daily Papers(社区热门论文)
44
V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
精选70
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。

arXiv推理视频论文/研究

推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
11:12
HuggingFace Daily Papers(社区热门论文)
67
iLLaDA:改进的大型语言扩散模型

iLLaDA是一个8B参数的掩码扩散语言模型,采用完全双向注意力机制训练,预训练数据量达12T tokens,并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA,iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点,iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练,iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。

开源生态推理模型发布
09:58
IT之家(RSS)
41
高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器

高通在投资者日发布 Dragonfly 方案,含 HBC 分离式架构(2D 基板+TSV 堆叠 LPDDR DRAM,能效与 TCO 优于 HBM)、C1000 CPU(250+ Oryon 内核、>5GHz,能效达竞品 2 倍,2028 年上市)及 AI300 推理平台(HBC Gen 2,每 W 带宽较今天 GPU 提升 4~8 倍,有效内存带宽为 AI200 的 54 倍,2028 年送样)。HBC Gen 1 的 AI250 加速器单卡读写 133TB/s,有效带宽为 AI200 的 18 倍,2027 年中启动样品测试。高通另提供芯片设计服务与 800G/1.6T 互连方案。

产品更新推理部署/工程
09:58
IT之家(RSS)
56
快手系芯片公司"凌川科技"用上韬定律,全国产 3D 堆叠芯片完成流片

人工智能芯片公司凌川科技近日完成数亿元A+轮融资,由啟赋资本领投,新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起,前身为快手异构计算与芯片事业部,自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片,针对散热、一致性、可靠性等关键问题做了设计,是韬(τ)定律面向互联网数据中心应用的具体呈现。

多模态推理行业动态
08:58
IT之家(RSS)
55
美光、高通业绩展望超预期,AI 芯片板块市值单日暴涨 4000 亿美元

美光科技与高通发布超预期业绩展望,推动 AI 芯片板块市值单日增长超 4000 亿美元。美光盘后交易大涨 12%,季度盈利预期显示企业 AI 投入将拉动存储芯片需求。高通计划转型 AI,预计 2029 年数据中心业务营收达 150 亿美元。板块内西部数据、闪迪、希捷涨超 8%,Arm 涨约 6%。此前费城半导体指数曾大跌,但年内仍累涨 90%。

推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
08:00
HuggingFace Daily Papers(社区热门论文)
65
何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限

多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
InfoKV:信息感知的KV缓存压缩用于长推理

大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。

推理数据/训练论文/研究
07:07
TechCrunch:AI(RSS)
57
Cerebras财报后股价暴跌,CEO称利润率指引被误解

Cerebras上市后首份财报显示一季度营收超预期,但股价周三暴跌近20%。公司预测全年核心业务毛利率38%至41%,低于一季度的47%。CEO Feldman称投资者误解了利润率指引,公司需从一家大客户处租回部分设备以提前释放产能。一季度营收达1.93亿美元,同比增长94%;净亏损从去年同期的2390万美元收窄至1400万美元。

推理行业动态
06:58
IT之家(RSS)
50
消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能

据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。

智能体Google推理行业动态
04:07
The Decoder:AI News(RSS)
51
OpenAI 称 ChatGPT Instant 更能理解用户真实意图

OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。

OpenAI推理模型发布
02:59
Hacker News 热门(buzzing.cc 中文翻译)
57
OpenAI 发布首款定制芯片 Jalapeño,由博通制造

OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。

OpenAI产品更新推理部署/工程
01:29
Hacker News 热门(buzzing.cc 中文翻译)
69
OpenAI 与博通推出 LLM 推理优化芯片

OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。

OpenAI产品更新推理部署/工程
01:05
Google Research:Blog(网页)
精选69
思考即回忆:推理如何解锁LLM中的参数化知识

Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。

Google推理论文/研究

推荐理由:发现一个反直觉现象,让模型推理能提升简单事实回忆,不是靠分步解题而是计算缓冲和事实预热,对理解模型知识召回机制很有启发,但中间步骤幻觉也带来风险。
6月24日
23:09
The Verge:AI(RSS)
56
OpenAI 发布首款自研 AI 处理器:Jalapeño

OpenAI 推出与 Broadcom 合作打造的首款定制芯片 Jalapeño,这是一款专用于 AI 推理的 ASIC,用于处理 ChatGPT 请求。据称其性能与 Nvidia Blackwell 和 Google TPU 相当,每瓦性能显著优于当前 SOTA。Jalapeño 是 OpenAI 多代计算平台的首步,预计 2026 年底部署。

OpenAI产品更新推理
22:04
The Decoder:AI News(RSS)
60
OpenAI与Broadcom发布首款定制芯片"Jalapeño",专为LLM推理设计

OpenAI与Broadcom联合发布首款定制芯片"Jalapeño",专为大语言模型推理而设计,从零打造而非修改通用芯片。OpenAI称其性能功耗比“显著优于”当前最先进硬件,但为自报数据,尚未独立验证。芯片开发耗时9个月,OpenAI自身模型辅助加速设计。工程样片已运行包括GPT-5.3-Codex-Spark在内的ML工作负载。计划于2026年底进行大规模部署,微软预计将购买其中40%的芯片。

OpenAI产品更新推理
21:12
HuggingFace Daily Papers(社区热门论文)
51
AGORA:一个基于档案的智能体工作场所文档推理基准

大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。

智能体推理论文/研究
21:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。

OpenAI产品更新推理部署/工程

推荐理由:OpenAI 首次亲自设计芯片,和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño,从设计到流片仅 9 个月。虽然还只是早期测试,但性能功耗比大幅领先,一旦大规模部署,推理成本可能跳水,用 ChatGPT 的每个人都能感知到更快更便宜。
15:37
MarkTechPost(RSS)
精选74
DFlash:块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由:DFlash把扩散模型引入推测解码草案阶段,一次并行生成整块token,单流加速最高6倍,NVIDIA实测吞吐量提升15倍,推理成本下降幅度很大,部署大模型的团队可以立刻关注。
15:20
公众号:蚂蚁百灵(Ling)
49
Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)Qwen:Blog Retrieval(API)
10:49
HuggingFace Daily Papers(社区热门论文)
51
CF-World:一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准,用于测试文本到图像(T2I)模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级:事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval,引入两个指标:Prior Resistance Rate(PRR)衡量克服固有先验的能力,Reasoning Retention Rate(RRR)评估无显式视觉线索时的推理依赖生成。实验表明,所有模型在反事实场景中性能急剧下降,原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式,过度依赖训练数据中的频繁视觉共现,在反事实任务中退回至熟悉常识先验。

arXiv多模态推理论文/研究
00:19
IT之家(RSS)
39
小米 MiMo-V2.5-Pro-UltraSpeed 限时体验延期

小米6月23日宣布延长MiMo-V2.5-Pro-UltraSpeed限时体验窗口。截至当日,该模式已收到超6.6万个申请,涵盖法律、金融、汽车制造等多个领域。UltraSpeed API于6月8日上线,定价为MiMo-V2.5-Pro的3倍,输出速度约提升10倍。通过审核用户可获得限时免费Chat体验,每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。下线时间将根据资源情况另行安排。

推理行业动态
6月23日
19:10
公众号:小红书技术(dots.llm)
54
小红书QEcon分享:Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%,新方案以Coding Agent为核心,采用逆向链式推导与知识库渐进式加载实现动态规划,Debug-first策略生成脚本,并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级,常见场景秒级完成,新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口,无需预设编排。

智能体推理教程/实践
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
15:07
IT之家(RSS)
54
Sakana AI 推出多智能体编排系统 Sakana Fugu

日本 Sakana AI 于当地时间 6 月 22 日推出多智能体编排系统 Sakana Fugu。该语言模型可根据任务智能调用包括自身在内的最适模型,对外封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可与 Anthropic Fable 5 / Mythos Preview 相当甚至更优。该系统可帮助用户避免对单一供应商的依赖,个别模型不可用时影响较小。

智能体Anthropic产品更新推理
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 5 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎X:卡兹克 (@Khazix0918)
14:45
Hacker News 热门(buzzing.cc 中文翻译)
49
VibeThinker-3B:探索小语言模型中可验证推理的前沿

VibeThinker-3B是一款仅3B参数的紧凑密集模型,采用Spectrum-to-Signal后训练范式,结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分,采用claim级测试时缩放可提升至97.1;LiveCodeBench v6 Pass@1为80.2;最新LeetCode竞赛接受率达96.1%,性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4,表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说,认为可验证推理可压缩为紧凑推理核,而开放知识需广泛参数覆盖。

arXiv推理论文/研究
14:41
MarkTechPost(RSS)
68
GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别(high/max)、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元,支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程
‹ 上一页
12345…30
下一页 ›