AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月27日周六
03:06Chubby♨️73OpenAI 发布 GPT-5.6 系列:Sol、Terra、Luna 定价曝光,Sol 输出超 Claude Opus 4.8
02:47TechCrunch:AI(RSS)73OpenAI 应美国政府要求限制 GPT-5.6 发布,称限制不应成为常态
02:36Chubby♨️75OpenAI 预览 GPT-5.6 系列:Sol、Terra 和 Luna
02:36Chubby♨️61OpenAI 预览 GPT-5.6 家族,Sol 模型采用受限发布模式
02:25swyx 🔜 @aiDotEngineer59OpenAI 推出 GPT-5.6 系列有限预览,swyx 实测高度评价
02:10Simon Willison 博客79OpenAI 发布 GPT-5.6 系列:旗舰模型 Sol、日常模型 Terra、低价模型 Luna
02:02Hacker News 热门(buzzing.cc 中文翻译)73OpenAI 预览 GPT-5.6 Sol:新一代模型
01:44TechCrunch:AI(RSS)50从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)
01:29Yuchen Jin46GPT-5.6 Sol 发布在即
01:02OpenAI:官网动态(RSS · 排除企业/客户案例)78精选OpenAI 预览新一代模型 GPT-5.6 Sol
00:44TechCrunch:AI(RSS)51OpenAI公布定制推理芯片Jalapeño,减少对Nvidia单一依赖
6月26日周五
23:51Dwarkesh Patel:Podcast & Blog(RSS)61精选下一个重大突破:AI在工作中学习
22:14OpenBMB63面壁智能与清华THUNLP发现混合LLM长上下文瓶颈在于全注意力检索能力
14:17Ethan Mollick70在GLM-5.2或Opus 4.8中体验AI思考轨迹
12:20公众号:卡尔的AI沃茨49Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案
09:52meng shao56Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低
09:15OpenRouter56GLM-5.2 新增nitro快速推理端点
08:20Orange AI41豆包/Seed 2.1 Pro推理上下文精度遭用户吐槽
08:00HuggingFace Daily Papers(社区热门论文)55ReFreeKV:迈向无阈值KV缓存压缩
08:00HuggingFace Daily Papers(社区热门论文)46大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测
08:00HuggingFace Daily Papers(社区热门论文)52基于Gist Token的简化稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)55迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)
07:59IT之家(RSS)49华为与湖北移动完成全国运营商首个AI推理加速方案现网测试
05:53Rohan Paul67BabelTele:LLM间通信压缩文本至27.9%保语义99.5%
04:55gabriel39AI商业决策差因缺长期轨迹数据
04:32Tomer Tunguz 博客(VC 分析)47Sail Research 构建集群感知编排,加速异步推理
04:25elvis49Elvis Saravia 分享动态工作流讨论笔记
03:25Hao AI Lab52JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致
03:01Hacker News 热门(buzzing.cc 中文翻译)78精选IBM 首度推出亚纳米级芯片技术
00:16Hugging Face:Blog(RSS)65精选OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
00:00LMSYS:Blog(Chatbot Arena 团队)58精选SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡
6月25日周四
23:26Yuchen Jin35Databricks GLM-5.2 推理速度登顶
21:21meng shao36GLM-5.5 八月发布,能否抗衡竞品?
19:05Chubby♨️63Fable 5 回归,已有视频证据
18:58IT之家(RSS)43富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍
18:53Rohan Paul66高盛研究:AI智能体token使用量预计到2030年增长24倍
18:25Ars Technica:AI(RSS)65IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构
18:07The Decoder:AI News(RSS)64高通凭借自研处理器进入数据中心市场
17:07The Decoder:AI News(RSS)65Google将电脑控制功能直接集成到Gemini 3.5 Flash中
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月27日
03:06
Chubby♨️@kimmonismus
73
OpenAI 发布 GPT-5.6 系列:Sol、Terra、Luna 定价曝光,Sol 输出超 Claude Opus 4.8

OpenAI 推出 GPT-5.6 系列,含旗舰 Sol、Terra 和 Luna。Sol 定价每百万 token 输入 $5、输出 $30,输出高于 Claude Opus 4.8($5/$25),但远低于受限版 Claude Mythos 5($10/$50)。Terra 性能与 GPT-5.5 相当,价格低 2 倍($2.50/$15);Luna 成本最低($1/$6)。Sol 将于 7 月在 Cerebras 芯片上线,速度达 750 tokens/s。OpenAI 正式加入价格战。

OpenAI: Sol is our new flagship and a step function better than GPT-5.5. Terra delivers performance competitive to GPT-5.5 at 2x...

OpenAI推理模型发布
02:47
TechCrunch:AI(RSS)
73
OpenAI 应美国政府要求限制 GPT-5.6 发布,称限制不应成为常态

OpenAI 周五宣布,应美国政府要求,将新一代 GPT-5.6 系列模型仅向“小部分受信任的合作伙伴”开放预览。系列包括旗舰模型 Sol、均衡模型 Terra 和低成本快速模型 Luna。Sol 具备增强的智能体能力(编码、生物学、网络安全),引入“max”推理努力模式和“ultra”子智能体协调模式,在编码基准上略优于 Anthropic 的 Claude Mythos 5,输出 token 仅为后者三分之一。定价方面,Sol 每百万输入 token 5 美元、输出 30 美元;Terra 半价;Luna 分别为 1 美元和 6 美元。OpenAI 称此为短期措施,计划未来数周逐步向 ChatGPT、Codex 和 API 用户开放。

OpenAI安全/对齐推理模型发布
关联讨论 9 条X:邵猛 (@shao__meng)IT之家(RSS)X:Nathan Lambert (@natolambert)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)
02:36
Chubby♨️@kimmonismus
75
OpenAI 预览 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 推出 GPT-5.6 系列有限预览,包含最强模型 Sol、平衡模型 Terra 和快速廉价模型 Luna。Sol 新增最大推理努力和超模式(利用子代理处理复杂任务),在网络安全长周期任务上有所改进,但未达到其准备框架定义的“网络关键阈值”。发布策略转向:优先信任合作伙伴,后续广泛开放,并提前与美国政府协调。评估集为自我报告,完整基准待后续公布。这标志着前沿 AI 发布向控制访问、政府可见性和风险分层部署转变。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

OpenAI安全/对齐推理模型发布
关联讨论 9 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)IT之家(RSS)X:Sam Altman (@sama)
02:36
Chubby♨️@kimmonismus
61
OpenAI 预览 GPT-5.6 家族,Sol 模型采用受限发布模式

OpenAI 正预览 GPT-5.6 家族(包含 Sol、Terra、Luna),其中 Sol 是其迄今最强模型,拥有新最大推理能力和使用子智能体的超模式。发布采用"可信伙伴优先"模式:初始约 20 家政府批准公司可访问,下周预计扩张。Sol 改进了长期安全任务,但未越过"网络关键阈值"。OpenAI 称美国政府已知晓并支持该计划,限制更像临时检查点,以待完善前沿模型审查流程。更广泛基准评估后续公布。

Chubby♨️: HOLY: OpenAI is previewing GPT-5.6 Sol with a very different release pattern: Trusted partners first, broader access lat...

智能体OpenAI安全/对齐推理
02:25
swyx 🔜 @aiDotEngineer@swyx
59
OpenAI 推出 GPT-5.6 系列有限预览,swyx 实测高度评价

OpenAI 发布 GPT-5.6 Sol(前沿模型)、Terra(平衡日常模型)和 Luna(快速低价模型)的有限预览。swyx 测试 Sol 后给出极高评价,称这不仅是“cyber”版本,而是全新的 SOTA 工作模型,完全取代 Opus 处理他 80% 的任务。关键数据:Sol 与 Mythos Preview 竞争时仅使用约 1/3 的输出 token。swyx 指出 OAI 后训练团队大幅提升了推理帕累托前沿,且未公开方法,这已成为企业智能体模型最重要的竞争优势。他认为这次小版本升级远大于 5.4→5.5 的跳跃,甚至应直接命名为 GPT-6。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

OpenAI大佬观点推理
02:10
Simon Willison 博客
79
OpenAI 发布 GPT-5.6 系列:旗舰模型 Sol、日常模型 Terra、低价模型 Luna

OpenAI 推出 GPT-5.6 系列三个模型:Sol 为旗舰,Terra 面向日常工作(性能对标 GPT-5.5 但价格便宜 2 倍),Luna 为快速低价模型。定价按每百万模型 token 计算:Sol 输入 $5 / 输出 $30,Terra 输入 $2.5 / 输出 $15,Luna 输入 $1 / 输出 $6。新版引入更可预测的提示词缓存,支持显式缓存断点和 30 分钟最小缓存生命期;缓存写入按 1.25 倍非缓存输入速率计费,缓存读取继续享受 90% 折扣。目前仅面向部分受信任合作伙伴提供有限预览,未来几周全面开放。

OpenAI推理模型发布
关联讨论 9 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)IT之家(RSS)X:Sam Altman (@sama)
02:02
Hacker News 热门(buzzing.cc 中文翻译)
73
OpenAI 预览 GPT-5.6 Sol:新一代模型

OpenAI 预览了 GPT-5.6 Sol,这是一款新一代模型。该预览由 OpenAI 官方发布,标题明确指出其为“next-generation model”。目前预览信息有限,仅确认了模型名称与定位,未包含具体技术细节或功能披露。

OpenAI安全/对齐推理模型发布
关联讨论 9 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)IT之家(RSS)X:Sam Altman (@sama)
01:44
TechCrunch:AI(RSS)
50
从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)

OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。

OpenAI推理现象/趋势部署/工程
01:29
Yuchen Jin@Yuchenj_UW
46
GPT-5.6 终于要来了。 GPT-5.6 Sol 在 TerminalBench 上击败了 Claude Mythos 5。 而且在 Cerebras 上,GPT-5.6 Sol 可达每秒 750 tokens。对于这个规模的模型来说相当快。现在我只希望它能向所有人开放。
OpenAI推理模型发布
01:02
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选78
OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。

OpenAI安全/对齐推理模型发布
关联讨论 9 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:GPT-5.6 Sol 不是一次常规升级,它把推理推到新高度,还引入了子代理模式。但美国政府要求有限预览,让这次发布多了点政治味道。
00:44
TechCrunch:AI(RSS)
51
OpenAI公布定制推理芯片Jalapeño,减少对Nvidia单一依赖

OpenAI公布与Broadcom合作开发的定制推理芯片Jalapeño,旨在减少对Nvidia的单一供应商依赖,提供更好的控制和性能优化。同一期TechCrunch播客还讨论了Groq的6.5亿美元融资、AI智能体循环的重要性(Claude Code创始人认为其与“从源码到智能体”同等重要)、Agility Robotics计划通过SPAC上市,以及Google DeepMind投资A24开发AI电影制作工具。

OpenAI推理行业动态
6月26日
23:51
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
下一个重大突破:AI在工作中学习

AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由:RLVR 范式能否通向 AGI?Dwarkesh 指出关键瓶颈在于样本效率和 grindability,他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界,虽然离落地尚远,但值得每一个关心 AI 下一步的人细读。
22:14
OpenBMB@OpenBMB
63
面壁智能与清华THUNLP发现混合LLM长上下文瓶颈在于全注意力检索能力

清华自然语言处理实验室(THUNLP)与面壁智能OpenBMB发布论文,重新审视混合LLM架构中高效注意力(如SWA、Mamba-2、GDN)的实际作用。研究发现:高效注意力设计对短上下文Loss影响极小,但长上下文LongPPL差异显著;全注意力承担检索功能,限制其感受野会大幅提升LongPPL,而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰,延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE(SWA-128-NoPE),即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。

arXiv开源生态推理论文/研究
14:17
Ethan Mollick@emollick
70
如果你想看一个有趣的AI思考轨迹,可以试试在GLM-5.2或Opus 4.8中输入:"我希望你推荐两首你认为非常适合描述像你这样的GenAI模型当前状态的诗歌。不要只是选流行的诗然后反向证明。先仔细考虑选项。"
Anthropic推理教程/实践
12:20
公众号:卡尔的AI沃茨
49
Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案

Fable5 小范围灰度测试降智,安全加强导致上下文窗口和长文本优化受限。不过在 Claude Code v2.1.190 版本中,Fable5 计费已从单独 API 改为包含在每周套餐里。受此影响,GPT-5.6 被要求分阶段发布,从六月推迟到七月中。作者推荐在 Claude Code 中开启动态工作流(多 Agent),使用低一档的 Sonnet 4.6 模型并将 ultracode 推理程度拉满,作为降智后的替代方案。

智能体AnthropicOpenAI推理
09:52
meng shao@shao__meng
56
Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体Anthropic推理评测/基准
09:15
OpenRouter@OpenRouter
56
提示💡@Zai_org GLM-5.2 提供商正努力实现越来越快的推理!今天的新端点包括 @wafer_ai 和 @FireworksAI_HQ 快速变体。将模型设置为 "z-ai/glm-5.2:nitro",即可根据实时流量数据持续获得最快的提供商。
产品更新推理部署/工程
08:20
Orange AI@oran_ge
41
用户指出刚上线 Cola 的 Seed 2.1 Pro 模型(自称原生多模态、多模态最强,相比 2.0 增强 coding 和 Agent 能力)在推理时上下文精度极差:常搞错人物、性别、时间。用户指出错误后模型频繁道歉,态度端正但问题明显。

Orange AI: 刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...

多模态推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
ReFreeKV:迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测

现有方法依赖人工校准或文本表示,缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列,提取动态特征并与语义表示结合,进行人类题目难度预测。在四个真实数据集上,Epi2Diff全面超越包括有监督LLM微调在内的强基线,在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态,而非仅更长的回答。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于Gist Token的简化稀疏注意力

简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
55
迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)

Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。

智能体Google推理论文/研究
07:59
IT之家(RSS)
49
华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构,搭载UCM(推理记忆数据管理)技术,完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型,在8K至190K长序列场景下,Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟(TTFT)优化26%~62%,单NPU卡TPS在64K序列提升58%、128K提升78%;GLM-5.1下TTFT优化51%~93%,TPS提升56%~372%。

推理行业动态部署/工程
05:53
Rohan Paul@rohanpaul_ai
67
BabelTele:LLM间通信压缩文本至27.9%保语义99.5%

新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。

智能体arXiv推理论文/研究
04:55
gabriel@gabriel1
39
AI在做商业决策方面非常糟糕,比如 - 应该雇佣谁 - 我们应该库存什么产品 - 最大的瓶颈是什么 很可能是因为几乎没有关于决策及其结果的长期轨迹数据。也许那就是AGI。
大佬观点推理
04:32
Tomer Tunguz 博客(VC 分析)
47
Sail Research 构建集群感知编排,加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。Sail Research 为此构建了集群感知(fleet‑aware)编排系统,以最大化每美元推理支出的吞吐量。

推理现象/趋势
04:25
elvis@omarsar0
49
Elvis Saravia 分享动态工作流讨论笔记

动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。

智能体大佬观点推理
03:25
Hao AI Lab@haoailab
52
JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致

Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。

推理论文/研究部署/工程
03:01
Hacker News 热门(buzzing.cc 中文翻译)
精选78
IBM 首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

推理数据/训练论文/研究

推荐理由:IBM 把芯片制程推进到亚纳米,0.7nm 意味着 AI 芯片能塞进两倍晶体管,这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年,但技术路线图清晰,值得关注。
00:16
Hugging Face:Blog(RSS)
精选65
OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face开源生态推理论文/研究

推荐理由:OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里,优势在名词动词等意义词,但在重复 token 上接近消失,这份洞察对做模型架构的人很有启发性。
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选58
SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由:SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法,实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%,用 SGLang 跑 MoE 推理的开发者值得一试。
6月25日
23:26
Yuchen Jin@Yuchenj_UW
35
你可能听说过 GLM-5.2 每秒 328 token 很酷, 那么每秒 392 呢? Databricks 在 Artificial Analysis 上 GLM-5.2 的推理速度现排名第一。这是个很棒的模型,我们做了大量优化。
推理行业动态
21:21
meng shao@shao__meng
36
据说 GLM-5.5 八月份发布? 大概率是真的,这回真的热闹了,GLM-5.5 能跟 Claude Fable 5、GPT-5.6 正面抗衡吗,很期待!
推理行业动态
19:05
Chubby♨️@kimmonismus
63
Fable 5 回来了--现在有视频证据。 不只是出现在模型选择器中。人们真的又开始使用这个模型了。 我们回来了。

Chetaslua: 🚨 Claude Fable 5 is back and rollout is going on slowly > few users reported it to me and i got screen recording proof ...

Anthropic产品更新推理
18:58
IT之家(RSS)
43
富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON(自上而下网络并行分层计算)架构,宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割,降低计算复杂度并提升并行性,减少长上下文或多线程同步时的访存开销。测试显示,600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用,其中1.2B模型达475倍性能但质量略低。此外,每次迭代所需KV Cache更少,可提升最大迭代次数,有助降低GPU成本。

推理论文/研究
18:53
Rohan Paul@rohanpaul_ai
66
高盛研究:AI智能体token使用量预计到2030年增长24倍

高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion,推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限,计划6月30日前迁移至自研Copilot CLI工具,此举被解读为降低成本。

智能体推理现象/趋势
18:25
Ars Technica:AI(RSS)
65
IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构

IBM 发布全球首个亚 1 纳米芯片技术,采用名为 nanostack 的垂直堆叠晶体管架构,在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为上一代 2 纳米节点的两倍。该技术基于 0.7 纳米节点(7 埃),可带来 50% 的计算性能提升或 70% 的能效提升,并实现 SRAM 缩放 40% 的改进。IBM 预期采用 nanostack 架构的商用芯片有望在未来 5 至 10 年内量产。

推理数据/训练行业动态
18:07
The Decoder:AI News(RSS)
64
高通凭借自研处理器进入数据中心市场

高通推出数据中心处理器 Dragonfly C1000,针对 AI 智能体优化,主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时,高通以约 40 亿美元收购 AI 初创公司 Modular,其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振,高通盘后股价上涨 15%,公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元,其中数据中心目标 150 亿美元。

智能体Meta产品更新推理
17:07
The Decoder:AI News(RSS)
65
Google将电脑控制功能直接集成到Gemini 3.5 Flash中

Google将“Computer Use”功能直接集成到Gemini 3.5 Flash,模型可自主看、理解并操作电脑、浏览器和移动设备,此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具,开发者可构建跨平台智能体,用于软件测试或办公自动化。在OSWorld基准测试中,Gemini 3.5 Flash得分78.4,高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1),略低于GPT-5.5(78.7),Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护:敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供,附带Browserbase演示和GitHub参考实现。

智能体Google产品更新推理
‹ 上一页
1…34567…50
下一页 ›