全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

7月1日周三

12:00公众号：龙猫LongCat（美团）82精选美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

11:28HuggingFace Daily Papers（社区热门论文）42BlockPilot：基于实例自适应策略学习的扩散投机解码方法

10:08Hacker News 热门（buzzing.cc 中文翻译）40Leanstral 1.5 发布

10:03IT之家（RSS）51Etched 推理加速器芯片完成流片，获超10亿美元订单和8亿美元融资

10:03IT之家（RSS）39Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S，单位面积性能达旗舰 IP 的 140%

09:02Rohan Paul63Agents-A1：35B参数Agent模型声称通过更长思考达到1T模型性能

08:28ginobefun50Sonnet 5发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环

07:30Berryxia.AI23AI对话误区：提示词工程 vs 循环工程

07:01Rohan Paul55Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%，高于 Sonnet 4.6 约2倍

07:01Rohan Paul36英伟达Blackwell推理栈降DeepSeek V4成本最高5倍

06:59AI Notkilleveryoneism Memes ⏸️76精选AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

06:01MarkTechPost（RSS）70Anthropic 发布 Claude Sonnet 5：中端智能体模型，基准与定价详解

05:50Chubby♨️68Claude Sonnet 5 评测：每任务成本高于 Opus 4.8，智力仍落后

05:31Rohan Paul61OpenAI 将部分模型推理成本降低过半，未登录 ChatGPT 仅用几百张 GPU

05:28Artificial Analysis60Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分，标准定价下每任务成本高于 Opus 4.8

04:50Chubby♨️56OpenAI 推理成本减半 + 自研芯片，Sonnet 5 发布平淡

04:35SemiAnalysis37Etched 推出 Cluster-Scale Memory（CSM）解决低延迟内存瓶颈

03:31Rohan Paul74Anthropic 发布 Claude Sonnet 5，1M token 上下文窗口，编码能力提升

03:05SemiAnalysis57SemiAnalysis：企业Token预算与TokenMaxxing

02:37Hacker News 热门（buzzing.cc 中文翻译）78Anthropic 发布 Claude Sonnet 5：最具智能体能力的 Sonnet 模型

02:28TechCrunch：AI（RSS）73Anthropic 推出 Claude Sonnet 5，主打低成本智能体能力

02:28TechCrunch：AI（RSS）64AI芯片初创公司Etched获10亿美元订单，台积电已量产其芯片

02:28Artificial Analysis53GLM-5.2：开源权重智能最高但最啰嗦的领先模型

02:20Chubby♨️80Anthropic 发布 Sonnet 5：最智能体化的 Sonnet 系列模型

02:08The Decoder：AI News（RSS）56OpenAI 将访客 ChatGPT 用户的推理成本降低逾一半

01:03OpenAI：官网动态（RSS · 排除企业/客户案例）70精选OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

00:42Dwarkesh Patel：Podcast & Blog（RSS）61精选Grant Sanderson 谈 AI 与数学的未来

00:35gabriel59Etched：推理市场将成全球最大市场

00:19Chubby♨️59OpenAI 新推理优化技术使模型运行成本减半以上

6月30日周二

23:31Nathan Lambert74美团低调发布基座推理模型LongCat-2.0，MoE架构1.6T参数

23:19Chubby♨️47Etched走出隐身：融资8亿美元，SOTA推理机架今夏发货

23:02IT之家（RSS）62消息称 OpenAI 通过系统底层优化，将 AI 模型推理成本减半

23:02IT之家（RSS）46单芯片混合精度浮点算力达 896TFLOPS，中昊芯英新一代 TPU 芯片「须臾」发布

23:00Nathan Lambert69美团LongCat发布LongCat-2.0：1.6T参数MoE，1M上下文，专为智能体编码设计

22:35elvis64Fireworks AI 推出 Serverless 2.0，通过三种服务层级解决 503 拒绝请求问题

22:34SemiAnalysis63JetSpec：因果并行树草稿投机解码方法

22:23SiliconFlow41硅基流动GLM 5.2周活动：赢取$1000代金券

21:19Chubby♨️58Sonnet 5 今日发布？伴 Fable 5 重发

18:49X.PIN73Kimi估值315亿美元，效仿Anthropic商业化

17:29Rohan Paul56Coinbase实验默认使用中国开源模型GLM 5.2与Kimi 2.7

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月1日

12:00

公众号：龙猫LongCat（美团）

精选82

美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码

关联讨论 9 条X：硅基流动 SiliconFlow (@SiliconFlowAI)X：美团 LongCat (@Meituan_LongCat)Hacker News 热门（buzzing.cc 中文翻译）X：Emad Mostaque (@EMostaque)IT之家（RSS）X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)公众号：卡尔的AI沃茨X：Rohan Paul (@rohanpaul_ai)

推荐理由：国产算力上首个全流程自训的万亿开源模型，1M上下文和动态专家架构直指Agentic Coding场景，OpenRouter调用量已经冲到前三，不是Demo是生产力。

11:28

HuggingFace Daily Papers（社区热门论文）

42

BlockPilot：基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题，BlockPilot 提出一种样本自适应策略，利用预填充层的表示首次预测每个样本的最优块大小，将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低，在 Qwen3-4B 模型、温度 T=1 条件下，实现接受长度 5.92 和 4.20 倍加速，无需牺牲生成质量。

arXiv 推理论文/研究

10:08

Hacker News 热门（buzzing.cc 中文翻译）

40

Leanstral 1.5 发布

Leanstral 1.5 是 Lean 4 形式证明工程模型的更新版，专为自动定理证明和自动形式化优化。总参数量 119B，激活参数 6.5B，上下文窗口 256k，免费使用。支持 Chat Completions、Function Calling、Agents、Structured Outputs、OCR、Embeddings 等 API 功能。

推理模型发布

10:03

IT之家（RSS）

51

Etched 推理加速器芯片完成流片，获超10亿美元订单和8亿美元融资

Etched 宣布推理加速器芯片完成 A0 步进流片和首批机架构建，获超10亿美元订单和8亿美元B轮融资，首批机架产品预计2026年夏天出货。该芯片基于台积电N4P制程，数学模块电压比大多数竞品低50%以上，能以超80%算力效率运行1T规模稀疏MoE模型。缓存采用片上SRAM+片外HBM组合设计，结合高带宽互联技术，兼顾低延迟与大容量。

产品更新推理

10:03

IT之家（RSS）

39

Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S，单位面积性能达旗舰 IP 的 140%

Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S，以旗舰核心 Ascalon X 一半面积实现其 70% 性能，单位面积性能达 1.4 倍。该内核为乱序超标量 4 宽解码，符合 RVA23 配置文件，IPC 每 GHz 在 SPECint2006 中得 15 分，单集群可扩展至 8 核。面向代理式 AI，优化智能体混合执行模式。在 Kimi K2.6 上达 900 Token/s/user（GPU 三倍），DeepSeek-R1-0528 671B 达 400+ Token/s/user，LTX 2.3 Fast 视频生成速度为 GPU 四倍。

产品更新推理

09:02

Rohan Paul@rohanpaul_ai

63

Agents-A1：35B参数Agent模型声称通过更长思考达到1T模型性能

中国团队发布Agents-A1，一个35B参数的agent模型，通过让模型学习更长的验证工作习惯（平均训练样本45K tokens），声称达到1T参数模型的性能。模型采用Apache-2.0许可，权重已开源至Hugging Face。训练方法：构建长动作记录数据，训练多个专家教师模型（搜索、科学、指令跟随、工具使用等），再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。

智能体开源生态推理模型发布

08:28

ginobefun@hongming731

50

Sonnet 5发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环

Anthropic发布Claude Sonnet 5，定位最具agent能力的Sonnet，性能接近Opus 4.8，8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite（文生图延迟约4秒，每千张$0.034）和Gemini Omni Flash（多模态视频生成与会话式编辑，每秒$0.10，单次上限10秒）。吴恩达提出智能体开发三大核心循环：智能体编程循环、开发者反馈循环、外部反馈循环，强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

智能体 Anthropic Google 推理

07:30

Berryxia.AI@berryxia

23

主推文指出90%的人与AI对话的方式一开始就错了，误以为提示词工程只是写一堆提示词让AI直接完成任务。引用推文进一步点明，通过观看视频讲解，终于理解了所谓的"循环工程"--一种可能替代或补充传统提示词工程的迭代式对话方法。推文强调深度互动与反馈循环的重要性，而非一次性指令输出。

Berryxia.AI: 卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!

大佬观点推理

07:01

Rohan Paul@rohanpaul_ai

55

Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%，高于 Sonnet 4.6 约2倍

Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29，比 Sonnet 4.6 高约 2 倍，比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus，但 Sonnet 5 为完成相同任务使用了更多 token，导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token；Anthropic 提供促销价 $2/$10，持续至 2026 年 8 月 31 日，之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Artificial Analysis: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...

Anthropic 推理评测/基准

07:01

Rohan Paul@rohanpaul_ai

36

NVIDIA最新发布的报告称，其Blackwell推理堆栈在一个月内将DeepSeek V4的token成本降低了高达5倍。

产品更新推理

06:59

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选76

AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用"prover-verifier"LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由：如果属实，这将是 AI 首次批量解决实质性开放数学问题，但消息仅来自推文声明，未见论文或代码，现在兴奋还太早。

06:01

MarkTechPost（RSS）

70

Anthropic 发布 Claude Sonnet 5：中端智能体模型，基准与定价详解

Anthropic 发布 Claude Sonnet 5，定位为最具智能体能力的中端模型，即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%（前代 58.1%），OSWorld-Verified 达 81.2%（前代 78.5%），HLE（带工具）57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token，之后 $3/$15。支持低/中/高/超高四档 effort 级别，低中 effort 下性价比最优。上下文窗口 1M token，采用新 tokenizer，相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体 Anthropic 推理模型发布

关联讨论 10 条X：OpenRouter (@OpenRouter)X：Claude (@claudeai)X：Claude Devs (@ClaudeDevs)X：Testing Catalog (@testingcatalog)Claude Code：GitHub Releases（RSS）The Decoder：AI News（RSS）Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）Anthropic：Newsroom（网页）

05:50

Chubby♨️@kimmonismus

68

Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得分 53，与 GPT-5.5 （xhigh）和 Opus 4.8 （max）差 2-3 分。标准定价（$3/$15 per 1M tokens）下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍，比 Opus 4.8 贵约 15%。推理和知识密集型基准落后 Opus 4.8（如 CritPt 物理推理仅 17%），但在 agentic 知识工作（AA-Briefcase 和 GDPval-AA）上匹配或超越 Opus 4.8。上下文窗口 100 万 token，Anthropic 提供至 9 月 1 日促销价 $2/$10。新增 xhigh effort 设置。整体表现令人失望，并非一次好的发布。

Artificial Analysis: Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...

Anthropic 推理模型发布评测/基准

05:31

Rohan Paul@rohanpaul_ai

61

OpenAI 将部分模型推理成本降低过半，未登录 ChatGPT 仅用几百张 GPU

The Information 报道，OpenAI 已将某些现有模型的推理成本降低一半以上，未登录 ChatGPT 的流量仅运行在几百块 Nvidia GPU 上。可能技术手段包括量化、KV-cache 优化、批处理、投机解码和路由简单查询。若属实，这将成为核心竞争杠杆，可提升毛利率、扩大使用限制或降低 API 定价压力。背景方面，OpenAI 调整后毛利率从 2024 年的 40% 降至 2025 年的 33%，推理成本翻四倍。预计 2026 年 Q1 毛利率回升至 39%，年底目标 52%。Anthropic 毛利率约 44%，前沿实验室尚未达到成熟软件公司的经济水平。

OpenAI 推理行业动态

05:28

Artificial Analysis@ArtificialAnlys

60

Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分，标准定价下每任务成本高于 Opus 4.8

Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53（第 5 名），比 Sonnet 4.6 提高 6 分，与 GPT-5.5 (xhigh) 持平，落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%，主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token（促销至 9 月 1 日降至 $2/$10），上下文窗口 1M tokens，新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8，推理基准仍落后。Terminal-Bench v2.1（+9）、HLE（+10）、SciCode（+7）显著提升。

智能体 Anthropic 推理评测/基准

04:50

Chubby♨️@kimmonismus

56

OpenAI 推理成本减半 + 自研芯片，Sonnet 5 发布平淡

作者认为 OpenAI 今天取得更重大突破：通过新推理优化方法将推理成本降低一半以上，并与 Broadcom 合作推出更快更高效的推理芯片，使 OpenAI 处于突出位置。相比之下，Sonnet 5 只是一次普通发布。引用推文进一步指出，Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8，定价不变，版本号从 4 跳到 5 不合理，可能只是为维持话题的中间发布，整体令人失望。

Chubby♨️: Here is my first assessment of Sonnet 5: Sonnet 5 is better than Sonnet 4.6. Who would have thought? But jokes aside: Un...

Anthropic OpenAI 大佬观点推理

04:35

SemiAnalysis@SemiAnalysis_

37

Etched 发布 Cluster-Scale Memory（CSM），面向低延迟工作负载。现有 AI 芯片使用 HBM 无法达到 SRAM 级解码速度，纯 SRAM 芯片则 FLOPs 密度和容量不足。CSM 在整个扩展域内创建共享低延迟内存池，采用专有超低延迟高带宽互连，以 HBM/SRAM 混合设计同时解决内存容量与芯片间延迟问题，避免了纯 SRAM、3D DRAM 或光学方案在成本、可靠性、良率、散热和算力上的取舍。

Etched: Introducing Cluster-Scale Memory (CSM) for low latency workloads. Today's AI chips using HBM can't achieve SRAM-level de...

产品更新推理

03:31

Rohan Paul@rohanpaul_ai

74

Anthropic 发布 Claude Sonnet 5，1M token 上下文窗口，编码能力提升

Anthropic 发布 Claude Sonnet 5，拥有 1M token 上下文窗口（此前泄露），编码能力显著提升：SWE-bench Pro 得分 63.2%，高于 Sonnet 4.6 的 58.1%；知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日：输入 $2/1M tokens，输出 $10/1M tokens；之后涨至 $3/15。当前智能体编码得分 63.2%，与 Opus 4.8（69.2%）仍有差距，但低价策略大幅降低 agentic AI 成本。

Rohan Paul: Leaked specifications show Anthropic's Claude Sonnet 5 launching today with a 1 million token context window

Anthropic 推理模型发布编码

03:05

SemiAnalysis@SemiAnalysis_

57

TokenBudgeting：我们与企业关于Token支出的对话 TokenMaxxing真的曾广泛存在吗？ https://newsletter.semianalysis.com/p/tokenbudgeting-our-conversations

推理现象/趋势

02:37

Hacker News 热门（buzzing.cc 中文翻译）

78

Anthropic 发布 Claude Sonnet 5：最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5，定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升，表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用，成为 Free 和 Pro 计划的默认模型，并支持 Claude Code 及 Claude 平台。API 推出优惠定价：每百万输入 token $2、每百万输出 token $10（持续至 2026 年 8 月 31 日），之后恢复为 $3 和 $15。安全评估显示，Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代，但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体 Anthropic 推理模型发布

关联讨论 10 条X：OpenRouter (@OpenRouter)X：Claude (@claudeai)X：Claude Devs (@ClaudeDevs)X：Testing Catalog (@testingcatalog)Claude Code：GitHub Releases（RSS）The Decoder：AI News（RSS）Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）Anthropic：Newsroom（网页）

02:28

TechCrunch：AI（RSS）

73

Anthropic 推出 Claude Sonnet 5，主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5，这是其中端模型的最新版本，具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8，但成本更低：即日起至 8 月 31 日，输入每百万 tokens $2，输出每百万 tokens $10，之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%（Opus 4.8 为 69.2%，Sonnet 4.6 为 58.1%），在知识工作基准上略超 Opus 4.8。安全方面，不当行为、幻觉和谄媚率低于 Sonnet 4.6，且更善于拒绝恶意请求和提示词注入攻击。

智能体 Anthropic 推理模型发布

关联讨论 10 条X：OpenRouter (@OpenRouter)X：Claude (@claudeai)X：Claude Devs (@ClaudeDevs)X：Testing Catalog (@testingcatalog)Claude Code：GitHub Releases（RSS）The Decoder：AI News（RSS）Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）Anthropic：Newsroom（网页）

02:28

TechCrunch：AI（RSS）

64

AI芯片初创公司Etched获10亿美元订单，台积电已量产其芯片

AI芯片初创公司Etched近日披露，其芯片已由台积电成功制造，并已获得10亿美元合同订单。公司正与客户测试首批“前沿推理集群”系统，声称比竞品推理更快、成本更低、能效更高。Etched成立于2022年，累计融资8亿美元，最新一轮5亿美元于去年12月完成，投后估值50亿美元。投资者包括VentureTech Alliance、Jane Street等，天使投资人包括Andrej Karpathy、Geoffrey Hinton等。

推理行业动态部署/工程

02:28

Artificial Analysis@ArtificialAnlys

53

GLM-5.2：开源权重智能最高但最啰嗦的领先模型

GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型，但输出 token 达 1.41 亿（95% 推理），远超平均模型的 1.8 倍。相比之下，Claude Opus 4.8 输出 1.17 亿 token 得分 56，GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token（8800 万）集中在 Humanity's Last Exam，是 GPT-5.5 的 3.2 倍，得分仅 40%（Opus 46%，GPT-5.5 44%）。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分，远低于 Opus 4.8（27）、GPT-5.5（20）和 Gemini 3.5 Flash（23）。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三，超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44，落后 7 分。

开源生态推理评测/基准

02:20

Chubby♨️@kimmonismus

80

Anthropic 发布 Sonnet 5：最智能体化的 Sonnet 系列模型

Anthropic 发布 Sonnet 5，称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8，在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型，已在 Claude Code 和 API 上线。推出促销价：输入 $2/M token、输出 $10/M（截至 8 月 31 日），标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全，幻觉率和奉承率更低，网络保护默认开启，但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Chubby♨️: Sonnet 5 released for me!!

智能体 Anthropic 安全/对齐推理

关联讨论 10 条X：OpenRouter (@OpenRouter)X：Claude (@claudeai)X：Claude Devs (@ClaudeDevs)X：Testing Catalog (@testingcatalog)Claude Code：GitHub Releases（RSS）The Decoder：AI News（RSS）Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）Anthropic：Newsroom（网页）

02:08

The Decoder：AI News（RSS）

56

OpenAI 将访客 ChatGPT 用户的推理成本降低逾一半

本月早些时候，OpenAI 工程师将现有 AI 模型的推理成本削减了一半以上，并应用于未注册账户的访客 ChatGPT 用户。所需 Nvidia GPU 数量降至仅几百块。同时，DeepSeek 开源了一种新方法，可将推理请求速度提高 60% 至 85%。这些节省的资源可用于扩大服务规模、优化模型或改善响应速度。

OpenAI 推理行业动态

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

00:42

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题，仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系，以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由：这次对谈没有停留在AI刷数学题的喜报上，而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么，数学家未来的角色会是什么。

00:35

gabriel@gabriel1

59

推理将成为全球最大的市场，智能的需求无限 Etched正在带来AI夏季

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理部署/工程

00:19

Chubby♨️@kimmonismus

59

OpenAI 新推理优化技术使模型运行成本减半以上

OpenAI 据报告发现新的推理优化技术，将模型运行成本降低超过一半。据 The Information，工程师本月初称，这些技术曾仅用数百块 Nvidia GPU 就支撑了免费用户的 ChatGPT 访问。具体方法不明，可能涉及量化、KV 缓存、批处理、路由简单查询至更便宜模型等组合。商业层面：OpenAI 一季度毛利率 39%，目标年底达到 52%。更低推理成本可改善利润率、提升 ChatGPT 使用限制或缓解 API 定价压力。OpenAI 的护城河正转向推理和成本优势，尤其相对于 Anthropic。

OpenAI 推理行业动态

6月30日

23:31

Nathan Lambert@natolambert

74

美团低调发布基座推理模型LongCat-2.0，MoE架构1.6T参数

美团发布基座推理模型LongCat-2.0（v2），采用MoE架构，总参1.6T，活跃约48B，支持1M上下文。专为智能体编程设计，引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5（超GPT-5.5的58.6），多项Agent评测领先。模型已在OpenRouter上线，技术博客公开。美团强调全栈自研与低成本，v2基于ASIC训练。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布

23:19

Chubby♨️@kimmonismus

47

Etched正式走出隐身模式，宣布已融资8亿美元，并签下超过10亿美元的客户合同。成功完成A0流片后，首批推理机架已制造完成，预计今年夏天发货。早期客户测试显示，其在推理吞吐量、延迟和能效方面均达到SOTA水平。投资方阵容堪称AI研究员与VC的全明星阵容。

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理

23:02

IT之家（RSS）

62

消息称 OpenAI 通过系统底层优化，将 AI 模型推理成本减半

OpenAI 工程师在内部透露，公司通过一系列系统底层优化，将 AI 模型的推理（运行）成本降低了 50% 以上。此次优化主要得益于提升现有服务器资源利用率，而非新增计算芯片投入，使得所需英伟达芯片更少。节省的成本可用于降低 API 定价或提高用户使用限额。

OpenAI 推理行业动态

23:02

IT之家（RSS）

46

单芯片混合精度浮点算力达 896TFLOPS，中昊芯英新一代 TPU 芯片「须臾」发布

中昊芯英发布新一代全自研 TPU 芯片「须臾」，单芯片混合精度浮点算力 896 TFLOPS，为上一代「刹那」3 倍；8-bit 推理算力 1792 TOPS。单卡功耗 600W，较传统芯片降低 50%。同步推出智算底座「泰则 2.0」，搭载两路 CPU 与 8 片 TPU，混合精度算力 7.168P，整机能耗为传统 GPU 服务器 80%。平台原生支持 PyTorch、vLLM、SGLang 等框架，已完成 Qwen、DeepSeek、GLM 等数十款大模型适配，满足政务、金融等行业安全合规要求。

产品更新推理部署/工程

23:00

Nathan Lambert@natolambert

69

美团LongCat正式发布LongCat-2.0，采用1.6T参数MoE架构，约48B活跃参数，支持1M上下文窗口。专为智能体编码设计，核心创新包括：LongCat稀疏注意力（LSA）高效扩展1M上下文；零计算专家（33B-56B动态激活，无浪费）；MOPD混合专家组（按任务路由至Agent/Reasoning/Interaction）。基准测试：Terminal-Bench 2.1达70.8，SWE-bench Pro 59.5（超越GPT-5.5的58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。可通过OpenRouter上的Owl Alpha试用。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码

22:35

elvis@omarsar0

64

Fireworks AI 推出 Serverless 2.0，通过三种服务层级解决 503 拒绝请求问题

Fireworks AI 推出 Serverless 2.0，通过同一 API 端点下的三种服务层级解决共享集群高负载时的 503 Service Overloaded 问题。Standard 为默认经济型；Priority 在拥塞时提供更强准入，价格更高；Fast 通过优化路径提升生成 token 吞吐量，适用于低延迟场景。推荐默认使用 Standard，遇到 503 时临时切换 Priority 30 分钟，随后自动回退。Priority 和 Fast 不可叠加。

产品更新推理部署/工程

22:34

SemiAnalysis@SemiAnalysis_

63

JetSpec 是一种投机解码方法，通过因果并行树草稿联合优化草稿成本与质量，采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速，开放聊天场景达 4.58x 加速，且保持无损。结合 CUDA graph 与内核优化，单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程

22:23

SiliconFlow@SiliconFlowAI

41

硅基流动GLM 5.2周活动：赢取$1000代金券

硅基流动推出“Summer Rush - GLM 5.2 Week”活动。6月29日20:30至7月6日20:30（PDT），用户在SiliconFlow上运行GLM 5.2，在X分享用例并提交表单即可参与。排名第一的玩家可获最高$1000代金券退还本周GLM 5.2花费，外加$50额外代金券、官方推广和Discord专属称号。前72小时参与可获早鸟奖，所有有效提交均有幸运抽奖机会。

SiliconFlow: 🌊 Clear Your GLM 5.2 Spend. Up to $1,000 Voucher 🍺 SiliconFlow Summer Rush-GLM 5.2 Week is LIVE From 20:30:00 on June ...

推理行业动态

21:19

Chubby♨️@kimmonismus

58

我不知道这是否是合法的泄露。但今天 *Sonnet 5* 的发布肯定会与 *Fable 5* 的重发相伴而行。

Dan: 🚨Claude Sonnet 5 will be releasing June 30th Tuesday. Don't believe me? I was right about the gpt 5.6 delay days before...

Anthropic 推理行业动态

18:49

X.PIN@thexpin

73

中国AI初创公司正在追随Anthropic的策略。月之暗面的Kimi上一轮融资估值为200亿美元，目前已以315亿美元的投前估值再次融资。消息人士称，Kimi在6月中旬披露其年化收入（ARR）超过3亿美元，得益于模型升级、开发者采用增长以及API需求。API收入目前贡献了总收入的70%以上，Kimi的商业化模式愈发类似于Anthropic早期增长。

推理行业动态

17:29

Rohan Paul@rohanpaul_ai

56

Coinbase CEO Brian Armstrong透露，Coinbase正通过其LLM网关实验默认使用中国开源模型GLM 5.2和Kimi 2.7，并根据提示词难度路由执行。他表示前沿模型适合规划，但用于执行可能"过度杀伤"。该决策背后引用前Meta PM及Perplexity CEO Aravind Srinivas观点：中国在数据中心建设速度、电力、许可、人力和专业知识方面均具显著优势。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

大佬观点开源生态推理

123 4…50