AIHOT

8月4日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed Diffusion：支持高速推理的大规模扩散语言模型

字节跳动Seed团队发布扩散语言模型Seed Diffusion，采用非自回归的扩散架构替代传统GPT类模型，通过去噪扩散机制并行生成文本，突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率，在文本生成任务中实现生成质量与计算速度的平衡，为大规模语言模型提供了自回归范式之外的高性能替代方案。

arXiv推理论文/研究

8月1日

23:00

EleutherAI：Blog

注意力探针

提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征，该技术引入可学习的注意力权重，使探针能够动态聚焦输入中的关键特征或特定 token，替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力，有助于精准定位 Transformer 架构中影响预测的关键信息路径，为大语言模型的可解释性研究提供了更强大的分析工具。

数据/训练论文/研究

7月31日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

智谱发布 GLM-4.5 系列模型并原生支持 SGLang

智谱发布旗舰模型 GLM-4.5（355B/32B 激活）与 GLM-4.5-Air（106B/12B 激活），含 FP8 量化版本，即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文，在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus，工具调用成功率达 90.6%，编程与数学推理能力突出。

智能体推理模型发布编码

推荐理由：国产大模型Agent与编码能力跻身第一梯队，为开发者提供Claude/GPT之外的高性价比替代方案

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed-Prover：面向自动定理证明的深度与广度推理

Seed-Prover是基于引理的全证明推理模型，支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明，并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%，在MiniF2F上实现饱和，在PutnamBench上突破50%，大幅领先此前最优水平。针对Lean缺乏几何支持的问题，团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛，在6道题目中完整证明5道。

推理数据/训练论文/研究

7月29日

08:00

OpenRouter：Announcements（RSS）

48

Presets：如何在应用间无缝迁移模型配置

新推出的服务端 Presets 功能实现了模型配置的“一次定制，处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案，并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流，避免了重复配置，提升了团队协作与部署效率。

MCP/工具产品更新部署/工程

7月28日

19:30

Ethan Mollick：One Useful Thing（RSS）

The Bitter Lesson 与 Garbage Can 之争

对比 AI 研究中"苦涩的教训"（算力至上）与"垃圾桶模型"（过程至上）两种范式，提出核心问题：过程是否真的重要，答案即将揭晓。

大佬观点现象/趋势

00:00

Runway：News（网页）

Runway与IMAX达成合作将独家展映2025 AI Film Festival

Runway与IMAX达成合作，将于8月17日至20日在纽约、洛杉矶等美国10座城市的IMAX影院独家展映2025 AI Film Festival入围影片，共计40场。本届AIFF收到超6000部投稿，最终选出10部AI辅助创作短片，由Gaspar Noé等知名导演评审。此次为AIFF影片首次登陆美国影院，双方将为AI电影提供顶级放映体验，探索新技术与叙事融合的可能。

行业动态视频

7月27日

15:00

Qwen：Research（API）

GSPO：迈向可扩展的语言模型强化学习

Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具使用及 artifacts 等全面功能，实现多模态 AI 能力一站式覆盖。

其他

7月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang开源SpecForge：加速Eagle3投机解码训练

SGLang团队开源SpecForge训练框架，专为Eagle3投机解码设计，原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持，提供Online与Offline双模式，分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示，Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。

开源/仓库开源生态部署/工程

7月24日

22:00

Qwen：Research（API）

Qwen-MT：当速度遇见智能翻译

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，提供一站式多模态 AI 能力。

其他

7月22日

21:00

Qwen：Research（API）

Qwen3-Coder：全球智能体编程

Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 等全面功能，支持多模态交互与内容创作。

智能体模型发布编码

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2

Mooncake团队基于OME和SGLang框架，在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术，针对模型384个专家和每token 320亿激活参数的设计进行优化，通过跨节点通信优化与负载均衡策略，显著提升了trillion-scale模型的推理吞吐与并发处理能力。

开源生态教程/实践部署/工程

7月18日

01:00

NVIDIA AI Blog

Isambard-AI，英国最强 AI 超级计算机正式上线

布里斯托大学 Isambard-AI 正式启用，搭载 NVIDIA Grace Hopper 超级芯片，提供 21 exaflops AI 算力，为英国最快超算系统，且位列全球能效最高行列。

行业动态部署/工程

7月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

使用多 Token 预测（MTP）加速 SGLang：吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测（MTP）技术，并与大规模专家并行（EP）、预填充-解码分离（PD Disaggregation）等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token，再由完整目标模型并行验证，在保持生成质量不变的前提下，可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中，该方案显著优化了长序列推理效率，为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程

7月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 SGLang 中支持新 VLMs：NVILA 案例研究

NVILA 团队发布技术博客，详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例，提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点，该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白，为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程

7月15日

08:00

OpenRouter：Announcements（RSS）

37

专注隐私的新提供商上线：Venice

专注隐私的AI提供商Venice正式加入OpenRouter平台，并推出了其旗舰模型。该模型主打无审查、功能强大且限制少的特点，旨在为用户提供私密且不受限制的人工智能体验。这一新增服务为寻求高度隐私保护和内容自由度的用户提供了新的选择。

行业动态部署/工程

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年7月电路更新：特征语言重构数学框架与生物AI可解释性应用

Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架，将注意力头的OV和QK电路描述为特征及其变换（如检测属性X、前一标记X、触发输出X的特征），并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统（如蛋白质语言模型ESM-2）可解释性中的应用进展，强调此类研究对确保药物发现等应用的安全与有效性至关重要。

Anthropic推理论文/研究

推荐理由：可解释性研究新进展，帮助理解 AI 内部机制，提升模型透明度和安全性。

7月14日

08:00

OpenRouter：Announcements（RSS）

54

在 Cursor 中使用 OpenRouter 模型：以 Moonshot AI 的 Kimi K2 为例

用户现可通过 OpenRouter 灵活的路由服务，在 Cursor IDE 中直接调用 Moonshot AI 最新推出的 Kimi K2 模型。这一集成简化了开发流程，无需复杂配置即可在编码环境中访问高性能大语言模型。OpenRouter 作为统一接口，支持用户便捷切换包括 GPT、Claude、LLaMA 及 Kimi 在内的多种模型，显著提升了 AI 辅助编程工具的可用性和选择自由度。

MCP/工具产品更新编码

7月11日

21:00

NVIDIA AI Blog

游戏显卡助力破解千年陶瓷鉴定密码

马来西亚博特拉大学与UNSW悉尼大学研究团队利用NVIDIA GeForce RTX 3090游戏显卡搭建AI系统，通过深度学习分析中国陶瓷纹饰、器型及窑口工艺，基于苏富比、佳士得等真实拍卖数据预测价格类别，准确率高达99%。该系统旨在降低文物鉴定门槛，让年轻收藏家和小型机构也能获得客观评估。测试中AI对一件明代文物估价较成交价低约30%。团队正将该技术扩展至粤剧戏服、历史壁画等更多文化遗产领域。

论文/研究部署/工程

00:00

Moonshot AI：Kimi Blog（VitePress）

精选

Kimi 发布 K2 模型

Kimi K2 采用混合专家（MoE）架构，拥有 320 亿激活参数和 1 万亿总参数，在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。

推理模型发布编码

关联讨论 2 条

推荐理由：月之暗面发布 Kimi K2，万亿参数 MoE 架构，多基准 SOTA

7月10日

08:00

OpenRouter：Announcements（RSS）

48

免费服务层更新：持续为所有人提供可访问的AI

平台对其免费服务层进行了重要更新，旨在通过引入新的模型来维持可访问的AI推理能力。此次调整的核心是确保免费服务的长期可持续性，同时继续向广大用户提供AI服务。更新后，用户将能使用到性能更强或更高效的新模型，但部分原有模型的访问权限或速率可能会相应调整。平台承诺，核心目标依然是让每个人都能接触和使用AI技术。

产品更新部署/工程

7月9日

08:00

xAI：News（网页）

精选

xAI 正式发布 Grok 4，新一代大模型在数学推理和代码生成能力上大幅提升，延续实时获取 X 平台信息的特色。该版本支持更长上下文窗口和图像理解，即日起向 X Premium+ 订阅者开放。

xAI推理模型发布

关联讨论 1 条

推荐理由：xAI正式发布Grok 4旗舰大模型，重要版本更新值得关注

00:00

LMSYS：Blog（Chatbot Arena 团队）

slime：面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime，原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置，支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互，无需修改环境代码。框架完整支持 SGLang 优化参数（如 EP MoE、DP Attention）及 Megatron 并行策略（TP/PP/EP/CP），提供独立调试模式与检查点转换工具，基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程

00:00

xAI：News（网页）

精选

Grok 3 Beta 发布：推理智能体时代来临

Grok 3 Beta 正式发布，开启"推理智能体"时代。新版本强化深度推理与自主决策能力，支持复杂任务拆解和多步逻辑链处理，在数学、编程等推理密集型场景表现显著提升，标志着 AI 从简单问答向自主推理决策的范式转变。

智能体xAI推理模型发布

推荐理由：xAI发布Grok 3 Beta，主打推理智能体能力

7月8日

03:02

Ethan Mollick：One Useful Thing（RSS）

精选

反对"脑损伤"论

AI 对人类思维的影响具有两面性：既可能成为认知辅助工具，也可能导致思维退化，关键在于具体使用方式与程度。

大佬观点现象/趋势

推荐理由：Ethan Mollick 探讨 AI 对人类认知的双面影响，观点犀利深刻

00:00

LMSYS：Blog（Chatbot Arena 团队）

OME：以模型驱动架构革新 LLM 基础设施

Oracle Cloud Infrastructure 推出 OME（Open Model Engine），一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构，通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民，有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天，显著减少配置错误，并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性，集成 SGLang 运行时，实现复杂部署策略的编码复用与一键部署。

开源/仓库开源生态部署/工程

7月1日

17:00

BAIR：Berkeley AI Research Blog

基于全身条件的第一人称视角视频预测

PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令，生成下一帧画面，支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计，模型处理 48+ 自由度的高维人体控制，解决第一人称视角下身体不可见、感知滞后于动作等挑战，为机器人规划与控制提供世界模型基础。

具身智能视频论文/研究

08:00

OpenRouter：Announcements（RSS）

32

新隐写模型："Cypher Alpha"

一款名为“Cypher Alpha”的新型通用隐写模型现已发布。该模型具备内置的工具调用功能，可供用户免费使用。其核心特性在于“隐写”，即在执行任务时能保持隐蔽性。目前，用户已可尝试体验这一模型。

智能体MCP/工具产品更新

6月26日

22:00

Qwen：Research（API）

精选

Qwen VLo：从"理解"世界到"描绘"世界

Qwen VLo 发布，统一多模态理解与生成能力。相比前代 QwenVL 和 Qwen2.5 VL 仅专注于图像理解，新模型实现了从"理解"到"描绘"视觉世界的跨越。

图像生成多模态模型发布

推荐理由：阿里Qwen发布统一多模态理解生成模型VLo，实现从看懂世界到描绘世界的跨越

08:00

OpenRouter：Announcements（RSS）

50

Introducing Presets：从仪表板管理 LLM 配置！

OpenRouter 正式上线了 Presets 功能。用户现在可以通过仪表板集中管理 LLM 配置，无需再将参数硬编码在应用程序中。此举旨在将 LLM 逻辑集中化，从而帮助开发者更快地进行迭代，并清理冗余代码，提升开发效率。

产品更新部署/工程

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

Claude Desktop推出"桌面扩展"新格式，实现MCP服务器一键安装

Claude Desktop推出了名为“桌面扩展”的新打包格式（.mcpb文件），旨在彻底简化MCP服务器的安装流程。该格式将服务器代码、所有依赖项和配置清单打包成一个ZIP压缩包。用户只需下载.mcpb文件并用Claude Desktop打开点击安装即可完成，无需手动配置环境、安装运行时或处理依赖冲突。此举解决了以往需要开发者工具、手动编辑配置文件和依赖管理等复杂问题，显著降低了非技术用户使用强大本地MCP服务器的门槛。

AnthropicMCP/工具产品更新

推荐理由：MCP 服务器装机从「开发者手动改 JSON」变成「双击 .mcpb 一键安装」，Anthropic 把 MCP 生态的用户门槛砍掉了一大截，做 MCP server 的开发者现在该认真考虑打包分发了。

00:00

Runway：News（网页）

Parsons School of Design 联合 Runway 开设新课程

Parsons School of Design 将于 2025 年秋季开设"Hopepunk and Runway"课程，学生可使用 Runway 工具完成长篇创意项目。课程面向所有 New School 学生，Parsons 学生优先，无需使用经验，结合 hopepunk 科幻流派阅读与 AI 创作实践。

行业动态视频

6月25日

21:59

Google DeepMind：Blog（RSS）

AlphaGenome：AI 助力深入理解基因组

推出统一 DNA 序列模型 AlphaGenome，提升调控变异效应预测能力，有望揭示基因组功能新机制。现已通过 API 开放使用。

DeepMindGoogle模型发布

08:00

OpenRouter：Announcements（RSS）

46

Dev & BYOK 更新：Uptime API 与更智能的密钥管理

Anthropic 为其开发者和 BYOK 客户推出两项重要更新。新发布的 Uptime API 允许开发者通过编程接口直接追踪模型运行状态与可用性。同时，BYOK 密钥管理功能得到增强，用户现在可以对密钥设置使用量限制，并创建可测试的密钥，从而实现对加密密钥更精细化的控制与验证。

产品更新部署/工程

6月24日

22:00

Google DeepMind：Blog（RSS）

精选

Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型，具备通用灵巧操作与快速任务适应能力，支持本地设备直接部署运行。

DeepMindGoogle具身智能模型发布

关联讨论 2 条

推荐理由：DeepMind 发布端侧机器人模型，支持本地部署与快速任务适应

00:12

Ethan Mollick：One Useful Thing（RSS）

精选

当下如何使用 AI：快速指南

一份当下 AI 工具的快速选用指南，聚焦目前值得使用的 AI 产品及其具体使用方法，帮助读者快速上手并选对工具。

教程/实践

关联讨论 1 条

推荐理由：AI教育专家Ethan Mollick撰写，指导读者当下如何选择和使用AI工具

6月23日

08:00

EleutherAI：Blog

研究进展：局部体积测量在下游任务中的应用

该研究更新了局部体积测量技术在下游任务中的最新应用进展。通过将局部体积测量方法拓展至具体应用场景，探索了该技术在实际任务中的实施路径与性能表现。研究涵盖方法论优化及多场景适配策略，为相关技术的实际落地提供参考。

多模态论文/研究

6月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在GB200 NVL72上部署DeepSeek 671B：PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型，采用预填充-解码分离（PD）与大规模专家并行（EP）架构，结合Blackwell专用优化组件（DeepGEMM、DeepEP等），实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下，性能较H100提升2.7倍，整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟，依托更大显存支持高批次处理，显著提升MoE模型推理效率。

DeepSeek开源/仓库推理部署/工程

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现，模型独占特征往往多义性高、激活密集，难以解释。实验表明，这是由于有限特征容量下的竞争：共享特征能同时解释两个模型的激活模式，而独占特征需编码更多信息以证明其存在。团队提出缓解策略，即引入少量指定共享特征并降低其稀疏性惩罚，使独占特征变得更可解释和单义。该方法应用于真实模型时，成功分离出能捕捉模型间行为差异的可解释特征。此外，观察到独占特征激活频率比共享特征高一个数量级，且两模型独占特征数量相近。

Anthropic推理数据/训练论文/研究

关联讨论 1 条

推荐理由：为 AI 可解释性提供新视角，助力模型行为分析与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

注意力机制研究进展

Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据，并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合，并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制，团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法，以及初步结果与当前局限，为后续研究提供了方向。

Anthropic推理论文/研究

关联讨论 1 条

推荐理由：可解释性研究揭示模型内部机制，对 AI 安全和优化至关重要。