AIHOT

9月23日

05:00

Qwen：Research（API）

Travel Planner：你的智能旅行设计师

Qwen Studio 具备多模态 AI 能力，支持聊天交互、图像与视频理解、图像生成、文档处理、联网搜索、外部工具调用及 Artifacts 功能，覆盖多种应用场景。

智能体MCP/工具产品更新

04:00

Qwen：Research（API）

Qwen3Guard：为你的 Token 流提供实时安全防护

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等功能，提供全面的多模态 AI 能力。

安全/对齐

00:08

Qwen：Research（API）

Qwen-Image-Edit-2509：多图像支持，一致性提升

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全面功能，支持多模态交互。

产品更新图像生成多模态

9月22日

23:49

蚂蚁 inclusionAI：GitHub 新仓库

InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2，这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计，旨在提升复杂推理任务的性能。作为开源项目，Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布

04:00

Qwen：Research（API）

Qwen3-TTS-Flash：多音色、多语言、多方言语音合成

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等功能，提供全面的 AI 能力支持。

模型发布语音

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理，解决动态批处理导致的输出差异问题，兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%，配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练，在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线，为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程

9月21日

16:54

美团 LongCat：HuggingFace 新模型

meituan-longcat 发布 LongCat-Flash-Thinking-FP8

meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型，采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力，致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。

Hugging Face推理模型发布

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题，研究团队推出 Petit 内核集合，通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍，矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术，已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程

9月17日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

近期三次基础设施故障的事后分析

八月初至九月中旬，Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日，上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器，8月31日高峰时影响16%请求。8月25日，TPU服务器错误配置引发输出损坏，可能在英文回复中生成泰文或中文字符，影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞，主要影响Haiku 3.5。所有问题均非需求或负载所致，纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由：Anthropic 主动公开三个基础设施 bug 的完整复盘，这种坦诚在大厂里极少见。做 AI 产品的人都该读一下，它把「模型质量下降」从玄学拉回了工程现实，尤其是 XLA 编译器那层的坑，踩过才知道多深。

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Circuits 更新 - 2025年9月

Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示，模型在不同语言间的特征相似性（通过交并比IoU衡量）会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句，团队发现末句的IoU显著高于首句，且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解，而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。

Anthropic推理论文/研究

推荐理由：揭示语言模型随上下文深化理解的机制，助力可解释性研究进展。

9月14日

09:00

NVIDIA AI Blog

跨越英伦群岛：UK-LLM利用NVIDIA Nemotron为英国语言构建AI

UK-LLM项目发布支持威尔士语推理的AI模型，基于NVIDIA Nemotron架构（49B和9B参数），利用NIM微服务翻译超3000万条英语数据，并在英国超算Isambard-AI上完成训练。该模型将用于医疗、教育等公共服务，助力威尔士政府实现2050年百万威尔士语使用者目标。模型及数据集将向企业和公共部门开放，未来还将扩展至康沃尔语、爱尔兰语等其他英国本土语言。

DeepSeek开源生态推理数据/训练

9月11日

04:00

Qwen：Research（API）

Qwen3-Next：迈向极致的训练与推理效率

Qwen Studio 推出全功能多模态 AI 套件，支持聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts。

智能体多模态模型发布

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。

00:00

Runway：Changelog（网页）

浅色模式（Light Mode）

正式推出 Light Mode（浅色模式）功能，宣称将提供用户创作任何内容所需的一切工具与能力，满足多样化创作需求。

产品更新视频

9月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang HiCache：支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统，通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据，支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输，在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%；在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%，整体吞吐量最高提升 6 倍。

开源/仓库部署/工程

9月9日

08:10

Sam Altman：Blog（RSS）

精选

Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor，二人多次联手攻克被认为不可能的技术难题，主导 Dota RL 扩展、GPT-4 预训练及推理突破，被形容为“不知疲倦”的黄金搭档。

OpenAI大佬观点推理数据/训练

推荐理由：Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程

9月8日

14:38

Qwen：Research（API）

Qwen3 ASR：听得清，转录得准

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能，提供一站式多模态 AI 能力。

产品更新语音

9月4日

14:54

蚂蚁 inclusionAI：GitHub 新仓库

InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构，旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧

9月2日

21:00

NVIDIA AI Blog

湿度才是关键：波兰国际研究团队如何借助 Deep Learning 与 NVIDIA GPUs 改变天气预报

弗罗茨瓦夫环境与生命科学大学团队利用 NVIDIA GPUs 训练 SRGAN 模型，将 GNSS 卫星低分辨率大气数据转化为高分辨率 3D 湿度图。在波兰和加州的测试中，湿度误差分别降低 62% 和 52%。团队采用 Grad-CAM 和 SHAP 实现可解释 AI，证实模型关注区域与风暴易发地带一致。该技术可为突发暴雨和山洪预警提供更精确的湿度数据支持。

图像生成论文/研究

00:00

字节 Seed：Research Papers（网页内嵌数据）

PXDesign：快速、模块化且准确的蛋白质结合剂从头设计方法

PXDesign 提供了一种快速、模块化且准确的蛋白质结合剂从头设计方案。该方法通过优化算法架构，在保持高精度的同时显著提升计算速度，支持灵活的功能组件组合，可针对不同蛋白质靶点高效生成高亲和力结合剂，为药物开发和合成生物学研究提供了高效的计算设计工具。

论文/研究

9月1日

17:00

BAIR：Berkeley AI Research Blog

word2vec究竟学到了什么？

本研究提出了word2vec学习机制的完整定量理论，证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解，最终词嵌入即为PCA结果。从小初始化开始时，模型通过离散步骤逐次学习正交线性子空间（概念），递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

美团开源LongCat-Flash：基于SGLang的高效Agentic MoE模型

美团开源Agentic MoE模型LongCat-Flash，总参数量560B，每token仅激活27B。该模型基于SGLang框架，采用PD分离架构与SBO技术，通过四阶段流水线在单batch内实现计算与通信重叠，突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上，在Agent任务中表现优异，适用于复杂实时智能体应用。

智能体模型发布部署/工程

8月29日

15:39

美团 LongCat：HuggingFace 新模型

meituan-longcat 发布 LongCat-Flash-Chat

meituan-longcat 发布 LongCat-Flash-Chat 项目，宣称将通过开源与开放科学推进人工智能技术的进步与民主化。该项目致力于打破技术壁垒，降低 AI 使用门槛，但目前尚未披露具体的技术架构、参数规模、性能基准测试数据及应用场景等详细信息。

Hugging Face模型发布

04:47

Ethan Mollick：One Useful Thing（RSS）

精选

大众智能

从 GPT-5 到 nano banana，强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用，普通用户都能便捷获取先进 AI 能力，技术民主化进程加速，标志着智能时代进入人人可及的新阶段。

OpenAI现象/趋势端侧

推荐理由：Ethan Mollick 解读 AI 普及化趋势，从 GPT-5 到微型设备应用

8月28日

08:00

xAI：News（网页）

精选

xAI发布轻量级编程模型Grok Code Fast 1

xAI发布轻量级编程模型Grok Code Fast 1，采用全新架构，基于真实PR数据训练，精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒，定价输入$0.20/百万tokens、输出$1.50/百万tokens，SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。

智能体xAI模型发布编码

推荐理由：xAI发布专为Agentic Coding优化的极速编程模型，已集成Cursor、Copilot等主流工具，价格极具竞争力

00:00

LMSYS：Blog（Chatbot Arena 团队）

gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化，但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练（QAT）方案，允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型，无需转换为 BF16 而牺牲性能。实测显示，经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%，在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署，保持 MXFP4 格式的推理速度与内存优势。

OpenAI教程/实践数据/训练部署/工程

8月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 支持 gpt-oss：从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化，prefill 吞吐量提升 2.1 倍，decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能，通过 FlashAttention-3 加速 Hopper GPU，并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持，GPQA 基准测试验证精度与官方报告一致，确保高性能不损失推理能力。

智能体OpenAI开源/仓库部署/工程

8月26日

08:00

OpenRouter：Announcements（RSS）

首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型，具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能，为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程

8月25日

00:00

Claude：Blog（网页）

精选

Anthropic发布Claude浏览器扩展：AI自动操作功能向付费用户开放

Anthropic正式发布Claude for Chrome扩展，允许AI在浏览器中执行点击、填表等操作。该功能已从1000名Max用户试点扩展至所有付费订阅者，新增Claude Code集成、定时任务及多标签工作流。针对提示词注入攻击，Anthropic通过站点权限、操作确认等防护措施，基于123个测试案例的红队测试，将攻击成功率从23.6%降至11.2%，并屏蔽高风险网站以确保安全。

智能体Anthropic产品更新安全/对齐

推荐理由：Claude浏览器代理正式开放，自动操作网页同时攻克提示注入安全难题

8月21日

00:00

Runway：Changelog（网页）

Game Worlds 开启 Beta 测试

Game Worlds 启动 Beta 测试，现开放用户申请加入体验。参与者可抢先试用新功能，协助验证系统稳定性并提供反馈，帮助完善正式版本。

产品更新视频

8月19日

01:30

Qwen：Research（API）

Qwen-Image-Edit：更高质量与效率的图像编辑

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 artifacts 等一站式 AI 能力，其中 Qwen-Image-Edit 专注于提供高质量、高效率的图像编辑功能。

产品更新图像生成多模态

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

角色如何改变AI的回答？--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中，通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型，当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时，模型会以“我不知道！”回应并提议玩耍；而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路：模型能将“学龄前学生”关联到“扮演儿童”，从而激活“我不知道”特征。研究还发现，问题难度会调节此效应，并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic推理论文/研究

推荐理由：揭示模型角色扮演的内部机制，为可解释性研究提供新视角。

8月13日

23:00

NVIDIA AI Blog

NVIDIA 6万美元研究生奖学金开放申请

NVIDIA 第25届研究生奖学金计划面向全球开放，单项奖金最高6万美元，支持AI、机器学习、自动驾驶等领域的博士生。申请者需已完成博士一年级课程，并参加2026年夏季的NVIDIA研究办公室实习。申请截止日期为2025年9月15日。

具身智能行业动态

04:00

EleutherAI：Blog

面向开放权重 AI 安全的预训练数据过滤

Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据，将安全能力深度集成于模型权重，使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点，提供了从预训练源头建立安全屏障的新路径，在保障模型开放性的同时增强安全性。

安全/对齐开源生态数据/训练

00:00

Berkeley RDI：Blog（AI 安全与评测）

Agentic AI Summit 2025 于 2025 年 8 月 13 日圆满落幕

Agentic AI Summit 2025 在 UC Berkeley 吸引超过 2000 名现场观众及约 4 万名在线参与者，汇聚全球 AI 领域领导者、创新者与创业者共探 agentic AI 发展。目前所有会议录像已开放观看，主办方宣布下届峰会将于明年回归。

智能体行业动态

8月11日

23:00

NVIDIA AI Blog

精选

NVIDIA Research 塑造 Physical AI

NVIDIA Research 在神经渲染、3D生成和世界模拟等AI与图形学领域取得突破，相关技术正驱动机器人、自动驾驶汽车及内容创作的革新，推动Physical AI发展。

具身智能多模态论文/研究

推荐理由：物理AI技术突破让机器人和自动驾驶的仿真训练更逼真，加速具身智能落地

8月8日

01:02

Ethan Mollick：One Useful Thing（RSS）

精选

GPT-5：只管做事

GPT-5 不再需要详细提示工程，只需给出目标即可自主完成任务。将 AI 置于主导地位，用户只需设定方向，具体执行由模型自行处理。

智能体OpenAI大佬观点推理

推荐理由：Ethan Mollick 深度解读 GPT-5 自主执行能力，洞察 AI 代理新范式

8月7日

08:00

OpenRouter：Announcements（RSS）

精选66

GPT-5 现已上线

GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力，专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络，为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。

产品更新推理编码

推荐理由：OpenRouter 上架 GPT-5 本身不算新闻，但对用 OpenRouter 做多模型路由的开发者来说，这是终于能切到最新旗舰的信号，值得第一时间跑一遍自己的 benchmark。

8月4日

22:08

Qwen：Research（API）

精选

Qwen-Image：原生文本渲染创作

Qwen Studio 提供一站式 AI 服务，涵盖对话机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 功能。

图像生成多模态模型发布

推荐理由：阿里Qwen发布图像生成模型，原生文本渲染解决AI绘图乱码难题

08:00

OpenRouter：Announcements（RSS）

为应用添加 Audio Inputs 和 PDF URLs 支持

平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型（如GPT、Claude、LLaMA）进行交互，同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性，扩展了应用处理非文本输入和数据获取的方式，无需再依赖传统的文件上传步骤。

产品更新多模态部署/工程