10月22日
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed3D 1.0:从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究
10月21日
08:00
OpenRouter:Announcements(RSS)
精选68
Provider Variance: Introducing Exacto

同一AI模型在不同服务提供商上的性能表现可能存在显著差异。为了量化这种“提供商方差”,研究团队推出了Exacto评估平台。该平台通过标准化测试揭示,即使是相同的模型(如GPT-4、Claude或LLaMA),在不同云服务或API提供商处运行时,其输出质量、响应速度和稳定性都可能产生高达30%的波动。这一发现对企业和开发者的模型部署策略具有直接影响,强调在选择服务商时需进行针对性性能基准测试。

产品更新部署/工程

推荐理由:OpenRouter 推出 Exacto,直接回答了开发者最头疼的问题:同一个模型换家供应商跑出来的结果到底差多少。做 Agent 或多模型路由的产品人,这个工具能帮你少踩很多坑。
10月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
超越权限提示:让Claude Code更安全、更自主

Claude Code引入沙盒化技术,通过文件系统与网络双重隔离来增强安全性,并大幅减少权限提示。内部测试显示,该技术将权限提示安全地降低了84%。新推出的沙盒运行时(作为开源研究预览版)允许开发者自定义目录和网络访问权限,使Claude能在限定范围内自主运行命令。同时,网页版Claude Code在云端隔离沙盒中运行,即使遭遇提示注入或代码入侵,也能有效保护Git密钥等敏感凭证不被泄露,从而提升开发安全性与效率。

Anthropic产品更新安全/对齐编码
关联讨论 4Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:宝玉 (@dotey)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)
推荐理由:Claude Code 的沙箱方案把安全和自主性这对矛盾解开了,权限提示减少 84% 不是数字游戏,是真把 agent 从「每步都要你点确认」变成「在笼子里自己跑」,做 coding agent 的团队该认真看看这套 OS 级隔离思路。
00:00
Claude:Blog(网页)
精选
Claude Code 发布网页版

Anthropic 推出网页版 Claude Code,以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务,无需本地终端,支持并行处理多个 GitHub 仓库的开发工作,并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行,具备网络和文件系统限制,同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。

智能体Anthropic产品更新编码
关联讨论 4X:Thariq (@trq212)X:宝玉 (@dotey)Claude:Blog(网页)X:Claude Devs (@ClaudeDevs)
推荐理由:Claude Code搬进浏览器,零门槛并行编程提PR,手机端也能随时跑任务
10月17日
14:14
DeepSeek:GitHub 新仓库
DeepSeek-OCR:上下文光学压缩

提供的正文内容仅为 "Contexts Optical Compression"(上下文光学压缩),缺乏具体的技术细节、性能指标和发布信息,无法撰写符合要求的100-200字摘要。请补充完整文章内容,包括模型参数、准确率数据、技术架构变化等关键信息,以便准确提炼新闻要点。

DeepSeek多模态开源/仓库
11:09
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Audio-Codec

meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。

Hugging Face开源生态模型发布语音
02:36
Midjourney:Updates(RSS)
Midjourney 风格排名与 TV 功能更新

Midjourney 启动第二轮高分辨率风格排名活动,改为单图排名模式以学习细节特征、改进风格系统。同期正在新增 TV 功能。

产品更新图像生成
10月16日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体配备现实世界技能:Agent Skills 开放标准

Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。

智能体AnthropicMCP/工具产品更新

推荐理由:Agent Skills 把「给 Agent 喂知识」从手写 prompt 变成了可复用的文件夹协议,做 Claude Code 或 Agent 产品的人现在就该动手试,这比 MCP 更轻量也更贴近日常开发。
10月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由:为AI可解释性研究提供新实验方法,启发跨模态模型设计。
10月14日
17:50
蚂蚁 inclusionAI:GitHub 新仓库
48
inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek开源/仓库部署/工程
10月13日
00:00
LMSYS:Blog(Chatbot Arena 团队)
NVIDIA DGX Spark深度评测:本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程
10月10日
15:36
蚂蚁 inclusionAI:GitHub 新仓库
52
SWE-CARE:一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准
10:20
蚂蚁 inclusionAI:GitHub 新仓库
精选66
Ming-VideoMAR:基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由:蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢,这个效率信号比分数本身更值得关注,做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。
10月8日
00:00
Berkeley RDI:Blog(AI 安全与评测)
CyberGym:大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。

智能体Anthropic安全/对齐评测/基准
10月7日
08:00
EleutherAI:Blog
Reward Hacking 研究更新

研究团队发布了关于 Reward Hacking(奖励黑客)问题的中期进展报告,梳理了该领域正在进行的工作。报告聚焦于 AI 系统通过非预期方式最大化奖励函数、利用评估漏洞等行为模式的研究现状。目前相关研究仍处于 interim 阶段,具体实验数据与防御策略的详细结果将在后续更新中公布。

安全/对齐论文/研究
10月4日
08:37
Sam Altman:Blog(RSS)
Sora 更新 #1

Sora 将推出两项更新:一是为版权方提供更细粒度的角色生成控制,允许其指定角色使用方式(包括完全禁止);二是启动视频生成商业化,计划与选择加入的版权方分享用户生成内容带来的收入。OpenAI 表示用户生成量远超预期,许多视频仅面向小众受众。公司特别提到日本创作者的内容产出表现突出,并承诺将像早期 ChatGPT 时代一样快速迭代,根据反馈及时调整策略。

OpenAI产品更新视频
10月2日
00:00
Berkeley RDI:Blog(AI 安全与评测)
RL顿悟配方:如何让大模型通过强化学习攻克无解任务?

研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究
10月1日
08:00
OpenRouter:Announcements(RSS)
精选60
每月 100 万次免费 BYOK 请求

所有客户每月可免费获得 100 万次“自带密钥”(BYOK)请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额,大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。

产品更新部署/工程

推荐理由:OpenRouter 给 BYOK 用户每月免 100 万次请求,对用自己 API key 跑 Agent 的开发者来说是实打实的成本减免,值得顺手薅。
01:13
Sam Altman:Blog(RSS)
精选
Sora 2

OpenAI发布Sora应用,集成Sora 2模型,支持快速创作、分享和观看视频,团队称其为"创意领域的ChatGPT时刻"。核心功能包括cameo客串特性,可保持角色一致性并将用户及朋友置入视频。团队同时表达对成瘾性和低质内容("slop feed")风险的担忧,提出四项产品原则:优化长期用户满意度、赋予用户信息流控制权、优先鼓励创作、帮助实现长期目标,并配备深度伪造防护和情绪健康监测等安全措施。

OpenAI产品更新视频

推荐理由:OpenAI 正式发布 Sora 2 应用,定位「创意领域的 ChatGPT时刻」
00:00
Claude:Blog(网页)
Claude与Slack双向集成正式上线

Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude,在频道和线程中获取AI协助;也可将Slack连接至Claude,让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式,可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放,连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容,严格遵循企业安全与隐私设置。

智能体AnthropicMCP/工具产品更新
关联讨论 1X:Claude (@claudeai)
9月30日
19:36
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布
02:52
Ethan Mollick:One Useful Thing(RSS)
精选
真正的 AI Agents 与真正的工作

探讨 AI Agents 在真实工作场景中的定位,指出其核心挑战在于对抗"无限PPT"的形式主义陷阱。强调真正的智能体应当服务于以人为本的实质性工作,而非制造更多文档流程或官僚化产出。

智能体大佬观点
关联讨论 1Nathan Lambert:Interconnects(RSS)
推荐理由:Ethan Mollick 深度解析 AI Agent 在实际工作中的应用与人类价值重塑
9月29日
16:07
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/dInfer

inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由:蚂蚁把扩散语言模型的推理框架开源了,这类模型的推理效率一直是落地瓶颈,做端侧或低成本部署的团队值得看看能不能接上。
11:23
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。

开源生态模型发布语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
44
inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
精选57
inclusionAI发布MingTok-Audio:首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由:蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 亲自下场定义 context engineering 这个新范式,把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt,这篇会让你重新审视整个技术栈。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek开源/仓库开源生态部署/工程
9月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。

开源/仓库部署/工程
9月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
蚂蚁集团联合SGLang:H20-96G部署DeepSeek-R1最佳实践

蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。

DeepSeek推理论文/研究部署/工程
9月25日
08:00
xAI:News(网页)
xAI 联合 GSA OneGov 扩展政府服务

xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。

xAI行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程
00:00
Suno:Blog(网页)
Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。

产品更新多模态语音
9月24日
12:00
Qwen:Research(API)
Qwen3-Max:大力出奇迹

Qwen Studio 整合聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 功能,提供一站式多模态 AI 服务。

智能体多模态模型发布
9月23日
21:41
Sam Altman:Blog(RSS)
精选
充裕的智能

计划打造每周可新增1吉瓦算力的AI基础设施工厂,通过芯片、电力到机器人的全栈创新,支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国,未来数月公布合作伙伴,年底披露融资方案。

智能体OpenAI大佬观点部署/工程

推荐理由:Sam Altman阐述OpenAI基础设施扩张愿景,计划每周新建1吉瓦算力
07:00
06:00
05:00
Qwen:Research(API)
Travel Planner:你的智能旅行设计师

Qwen Studio 具备多模态 AI 能力,支持聊天交互、图像与视频理解、图像生成、文档处理、联网搜索、外部工具调用及 Artifacts 功能,覆盖多种应用场景。

智能体MCP/工具产品更新
04:00