12月11日
08:00
Hugging Face:Blog(RSS)
28
Codex 开源其 AI 模型

Codex 宣布将开源其人工智能模型。这一举措旨在通过开源和开放科学的方式,推动人工智能技术的进步与民主化。公司表示,开源模型将允许更广泛的研究人员和开发者访问、使用并在此基础上进行创新,从而加速AI领域的发展。此举也呼应了当前AI社区对增加透明度与协作的呼声。

开源/仓库
08:00
xAI:News(网页)
xAI 与萨尔瓦多率先推出全球首个全国性 AI 教育项目

xAI 与萨尔瓦多政府达成合作,将在未来两年向该国 5000 余所公立学校部署 Grok,为超 100 万学生提供自适应个性化辅导,同时赋能数千名教师。该项目旨在通过 AI 弥合教育差距,并生成新的方法论与数据集以指导全球课堂的负责任 AI 应用。萨尔瓦多总统 Bukele 与 xAI 创始人 Musk 均表示,此举将让前沿 AI 直接惠及整代学生,证明国家可通过大胆政策实现跨越式发展。

xAI行业动态
00:00
Runway:Changelog(网页)
Seedance 2.0

Seedance 2.0 正式发布,以「提供创作所需的一切,实现任意想象」为核心理念,整合全链路生产能力,支持用户一站式完成从概念到成品的任意内容制作。

模型发布视频
00:00
智谱:研究(网页内嵌数据)
精选
GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由:智谱开源GLM-TTS,3秒克隆任意音色并支持喜怒哀乐情感表达
12月10日
22:59
00:00
LMSYS:Blog(Chatbot Arena 团队)
让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek开源/仓库开源生态部署/工程
00:00
智谱:研究(网页内嵌数据)
精选
GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由:智谱开源1.5B语音识别模型,端侧可用且针对真实场景优化,适合集成到输入法等产品
12月9日
19:29
05:00
Qwen:Research(API)
精选
Qwen3-Omni-Flash-2025-12-01发布:全面升级多模态交互体验

Qwen3-Omni-Flash-2025-12-01基于Qwen3-Omni全面升级多模态能力。新版本显著改善音视频交互体验,解决口语场景"智能下降"问题,支持多轮稳定对话;系统提示词可完全自定义,精准控制人设风格与输出长度;支持119种语言文本交互、19种语音识别及10种语音合成,消除语言跟随不稳定问题;语音合成更自然,能根据上下文调整韵律。基准测试显示,文本推理、代码生成、视觉理解及视频理解等能力均有显著提升。

多模态模型发布语音
关联讨论 1Qwen:Blog Retrieval(API)
推荐理由:阿里Qwen3-Omni多模态模型重磅升级,音视频理解与语音交互能力显著增强
00:00
Claude:Blog(网页)
精选
Anthropic调研:2026年企业AI智能体应用趋势

Anthropic与Material调研500余位技术领导者显示,57%企业已将AI智能体用于多阶段工作流,16%实现跨职能部署。编码是核心场景,90%用于开发辅助,86%用于生产代码,平均节省近六成时间。80%受访者称投资已产生可衡量回报,如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例,但面临系统集成、数据质量和变革管理三大挑战。

智能体Anthropic现象/趋势编码

推荐理由:Anthropic发布企业AI Agent深度调研,揭示2026年应用趋势与头部企业实战案例
12月8日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.6V:支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体MCP/工具多模态模型发布

推荐理由:智谱开源 GLM-4.6V,原生支持工具调用的多模态 Agent 底座
00:00
智谱:研究(网页内嵌数据)
AutoGLM:每台手机,都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM,创新采用ComputerRL、MobileRL与AgentRL技术架构,在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务,具备屏幕理解、自主规划与云端异步运行能力,可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧
12月5日
15:34
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,通过开放协作促进全球开发者共同参与技术创新,推动先进图像编辑能力的广泛可及。

Hugging Face图像生成模型发布
08:00
Hugging Face:Blog(RSS)
精选76
介绍 swift-huggingface:完整的 Hugging Face Swift 客户端

swift-huggingface 是一个全新的 Swift 客户端,旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖,核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载,以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布,并将很快集成到 swift-transformers 中取代原有实现,未来还将支持 Xet 存储后端以实现更快的下载。

Hugging Face开源/仓库部署/工程

推荐理由:Swift 开发者可无缝集成 Hugging Face 模型,下载更可靠且与 Python 共享缓存。
04:00
04:00
Qwen:Research(API)
SAPO:面向大语言模型训练的稳定高效强化学习方法

SAPO(Soft Adaptive Policy Optimization)针对GRPO/GSPO硬截断导致的学习信号丢失与训练不稳定问题,提出平滑温度门控函数替代硬截断,构建连续信任区域并实现token级自适应加权。该方法为非对称正负优势设置差异化温度参数,在保持序列连贯性的同时避免整序列梯度丢弃。实验表明,在Qwen3-30B-A3B数学推理任务中,SAPO相比GSPO和GRPO-R2训练更稳定,在AIME25等基准上取得更高Pass@1性能。

推理数据/训练论文/研究
00:23
Google DeepMind:Blog(RSS)
培育适应气候变暖的韧性作物

科学家运用AlphaFold人工智能技术优化光合作用关键酶结构,增强作物耐热性,培育适应全球气候变暖的韧性作物品种,为粮食安全提供新解决方案。

DeepMindGoogle论文/研究
00:00
Qwen:Blog Retrieval(API)
Qwen3-TTS 更新!49 种音色 + 10 种语言 + 9 种方言

Qwen3-TTS 发布更新,支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。

产品更新语音
00:00
Qwen:Research(API)
精选
Qwen3-TTS 更新:支持49种音色、10种语言和9种方言

Qwen3-TTS-Flash 升级,新增49种音色、10种语言和9种中文方言。音色库涵盖多性别、年龄及角色;支持中英德意葡西日韩法俄,在MiniMax TTS测试集上词错误率低于ElevenLabs和GPT-4o-Audio-Preview。新增闽南语、吴语、粤语、四川话等方言合成,可还原地道口音。模型自适应调整语速和韵律,拟真度显著提升,现已通过Qwen API开放。

模型发布语音
关联讨论 1Qwen:Research(API)
推荐理由:Qwen3-TTS支持49种音色及9种中文方言,WER指标超越GPT-4o等竞品
12月4日
21:02
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face图像生成模型发布
20:38
美团 LongCat:HuggingFace 新模型
美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face图像生成模型发布
08:00
OpenRouter:Announcements(RSS)
53
2025 年 AI 现状报告

a16z 联合发布《2025 年 AI 现状报告》,这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据,系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据,以及成本、延迟和输出质量等核心维度的最新基准。

OpenAI现象/趋势
08:00
Hugging Face:Blog(RSS)
精选76
利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法:使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据,并用这些数据对较小的开源模型(如LLaMA系列)进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能,从而推动AI技术的进步与民主化。

AnthropicHugging Face教程/实践数据/训练

推荐理由:用闭源模型蒸馏能力给开源模型,一条低成本微调的新路径值得关注
08:00
Hugging Face:Blog(RSS)
66
DeepMath: 一个基于 smolagents 的轻量级数学推理智能体

研究团队发布了 DeepMath,一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建,旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化,力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。

智能体Hugging Face开源/仓库推理
12月3日
21:45
蚂蚁 inclusionAI:GitHub 新仓库
精选63
蚂蚁集团开源AState:面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由:蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒,这套 AState 系统是真刀真枪的工程解法,做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。
12月2日
06:00
OpenAI:Alignment 研究博客(RSS)
38
Hello World

OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果,致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。

OpenAI安全/对齐
03:00
OpenAI:Alignment 研究博客(RSS)
精选69
大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码
关联讨论 3OpenAI:Alignment 研究博客(RSS)X:Tibo (@thsottiaux)X:邵猛 (@shao__meng)
推荐理由:OpenAI 把对齐研究落到了代码审查这个具体场景,不是空谈 alignment 理论,而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看,这可能是未来安全合规的标配。
03:00
OpenAI:Alignment 研究博客(RSS)
精选56
使用稀疏自编码器潜在归因调试未对齐的补全结果

研究提出了一种利用稀疏自编码器进行潜在归因的方法,以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征,通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型(如GPT、Claude、LLaMA)的特定行为提供了可解释性工具,有助于提升模型的安全性与对齐性。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 官方对齐博客的技术报告,用 SAE 做 misaligned 输出的归因调试,方法本身有价值但已发布 5 个月,对做安全/可解释性的研究员有参考意义,普通开发者可以略过。
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
00:00
字节 Seed:Research Papers(网页内嵌数据)
GR-RL:实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究
00:00
字节 Seed:Research Feed(网页内嵌数据)
GR-RL 发布:突破 VLA 精细操作瓶颈,首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究
12月1日
08:00
Hugging Face:Blog(RSS)
精选93
Transformers v5:以简化模型定义驱动AI生态

Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。

Hugging Face开源/仓库部署/工程
关联讨论 1Hugging Face:Blog(RSS)
推荐理由:Transformers v5 大幅简化模型集成,提升训练推理效率,开发者可快速上手最新 AI 模型。
00:00
LMSYS:Blog(Chatbot Arena 团队)
从研究到生产:在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。

Google数据/训练论文/研究部署/工程
11月26日
17:00
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。

开源/仓库部署/工程
00:00
Google DeepMind:Blog(RSS)
AlphaFold:五年影响力

AlphaFold 发布五年间持续加速科学研究,在全球范围掀起生物发现浪潮,深刻改变了结构生物学领域并推动多项突破性进展。

DeepMindGoogle现象/趋势
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了,初始化 agent + 增量进度文件这套方案不复杂但极实用,做 Agent 产品的团队可以直接抄作业。
11月25日
23:52
Google DeepMind:Blog(RSS)
AlphaFold 揭示心脏病关键蛋白结构

AlphaFold 成功解析了一种与心脏病相关的关键蛋白质结构,为理解疾病分子机制提供重要依据。该突破有助于加速心血管疾病相关药物的研发进程。

DeepMind论文/研究
08:00
Hugging Face:Blog(RSS)
精选76
从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由:深入理解LLM推理优化原理,助力高效模型部署。
08:00
Hugging Face:Blog(RSS)
精选80
Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face图像生成模型发布

推荐理由:FLUX-2 图像生成模型正式进入 Diffusers 生态,本地部署和微调更便捷
01:40
Hugging Face:Blog(RSS)
精选83
构建深度研究智能体:实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。

智能体Hugging Face教程/实践部署/工程

推荐理由:分享构建高效 AI 代理的实战技巧,优化上下文工程以提升性能。