AIHOT

12月11日

08:00

Hugging Face：Blog（RSS）

Codex 宣布将开源其人工智能模型。这一举措旨在通过开源和开放科学的方式，推动人工智能技术的进步与民主化。公司表示，开源模型将允许更广泛的研究人员和开发者访问、使用并在此基础上进行创新，从而加速AI领域的发展。此举也呼应了当前AI社区对增加透明度与协作的呼声。

开源/仓库

08:00

xAI：News（网页）

xAI 与萨尔瓦多率先推出全球首个全国性 AI 教育项目

xAI 与萨尔瓦多政府达成合作，将在未来两年向该国 5000 余所公立学校部署 Grok，为超 100 万学生提供自适应个性化辅导，同时赋能数千名教师。该项目旨在通过 AI 弥合教育差距，并生成新的方法论与数据集以指导全球课堂的负责任 AI 应用。萨尔瓦多总统 Bukele 与 xAI 创始人 Musk 均表示，此举将让前沿 AI 直接惠及整代学生，证明国家可通过大胆政策实现跨越式发展。

xAI行业动态

00:00

Runway：Changelog（网页）

Seedance 2.0

Seedance 2.0 正式发布，以「提供创作所需的一切，实现任意想象」为核心理念，整合全链路生产能力，支持用户一站式完成从概念到成品的任意内容制作。

模型发布视频

00:00

智谱：研究（网页内嵌数据）

精选

GLM-TTS：基于多奖励融合强化学习，实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架，融合字符错误率、相似度、情感及笑声奖励，实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA，情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色，通过 Phoneme-in 混合输入精准控制多音字发音，配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由：智谱开源GLM-TTS，3秒克隆任意音色并支持喜怒哀乐情感表达

12月10日

22:59

Google DeepMind：Blog（RSS）

深化与英国政府合作，支持 AI 时代的繁荣与安全

深化与英国政府合作，支持 AI 时代的繁荣与安全。双方伙伴关系升级，共同推动人工智能经济发展与安全保障，确保技术革新与国家安全并重。

DeepMind安全/对齐行业动态

00:00

LMSYS：Blog（Chatbot Arena 团队）

让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork（Tensor Remote Fork）技术，通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒，减少约 600GB 的本地磁盘与 DRAM 存储占用，并提供 NCCL 和 TransferEngine 两种后端方案，后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek开源/仓库开源生态部署/工程

00:00

智谱：研究（网页内嵌数据）

精选

GLM-ASR-Nano：面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano，仅 1.5B 参数，面向真实世界场景优化鲁棒性，已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由：智谱开源1.5B语音识别模型，端侧可用且针对真实场景优化，适合集成到输入法等产品

12月9日

19:29

Google DeepMind：Blog（RSS）

FACTS基准测试套件：系统评估大语言模型的事实准确性

本文推出FACTS基准测试套件，用于系统性评估大语言模型的事实准确性。该套件提供标准化评测工具，可检测模型生成内容中的事实性错误，助力评估模型真实性与可靠性。

DeepMind评测/基准

05:00

Qwen：Research（API）

精选

Qwen3-Omni-Flash-2025-12-01发布：全面升级多模态交互体验

Qwen3-Omni-Flash-2025-12-01基于Qwen3-Omni全面升级多模态能力。新版本显著改善音视频交互体验，解决口语场景"智能下降"问题，支持多轮稳定对话；系统提示词可完全自定义，精准控制人设风格与输出长度；支持119种语言文本交互、19种语音识别及10种语音合成，消除语言跟随不稳定问题；语音合成更自然，能根据上下文调整韵律。基准测试显示，文本推理、代码生成、视觉理解及视频理解等能力均有显著提升。

多模态模型发布语音

关联讨论 1 条

推荐理由：阿里Qwen3-Omni多模态模型重磅升级，音视频理解与语音交互能力显著增强

00:00

Claude：Blog（网页）

精选

Anthropic调研：2026年企业AI智能体应用趋势

Anthropic与Material调研500余位技术领导者显示，57%企业已将AI智能体用于多阶段工作流，16%实现跨职能部署。编码是核心场景，90%用于开发辅助，86%用于生产代码，平均节省近六成时间。80%受访者称投资已产生可衡量回报，如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例，但面临系统集成、数据质量和变革管理三大挑战。

智能体Anthropic现象/趋势编码

推荐理由：Anthropic发布企业AI Agent深度调研，揭示2026年应用趋势与头部企业实战案例

12月8日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.6V：支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型，含106B-A12B基础版与9B轻量版Flash，支持128k tokens上下文。首次原生集成Function Call能力，支持图像、截图直接作为工具参数，并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力，适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体MCP/工具多模态模型发布

推荐理由：智谱开源 GLM-4.6V，原生支持工具调用的多模态 Agent 底座

00:00

智谱：研究（网页内嵌数据）

AutoGLM：每台手机，都可以成为 AI 手机

智谱发布全球首个手机Agent AutoGLM，创新采用ComputerRL、MobileRL与AgentRL技术架构，在Device Use基准测试中超越ChatGPT Agent等达到SOTA水平。支持通过自然语言指令完成点外卖、订酒店、办公等全场景任务，具备屏幕理解、自主规划与云端异步运行能力，可在专属云设备上"自动驾驶"手机而不占用本地资源。项目已开源并提供美团、微博、B站等实机操作案例。

智能体产品更新端侧

12月5日

15:34

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，通过开放协作促进全球开发者共同参与技术创新，推动先进图像编辑能力的广泛可及。

Hugging Face图像生成模型发布

08:00

Hugging Face：Blog（RSS）

精选76

介绍 swift-huggingface：完整的 Hugging Face Swift 客户端

swift-huggingface 是一个全新的 Swift 客户端，旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖，核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载，以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布，并将很快集成到 swift-transformers 中取代原有实现，未来还将支持 Xet 存储后端以实现更快的下载。

Hugging Face开源/仓库部署/工程

推荐理由：Swift 开发者可无缝集成 Hugging Face 模型，下载更可靠且与 Python 共享缓存。