1月5日
00:00
Runway:News(网页)
Runway基于NVIDIA Rubin平台加速视频生成与世界模型

Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72,展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力,可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族,支持物理感知机器人训练、可探索虚拟世界及交互式化身,推动AI从文本理解向物理世界模拟演进。

产品更新具身智能视频
1月1日
00:00
Dario Amodei:Blog(网页)
精选
技术的青春期

Dario Amodei 将当前 AI 发展阶段定义为「技术的青春期」,认为人类即将获得难以想象的力量,但社会和政治系统是否具备驾驭成熟度仍存疑。文章强调需避免「末日论」式恐慌,以务实、基于事实的方式讨论风险,同时承认 AI 发展速度和风险的不确定性。作者主张通过企业自愿行动与精准政府监管相结合,在避免过度干预的前提下应对潜在危险,为可能到来的更强有力行动储备证据和方案。

智能体Anthropic大佬观点安全/对齐
关联讨论 2Dario Amodei:Blog(网页)X:Dario Amodei (@DarioAmodei)
推荐理由:Anthropic CEO 长文剖析 AI 文明风险与治理路径,值得深读。
12月31日
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-2512:细节更精细,真实感更强

Qwen-Image-2512 发布,图像细节与真实感显著提升。Qwen Studio 平台提供聊天、图像视频理解/生成、文档处理、网页搜索、工具调用及 artifacts 等全功能支持。

图像生成模型发布
01:07
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Adam Marblestone - AI 缺失了关于大脑的根本认知

Adam Marblestone 指出,当前人工智能研究忽略了大脑运作的核心机制。与业界普遍关注神经网络架构不同,大脑的真正优势在于其奖励函数而非结构本身。这一观点挑战了主流 AI 研究范式,暗示未来突破可能来自对大脑激励系统的深入理解,而非单纯的架构模仿。该论断为人工智能发展提供了新的思考维度。

大佬观点数据/训练

推荐理由:AI研发或应转向奖励函数设计,而非一味堆叠架构复杂度
12月30日
08:00
xAI:News(网页)
精选
xAI推出Grok Business与Enterprise企业版

xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。

智能体xAI产品更新部署/工程

推荐理由:xAI 推出 Grok 企业版,主打隐私保护与 Agent 能力,月费 30 美元起
12月24日
08:00
OpenRouter:Announcements(RSS)
50
利用NeMo Data Designer构建可蒸馏模型与合成数据管道

NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。

产品更新数据/训练部署/工程
01:01
00:00
字节 Seed:Research Feed(网页内嵌数据)
Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5,采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证,并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练,该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分(金牌线),9 小时内解决 Putnam 2025 的 11/12 题,在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率,刷新多项 SOTA。

智能体推理模型发布
12月23日
22:07
Hugging Face:Blog(RSS)
66
AprielGuard:现代大语言模型系统的安全与对抗鲁棒性护栏

ServiceNow AI团队在Hugging Face发布了AprielGuard框架。该框架专为提升LLM在生产环境中的安全性而设计,通过集成多层检测与过滤机制,防御对抗性攻击和恶意输入,以增强系统的整体稳健性。

Hugging Face安全/对齐部署/工程
13:08
Qwen:Blog Retrieval(API)
Qwen-Image-Edit-2511:提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态
13:08
Qwen:Research(API)
精选
Qwen-Image-Edit-2511:一致性改进

Qwen-Image-Edit-2511 发布,在 2509 版本基础上显著提升一致性表现。新版本减少图像漂移,增强单人和多人场景的角色一致性,支持将两张独立人像高保真融合为合影。内置社区热门 LoRA,无需额外调参即可实现光线控制、视角生成等效果。同时强化工业设计生成与几何推理能力,支持批量产品设计和辅助构造线生成。在线版已上线 Qwen Chat,本地部署可获得最佳性能。

图像生成多模态模型发布

推荐理由:Qwen图像编辑模型升级,显著提升角色一致性与LoRA支持能力。
03:00
OpenAI:Alignment 研究博客(RSS)
精选56
Helpful assistant 功能抑制新兴错位

研究发现,新兴错位现象不仅会激活错位的人格角色,同时也会抑制有帮助的助手人格。这一机制表明,在大型语言模型中,有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系,为理解和缓解AI错位问题提供了新的视角。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 官方对齐博客的一篇短文,核心发现是 helpful assistant 特征能压制 emergent misalignment。对做对齐研究的人有参考价值,但内容体量很小,更像是一个实验观察而非完整论文。
00:00
Qwen:Blog Retrieval(API)
Qwen3-TTS 升级:支持语音克隆和语音设计!

Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音
00:00
LMSYS:Blog(Chatbot Arena 团队)
SpecBundle与SpecForge v0.2发布:生产级投机解码模型与框架

SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。

开源/仓库开源生态部署/工程
12月22日
08:00
xAI:News(网页)
精选
以 AI 支持 DOW 的使命

xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。

智能体xAI行业动态部署/工程
关联讨论 1xAI:News(网页)
推荐理由:xAI获美国国防部大单,Grok将覆盖300万军事人员并提供实时情报支持
08:00
xAI:News(网页)
Grok 发布 Collections API

Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强xAI产品更新部署/工程
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7:更强的 Coding

GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由:智谱发布GLM-4.7,编程Agent能力大幅提升,支持Claude Code等主流框架和Vibe Coding。
12月19日
14:35
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准,旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力,覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架,为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准
13:08
13:08
Qwen:Research(API)
精选
Qwen-Image-Layered:通过分层分解实现内在可编辑性

Qwen-Image-Layered 能将图像分解为多个 RGBA 图层,实现物理隔离的独立编辑。用户可对任意图层进行换色、替换对象、文本修改、删除、无损缩放及自由重定位等操作,且不影响其他内容。模型支持可变数量分解(如 3 层或 8 层)及递归分解,允许对图层进一步拆分以处理复杂场景。该分层表示方法实现了高保真、一致的图像编辑能力。

图像生成多模态模型发布

推荐理由:阿里 Qwen 新模型实现图像智能分层,支持像素级精准编辑与灵活调整
03:00
OpenAI:Alignment 研究博客(RSS)
精选62
规避评估意识与预测生产环境中的未对齐行为

研究团队提出了一种新流程,旨在发现模型未知的未对齐行为,并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”,直接模拟真实生产环境中的使用场景,从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集,提升对前沿模型在复杂、开放环境中行为的预测能力,为人工智能安全评估提供了可扩展的工具。

OpenAI安全/对齐评测/基准

推荐理由:OpenAI 官方对齐团队发了一套生产环境评测管线,核心思路是绕过模型的「评测意识」来抓真实 misalignment。做安全评估的团队值得读,但对普通开发者来说更像行业基础设施更新。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang实现扩散LLM框架:支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程
12月18日
08:00
OpenRouter:Announcements(RSS)
40
十二月发布亮点

Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选61
Response Healing:将 JSON 缺陷减少 80% 以上

OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。

智能体产品更新部署/工程

推荐理由:做 Agent 的人最怕 JSON 解析炸掉整个 pipeline,OpenRouter 这个 Response Healing 相当于在网关层加了自动纠错,接入成本几乎为零,值得试试。
08:00
Hugging Face:Blog(RSS)
精选73
Transformers v5 中的分词:更简单、清晰与模块化

Transformers v5 发布了全新的分词处理架构,核心变化是引入了更简单、统一的 API 设计,将分词器、后处理器和解码器模块化。新版移除了大量遗留代码,使代码库体积减少了约 40%,并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛,同时为各类大语言模型(如 GPT、Claude、LLaMA)提供更高效、一致的分词支持。

Hugging Face开源/仓库数据/训练
关联讨论 1Hugging Face:Blog(RSS)
推荐理由:Transformers库tokenization模块重构,开发者可更高效处理文本数据。
00:00
Meta AI:Blog(网页)
精选73
DINO和SAM助力现代化关键医疗分诊实践

美国国防高级研究计划局(DARPA)发起一项为期三年的挑战赛,旨在利用自主系统搭载传感器在通信受限的灾难环境中实现伤亡实时检测与伤情评估。宾夕法尼亚大学PRONTO团队结合无人机与地面机器人,应用Meta的SAM 2和DINO等AI模型,开发出能自动检测心率、呼吸频率及伤口等伤情的分类系统,并通过移动界面为急救人员可视化呈现伤员位置与伤情特征,以优化救援资源分配。挑战赛第二阶段已于2024年9月进行,第三阶段将探索SAM与DINO最新版本在分诊中的进一步应用。

Meta教程/实践部署/工程

推荐理由:AI模型在灾难医疗中实现实时伤情识别,可优化救援决策。
00:00
Runway:Changelog(网页)
全新音频功能

推出一站式音频创作工具集,集成从录制到后期的完整功能,满足任意音频制作需求,让创作者轻松实现各类作品,全面覆盖专业音频生产场景。

产品更新视频语音
12月17日
21:22
Hugging Face:Blog(RSS)
66
开放评估标准:使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。

Hugging Face评测/基准部署/工程
19:58
Google DeepMind:Blog(RSS)
精选
Gemini 3 Flash:专为速度打造的前沿智能

Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由:Google发布Gemini 3 Flash轻量模型,兼顾前沿性能与推理速度
08:00
xAI:News(网页)
精选
xAI 发布 Grok Voice Agent API

xAI 开放 Grok Voice Agent API,基于自研语音栈(VAD、tokenizer、音频模型),Big Bench Audio 基准排名第一,首音频延迟低于 1 秒(比竞品快近 5 倍),定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具,已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线,支持 [whisper] 等听觉标签,兼容 OpenAI Realtime API 规范。

智能体xAI产品更新语音
关联讨论 1xAI:News(网页)
推荐理由:xAI发布Grok语音Agent API,延迟低于1秒且定价仅为OpenAI一半,已集成至Tesla车载系统
12月16日
18:14
16:55
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程
00:01
Hugging Face:Blog(RSS)
精选83
CUGA 登陆 Hugging Face:普及可配置的通用 AI 智能体

开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces,便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越,在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一,在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本,支持计算机使用与多工具无缝集成,并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型,在高性能推理平台(如 Groq)上运行能显著提升效率。

智能体Hugging FaceMCP/工具开源/仓库

推荐理由:开源AI代理框架性能领先,集成Hugging Face和Langflow,开发者可快速构建复杂任务。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。

推理模型发布部署/工程
12月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程
12月13日
17:03
美团 LongCat:HuggingFace 新模型
meituan-longcat/LongCat-Video-Avatar 视频化身项目

meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒,将先进的 AI 能力开放给更广泛的开发者社区,推动前沿技术的平民化应用与生态发展。

Hugging Face模型发布视频
12月12日
03:19
NVIDIA AI Blog
随着AI日益复杂,模型构建者依赖NVIDIA

OpenAI最新发布的GPT-5.2和GPT-5.3 Codex均在NVIDIA Blackwell基础设施上训练部署。GPT-5.2在GPQA-Diamond、ARC-AGI-2等多项基准测试中创下行业新高;GPT-5.3 Codex作为首个能自我构建的代理编码模型,在SWE-Bench Pro等测试中表现卓越,推理速度提升25%。NVIDIA GB200 NVL72系统相比Hopper架构实现3倍训练性能提升,GB300更达4倍以上。从Runway的Gen-4.5视频生成到Evo 2基因解码,多模态AI应用正依托NVIDIA全栈平台扩展,Blackwell已获主流云厂商和AI实验室广泛采用。

智能体OpenAI模型发布编码
12月11日
23:47
Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由:本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
23:36
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布
08:06