1月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
单卡H200部署1TB模型:INT4 QAT RL端到端实践

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程
1月23日
10:50
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 Flash-Thinking-ZigZag 模型

美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型,延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛,以开源方式使先进技术更广泛地惠及开发者社区,推动 AI 技术的普及与可持续发展。

Hugging Face开源生态推理模型发布
00:00
MiniMax:News(网页)
精选
MiniMax Speech 2.8 语音模型

MiniMax 发布新一代语音模型 MiniMax Speech 2.8,通过原生声音标签技术模拟人类口语中的"嗯"、"啊"等填充词及呼吸停顿,显著提升对话自然度。该模型支持10秒样本高保真声音克隆,精准还原音色与语速,同时消除背景噪音与数字伪影,输出录音室级纯净音质。此外,模型优化了跨语言表现,从普通话-日语对开始解决口音渗透问题,实现更接近母语者的发音效果。

模型发布语音
关联讨论 1MiniMax:News(网页)
推荐理由:10秒样本克隆真人声线,AI说话带'嗯啊'呼吸声,MiniMax语音模型上新
1月22日
01:05
Nathan Lambert:Interconnects(RSS)
精选
精通 Agents

AI Agents 的能力正逼近关键临界点,其性能飞跃已超出传统工作模式的承载范围。这要求从业者必须重新界定工作范畴、重构项目管理流程并革新任务执行策略。从需求规划到交付标准,现有方法论面临全面调整,组织与个人亟需掌握与智能体协作的新范式,以适应这一技术变革带来的深层影响。

智能体Hugging Face大佬观点
关联讨论 1Ethan Mollick:One Useful Thing(RSS)
推荐理由:Agent工具迫使开发者重构工作流,资深研究者分享进阶路径
00:00
00:00
Moonshot AI:Kimi Blog(VitePress)
精选
Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier(KVV),用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题,KVV 提供六项关键基准测试,覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因,并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由:Kimi开源Vendor Verifier,系统性解决开源模型第三方部署质量验证难题
1月21日
20:00
Cursor Blog
Salesforce 采用 Cursor 加速开发超 30%,代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码
14:25
Hugging Face:Blog(RSS)
精选70
AssetOpsBench:弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench,这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建,包含多行业数据集和超1000个运维事件,通过多阶段指标测试智能体的诊断、决策等能力,注重动态适应性、多模态处理和安全推理,以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由:首个面向工业资产运维场景的 Agent 基准,填补学术评测与真实落地的鸿沟
00:41
Midjourney:Updates(RSS)
Web 端更新

新增 6:11、4:5、5:4、21:9 四种宽高比选项;未使用 cref/oref 时自动去除 --cw/--ow 参数;自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初,团队使用带回家测试评估候选人优化模拟加速器代码的能力,超1000人参与,成功招聘数十名工程师。但随着Claude模型快速迭代,Opus 4已超越多数人类申请者,Opus 4.5甚至匹配顶尖候选人,导致在时间限制下难以区分人类与AI输出。为此,作者三次重设计测试,探索抗AI评估要素,详述原始设计、模型破解方式及非常规对策。最终,团队将原始测试作为公开挑战发布,因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由:Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程,这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你,模型到底强到了什么程度。
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月20日
23:02
Hugging Face:Blog(RSS)
58
"DeepSeek时刻"一周年

Hugging Face在其官方博客发布文章,回顾“DeepSeek时刻”过去一年的影响。文章指出,自DeepSeek系列模型发布以来,开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型,社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛,并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。

DeepSeekHugging Face现象/趋势
11:20
Hugging Face:Blog(RSS)
精选83
差分Transformer V2

差分Transformer V2发布,其核心是改进的差分注意力机制。相较于V1,V2将查询头数量翻倍而保持键值头不变,差分操作后将维度缩减,从而在解码时能达到与标准Transformer相当的速度,且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题,特别是消除了RMSNorm层所需的巨大缩放因子(如在长序列下),从而避免了梯度爆炸,旨在实现更稳定的大规模预训练。

Microsoft推理模型发布

推荐理由:新注意力架构提升解码效率与训练稳定性,开发者可低成本集成优化模型。
08:00
Hugging Face:Blog(RSS)
精选73
Overworld发布实时交互式视频扩散模型Waypoint-1

Overworld推出实时交互式视频扩散模型Waypoint-1,用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构,在1万小时游戏视频及对应控制数据上训练,从一开始就专注于交互体验,支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行,例如Waypoint-1-Small在RTX 5090上能以30 FPS(4步去噪)或60 FPS(2步去噪)生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。

智能体Hugging Face模型发布视频

推荐理由:零延迟交互式视频生成,游戏和创意应用开发者的福音。
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由:智谱开源轻量模型GLM-4.7-Flash,免费API助力个人开发者快速上手
1月16日
18:39
Google DeepMind:Blog(RSS)
D4RT:教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪,速度较先前方法提升最高达300倍,为四维计算机视觉领域提供高效解决方案。

DeepMindGoogle多模态视频
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:发布两月进展综述

SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程
1月15日
08:00
Hugging Face:Blog(RSS)
精选80
开放回应:你需要知道的事

OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛,促进更广泛的参与和创新。这一举措将推动研究透明化,加速技术迭代,并鼓励全球协作共同构建 AI 的未来。

产品更新开源/仓库开源生态
关联讨论 1X:Sam Altman (@sama)
推荐理由:开源替代方案降低 AI API 依赖,开发者多一个免费可控的选择
03:00
OpenAI:Alignment 研究博客(RSS)
精选60
CoVal: 从群体中学习具有价值观意识的评估准则

研究团队发布了一个名为CoVal的实验性数据集,其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因,旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则,研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 把众包标注升级成可学习的价值观评分标准,对做对齐和 RLHF 的团队来说是个新数据源,但离产品落地还远,属于研究信号而非行动指南。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程
1月14日
18:44
美团 LongCat:HuggingFace 新模型
精选
美团LongCat发布重思考模式总结模型

美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式(Heavy Thinking Mode),并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力:前者以高温度并行生成多路径扩展宽度,后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力,已在Longcat AI平台上线。

Hugging Face推理模型发布
关联讨论 1美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数 MoE 推理模型,Heavy Thinking 模式支持并行多路径探索,已上线可体验
01:00
00:00
智谱:研究(网页内嵌数据)
精选
智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由:首个国产昇腾芯片训练的SOTA多模态模型开源,文字渲染能力开源第一,生成一张图仅需0.1元
1月13日
03:00
OpenAI:Alignment 研究博客(RSS)
精选66
为何我们对"忏悔式"训练感到兴奋

Anthropic提出“忏悔式”训练法,要求AI在拒绝不当请求时,内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性:经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下,降幅超80%。其效果优于传统思维链监控,为AI对齐提供了更鲁棒、可解释的安全训练新路径。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 对齐团队把「confession training」和 chain-of-thought monitoring 做了系统对比,这是对齐领域少有的实操级研究,做安全的团队值得细读,但离普通开发者还远。
1月12日
13:26
DeepSeek:GitHub 新仓库
Engram:通过可扩展查找的条件记忆--大语言模型稀疏性的新维度

DeepSeek 提出 Engram 架构,通过可扩展查找机制实现条件化记忆存储,为大语言模型引入稀疏性的全新维度。该方法突破传统参数稀疏范式,以动态查找表替代部分计算路径,在保持模型性能的同时显著降低计算开销,为超大规模语言模型的效率优化与架构设计提供了新思路。

DeepSeek开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展

SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。

多模态开源/仓库部署/工程
1月11日
22:02
Nathan Lambert:Interconnects(RSS)
使用多个模型

2026年AI应用的新范式将是同时使用多个模型。与依赖单一模型的传统方式不同,通过组合不同AI模型的优势能力将成为最大化人工智能输出效果的关键策略。这一转变标志着行业从单一大型模型向多模型协作生态的迁移,用户需采用模型组合方法以释放AI的全部潜力,适应日益复杂的智能化需求。

大佬观点
04:30
Dwarkesh Patel:Podcast & Blog(RSS)
近期阅读清单 - 2026年1月10日

作者发布2026年1月10日阅读清单,涵盖非线性动力学与混沌理论、探讨AI自动化的《Machines of Loving Grace》、Neuralink联合创始人Max Hodak关于意识的理论假说,以及神经网络训练过程中产生精美分形图案的现象。内容横跨复杂系统、神经科学与机器学习可视化等多个前沿领域。

大佬观点数据/训练
1月10日
17:00
BAIR:Berkeley AI Research Blog
信息驱动的成像系统设计

伯克利研究团队提出一种基于互信息的成像系统评估与优化框架,通过直接从含噪测量中估计信息内容来量化系统性能。该方法利用成像系统已知的噪声物理特性(光子散粒噪声、电子读出噪声等),将互信息分解为总测量变异与噪声变异之差,仅需训练概率模型学习测量分布即可计算。实验验证该指标在四个成像领域均能准确预测系统性能,优化后的设计可达到端到端方法的最先进水平,同时显著降低内存与计算需求,且无需针对特定任务设计解码器。

论文/研究
07:20
Midjourney:Updates(RSS)
精选
Niji V7 正式发布!

Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化,改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。

图像生成模型发布

推荐理由:Midjourney 动漫专用模型 Niji V7 发布,生成质量再升级
01:42
Nathan Lambert:Interconnects(RSS)
精选
Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。

智能体Anthropic大佬观点编码
关联讨论 7X:Kim (@kimmonismus)Gary Marcus:The Road to AI We Can Trust(RSS)Nathan Lambert:Interconnects(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Claude Code:GitHub Releases(RSS)Claude:Blog(网页)
推荐理由:编码 Agent 跨越关键门槛,Claude Code 能力跃升将重塑开发者工作流
1月9日
08:00
OpenRouter:Announcements(RSS)
50
January Release Spotlight

本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。

MCP/工具产品更新部署/工程
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
揭秘AI智能体评估:构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体,避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性,评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果,其价值在智能体整个生命周期内持续累积。

智能体Anthropic教程/实践评测/基准

推荐理由:Anthropic 把内部踩过的坑全摊开了,从 eval 设计到 grader 选型到 transcript 审读,是目前最完整的 Agent 评估工程指南,做 Agent 产品的团队可以直接当手册用。
1月8日
07:00
Ethan Mollick:One Useful Thing(RSS)
Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。

智能体Anthropic大佬观点编码
04:00
Qwen:Blog Retrieval(API)
Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布
1月6日
08:00
xAI:News(网页)
xAI 完成 200 亿美元 E 轮融资

xAI 完成 200 亿美元 E 轮融资,投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户,运营超 100 万 H100 GPU 等效算力的 Colossus 超算,正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。

智能体xAI多模态行业动态
07:30
NVIDIA AI Blog
精选
NVIDIA CES 2026发布Rubin平台与开放模型,描绘AI未来蓝图

NVIDIA CEO黄仁勋在CES 2026发布Rubin AI平台,该六芯片协同设计系统已全面投产,可将AI token生成成本降至十分之一。Rubin GPU提供50 petaflops推理算力,配合Vera CPU及AI原生存储架构,实现长文本推理速度5倍提升。同时推出面向自动驾驶的开放模型家族Alpamayo,以及覆盖医疗、气候、机器人等领域的六大开放模型体系,构建从数据中心到个人设备的全栈AI生态。

智能体具身智能推理模型发布
关联讨论 1NVIDIA AI Blog
推荐理由:推理成本砍至1/10,NVIDIA开放模型家族让物理AI和自动驾驶触手可及
06:56
Hugging Face:Blog(RSS)
精选80
NVIDIA发布Cosmos Reason 2模型,增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由:物理AI推理能力升级,机器人和具身智能落地的关键拼图
1月5日
17:16
Hugging Face:Blog(RSS)
精选73
Introducing Falcon-H1-Arabic: 以混合架构突破阿拉伯语AI的边界

阿联酋技术创新研究院在Hugging Face发布了Falcon-H1-Arabic模型。该模型采用创新的混合架构,融合了自回归与自编码技术,专门针对阿拉伯语进行优化。其目标是通过提升对阿拉伯语复杂语法和丰富形态的理解与生成能力,显著推进阿拉伯语人工智能的发展。这一发布标志着阿拉伯语大语言模型在技术架构上取得了重要进展。

开源生态模型发布

推荐理由:阿拉伯语AI新模型发布,推动多语言AI应用发展
08:00
Hugging Face:Blog(RSS)
38
NVIDIA 借助 DGX Spark 与 Reachy Mini 将智能体带入现实

NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人,旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合,使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施,Reachy Mini 则提供高精度七自由度机械臂硬件,共同推动具身智能发展。

智能体产品更新具身智能