AIHOT

1月26日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发，训练阶段采用伪量化，推理阶段使用W4A16（INT4权重、BF16激活）真实量化，实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200（141GB）GPU即可完成rollout，彻底消除跨节点通信瓶颈，显著提升推理效率，为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程

1月23日

10:50

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 Flash-Thinking-ZigZag 模型

美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型，延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛，以开源方式使先进技术更广泛地惠及开发者社区，推动 AI 技术的普及与可持续发展。

Hugging Face开源生态推理模型发布

00:00

MiniMax：News（网页）

精选

MiniMax Speech 2.8 语音模型

MiniMax 发布新一代语音模型 MiniMax Speech 2.8，通过原生声音标签技术模拟人类口语中的"嗯"、"啊"等填充词及呼吸停顿，显著提升对话自然度。该模型支持10秒样本高保真声音克隆，精准还原音色与语速，同时消除背景噪音与数字伪影，输出录音室级纯净音质。此外，模型优化了跨语言表现，从普通话-日语对开始解决口音渗透问题，实现更接近母语者的发音效果。

模型发布语音

关联讨论 1 条

推荐理由：10秒样本克隆真人声线，AI说话带'嗯啊'呼吸声，MiniMax语音模型上新

1月22日

01:05

Nathan Lambert：Interconnects（RSS）

精选

精通 Agents

AI Agents 的能力正逼近关键临界点，其性能飞跃已超出传统工作模式的承载范围。这要求从业者必须重新界定工作范畴、重构项目管理流程并革新任务执行策略。从需求规划到交付标准，现有方法论面临全面调整，组织与个人亟需掌握与智能体协作的新范式，以适应这一技术变革带来的深层影响。

智能体Hugging Face大佬观点

关联讨论 1 条

推荐理由：Agent工具迫使开发者重构工作流，资深研究者分享进阶路径

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

Qwen Studio 功能全面，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音

00:00

Moonshot AI：Kimi Blog（VitePress）

精选

Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier（KVV），用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题，KVV 提供六项关键基准测试，覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因，并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由：Kimi开源Vendor Verifier，系统性解决开源模型第三方部署质量验证难题

1月21日

20:00

Cursor Blog

Salesforce 采用 Cursor 加速开发超 30%，代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后，开发速度实现两位数增长（超 30%），代码质量同步提升。内部数据显示，团队周期时间、缺陷数量和吞吐量均显著改善，某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化：初级开发者借其理解复杂代码库，资深工程师则从自动化繁琐任务起步，逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码

14:25

Hugging Face：Blog（RSS）

精选70

AssetOpsBench：弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench，这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建，包含多行业数据集和超1000个运维事件，通过多阶段指标测试智能体的诊断、决策等能力，注重动态适应性、多模态处理和安全推理，以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由：首个面向工业资产运维场景的 Agent 基准，填补学术评测与真实落地的鸿沟

00:41

Midjourney：Updates（RSS）

Web 端更新

新增 6:11、4:5、5:4、21:9 四种宽高比选项；未使用 cref/oref 时自动去除 --cw/--ow 参数；自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

00:00

LMSYS：Blog（Chatbot Arena 团队）

Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案，通过共享专家融合、Qknorm 融合与异步传输三项核心技术，在 H200 集群 TP8/FP8 配置下实现首 token 延迟（TTFT）降低 65%、每 token 输出时间（TPOT）提升 22%。针对 Agentic Coding 场景，团队提出无需额外训练草稿模型的 Suffix Decoding 技术，利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程

1月20日

23:02

Hugging Face：Blog（RSS）

"DeepSeek时刻"一周年

Hugging Face在其官方博客发布文章，回顾“DeepSeek时刻”过去一年的影响。文章指出，自DeepSeek系列模型发布以来，开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型，社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛，并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。

DeepSeekHugging Face现象/趋势

11:20

Hugging Face：Blog（RSS）

精选83

差分Transformer V2

差分Transformer V2发布，其核心是改进的差分注意力机制。相较于V1，V2将查询头数量翻倍而保持键值头不变，差分操作后将维度缩减，从而在解码时能达到与标准Transformer相当的速度，且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题，特别是消除了RMSNorm层所需的巨大缩放因子（如在长序列下），从而避免了梯度爆炸，旨在实现更稳定的大规模预训练。

Microsoft推理模型发布

推荐理由：新注意力架构提升解码效率与训练稳定性，开发者可低成本集成优化模型。

08:00

Hugging Face：Blog（RSS）

精选73

Overworld发布实时交互式视频扩散模型Waypoint-1

Overworld推出实时交互式视频扩散模型Waypoint-1，用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构，在1万小时游戏视频及对应控制数据上训练，从一开始就专注于交互体验，支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行，例如Waypoint-1-Small在RTX 5090上能以30 FPS（4步去噪）或60 FPS（2步去噪）生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。

智能体Hugging Face模型发布视频

推荐理由：零延迟交互式视频生成，游戏和创意应用开发者的福音。

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API，支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线，届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由：智谱开源轻量模型GLM-4.7-Flash，免费API助力个人开发者快速上手

1月16日

18:39

Google DeepMind：Blog（RSS）

D4RT：教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪，速度较先前方法提升最高达300倍，为四维计算机视觉领域提供高效解决方案。

DeepMindGoogle多模态视频

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：发布两月进展综述

SGLang-Diffusion 最新版本（lmsysorg/sglang:dev-pr-17247）性能较初始版本提升2.5倍，在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型，完整支持LoRA格式与HTTP API，并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠，支持SP/TP混合并行及SageAttention系列后端，兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程

1月15日

08:00

Hugging Face：Blog（RSS）

精选80

开放回应：你需要知道的事

OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛，促进更广泛的参与和创新。这一举措将推动研究透明化，加速技术迭代，并鼓励全球协作共同构建 AI 的未来。

产品更新开源/仓库开源生态

关联讨论 1 条

推荐理由：开源替代方案降低 AI API 依赖，开发者多一个免费可控的选择

03:00

OpenAI：Alignment 研究博客（RSS）

精选60

CoVal：从群体中学习具有价值观意识的评估准则

研究团队发布了一个名为CoVal的实验性数据集，其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因，旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则，研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 把众包标注升级成可学习的价值观评分标准，对做对齐和 RLHF 的团队来说是个新数据源，但离产品落地还远，属于研究信号而非行动指南。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism（PP）优化实现，集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下，DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍，较 TP32 领先 30.5%，TTFT 降低 67.9%，强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache，为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程

1月14日

18:44

美团 LongCat：HuggingFace 新模型

精选

美团LongCat发布重思考模式总结模型

美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式（Heavy Thinking Mode），并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力：前者以高温度并行生成多路径扩展宽度，后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力，已在Longcat AI平台上线。

Hugging Face推理模型发布

关联讨论 1 条

推荐理由：美团开源 560B 参数 MoE 推理模型，Heavy Thinking 模式支持并行多路径探索，已上线可体验

01:00

Google DeepMind：Blog（RSS）

Veo 3.1 Ingredients to Video：更强的一致性、创造力和控制力

Veo 3.1 版本新增竖屏视频生成功能，输出画面动态效果更自然生动，在一致性与创造力方面均有提升。

Google产品更新视频

00:00

智谱：研究（网页内嵌数据）

精选

智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image，为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构，在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一，支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张，代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由：首个国产昇腾芯片训练的SOTA多模态模型开源，文字渲染能力开源第一，生成一张图仅需0.1元

1月13日

03:00

OpenAI：Alignment 研究博客（RSS）

精选66

为何我们对"忏悔式"训练感到兴奋

Anthropic提出“忏悔式”训练法，要求AI在拒绝不当请求时，内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性：经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下，降幅超80%。其效果优于传统思维链监控，为AI对齐提供了更鲁棒、可解释的安全训练新路径。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 对齐团队把「confession training」和 chain-of-thought monitoring 做了系统对比，这是对齐领域少有的实操级研究，做安全的团队值得细读，但离普通开发者还远。

1月12日