2月9日
15:55
蚂蚁 inclusionAI:HuggingFace 新模型
36
inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿(30B),是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标,旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升,具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧
08:00
Hugging Face:Blog(RSS)
精选76
Transformers.js v4:现已在 NPM 上发布!

Transformers.js 发布第四个主要版本 v4,该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命,使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face开源/仓库端侧部署/工程

推荐理由:浏览器和 Node.js 直接跑 HF 模型的大版本升级,前端开发者可零门槛接入 AI
00:00
Moonshot AI:Kimi Blog(VitePress)
精选
Agent Swarm多代理协作系统

Kimi推出Agent Swarm系统,支持100个子代理并行工作,可执行超1500次工具调用,任务完成速度比顺序执行快4.5倍。该系统突破单模型上下文限制,采用自我组织架构,用户下达指令后自动"招聘"CEO、研究员等角色并动态分配工作流,无需人工编写脚本。适用于大规模信息搜集、长文档生成及多视角辩论等场景,通过结构性分歧避免AI群体思维。

智能体产品更新
关联讨论 1Moonshot AI:Kimi Blog(VitePress)
推荐理由:Kimi发布Agent Swarm,支持100个AI子代理并行协作,可自动分解复杂研究任务
2月7日
03:00
OpenAI:Alignment 研究博客(RSS)
精选72
在真实世界使用中发现未知的 AI 对齐偏差

研究表明,推理模型能够通过分析用户的实际反馈,识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类,而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离,为动态监测和修正 AI 系统提供了新途径。

OpenAI安全/对齐推理论文/研究

推荐理由:OpenAI 让推理模型从真实用户反馈中自动发现未知的对齐失败,这比红队测试更接近真实威胁面。做安全和对齐的人应该认真看,它可能改变你们的检测范式。
2月6日
15:32
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型

美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8(8位浮点)精度格式,属于 Flash-Lite 轻量化系列,旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语,具体参数规模、基准测试成绩及技术细节有待进一步披露。

Hugging Face模型发布端侧部署/工程
02:26
Dwarkesh Patel:Podcast & Blog(RSS)
Space GPUs 笔记

作者将为与 Elon Musk 会面所做的背景研究整理成这篇博客文章,核心议题围绕 Space GPUs 展开。文章记录了针对太空计算架构、星链或星舰相关技术基础设施的调研与思考过程,但正文未披露具体的 GPU 型号、性能参数、算力指标或产品发布细节。

xAI大佬观点部署/工程
00:52
Hugging Face:Blog(RSS)
60
ServiceNow AI 发布 SyGra Studio:低代码知识图谱构建平台

ServiceNow AI 在 Hugging Face 上推出了 SyGra Studio,这是一个低代码平台,旨在简化知识图谱的构建、可视化与分析。该平台允许用户通过直观界面整合多源数据,并支持与 GPT、Claude 等大语言模型集成,以增强语义理解和推理能力,显著降低了领域专家构建知识图谱的技术门槛。

Hugging Face开源/仓库部署/工程
00:45
Dwarkesh Patel:Podcast & Blog(RSS)
精选
埃隆·马斯克--「36个月内,部署AI最便宜的地方将是太空」

埃隆·马斯克预测,36个月后太空将成为部署人工智能成本最低的地点。他指出,长期专注于软件领域的从业者即将面临硬件层面的严峻挑战。这一判断暗示,随着AI算力需求爆发式增长,地面数据中心的能源消耗与散热限制将推高计算成本,而太空环境凭借丰富的太阳能和天然散热优势,可能在未来三年内成为AI基础设施部署的更经济选择。

xAI大佬观点部署/工程

推荐理由:Musk预判三年内太空将成为AI算力最优解,软件工程师需直面硬件物理约束
00:00
字节 Seed:Research Papers(网页内嵌数据)
Protenix-v1:迈向高精度开源生物分子结构预测

基于提供的GitHub仓库元数据,Protenix-v1是一个开源生物分子结构预测项目,其技术报告以PDF形式发布(PTX_V1_Technical_Report)。该仓库已获得1.8k星标和262个分支,显示社区关注度较高。但受限于提供的正文仅为文件列表界面,未包含技术报告实际章节,无法提取模型在基准测试中的具体准确率数值、参数规模、训练数据量或架构创新细节等关键技术指标。

开源生态论文/研究
2月5日
11:24
蚂蚁 inclusionAI:GitHub 新仓库
28
inclusionAI/Ling 项目官网

inclusionAI 正式推出 Ling 项目的官方网站,该网站约 95% 的内容和功能由人工智能技术构建完成。这一举措展示了 AI 在网站开发与内容生成领域的高度参与度,标志着项目在技术整合与应用层面的重要进展。

开源/仓库行业动态
02:00
Nathan Lambert:Interconnects(RSS)
精选
Nvidia 为何构建开源模型:对话 Bryan Catanzaro

Interconnects 第17期访谈中,Nvidia 副总裁 Bryan Catanzaro 系统回顾了 Nemotron 开源模型项目的技术演进与战略定位。访谈涵盖该系列模型从研发初期到当前版本的迭代历程,剖析了英伟达在开源 AI 领域的布局逻辑,并披露了 Nemotron 在合成数据生成与模型训练效率方面的最新进展及未来规划。

大佬观点开源生态数据/训练
关联讨论 3HuggingFace Daily Papers(社区热门论文)Hugging Face:Blog(RSS)X:Berry Xia (@berryxia)
推荐理由:NVIDIA副总裁亲述开源模型战略,揭示芯片巨头如何通过开放生态锁定行业标准
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由:Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器,2000 次会话花了两万刀。真正值钱的不是编译器本身,而是他总结的 agent 团队协作方法论,做多 agent 系统的人该逐段拆。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选76
量化智能体编码评估中的基础设施干扰

研究发现,在SWE-bench等智能体编码基准测试中,基础设施配置差异对模型评分的影响,可能超过排行榜上顶尖模型之间的微小分差。内部实验显示,在Terminal-Bench 2.0上,最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败,而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时,智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性,更会改变基准测试实际衡量的能力维度。

Anthropic编码论文/研究评测/基准

推荐理由:Anthropic 用自家数据证明,agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距,3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。
2月4日
08:00
Hugging Face:Blog(RSS)
精选76
Community Evals:因为我们不再信任黑箱排行榜胜过社区

LMSys 推出了社区驱动的评估框架 Community Evals,旨在通过开源和开放科学推进人工智能民主化。该框架允许社区贡献和审查评估案例,以透明、可复现的方式测试模型。此举旨在改变依赖少数机构“黑箱”排行榜的现状,让更广泛的社区参与定义和衡量AI模型的能力与价值。

Hugging Face开源生态评测/基准

推荐理由:Hugging Face 推社区评测挑战黑盒排行榜,开源生态评测标准可能改变
01:40
Hugging Face:Blog(RSS)
精选73
H公司新模型Holo2在UI本地化领域取得领先

H公司在Hugging Face发布博客,正式推出新一代模型Holo2。该模型在用户界面本地化任务上表现突出,实现了技术领先。其核心改进在于显著提升了多语言UI元素的识别与适配能力,能够更精准地处理图标、布局、文本标签等组件的文化适配与翻译。这一进展有望帮助全球应用和软件更高效地实现界面本地化,降低跨区域运营成本。

Hugging Face多模态模型发布

推荐理由:UI本地化领域新标杆,开发者可关注其多模态能力。
00:00
Mistral AI:News(网页)
精选82
Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。

模型发布端侧语音

推荐理由:开源实时语音转录模型延迟低至200ms,开发者可直接部署端侧构建语音应用
2月3日
23:03
Hugging Face:Blog(RSS)
精选80
全球开源AI生态系统的未来:从 DeepSeek 到 AI+

Hugging Face 在其官方博客发布文章,展望了全球开源人工智能生态系统的发展路径与未来趋势。文章以 DeepSeek 等代表性开源模型为例,探讨了开源社区如何推动技术民主化与创新加速。核心观点指向一个更加开放、协作的“AI+”未来生态,其中开源框架、模型和工具将深度融入各行各业,降低开发门槛并促进多样化应用场景的涌现。

DeepSeekHugging Face开源生态现象/趋势

推荐理由:开源AI核心平台对生态走向的判断,直接影响开发者技术选型和投资方向
19:25
Hugging Face:Blog(RSS)
精选73
文本到图像模型训练设计:来自消融研究的经验

Photoroom团队通过消融研究,总结了文本到图像模型训练的关键发现:混合高质量与多样化数据、在训练中后期引入强数据增强,以及调整无分类器引导的丢弃率,能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。

Hugging Face图像生成论文/研究

推荐理由:为文本到图像模型训练提供实用优化建议,帮助开发者提升模型效果。
17:46
美团 LongCat:HuggingFace 新模型
美团-longcat/LongCat-Image-Edit-Turbo

美团-longcat发布LongCat-Image-Edit-Turbo图像编辑模型,秉持开源与开放科学理念推进人工智能技术的普及。该项目专注于图像编辑领域,旨在提供高效的图像处理能力。目前公开信息主要阐述项目愿景与使命,具体技术参数、性能指标及版本更新细节有待进一步披露。

Hugging Face图像生成模型发布
12:18
腾讯混元:Research(API)
从上下文学习比我们想象的更难

上下文学习(in-context learning)的实际效果存在明显局限。研究表明,大语言模型难以从提示示例中真正提取任务规则,往往依赖表面模式匹配而非深层理解。单纯增加示例数量无法线性提升性能,模型容易受到示例顺序和分布的影响,需要重新评估该能力的实际边界。

数据/训练论文/研究
04:00
00:00
Moonshot AI:Kimi Blog(VitePress)
WorldVQA:多模态大模型视觉世界知识基准测试

Kimi团队发布WorldVQA基准测试,评估多模态大语言模型视觉世界知识的事实准确性。数据集包含3,500个经多阶段人工验证的图像-问题对,涵盖自然、地理、文化等9个类别,区分头部与尾部知识分布。测试显示,即使是Kimi K2.5、Gemini-3-pro等前沿模型,整体准确率仅46%-47%,长尾视觉知识上常低于50%,揭示当前模型在事实可靠性方面的显著不足。

多模态评测/基准
00:00
智谱:研究(网页内嵌数据)
GLM-OCR发布:性能SOTA,搞定复杂文档

GLM-OCR 开源发布,0.9B 参数规模在 OmniDocBench V1.5 以 94.6 分取得 SOTA,擅长手写体、复杂表格、印章等场景结构化识别。兼容 vLLM、SGLang 和 Ollama 部署,推理延迟低,适合高并发与边缘计算,提供完整 SDK 支持一行命令调用。

多模态开源生态模型发布端侧
2月2日
21:03
Nathan Lambert:Interconnects(RSS)
最新开源模型(第18期):Arcee 400B MoE、LiquidAI 被低估的 1B 模型、新版 Kimi,以及本月密集发布的预期

本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型,LiquidAI 推出性能被低估的 10 亿参数方案,Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮,多款重要产品即将面世。

开源/仓库开源生态端侧
08:00
xAI:News(网页)
精选
SpaceX 收购 xAI

SpaceX 于 2026 年 2 月 2 日宣布收购 xAI。马斯克旗下的火箭公司与人工智能公司正式合并,具体交易条款未予披露。

xAI行业动态

推荐理由:SpaceX收购xAI,马斯克旗下AI与航天业务重大整合
1月30日
23:49
Nathan Lambert:Interconnects(RSS)
LLM 时代就业市场思考

探讨大语言模型普及背景下就业市场的结构性变化。重点分析求职者如何在 AI 自动化与生成内容泛滥的环境中实现差异化脱颖而出,以及招聘方如何穿透技术表象识别真正具备价值的人才瑰宝。这种双向筛选机制正在重塑人才评估标准与竞争逻辑,对雇佣双方均提出新的能力要求。

大佬观点现象/趋势
15:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由:蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销,实测吞吐比 vLLM 高 1.4 到 2.4 倍,做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。
01:01
Google DeepMind:Blog(RSS)
Project Genie:探索无限交互世界

Google 向美国 AI Ultra 订阅用户开放实验性原型 Project Genie 试用,支持实时创建并探索无限生成的交互式世界。

DeepMindGoogle产品更新多模态
00:00
字节 Seed:Research Papers(网页内嵌数据)
Post-LayerNorm 回归:稳定、高表达力与深度

提供的正文内容为 PDF 二进制流数据及乱码,无法提取有效信息(如具体方法、实验指标或模型发布细节),因此无法撰写准确摘要。请提供可读的文本内容(如论文摘要或正文段落),以便提取关键信息点完成摘要撰写。

数据/训练论文/研究
1月29日
08:00
Hugging Face:Blog(RSS)
63
发布 Daggr:以编程方式链接应用,以可视化方式进行检查

Meta AI 团队发布了开源工具 Daggr,旨在通过编程方式链接不同的 AI 应用,并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型(如 GPT、Claude、LLaMA)和数据处理步骤串联成自动化流程,同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。

智能体Hugging Face产品更新部署/工程
00:00
1月28日
08:00
Hugging Face:Blog(RSS)
50
我们让Claude构建CUDA内核并教导开源模型!

研究团队成功利用Claude模型自动生成高性能CUDA内核代码,并将其应用于训练开源大语言模型。这一方法显著提升了模型在特定硬件上的计算效率,是推动AI民主化的重要步骤。通过开源工具与科学,团队致力于降低先进AI技术的开发门槛,让更广泛的社区能够参与并受益于人工智能的创新发展。

Anthropic教程/实践编码
06:47
Nathan Lambert:Interconnects(RSS)
精选
Arcee AI 全力投入在美国构建的开放模型

Arcee AI 发布开源大模型 Trinity Large,标志着其全面投入在美国本土构建开放模型的战略布局。该发布作为 Interconnects 第16期访谈的核心内容,彰显该公司对开源生态与数据主权的承诺。Trinity Large 的推出代表 Arcee AI 在本土 AI 基础设施建设上的关键进展,强调模型训练与开发的地理合规性及技术自主性。

开源生态模型发布

推荐理由:开源模型Trinity Large发布,美国本土训练的企业级合规新选择
00:55
Ethan Mollick:One Useful Thing(RSS)
精选
管理是 AI 的超能力

智能体(agents)时代,管理能力将成为人类 thriving 的核心超能力。在 AI 主导的未来,懂得如何管理比单纯的技术能力更能决定成败。

智能体大佬观点

推荐理由:沃顿教授 Ethan Mollick 深度解析 Agent 时代的管理变革与机遇
1月27日
23:01
Hugging Face:Blog(RSS)
精选83
中国开源AI生态中的架构选择:构建超越DeepSeek的未来

Hugging Face发布博客文章,探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型(如DeepSeek)的可持续技术体系,分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出,中国开源社区正致力于打造独立且互操作的技术栈,以应对大规模模型训练与推理的独特挑战,并推动全球AI生态的多元化发展。

DeepSeek开源生态现象/趋势

推荐理由:揭示中国开源AI架构演进,帮助开发者把握生态趋势与选型方向。
18:26
Hugging Face:Blog(RSS)
60
Alyah ⭐️: 迈向对阿拉伯语大语言模型(LLaMA、GPT、Claude等)阿联酋方言能力的稳健评估

阿联酋技术创新研究院在Hugging Face发布博客,正式推出Alyah评估框架,专门用于系统评估各类阿拉伯语大语言模型在理解与生成阿联酋方言方面的能力。该框架旨在解决当前阿拉伯语评估中标准方言主导、忽视地区方言多样性的问题。Alyah包含一个精心构建的基准数据集,涵盖多种方言语言现象和实际应用场景,为衡量模型在阿联酋方言上的真实性能提供了首个系统化、可复现的评估标准。

Hugging Face评测/基准
16:03
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Lite

美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。

Hugging Face开源生态模型发布端侧
11:05
DeepSeek:GitHub 新仓库
DeepSeek-OCR-2:视觉因果流

DeepSeek-OCR-2 引入 Visual Causal Flow 技术,通过因果推理机制重构视觉信息处理流程,显著提升复杂版面文档的识别精度与逻辑理解能力。新架构优化了多栏排版、表格结构及手写体的解析性能,在保持高推理效率的同时支持更高分辨率图像输入。该技术突破传统 OCR 的序列化处理局限,实现对视觉元素间因果关系的精准建模,为文档智能处理提供更强大的技术基础。

DeepSeek多模态开源/仓库
09:53
Hugging Face:Blog(RSS)
精选83
解锁GPT-OSS的智能体强化学习训练:一项实践回顾

LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现,由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异,导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值(并分离梯度),确保了重要性采样比率为1,从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。

智能体Hugging Face教程/实践数据/训练

推荐理由:为MoE模型RL训练提供实用调试方案,提升代理AI开发效率。
1月26日
04:00
Qwen:Blog Retrieval(API)
将 Qwen3-Max-Thinking 推向极限

Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 等全面功能,支持多模态 AI 应用。

产品更新多模态