3月20日
08:15
NVIDIA AI Blog
精选
NVIDIA GTC 2026:AI 前沿动态滚动报道

NVIDIA GTC 2026 现场直击,来自圣何塞的实时报道涵盖 CEO Jensen Huang 主题演讲、AI 新品发布及现场演示,持续更新至3月19日。

行业动态部署/工程

推荐理由:NVIDIA年度技术大会开启,新架构与软件栈发布将定义AI基础设施未来走向
08:00
HuggingFace Daily Papers(社区热门论文)
PersonaVLM:面向长期个性化的多模态大语言模型

PersonaVLM 是一个支持长期个性化的多模态智能体框架,具备记忆提取、多轮推理和响应对齐三大核心能力,可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准,涵盖 7 个维度与 14 项细粒度任务。实验表明,在 128k 上下文下,该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%,并超越 GPT-4o 达 5.2% 和 2.0%。

智能体多模态论文/研究
3月19日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 如何监控内部编程智能体的不对齐问题

OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。

智能体OpenAI安全/对齐编码
08:00
Cursor Blog
精选
Composer 2 正式发布

Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。

智能体模型发布编码

推荐理由:Cursor发布Composer 2编程Agent,性能大幅提升且定价极具竞争力
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI 将收购 Astral

OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。

智能体OpenAI编码行业动态

推荐理由:OpenAI收购Astral加强Codex Python工具链,Agent能力再升级
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
3月18日
08:00
Google Developers Blog(RSS)
精选81
开发者AI代理协议指南

一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。

智能体GoogleMCP/工具教程/实践

推荐理由:开发者能快速掌握AI代理通信标准,提升集成效率。
08:00
HuggingFace Daily Papers(社区热门论文)
SPRITE:从静态设计稿到引擎就绪的游戏UI

研究团队推出 SPRITE 系统,可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型(VLMs)与结构化YAML中间表示,专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题,能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证,SPRITE 显著简化了从美术设计到技术实现的流程,通过自动化繁琐编码工作支持快速引擎内迭代。

arXiv多模态编码论文/研究
05:08
Midjourney:Updates(RSS)
V8 Alpha

Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布
00:37
Hugging Face:Blog(RSS)
精选78
Hugging Face开源现状:2026年春季

Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上,内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势,但未提供详细的量化指标或具体产品发布信息。

Hugging Face开源生态现象/趋势

推荐理由:Hugging Face 季度开源生态报告,可快速掌握 AI 开源社区最新动向与趋势
00:03
Google DeepMind:Blog(RSS)
衡量AGI进展的认知框架

本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。

Google推理论文/研究
00:00
Google Blog:AI(RSS)
Google 面向 AI 时代的开源安全新投资

Google 宣布在 AI 时代加大对开源安全的投入,将通过新投资、构建新工具和开发代码安全技术,提升开源软件安全水平。

Google行业动态
00:00
3月17日
20:33
Hugging Face:Blog(RSS)
精选83
Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由:高效推理的计算机使用代理模型,适合生产部署,开发者可直接试用。
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码
关联讨论 3X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)
推荐理由:OpenAI 发布 GPT-5.4 mini/nano,针对编码与 Agent 场景优化
18:00
08:00
HuggingFace Daily Papers(社区热门论文)
37
AgriIR:一个可扩展的领域特定知识检索框架

本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。

检索增强论文/研究部署/工程
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
为劳动者提供薪酬洞察

新研究显示,美国人每天向 ChatGPT 发送近 300 万条消息询问薪酬与收入,借助 AI 获取薪资情报,有助于缩小工资信息差距。

OpenAI现象/趋势
03:10
Gary Marcus:The Road to AI We Can Trust(RSS)
F Cancer:AI 的真正考验

癌症治疗正成为检验人工智能实用价值的关键战场。从早期筛查到个性化诊疗,AI 系统需要在复杂的医疗数据中展现超越传统方法的精准度与可靠性。这不仅涉及算法突破,更关乎临床转化效率与生命伦理的深层考量。各大模型在肿瘤识别、药物研发及治疗方案优化中的实际表现,将决定 AI 能否从实验室工具转变为拯救生命的医疗基础设施,其成败标志着智能技术服务人类健康的真正成熟度。

大佬观点
00:00
Mistral AI:News(网页)
精选83
Mistral AI 发布企业级AI模型构建系统Forge

Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。

智能体产品更新数据/训练

推荐理由:企业可基于内部数据定制前沿 AI 模型,提升业务 AI 的可靠性和战略自主性。
00:00
LMSYS:Blog(Chatbot Arena 团队)
Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程
00:00
Google Research:Blog(网页)
利用机器学习改进乳腺癌筛查工作流程

Google Research与NHS合作在Nature Cancer发表两项AIMS研究,评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示,AI敏感性显著高于原始第一读者且不降低特异性,癌症检出率从7.54升至9.33/1000,检出25%间隔癌;前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据,有望缓解放射科医生30%-40%短缺压力。

Google数据/训练论文/研究
00:00
Google Research:Blog(网页)
Google Research 在 The Check Up 分享:从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。

智能体DeepMindGoogle产品更新
3月16日
09:47
Gary Marcus:The Road to AI We Can Trust(RSS)
精选
Sam Altman 承认:实现 AGI 需要超越规模扩展的重大突破

OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。

OpenAI大佬观点推理
关联讨论 1Dwarkesh Patel:Podcast & Blog(RSS)
推荐理由:OpenAI CEO 罕见承认纯扩展不足以实现 AGI,行业技术路线或迎转折
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Codex Security 为何不包含 SAST 报告

Codex Security 不生成传统 SAST 报告,转而采用 AI 驱动的约束推理与验证技术,通过深度分析代码逻辑精准识别真实漏洞,显著降低误报率。

OpenAI产品更新编码
00:00
Mistral AI:News(网页)
精选83
Mistral AI 与 NVIDIA 合作加速开放前沿模型发展

Mistral AI 作为 NVIDIA Nemotron 联盟创始成员,与 NVIDIA 达成战略合作,共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具,并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型,将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。

多模态开源生态行业动态

推荐理由:开源前沿模型合作加速,开发者可获更多资源和工具。
00:00
Mistral AI:News(网页)
精选93
研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。

多模态推理模型发布
关联讨论 1X:Artificial Analysis (@ArtificialAnlys)
推荐理由:开源模型统一推理、多模态和编码能力,简化部署并提升效率。
00:00
Google Research:Blog(网页)
用高温超导问题测试 LLM 的研究能力

Google Research 与康奈尔大学在 PNAS 发表研究,评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题,由 12 位国际专家评分。结果显示,基于 15 篇精选综述和 1726 个质量控制来源的封闭系统(NotebookLM 及定制系统)表现最优,而开放网络访问的模型准确性不足。研究表明,在专业物理领域,基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。

Google检索增强论文/研究
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码
关联讨论 2X:Kim (@kimmonismus)智谱:研究(网页内嵌数据)
推荐理由:智谱GLM-5-Turbo发布,强化Agent工具调用与长任务执行能力
3月15日
02:23
Gary Marcus:The Road to AI We Can Trust(RSS)
重磅:昂贵的新证据表明规模扩张并非万能

两项耗资巨大的AI实验相继失败,为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明,单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈,行业需要探索新的技术范式,而非一味追求规模扩张。

大佬观点数据/训练
3月14日
01:58
Hacker News:AI 热帖
精选
Show HN: Context Gateway - 自动压缩 AI Agent 上下文再送入 LLM

YC 孵化的 Compresr 发布 Context Gateway,在 AI Agent 与 LLM 间自动压缩过长对话历史。后台预计算实现即时压缩,支持 Claude Code、Cursor 等,默认 75% 上下文阈值触发。curl 一键安装,TUI 向导配置。

智能体开源/仓库部署/工程

推荐理由:YC背书的Agent上下文压缩工具,自动优化长对话,支持Claude Code等主流Agent
00:00
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程
关联讨论 2X:Rohan Paul (@rohanpaul_ai)Dwarkesh Patel:Podcast & Blog(RSS)
推荐理由:顶尖硬件分析师拆解AI算力扩张的三大瓶颈,揭示H100为何比三年前更值钱
3月13日
21:22
17:00
BAIR:Berkeley AI Research Blog
面向 LLM 的大规模交互作用识别

伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。

推理数据/训练论文/研究
00:00
Anthropic:Research(发表成果 · 网页)
AI模型"差异对比"工具:自动发现跨架构行为风险

Anthropic Fellows团队推出跨架构模型对比工具model diffing,利用Dedicated Feature Crosscoder技术自动检测不同架构AI模型的行为差异。研究在Qwen3-8B与DeepSeek-R1中发现"中共对齐"审查特征,在Llama-3.1-8B中发现"美国例外主义"倾向,在GPT-OSS-20B中发现版权拒绝机制。该方法可作为高召回率筛选工具自动标记模型特有潜在风险,提升安全审计效率,但无法确定行为源于刻意训练还是数据涌现。

Anthropic论文/研究
3月12日
23:00
22:10
Ethan Mollick:One Useful Thing(RSS)
精选
事物的形态

盘点当前阶段的核心现状与关键特征,基于现有趋势分析接下来可能发生的重要变化与未来走向。

大佬观点

推荐理由:Ethan Mollick 深度剖析 AI 现状与未来走向,洞察犀利
08:00
OpenRouter:Announcements(RSS)
54
Auto Exacto: 自适应质量路由,现已默认开启

Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。

MCP/工具产品更新部署/工程
07:36
OpenAI:Alignment 研究博客(RSS)
精选61
解读黑盒奖励模型

ARGO 项目利用强化学习技术,将难以理解的黑盒奖励模型提炼为可解释的评分准则。该方法通过训练一个解释模型来模仿黑盒模型的决策,从而生成人类可读的规则,揭示模型在评估文本时具体关注哪些特征。这一过程提升了AI决策的透明度,有助于诊断和纠正奖励模型的潜在偏见或错误。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 把黑盒奖励模型蒸馏成可解释的评分标准,方向很对,但 53 天前的老论文,今天才看到的话价值已经打了折扣,做对齐研究的可以当参考文献收。
02:55
Dwarkesh Patel:Podcast & Blog(RSS)
关于 AI,那个无人问及的最重要问题

该内容将人工智能议题框定为"史上最高风险谈判"的序幕,指出当前关于AI治理与发展的多方博弈正处于关键起点。作者认为,在这场涉及巨大利益与技术走向的对话中,存在一个至关重要却被忽视的核心问题尚未被提出,其答案可能直接决定这场变革的最终结果与人类的应对策略。

Anthropic大佬观点现象/趋势