NVIDIA GTC 2026 现场直击,来自圣何塞的实时报道涵盖 CEO Jensen Huang 主题演讲、AI 新品发布及现场演示,持续更新至3月19日。
PersonaVLM 是一个支持长期个性化的多模态智能体框架,具备记忆提取、多轮推理和响应对齐三大核心能力,可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准,涵盖 7 个维度与 14 项细粒度任务。实验表明,在 128k 上下文下,该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%,并超越 GPT-4o 达 5.2% 和 2.0%。
OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。
Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。
OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。
研究团队推出 SPRITE 系统,可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型(VLMs)与结构化YAML中间表示,专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题,能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证,SPRITE 显著简化了从美术设计到技术实现的流程,通过自动化繁琐编码工作支持快速引擎内迭代。
Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。
Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上,内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势,但未提供详细的量化指标或具体产品发布信息。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
Google 宣布在 AI 时代加大对开源安全的投入,将通过新投资、构建新工具和开发代码安全技术,提升开源软件安全水平。
Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。
H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。
GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)OpenAI Japan 发布 Japan Teen Safety Blueprint,针对青少年用户强化年龄保护、家长控制及身心健康保障措施,确保生成式 AI 的安全使用。
本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。
新研究显示,美国人每天向 ChatGPT 发送近 300 万条消息询问薪酬与收入,借助 AI 获取薪资情报,有助于缩小工资信息差距。
癌症治疗正成为检验人工智能实用价值的关键战场。从早期筛查到个性化诊疗,AI 系统需要在复杂的医疗数据中展现超越传统方法的精准度与可靠性。这不仅涉及算法突破,更关乎临床转化效率与生命伦理的深层考量。各大模型在肿瘤识别、药物研发及治疗方案优化中的实际表现,将决定 AI 能否从实验室工具转变为拯救生命的医疗基础设施,其成败标志着智能技术服务人类健康的真正成熟度。
Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。
Google Research与NHS合作在Nature Cancer发表两项AIMS研究,评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示,AI敏感性显著高于原始第一读者且不降低特异性,癌症检出率从7.54升至9.33/1000,检出25%间隔癌;前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据,有望缓解放射科医生30%-40%短缺压力。
Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。
OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。
关联讨论 1 条Dwarkesh Patel:Podcast & Blog(RSS)Codex Security 不生成传统 SAST 报告,转而采用 AI 驱动的约束推理与验证技术,通过深度分析代码逻辑精准识别真实漏洞,显著降低误报率。
Mistral AI 作为 NVIDIA Nemotron 联盟创始成员,与 NVIDIA 达成战略合作,共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具,并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型,将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。
Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)Google Research 与康奈尔大学在 PNAS 发表研究,评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题,由 12 位国际专家评分。结果显示,基于 15 篇精选综述和 1726 个质量控制来源的封闭系统(NotebookLM 及定制系统)表现最优,而开放网络访问的模型准确性不足。研究表明,在专业物理领域,基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。
智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。
关联讨论 2 条X:Kim (@kimmonismus)智谱:研究(网页内嵌数据)两项耗资巨大的AI实验相继失败,为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明,单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈,行业需要探索新的技术范式,而非一味追求规模扩张。
YC 孵化的 Compresr 发布 Context Gateway,在 AI Agent 与 LLM 间自动压缩过长对话历史。后台预计算实现即时压缩,支持 Claude Code、Cursor 等,默认 75% 上下文阈值触发。curl 一键安装,TUI 向导配置。
Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)Dwarkesh Patel:Podcast & Blog(RSS)Spine Swarm(YC S23)发布首个真正的 agentic 平台,支持 AI agents 在可视化画布上协作,管理和编排新一代 AI。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
Anthropic Fellows团队推出跨架构模型对比工具model diffing,利用Dedicated Feature Crosscoder技术自动检测不同架构AI模型的行为差异。研究在Qwen3-8B与DeepSeek-R1中发现"中共对齐"审查特征,在Llama-3.1-8B中发现"美国例外主义"倾向,在GPT-OSS-20B中发现版权拒绝机制。该方法可作为高召回率筛选工具自动标记模型特有潜在风险,提升安全审计效率,但无法确定行为源于刻意训练还是数据涌现。
Google 发起一项 AI 健康新倡议,目标是通过人工智能技术改善澳大利亚偏远社区居民的心脏健康状况,提升当地心脏疾病治疗结果。
盘点当前阶段的核心现状与关键特征,基于现有趋势分析接下来可能发生的重要变化与未来走向。
Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。
ARGO 项目利用强化学习技术,将难以理解的黑盒奖励模型提炼为可解释的评分准则。该方法通过训练一个解释模型来模仿黑盒模型的决策,从而生成人类可读的规则,揭示模型在评估文本时具体关注哪些特征。这一过程提升了AI决策的透明度,有助于诊断和纠正奖励模型的潜在偏见或错误。
该内容将人工智能议题框定为"史上最高风险谈判"的序幕,指出当前关于AI治理与发展的多方博弈正处于关键起点。作者认为,在这场涉及巨大利益与技术走向的对话中,存在一个至关重要却被忽视的核心问题尚未被提出,其答案可能直接决定这场变革的最终结果与人类的应对策略。