AIHOT

3月20日

08:15

NVIDIA AI Blog

精选

NVIDIA GTC 2026：AI 前沿动态滚动报道

NVIDIA GTC 2026 现场直击，来自圣何塞的实时报道涵盖 CEO Jensen Huang 主题演讲、AI 新品发布及现场演示，持续更新至3月19日。

行业动态部署/工程

推荐理由：NVIDIA年度技术大会开启，新架构与软件栈发布将定义AI基础设施未来走向

08:00

HuggingFace Daily Papers（社区热门论文）

PersonaVLM：面向长期个性化的多模态大语言模型

PersonaVLM 是一个支持长期个性化的多模态智能体框架，具备记忆提取、多轮推理和响应对齐三大核心能力，可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准，涵盖 7 个维度与 14 项细粒度任务。实验表明，在 128k 上下文下，该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%，并超越 GPT-4o 达 5.2% 和 2.0%。

智能体多模态论文/研究

3月19日

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 如何监控内部编程智能体的不对齐问题

OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据，研究不对齐行为模式以检测潜在风险，并强化 AI 安全防护措施。

智能体OpenAI安全/对齐编码

08:00

Cursor Blog

精选

Composer 2 正式发布

Composer 2 登陆 Cursor，定价 $0.50/M（输入）和 $2.50/M（输出），Terminal-Bench 2.0 得分 61.3，SWE-bench Multilingual 达 73.7，显著优于前代。支持数百步长周期编码任务，团队同步发布训练技术报告。

智能体模型发布编码

推荐理由：Cursor发布Composer 2编程Agent，性能大幅提升且定价极具竞争力

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI 将收购 Astral

OpenAI 收购 Astral，加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商，此次收购将整合其技术能力，强化 OpenAI 在开发者工具领域的布局。

智能体OpenAI编码行业动态

推荐理由：OpenAI收购Astral加强Codex Python工具链，Agent能力再升级

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由：阿里 Qwen3.5-Max 预览版上线 Arena，支持多模态理解与工具调用

3月18日

08:00

Google Developers Blog（RSS）

精选81

开发者AI代理协议指南

一套包含MCP、A2A等六种协议的新工具集正式发布，旨在通过标准化AI代理的数据访问与通信方式，消除定制集成代码的需求。以“厨房管理员”代理为例，这些协议能实时核查库存、通过UCP进行批发交易，并借助AP2完成安全支付授权。开发者使用Agent开发套件（ADK）还可实现A2UI与AG-UI，为用户提供交互式仪表板与无缝流式界面。

智能体GoogleMCP/工具教程/实践

推荐理由：开发者能快速掌握AI代理通信标准，提升集成效率。

08:00

HuggingFace Daily Papers（社区热门论文）

SPRITE：从静态设计稿到引擎就绪的游戏UI

研究团队推出 SPRITE 系统，可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型（VLMs）与结构化YAML中间表示，专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题，能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证，SPRITE 显著简化了从美术设计到技术实现的流程，通过自动化繁琐编码工作支持快速引擎内迭代。

arXiv多模态编码论文/研究

05:08

Midjourney：Updates（RSS）

V8 Alpha

Midjourney 开放 V8 模型 Alpha 版本测试，用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布

00:37

Hugging Face：Blog（RSS）

精选78

Hugging Face开源现状：2026年春季

Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上，内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势，但未提供详细的量化指标或具体产品发布信息。

Hugging Face开源生态现象/趋势

推荐理由：Hugging Face 季度开源生态报告，可快速掌握 AI 开源社区最新动向与趋势

00:03

Google DeepMind：Blog（RSS）

衡量AGI进展的认知框架

本文介绍一个衡量通用人工智能（AGI）进展的认知框架，并启动Kaggle黑客马拉松，旨在构建相应的评估体系，为AGI研发提供可量化的进度测量标准与评估工具。

Google推理论文/研究

00:00

Google Blog：AI（RSS）

Google 面向 AI 时代的开源安全新投资

Google 宣布在 AI 时代加大对开源安全的投入，将通过新投资、构建新工具和开发代码安全技术，提升开源软件安全水平。

Google行业动态

00:00

Google Blog：AI（RSS）

将 Personal Intelligence 的强大能力带给更多用户

Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini，覆盖更多用户。

智能体Google产品更新搜索

3月17日

20:33

Hugging Face：Blog（RSS）

精选83

Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型，使用专有数据混合进行训练，专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构，在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量，在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中，性能从基线的35.1%提升至80.5%，在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由：高效推理的计算机使用代理模型，适合生产部署，开发者可直接试用。

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布，为 GPT-5.4 的轻量高速版本，针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码

关联讨论 3 条

推荐理由：OpenAI 发布 GPT-5.4 mini/nano，针对编码与 Agent 场景优化