AIHOT

3月31日

00:00

Mistral AI：News（网页）

精选80

面向双重用户：Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现，原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位，确保所有必要信息都能通过非交互方式提供。他们建立了插件系统，使组件可自省和序列化，并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程，例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程

推荐理由：为 AI 代理设计工具的实用原则，帮助开发者构建更可组合和可测试的 CLI。

00:00

Google Research：Blog（网页）

通过负责任披露量子漏洞保护加密货币

Google Quantum AI 发布白皮书指出，未来量子计算机破解保护加密货币的椭圆曲线加密（ECDLP-256）仅需不到 1,200 个逻辑量子比特和 50 万个物理量子比特，资源需求较此前估计降低约 20 倍。团队采用零知识证明方式负责任地披露该漏洞，避免为恶意攻击者提供路线图，同时呼吁加密货币社区在 2029 年前迁移至后量子密码学（PQC），并建议避免暴露或重复使用脆弱的钱包地址。

Google论文/研究

00:00

Google Research：Blog（网页）

构建更优的 AI 基准测试：多少评分者才够？

Google Research 提出基于"gold"评级数据的机器学习评估框架，通过模拟器优化评分项目数量与评分者数量的权衡。研究挑战了当前 AI 基准测试仅使用 1-5 名评分者的行业标准，发现要准确捕捉人类观点差异通常需要超过 10 名评分者。该框架为构建高可复现性且成本高效的 AI 评估体系提供了路线图，并开源了模拟工具。

Google数据/训练论文/研究

00:00

Runway：News（网页）

推出 Runway Builders 计划

Runway 推出 Runway Builders 计划，为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型，支持从单张图片零微调生成可控数字角色，适用于客服、销售助手等实时交互场景。

智能体产品更新视频

00:00

Runway：News（网页）

Runway 推出 Runway Fund 投资基金

Runway 正式成立 Runway Fund，专注投资 AI、媒体与世界模拟领域的早期初创公司。基金初始规模 1000 万美元，单笔投资最高 50 万美元，重点布局 AI 研究、新应用及新媒体内容三大方向，已投项目包括 Cartesia、LanceDB 等。

行业动态视频

00:00

Anthropic：Newsroom（网页）

澳大利亚政府与 Anthropic 签署 AI 安全与研究合作备忘录

Anthropic 与澳大利亚政府签署备忘录，承诺与澳 AI 安全研究所共享前沿模型风险研究及经济指数数据，并探索在当地投资数据中心。公司宣布向澳大利亚国立大学等四家机构提供 300 万澳元 Claude API 积分，支持罕见疾病基因分析与计算机教育；同时推出深科技初创企业计划，提供最高 5 万美元 API 积分用于药物发现等领域。Anthropic 还将开设悉尼办公室作为亚太扩张起点。

Anthropic行业动态

00:00

Anthropic：Research（发表成果 · 网页）

Anthropic宣布在澳扩张并发布Claude使用数据

Anthropic宣布在悉尼设立办公室，并与澳大利亚政府签署AI安全合作备忘录。数据显示，澳大利亚占全球Claude流量1.6%，人均使用量是预期的4倍以上，全球排名第11位，人均第7位。使用集中在新南威尔士州（37%）和维多利亚州（31%）。使用场景为46%工作、47%个人、7%课程作业。澳用户倾向于处理更复杂任务，但耗时比平均短20%，AI自主性得分较低（3.38/5），表明更多采用协作而非完全委托模式。

智能体Anthropic现象/趋势

3月30日

21:02

Nathan Lambert：Interconnects（RSS）

最新开源成果第20期发布：新增组织与模型类型，涵盖 Nemotron Super、Sarvam、Cohere Transcribe 等

第20期开源成果更新引入多个新组织与全新模型类型，收录 NVIDIA Nemotron Super、Sarvam 及 Cohere Transcribe 等最新模型。此次扩展显著丰富了开源生态的模型种类与来源多样性，覆盖更多技术领域与应用场景，为开发者提供更广泛的模型选择。

开源/仓库开源生态

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

08:00

Google Developers Blog（RSS）

精选81

Google 发布 Java 智能体开发套件（ADK） 1.0.0 版本

Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能：支持接入 Google Maps 数据、内置 URL 抓取工具，以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力，实现了全局日志记录、通过事件压缩自动管理上下文窗口，以及需要人工确认的“Human-in-the-Loop”工作流。此外，该版本深度集成 Google Cloud 服务（如 Firestore 和 Vertex AI），提供了强大的会话与记忆管理功能，以处理长期状态和大型数据工件，助力开发者构建更复杂的 AI 智能体应用。

智能体GoogleMCP/工具产品更新

关联讨论 1 条

推荐理由：Java开发者可利用官方工具快速构建集成Google服务的AI代理。

06:15

OpenAI：官网动态（RSS · 排除企业/客户案例）

帮助亚洲灾害响应团队将 AI 转化为行动

OpenAI 与 Gates Foundation 合作举办亚洲灾害响应 AI 工作坊，帮助应急团队将人工智能技术转化为实际行动，提升区域救灾能力。

OpenAI行业动态

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 2 条

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月29日

22:32

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中，无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷，表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞，指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由：揭示多模态基准测试漏洞，医学AI应用需警惕数据泄露风险

3月28日

06:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

STADLER 重塑拥有230年历史企业的知识工作

拥有230年历史的 STADLER 借助 ChatGPT 重塑知识工作，为650名员工节省时间并提升生产效率。

OpenAI行业动态

02:00

OpenAI：Alignment 研究博客（RSS）

精选60

对齐中期训练的泛化能力究竟如何？

研究人员开展初步实验，探究对齐与错位的中期训练、推理后训练以及向聊天和智能体评估任务的泛化效果。实验涵盖不同训练阶段对模型行为的影响，并测试其在多样化评估场景中的适应性，旨在评估当前对齐方法在跨任务与跨领域中的泛化能力边界。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 官方对齐团队发了一篇关于 alignment midtraining 泛化能力的实验报告，问题是 37 天前的老文章，信息新鲜度已经过了保鲜期，做对齐研究的可以当参考文献收，其他人可以略过。

3月27日

20:00

Cursor Blog

精选74

Composer 2技术报告：面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5，通过两阶段训练：首先进行侧重代码的持续预训练以深化编码知识，随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上，Composer 2得分为61.3，较前代提升37%，与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分，并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由：Cursor 把 Composer 2 的训练全流程摊开讲了，从 Kimi K2.5 继续预训练到大规模 RL，关键是 RL 在真实 Cursor 会话里跑，不是玩具环境。做 coding agent 的团队，这份报告值得逐段拆。

08:00

Hugging Face：Blog（RSS）

43

解放你的OpenClaw：致力于通过开源与开放科学推动AI民主化

Anthropic公司发布新一代大模型Claude 3.5 Sonnet，在多项基准测试中超越前代Opus及GPT-4o等竞争对手，尤其在高级推理、知识掌握和编程能力上表现卓越。新模型处理速度提升至两倍且定价更低。同时推出的“Artifacts”功能可将生成的代码或文本在独立面板实时展示，标志着其向交互式工作空间演进。

Hugging Face其他开源生态

01:00

Google Blog：AI（RSS）

James Manyika 与 LL COOL J 对谈 AI 与创造力

Google「科技与社会对话」系列最新一期，James Manyika 与 LL COOL J 探讨 AI 与创造力。

Google大佬观点

00:00

Meta AI：Blog（网页）

精选86

Meta发布SAM 3.1模型：通过对象复用实现更快、更易获取的实时视频检测与跟踪

Meta发布了SAM 3.1模型，作为SAM 3的直接升级版。新模型引入了对象复用技术，能在单次前向传播中同时跟踪多达16个对象，从而将视频处理速度提升一倍。在单个H100 GPU上，对中等数量对象的视频处理吞吐量从每秒16帧提升至32帧，实现了复杂视频的实时对象跟踪，并降低了对GPU资源的需求，使得高性能应用能在更小、更易获取的硬件上运行。SAM 3.1的模型检查点、代码库和研究论文均已开放。

Meta多模态模型发布部署/工程

推荐理由：实时视频跟踪效率翻倍，中小团队也能低成本部署复杂视觉应用。

00:00

Google Blog：AI（RSS）

Google Translate 耳机实时翻译功能登陆 iOS

Google Translate 耳机实时翻译功能正式支持 iOS，可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。

Google产品更新语音

3月26日

23:23

Google DeepMind：Blog（RSS）

Gemini 3.1 Flash Live：让语音 AI 更自然可靠

Gemini 推出 3.1 Flash Live 语音模型，通过提升精度、降低延迟，使语音交互更流畅自然且精准可靠。

DeepMindGoogle产品更新语音

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google模型发布语音

关联讨论 6 条

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

23:00

Google Blog：AI（RSS）

Search Live 扩展至全球

Search Live 功能正式面向全球推出，覆盖所有已上线 AI Mode 的语言和地区，实现全面可用。

Google产品更新搜索

08:00

Cursor Blog

精选69

通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型，利用真实用户交互产生的推理令牌作为训练信号，以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试，新版本实现了关键指标提升：代理编辑在代码库中的持久性增加2.28%，用户不满意后续减少3.13%，延迟降低10.3%。实时RL也带来了奖励黑客等新挑战，但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由：Cursor 把真实用户交互当训练信号，每五小时迭代一次 Composer，这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例，比任何 benchmark 论文都实在。

01:00

OpenAI：Alignment 研究博客（RSS）

精选59

Model Spec Evals评估套件发布

OpenAI推出了一套新的评估套件Model Spec Evals，用于系统衡量模型遵循其《模型规范》的程度。该规范明确了模型行为的设计原则与约束条件，涵盖输出内容、行为边界及交互方式等方面。此次发布的评估工具旨在量化模型对齐规范的具体表现，是OpenAI推进模型行为标准化、透明化的重要步骤。

OpenAI安全/对齐评测/基准

推荐理由：OpenAI 把自家 Model Spec 变成了可量化的评测套件，对做对齐研究的人是基础设施级更新，但对普通开发者来说更像内部合规工具，了解即可。

00:46

Google DeepMind：Blog（RSS）

保护人们免受有害操纵

Google DeepMind 针对金融、健康等领域研究 AI 有害操纵风险，并推出新的安全措施。

DeepMind安全/对齐

00:01

Google DeepMind：Blog（RSS）

Lyria 3 Pro：支持更长音轨，扩展至更多平台

Lyria 3 Pro 发布，支持生成更长音轨并具备结构感知能力，同时将集成至更多 Google 产品和平台。

DeepMind产品更新多模态

00:00

Meta AI：Blog（网页）

精选83

Meta与世界资源研究所发布开源森林冠层高度地图模型Canopy Height Maps v2

Meta与世界资源研究所合作推出开源模型Canopy Height Maps v2，用于生成全球高精度森林冠层高度地图。该模型采用自监督视觉模型DINOv3作为主干，并基于大规模卫星图像数据集SAT-493M进行预训练，在准确性、细节和全球一致性上较2024年初版有显著提升。其关键指标R²从0.53大幅提高至0.86，能更精准预测树高。通过增加多样化激光雷达数据、开发自动匹配工具和专用损失函数，新版地图清晰度更高，并减少了对高树的预测偏差。该工具已应用于英国、欧盟及美国等多个地区的森林监测与城市规划项目。

Meta多模态数据/训练模型发布

关联讨论 1 条

推荐理由：开源视觉模型提升森林监测精度，环保和开发者可直接应用

00:00

Google Blog：AI（RSS）

Lyria 3 Pro：在更多 Google 产品中创作更长音轨

Google 将 Lyria 3 Pro 扩展至更多产品，支持生成更长音轨，并集成至专业人士日常工作和创作工具中。

Google产品更新多模态

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google多模态模型发布

关联讨论 2 条

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月25日

21:36

Gary Marcus：The Road to AI We Can Trust（RSS）

战争与 AI、Sora 的消亡，以及今日现场观看的 3 种方式

这是一则简短预告，作者为仓促通知致歉，宣布将围绕战争与人工智能、Sora 的终结等话题发布几项公告，同时提供今日现场观看的三种途径，但正文未透露具体发布内容、技术细节或数据指标。

大佬观点视频

21:18

美团 LongCat：HuggingFace 新模型

美团 LongCat-Next

美团开源项目 LongCat-Next 正式发布，宣称将通过开源与开放科学推进人工智能技术的普及与民主化。该项目目前仅公开使命宣言，强调降低AI技术门槛的愿景，尚未披露具体模型架构、训练数据或性能基准等技术指标，也未说明应用场景或发布时间表。

Hugging Face开源生态模型发布

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

深入解析我们构建 Model Spec 的方法

OpenAI 公开 Model Spec 行为框架，阐述如何在安全、用户自由与问责制之间取得平衡，为 AI 系统发展提供可公开查阅的行为指导原则。

OpenAI安全/对齐

推荐理由：OpenAI 公开模型行为框架，阐释安全与责任平衡之道

08:00

Google Developers Blog（RSS）

精选84

用 Agent 技能弥合知识鸿沟

Google DeepMind 开发出一项“Gemini API 开发者技能”，使智能体能够实时获取最新文档与 SDK 指导。评估结果显示，配备该技能后，gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”，有效解决了静态模型知识与快速演进的软件实践之间的脱节问题，显著消除了过时的编码模式。

智能体DeepMindGoogle产品更新

推荐理由：通过实时文档赋能模型，编码任务成功率飙升，开发者可借鉴优化AI工具。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI 推出安全漏洞赏金计划

OpenAI 启动安全漏洞赏金计划，悬赏征集 AI 滥用及安全风险漏洞，涵盖智能体漏洞、提示注入攻击和数据泄露等问题。

智能体OpenAI安全/对齐

推荐理由：OpenAI推出安全漏洞赏金计划，聚焦Agent安全与提示词注入风险

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code 自动模式：在安全与效率间取得平衡

Anthropic 为 Claude Code 推出“自动模式”，旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间，采用两层防御机制：输入层通过服务器端提示注入探测器扫描工具输出；输出层则利用基于 Sonnet 4.6 模型的转录分类器，在执行前评估操作风险。分类器采用高效的两阶段设计，先快速过滤，必要时才启动思维链推理。其目标是拦截危险操作（如过度积极行为、无心之失、提示注入等），同时让大部分安全操作无需确认即可运行，内部测试显示用户原本会批准约93%的手动提示。

Anthropic产品更新安全/对齐编码

推荐理由：这是 Claude Code 从「手动审批」跳到「AI 自审」的关键一步，双层防御设计坦诚到连 17% 漏检率都公开讲，做 coding agent 的团队该把这篇当安全设计参考。

00:00

LMSYS：Blog（Chatbot Arena 团队）

Elastic EP：实现DeepSeek MoE部署的部分故障容忍

Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能，解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本，可在32 GPU集群中容忍最多16个rank故障，将服务恢复时间从2-3分钟缩短至10秒以内，降幅达90%。基准测试显示，该方案在实现极端韧性的同时，吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平，实现零静态性能损耗。

DeepSeek开源/仓库部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang亮相NVIDIA GTC 2026：三天五场活动展示开源AI基础设施实力

SGLang亮相Jensen Huang主题演讲AI生态图谱，三天内密集举办五场活动。团队与RadixArk合办200人技术聚会，在LinkedIn总部举办搜索与推荐LLM系统研讨，并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架，解决生产环境训练-推理不匹配难题；LinkedIn工程师分享预填充优化方案，在H100上实现2–3倍吞吐量提升并回馈上游。

开源/仓库数据/训练部署/工程

00:00

Google Research：Blog（网页）

精选

Vibe Coding XR：基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流，结合 Gemini Canvas 与开源框架 XR Blocks，利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建，支持手势交互与深度感知，可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室，用户可通过捏合等手势操作 3D 对象，快速验证空间交互设计。

Google产品更新多模态编码

推荐理由：Google推出Vibe Coding XR，用自然语言快速生成可交互的Android XR空间应用。