AIHOT

3月12日

00:00

Google Research：Blog（网页）

Google Research在Flood Hub推出城市山洪预测服务，采用新型AI方法Groundsource从新闻报道中提取历史洪水数据作为训练集，结合全球天气模型，可为城市地区提供最长24小时预警。该系统以20x20公里分辨率运行，无需依赖高分辨率水文地图或本地雷达，旨在解决全球南方国家山洪预警基础设施不足的问题，弥补传统 riverine 洪水预测无法覆盖快速 onset 灾害的空白。

Google数据/训练论文/研究

00:00

Runway：News（网页）

负责任地构建交互式 AI 角色

Runway 发布 Characters 实时视频 API，支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时，重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤（禁止儿童与公众人物形象）、限制专业领域建议及透明度标识等安全措施，但承认随着技术进步，相关治理挑战仍需持续应对。

智能体产品更新视频

00:00

Anthropic：Newsroom（网页）

Anthropic投资1亿美元成立Claude合作伙伴网络

Anthropic宣布投入1亿美元成立Claude合作伙伴网络，为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放，合作伙伴可获得Claude Certified Architect等技术认证，并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍，配备Applied AI工程师和技术架构师，协助企业完成从概念验证到生产部署的过渡。

智能体Anthropic行业动态部署/工程

00:00

Claude：Blog（网页）

精选

Claude 新增交互式图表、图解与可视化功能

Claude 推出可视化功能测试版，支持在对话中实时生成交互式图表、图解等视觉内容，无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts，以内联临时形式辅助理解当前话题，默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式，并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。

Anthropic产品更新多模态

关联讨论 1 条

推荐理由：Claude推出对话内交互式图表功能，实时生成可视化助力理解

3月11日

20:00

Cursor Blog

Cursor 如何评估模型质量

Cursor 采用混合在线-离线评估流程衡量 AI 编程助手质量。离线端使用内部套件 CursorBench，基于真实开发会话构建，涵盖多文件修改、生产日志排查等复杂任务，相比公共基准更能区分前沿模型（如识别 Haiku 与 GPT-5 的实际差异）。在线端通过真实流量监控补充，捕捉离线评分遗漏的体验回归。两者结合确保模型评估与开发者实际体验一致。

智能体编码评测/基准

19:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

设计可抵御提示注入的 AI agent

ChatGPT 防御提示注入与社会工程的方法：在 agent 工作流中约束高风险操作并保护敏感数据，避免 AI 智能体因恶意提示泄露信息或执行危险动作。

智能体OpenAI安全/对齐

推荐理由：OpenAI官方分享Agent提示注入防护技术实践

19:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

从模型到智能体：为 Responses API 配备计算机环境

OpenAI 基于 Responses API、shell 工具与托管容器构建 agent runtime，支持文件处理、工具调用及状态管理，实现安全可扩展的智能体计算机环境部署。

智能体MCP/工具OpenAI产品更新

推荐理由：OpenAI为Responses API增加Agent运行时与容器化执行环境

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Wayfair 借助 OpenAI 提升商品目录准确性与客服响应速度

Wayfair 利用 OpenAI 模型优化电商客服与产品目录管理，实现工单自动分类，并大规模完善数百万商品属性信息。

OpenAI行业动态

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Rakuten 使用 Codex 后问题修复速度翻倍

Rakuten 引入 Codex 后，问题修复效率提升一倍。该 AI 编程工具显著缩短代码调试与故障解决周期，帮助开发团队更快定位并修复问题，优化整体运维流程。

OpenAI编码行业动态

00:00

Mistral AI：News（网页）

精选83

Rails测试自动化：构建自主编写测试的智能体

为解决大型Rails单体应用测试覆盖率低的问题，团队基于Mistral的Vibe构建了一个自主智能体。该智能体能自动读取模型、控制器等五类源代码文件，并生成或改进对应的RSpec测试。通过AGENTS.md文件提供的八步执行计划进行引导，并为不同文件类型配备专门技能以确保质量。智能体在CI/CD管道中并行运行，自动处理工厂和夹具，并通过强制自我审查覆盖所有公共方法，最终将测试质量评分从0.68提升至0.74。

智能体教程/实践编码

推荐理由：AI 代理可自动生成测试代码，开发者能节省时间并减少 bug。

00:00

Meta AI：Blog（网页）

精选78

Meta发布下一代AI模型TRIBE v2，可预测大脑对复杂刺激的反应

Meta发布了下一代AI模型TRIBE v2，该模型作为人类神经活动的数字孪生，能够以前所未有的速度和准确性预测大脑对几乎任何视觉或听觉刺激的反应。相比同类模型，其分辨率提升了70倍。该模型基于超过700名健康志愿者的多模态数据训练，可可靠预测高分辨率fMRI大脑活动，并支持对新受试者、语言和任务的零样本预测，性能持续优于标准方法。研究人员可利用此数字模型快速验证假设，无需每次实验都招募人类受试者。Meta以CC BY-NC许可证开源了相关资源，旨在加速神经科学研究，推动疾病治疗突破并改进AI系统。

Meta多模态推理模型发布

推荐理由：AI 模拟大脑活动，加速神经科学研究并启发更智能的 AI 系统。

00:00

Meta AI：Blog（网页）

精选86

Meta两年推四代自研AI芯片，以迭代策略应对模型演进

为应对快速演进的AI模型需求，Meta在两年内加速开发并部署了四代自研AI芯片（MTIA 300至500）。该系列芯片采用模块化小芯片设计和快速迭代策略，旨在以高成本效益服务全球用户。其演进路径从专注于排名推荐模型训练，扩展到增强对生成式AI的支持，并专门针对生成式AI推理优化，显著提升了内存带宽与计算性能。这一系列举措旨在灵活、经济地为Meta平台上的数十亿用户提供AI体验。

Meta产品更新部署/工程

推荐理由：Meta自研芯片快速迭代，可能改变AI基础设施成本格局，开发者需关注。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 宣布首日支持 NVIDIA Nemotron 3 Super，助力构建高效多智能体系统

SGLang 首日支持 NVIDIA Nemotron 3 Super 开源模型。该模型采用 120B 总参数、12B 激活参数的混合 MoE 架构，支持 1M token 超长上下文，专为多智能体协作设计。相比前代，吞吐量提升 5 倍，在 Artificial Analysis 智能指数上准确率提高 2 倍。集成 Transformer-Mamba 架构与多 Token 预测技术，兼容 B200、H100 等 GPU，提供完全开放的权重与数据集，适用于代码生成、工具调用等复杂推理场景。

智能体模型发布部署/工程

00:00

Runway：News（网页）

Runway 成立 Runway Labs 内部孵化器

Runway 推出内部孵化器 Runway Labs，探索生成式视频与通用世界模型的新应用。由联合创始人 Alejandro Matamala Ortiz 领导，团队将快速原型化前沿实验产品。目前正在招聘设计工程师、ML工程师、全栈工程师及前创业者。

行业动态视频

00:00

Anthropic：Newsroom（网页）

精选

Anthropic 成立 The Anthropic Institute

Anthropic 宣布成立 The Anthropic Institute，由联合创始人 Jack Clark 担任 Public Benefit 负责人并领导。该机构整合 Frontier Red Team、Societal Impacts 和 Economic Research 团队，利用构建前沿 AI 系统的独特信息优势，研究 AI 对就业、经济、法律及治理的挑战，并与外部合作应对风险。同时聘请 Matt Botvinick、Anton Korinek 等专家，探索 AI 与社会各领域的互动。

Anthropic安全/对齐

推荐理由：Anthropic成立专门研究所，整合红队与经济研究团队，系统应对AI安全与社会治理挑战。

3月10日

21:00

Google Blog：AI（RSS）

Gemini in Google Sheets 达到最先进水平

Gemini in Google Sheets 发布全新 beta 功能，支持通过自然语言描述创建、组织和编辑整个表格，涵盖基础任务到复杂数据分析，实现最先进的电子表格处理能力。

Google产品更新编码

19:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

改进前沿 LLM 的指令层级

IH-Challenge 训练模型优先处理可信指令，改进指令层级、安全可控性，并提升对提示词注入攻击的抵抗能力。

OpenAI安全/对齐数据/训练

推荐理由：OpenAI改进指令层级研究，增强模型抗提示注入攻击能力

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

ChatGPT 推出数学与科学学习新方式

ChatGPT 新增数学与科学交互式可视化解释功能，支持实时探索公式、变量及概念，帮助学生更直观地理解理科知识。

OpenAI产品更新多模态

推荐理由：ChatGPT 新增数学与科学可视化交互功能，提升学习体验

08:00

Hugging Face：Blog（RSS）

精选83

保持令牌流动：16个开源强化学习库的教训

同步强化学习训练中，数据生成是主要瓶颈，如在320亿参数模型上生成3.2万令牌样本需数小时，导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池，通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库，从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现：Ray在编排层占主导（8/16库使用），NCCL广播是默认权重传输方式，LoRA训练支持普遍不足，而分布式MoE支持正成为新差异化特性。

推理论文/研究部署/工程

推荐理由：异步RL训练架构对比，助开发者优化训练效率与库选型。

08:00

Hugging Face：Blog（RSS）

精选83

Hugging Face Hub 正式推出 Storage Buckets 存储服务

Hugging Face Hub 发布 Storage Buckets，这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端，能对跨文件共享内容的 ML 工件进行高效去重，从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能，可将数据预先迁移至靠近计算资源的云区域，以提升分布式训练等场景的效率。目前支持 AWS 和 GCP，用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。

Hugging Face产品更新数据/训练部署/工程

推荐理由：ML 开发者可高效管理训练数据和检查点，节省存储成本并加速工作流。