AI 日报每早八时

1模型发布/更新

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face：Blog（RSS）

Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日，xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率，支持 100 万 token 上下文窗口，并提供可配置推理努力（none/low/medium/high）。在 Artificial Analysis Omniscience 基准排名第一，在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一，在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元，每美元智能度是其他前沿模型的 2–10 倍。

xAI：News（网页）

2产品发布/更新

Vercel 发布开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve（npm 包，Apache-2.0 许可）。Eve 采用文件系统优先设计：每个智能体对应一个磁盘目录，目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力，无需额外注册代码。内置六大生产级能力：持久执行（每步检查点，崩溃后可恢复）、沙箱计算、人机审批、安全连接（支持 MCP 和 OpenAPI）、多通道（Slack、Discord、Teams 等）以及追踪与评估（OpenTelemetry）。Vercel 内部运行了上百个智能体，包括数据分析工具 d0（月处理超3万查询）、自动销售代理 Lead Agent（年费约5000美元、回报32倍）和支持智能体 Vertex（自主解决9…

MarkTechPost（RSS）

Omnigent开源：AI智能体团队元框架

编程的未来不是单一智能体，而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队：Claude Code、Codex、Cursor、Pi，以及你自己的智能体。它是一个面向AI智能体的元框架，基于我们内部的Databricks开发工具构建，现已开源给所有人。由传奇人物@matei_zaharia和Databricks AI团队打造。没错，Matei仍然编写大量代码，包括Omnigent和我们产品的前端代码。

X：Yuchen Jin (@Yuchenj_UW)

Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker，售价99.99美元。支持自然语言请求和多步指令，可在说话中途纠正，并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium（月费10美元或年费100美元），包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售，本月发货。

TechCrunch：AI（RSS）

Wolfram 语言和 Mathematica 15 版发布：内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后，Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手，支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找，首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助，支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进，支持…

Hacker News 热门（buzzing.cc 中文翻译）

阿里云发布HappyOyster 1.0：一句话生成可实时交互的数字世界

6月17日，阿里云发布开放式世界模型HappyOyster 1.0（快乐生蚝）。该产品基于原生多模态架构，支持多模态输入与音视频联合生成，可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律，保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法：前者可随时叫停改写故事、与虚拟男友实时互动等；后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测，即日起至7月17日官网不定期掉落体验积分。

IT之家（RSS）

Claude Design 更新：跨项目保持品牌一致，与Claude Code协同

6月17日，Claude Design 更新，支持跨项目使用统一设计系统，并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素，编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入，团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享，每次任务消耗更少token，错误率下降。支持导出PDF、PPT，集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。

Claude：Blog（网页）

Claude Design与Replit联动，设计变应用

在Claude中设计。在Replit中构建。你现在可以将Claude Design中的设计发送到Replit，将其变成一个可工作的应用。

X：Replit (@Replit)

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face：Blog（RSS）

3行业动态

Anthropic与DeepMind CEO呼吁G7组建AI联盟排除中国

Dario Amodei（Anthropic）与Demis Hassabis（Google DeepMind）在G7闭门会议上呼吁组建美国主导的联盟，为人工智能制定全球规则和标准。Amodei指出，该联盟应以前沿模型和硬件（包括芯片及其他关键组件）的访问权限为手段，将中国排除在外。这一主张被评论为高技术新冷战的开端，竞争方将从根本上被剥夺参与权。

X：Kim (@kimmonismus)

泄露文件显示OpenAI年营收130亿但亏损远超收入

OpenAI 2025年营收130.7亿美元（2024年37亿），但研发成本达191.8亿（含向微软支付105.9亿），收入成本（推理计算）75亿，销售营销成本57.3亿，运营亏损209.2亿。2025年净亏损约390亿，扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资（估值8520亿）。ChatGPT周活超9亿，付费约5000万。为控制成本已关闭Sora视频模型并削减非核心业务。

Hacker News 热门（buzzing.cc 中文翻译）

消息称 OpenAI 今年一季度现金消耗达 37 亿美元，超同期收入的一半

OpenAI 在 2026 年第一季度现金消耗达 37 亿美元，超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件，直观体现 AI 大模型研发与规模化落地的巨额成本。OpenAI 正筹备上市，已在美国保密递交 IPO 申请，最早或于 9 月完成，估值最高可达 1 万亿美元。头部 AI 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。

IT之家（RSS）

中国加紧筹建世界人工智能合作组织

中国正加紧筹建世界人工智能合作组织，欢迎各方加入。2025年7月26日，中国政府倡议成立该组织，作为践行多边主义、推动共商共建共享全球治理的举措，旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日，2025世界人工智能大会发表《人工智能全球治理行动计划》，呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则，协力推进全球人工智能发展与治理。

IT之家（RSS）

谷歌发布Agentic Resource Discovery（ARD）开放规范

Agentic Resource Discovery（ARD）是一项开放规范，用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语：组织在其自有域名下托管catalog描述可用能力，registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证，使客户端与端点连接前确认发布者身份，然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持，包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布，开发者可通过托管ai-catalog.json文件使其服…

Google Developers Blog（RSS）

Databricks 扩大对 Snowflake 的领先优势

Databricks 年化经常性收入（ARR）达 69 亿美元，同比增长 80%；同期 Snowflake ARR 约 53 亿美元，增速 34%。两者差距从 3 月的 4.9 亿美元扩大至 16 亿美元。AI 产品年化收入 17 亿美元，占总 ARR 的 25%，六个月前为 10 亿美元。Salesforce 以 36 亿美元收购 Fin，其 AI 智能体年收入 1 亿美元，同样占比约 25%，同比增长 350%。Databricks 私人估值 1340 亿美元，80% 的增长率远超 CrowdStrike（26%）和 Shopify（34%）等同行。

Tomer Tunguz 博客（VC 分析）

Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日，Anthropic在旧金山举办12小时黑客马拉松，310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton：输入历史建筑照片后，Claude自动搜集图纸等资料，跨339个施工步骤重建3D模型，每个构件附带证据链；自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco：基于美国人口普查数据生成10,000名合成市民，各具独立世界观，实时对新闻投票，精准预测选举结果。第三名Custom Universe：用手机拍摄物件照片，Opus 4.8将其转为可拖放、实时渲染的3D物体，支持文本指令重设风格。

Claude：Blog（网页）

Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室，并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code，数千工程师用于提升编码效率；Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团；Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求；Samsung SDS 向三星电子员工部署 Claude（包括 Claude Cowork 和 Claude Code）。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国…

Anthropic：Newsroom（网页）

4论文研究

NVIDIA GEAR实验室发布ENPIRE：8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统，首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人，配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障，支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结，防止智能体作弊。实时监测机器人利用率（MRU）、token利用率（MTU）和GPU利用率，以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务，发现8机器人并行探索显著更快。系统将开源。

X：Jim Fan (@DrJimFan)

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%–35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1…

LMSYS：Blog（Chatbot Arena 团队）

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

OpenAI：官网动态（RSS · 排除企业/客户案例）

Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。

Google Blog：AI（RSS）

OpenAI 与 Molecule.one 合作：GPT‑5.4 自主优化 Chan‑Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria，用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物，并建议使用 TEMPO 等温和氧化剂。经两轮实验，88% 的硼酸和 83% 的磺酰胺底物产率提升，平均产率从 16.6% 升至 25.2%，产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证，14 对底物中 11 对产率提高，多数提升超两倍。

OpenAI：官网动态（RSS · 排除企业/客户案例）

5技巧与观点

Matt Pocock 开源 skills v1：将技能描述 Token 成本降低 63%

Matt Pocock（Total TypeScript 作者）开源了 skills v1，将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用，新增 /codebase-design、/domain-modeling、/grilling 三项技能；重写 /writing-great-skills；将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用；新增 /ask-matt 路由技能，帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

X：阿易 AI Notes (@AYi_AInotes)

baoyu-design 本地动画视频导出功能更新

baoyu-design（本地运行 Claude Design 的 Skill）新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计：任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码，每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR（3840×2160）再缩回 1080p，保证细节清晰。95 秒 30fps 动画需 2850 次截图循环，帧帧精确。项目已开源（MIT），获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

X：宝玉 (@dotey)

Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式，旨在结合两者优势。A2UI 采用声明式框架，通过 JSON payload 定义 UI，由宿主原生渲染，确保一致性与安全性，但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面，但存在设计碎片化、性能与安全挑战。三种模式包括：通过 MCP 服务器提供 A2UI，利用 MCP Resources 或 Tool 调用传递 JSON，实现“一次编写，原生渲染”的跨平台能力；以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

Google Developers Blog（RSS）

预训练还不够“苦涩”

Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识，最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利：采用通用架构、海量数据、简单的自监督目标（语言模型预测下一个token，视觉模型重建掩码块等）。但问题在于，训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现，再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。

CMU：Machine Learning Blog

博客现状，2026年中

Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标：为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音，避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议，以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万，付费约 900 人；运营实体 Interconnects AI, LLC 已成立，但银行账户数月余额接近零，收入再投入业务，近期不打算全职运营。

Nathan Lambert：Interconnects（RSS）

特朗普向Anthropic提出不可能的要求

特朗普要求Anthropic完成不可能的任务，暴露了生成式AI安全护栏的根本困境。早在2024年1月，Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证：基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术，要么承受后果。问题并非Anthropic独有，而是整个生成式AI面临的挑战。

Gary Marcus：The Road to AI We Can Trust（RSS）

29今日事件

17一手报道

2新模型

22信源

模型发布/更新

Model Releases

2 篇

MolmoMotion：语言引导的3D运动预测模型

官方Hugging Face：Blog（RSS）

Grok 4.3 在 Amazon Bedrock 正式可用

官方xAI：News（网页）

产品发布/更新

Product

8 篇

行业动态

Industry

8 篇

论文研究

Research

5 篇

技巧与观点

Tips & Takes

6 篇

一手报道

新模型

信源