AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-18
2026 年 6 月18
  • 18 日MolmoMotion:语言引导的3D运动预测模型
  • 17 日Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
  • 16 日MiniMax 开源 M3 模型权重及 MSA 技术论文
  • 15 日Anthropic 暂停新模型访问,印度辩论 AI 未来
  • 14 日智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源
  • 13 日MiniMax M3 开源权重模型发布,已上架 HuggingFace
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
今天6月17日6月16日更早
AIHOT DAILY
2026年6月18日 · 周四

1模型发布/更新

MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face:Blog(RSS)
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI:News(网页)

2产品发布/更新

Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决9…

MarkTechPost(RSS)
Omnigent开源:AI智能体团队元框架

编程的未来不是单一智能体,而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队:Claude Code、Codex、Cursor、Pi,以及你自己的智能体。 它是一个面向AI智能体的元框架,基于我们内部的Databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和Databricks AI团队打造。没错,Matei仍然编写大量代码,包括Omnigent和我们产品的前端代码。

X:Yuchen Jin (@Yuchenj_UW)
Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。

TechCrunch:AI(RSS)
Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持…

Hacker News 热门(buzzing.cc 中文翻译)
阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界

6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。

IT之家(RSS)
Claude Design 更新:跨项目保持品牌一致,与Claude Code协同

6月17日,Claude Design 更新,支持跨项目使用统一设计系统,并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素,编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入,团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享,每次任务消耗更少token,错误率下降。支持导出PDF、PPT,集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。

Claude:Blog(网页)
Claude Design与Replit联动,设计变应用

在Claude中设计。在Replit中构建。 你现在可以将Claude Design中的设计发送到Replit,将其变成一个可工作的应用。

X:Replit (@Replit)
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face:Blog(RSS)

3行业动态

Anthropic与DeepMind CEO呼吁G7组建AI联盟排除中国

Dario Amodei(Anthropic)与Demis Hassabis(Google DeepMind)在G7闭门会议上呼吁组建美国主导的联盟,为人工智能制定全球规则和标准。Amodei指出,该联盟应以前沿模型和硬件(包括芯片及其他关键组件)的访问权限为手段,将中国排除在外。这一主张被评论为高技术新冷战的开端,竞争方将从根本上被剥夺参与权。

X:Kim (@kimmonismus)
泄露文件显示OpenAI年营收130亿但亏损远超收入

OpenAI 2025年营收130.7亿美元(2024年37亿),但研发成本达191.8亿(含向微软支付105.9亿),收入成本(推理计算)75亿,销售营销成本57.3亿,运营亏损209.2亿。2025年净亏损约390亿,扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资(估值8520亿)。ChatGPT周活超9亿,付费约5000万。为控制成本已关闭Sora视频模型并削减非核心业务。

Hacker News 热门(buzzing.cc 中文翻译)
消息称 OpenAI 今年一季度现金消耗达 37 亿美元,超同期收入的一半

OpenAI 在 2026 年第一季度现金消耗达 37 亿美元,超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件,直观体现 AI 大模型研发与规模化落地的巨额成本。OpenAI 正筹备上市,已在美国保密递交 IPO 申请,最早或于 9 月完成,估值最高可达 1 万亿美元。头部 AI 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。

IT之家(RSS)
中国加紧筹建世界人工智能合作组织

中国正加紧筹建世界人工智能合作组织,欢迎各方加入。2025年7月26日,中国政府倡议成立该组织,作为践行多边主义、推动共商共建共享全球治理的举措,旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日,2025世界人工智能大会发表《人工智能全球治理行动计划》,呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则,协力推进全球人工智能发展与治理。

IT之家(RSS)
谷歌发布Agentic Resource Discovery(ARD)开放规范

Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管`ai-catalog.json`文件使其服…

Google Developers Blog(RSS)
Databricks 扩大对 Snowflake 的领先优势

Databricks 年化经常性收入(ARR)达 69 亿美元,同比增长 80%;同期 Snowflake ARR 约 53 亿美元,增速 34%。两者差距从 3 月的 4.9 亿美元扩大至 16 亿美元。AI 产品年化收入 17 亿美元,占总 ARR 的 25%,六个月前为 10 亿美元。Salesforce 以 36 亿美元收购 Fin,其 AI 智能体年收入 1 亿美元,同样占比约 25%,同比增长 350%。Databricks 私人估值 1340 亿美元,80% 的增长率远超 CrowdStrike(26%)和 Shopify(34%)等同行。

4论文研究

NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。

X:Jim Fan (@DrJimFan)
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1…

LMSYS:Blog(Chatbot Arena 团队)
LifeSciBench 发布

2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。

OpenAI:官网动态(RSS · 排除企业/客户案例)
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

Google Blog:AI(RSS)
OpenAI 与 Molecule.one 合作:GPT‑5.4 自主优化 Chan‑Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria,用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 TEMPO 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。

OpenAI:官网动态(RSS · 排除企业/客户案例)

5技巧与观点

Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63%

Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

X:阿易 AI Notes (@AYi_AInotes)
baoyu-design 本地动画视频导出功能更新

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

X:宝玉 (@dotey)
Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

Google Developers Blog(RSS)
预训练还不够“苦涩”

Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。

CMU:Machine Learning Blog
博客现状,2026年中

Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 Interconnects AI, LLC 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。

Nathan Lambert:Interconnects(RSS)
29今日事件
17一手报道
2新模型
22信源
← 前一日历史后一日 →
VOL.2026.06.18·29 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年六月十八日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
2 篇

MolmoMotion:语言引导的3D运动预测模型

官方Hugging Face:Blog(RSS)

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Grok 4.3 在 Amazon Bedrock 正式可用

官方xAI:News(网页)

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

02

产品发布/更新

Product
8 篇

Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录

综合资讯MarkTechPost(RSS)

Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决9…

Tomer Tunguz 博客(VC 分析)
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

Claude:Blog(网页)
Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国…

Anthropic:Newsroom(网页)
特朗普向Anthropic提出不可能的要求

特朗普要求Anthropic完成不可能的任务,暴露了生成式AI安全护栏的根本困境。早在2024年1月,Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证:基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术,要么承受后果。问题并非Anthropic独有,而是整个生成式AI面临的挑战。

Gary Marcus:The Road to AI We Can Trust(RSS)

Omnigent开源:AI智能体团队元框架

X·KOLX:Yuchen Jin (@Yuchenj_UW)

编程的未来不是单一智能体,而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队:Claude Code、Codex、Cursor、Pi,以及你自己的智能体。 它是一个面向AI智能体的元框架,基于我们内部的Databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和Databricks AI团队打造。没错,Matei仍然编写大量代码,包括Omnigent和我们产品的前端代码。

Google发布99美元Gemini智能音箱

综合资讯TechCrunch:AI(RSS)

Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。

Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持…

阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界

综合资讯IT之家(RSS)

6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。

Claude Design 更新:跨项目保持品牌一致,与Claude Code协同

官方Claude:Blog(网页)

6月17日,Claude Design 更新,支持跨项目使用统一设计系统,并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素,编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入,团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享,每次任务消耗更少token,错误率下降。支持导出PDF、PPT,集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。

Claude Design与Replit联动,设计变应用

官方·XX:Replit (@Replit)

在Claude中设计。在Replit中构建。 你现在可以将Claude Design中的设计发送到Replit,将其变成一个可工作的应用。

Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

官方Hugging Face:Blog(RSS)

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

03

行业动态

Industry
8 篇

Anthropic与DeepMind CEO呼吁G7组建AI联盟排除中国

X·KOLX:Kim (@kimmonismus)

Dario Amodei(Anthropic)与Demis Hassabis(Google DeepMind)在G7闭门会议上呼吁组建美国主导的联盟,为人工智能制定全球规则和标准。Amodei指出,该联盟应以前沿模型和硬件(包括芯片及其他关键组件)的访问权限为手段,将中国排除在外。这一主张被评论为高技术新冷战的开端,竞争方将从根本上被剥夺参与权。

泄露文件显示OpenAI年营收130亿但亏损远超收入

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

OpenAI 2025年营收130.7亿美元(2024年37亿),但研发成本达191.8亿(含向微软支付105.9亿),收入成本(推理计算)75亿,销售营销成本57.3亿,运营亏损209.2亿。2025年净亏损约390亿,扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资(估值8520亿)。ChatGPT周活超9亿,付费约5000万。为控制成本已关闭Sora视频模型并削减非核心业务。

消息称 OpenAI 今年一季度现金消耗达 37 亿美元,超同期收入的一半

综合资讯IT之家(RSS)

OpenAI 在 2026 年第一季度现金消耗达 37 亿美元,超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件,直观体现 AI 大模型研发与规模化落地的巨额成本。OpenAI 正筹备上市,已在美国保密递交 IPO 申请,最早或于 9 月完成,估值最高可达 1 万亿美元。头部 AI 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。

中国加紧筹建世界人工智能合作组织

综合资讯IT之家(RSS)

中国正加紧筹建世界人工智能合作组织,欢迎各方加入。2025年7月26日,中国政府倡议成立该组织,作为践行多边主义、推动共商共建共享全球治理的举措,旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日,2025世界人工智能大会发表《人工智能全球治理行动计划》,呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则,协力推进全球人工智能发展与治理。

谷歌发布Agentic Resource Discovery(ARD)开放规范

官方Google Developers Blog(RSS)

Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管`ai-catalog.json`文件使其服…

Databricks 扩大对 Snowflake 的领先优势

大咖博客Tomer Tunguz 博客(VC 分析)

Databricks 年化经常性收入(ARR)达 69 亿美元,同比增长 80%;同期 Snowflake ARR 约 53 亿美元,增速 34%。两者差距从 3 月的 4.9 亿美元扩大至 16 亿美元。AI 产品年化收入 17 亿美元,占总 ARR 的 25%,六个月前为 10 亿美元。Salesforce 以 36 亿美元收购 Fin,其 AI 智能体年收入 1 亿美元,同样占比约 25%,同比增长 350%。Databricks 私人估值 1340 亿美元,80% 的增长率远超 CrowdStrike(26%)和 Shopify(34%)等同行。

Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

官方Claude:Blog(网页)

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

官方Anthropic:Newsroom(网页)

Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国…

04

论文研究

Research
5 篇

NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验

X·KOLX:Jim Fan (@DrJimFan)

NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。

用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

学术机构LMSYS:Blog(Chatbot Arena 团队)

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1…

LifeSciBench 发布

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。

Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

官方Google Blog:AI(RSS)

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

OpenAI 与 Molecule.one 合作:GPT‑5.4 自主优化 Chan‑Lam 偶联反应

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria,用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 TEMPO 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。

05

技巧与观点

Tips & Takes
6 篇

Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63%

X·KOLX:阿易 AI Notes (@AYi_AInotes)

Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

baoyu-design 本地动画视频导出功能更新

X·KOLX:宝玉 (@dotey)

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

Google 分享 A2UI 与 MCP Apps 三种集成架构模式

官方Google Developers Blog(RSS)

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

预训练还不够“苦涩”

学术机构CMU:Machine Learning Blog

Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。

博客现状,2026年中

大咖博客Nathan Lambert:Interconnects(RSS)

Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 Interconnects AI, LLC 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。

特朗普向Anthropic提出不可能的要求

大咖博客Gary Marcus:The Road to AI We Can Trust(RSS)

特朗普要求Anthropic完成不可能的任务,暴露了生成式AI安全护栏的根本困境。早在2024年1月,Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证:基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术,要么承受后果。问题并非Anthropic独有,而是整个生成式AI面临的挑战。

29
今日事件
17
一手报道
2
新模型
22
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成