AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-17
2026 年 6 月17
  • 17 日Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
  • 16 日MiniMax 开源 M3 模型权重及 MSA 技术论文
  • 15 日Anthropic 暂停新模型访问,印度辩论 AI 未来
  • 14 日智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源
  • 13 日MiniMax M3 开源权重模型发布,已上架 HuggingFace
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
今天6月16日6月15日更早
AIHOT DAILY
2026年6月17日 · 周三

1模型发布/更新

Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

X:Testing Catalog (@testingcatalog)
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…

Qwen:Blog Retrieval(API)
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

Qwen:Blog Retrieval(API)
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

IT之家(RSS)
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 …

Qwen:Blog Retrieval(API)

2产品发布/更新

教育部“阳光志愿”信息服务系统全新升级上线:智能筛选志愿,数据权威可信

教育部“阳光志愿”信息服务系统今日全新升级上线,依托招生、学籍、就业等海量官方数据,免费为考生和家长提供志愿填报服务。系统支持31个省区市本专科普通批次志愿筛选,输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI助手“智慧小招”24小时在线解答政策规则。平台数据由高校直接报送、官方核验,真实可靠。同时推出专业倾向测评和21项生涯测评工具,帮助学生认清特长、规划未来。

IT之家(RSS)
Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文

Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 `type`、`title`、`description` 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制…

MarkTechPost(RSS)
Copilot Cowork 全球正式可用,支持多模型

Copilot Cowork 现已全球正式可用,并支持多模型! 每个组织都可以让长期运行的智能体处理复杂的多步骤任务,基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15

X:Satya Nadella (@satyanadella)
AI 版支付宝官宣开启邀测:右滑打开“阿宝”,官方放出 100 个邀请码

支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。

IT之家(RSS)
小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线

小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPla…

公众号:小米 MiMo
Subagent:让模型把琐碎任务委托出去

3行业动态

美国司法部援引国家安全为xAI未经许可的燃气轮机辩护

美国司法部在一份驳回诉讼的动议中称,xAI的聊天机器人Grok对军事行动至关重要,以此为其在密西西比州Southaven的Colossus 2设施运行未经许可的燃气轮机辩护。NAACP已提起诉讼,指控xAI的燃气轮机数量从4月的27台增至57台,导致氮氧化物排放飙升111%。国防部首席数字与人工智能官Cameron Stanley表示,Grok是支持机密和绝密网络军事任务的四款AI模型之一,包括近期针对伊朗的打击。

The Decoder:AI News(RSS)
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

X:阿易 AI Notes (@AYi_AInotes)
微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持

微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。

Hacker News 热门(buzzing.cc 中文翻译)
微软考虑为 Copilot Cowork 集成 DeepSeek V4

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜的模型选项。Copilot Cowork 将放弃无限定价,转向按使用量计费,原因是成本过高(用户每周执行数百项任务导致费用激增)。若采用 DeepSeek,该模型将是可选的、经过微调与安全防护,并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型,最终决定待定。

X:Kim (@kimmonismus)
Fable 遭美国政府封禁,TechCrunch 质疑真正原因并非模型越狱

美国政府对 Anthropic 的模型 Fable 实施封禁,但 TechCrunch 发文质疑,实际原因可能并非此前认为的“模型越狱”问题。该文章在 Hacker News 引发讨论,获得 103 个点赞。

Hacker News 热门(buzzing.cc 中文翻译)
SpaceX 以 600 亿美元股票收购 AI 编程公司 Cursor

SpaceX 在历史性 IPO 数天后,同意以 600 亿美元股票收购 AI 编程初创公司 Cursor,旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资,估值 500 亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示,其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。

4论文研究

Anthropic:智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。

Anthropic:Research(发表成果 · 网页)
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI:官网动态(RSS · 排除企业/客户案例)
公开聊天数据能否预测真实世界AI失调?

OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI:Alignment 研究博客(RSS)

5技巧与观点

Meta 解散工程部门引发热议

6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。

Hacker News 热门(buzzing.cc 中文翻译)
毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求AIGC率不超40%,学生用Claude反复修改并花上百元检测费(维普20元/篇,知网/万方2元/千字符),最终降至36.1%。答辩时老师要求改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用AI使用声明表替代一刀切检测。

公众号:数字生命卡兹克
WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入

从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。

公众号:数字生命卡兹克
OpenAI 的领先优势正在快速缩小

评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。

Gary Marcus:The Road to AI We Can Trust(RSS)
前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemot…

Nathan Lambert:Interconnects(RSS)
29今日事件
12一手报道
5新模型
20信源
← 前一日历史后一日 →
VOL.2026.06.17·29 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年六月十七日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
5 篇

Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

X·KOLX:Testing Catalog (@testingcatalog)

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

官方Qwen:Blog Retrieval(API)

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…

Qwen-RobotWorld:具身智能体的无界世界

官方Qwen:Blog Retrieval(API)

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型

OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。

OpenRouter:Announcements(RSS)
Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览

Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。

Midjourney:Updates(RSS)
Grok for PowerPoint 发布:在 Microsoft PowerPoint 内直接生成和编辑幻灯片

xAI 于 6 月 16 日发布 Grok for PowerPoint,作为免费 Microsoft 365 插件上线。用户无需离开应用即可利用 Grok 将大纲转为完整幻灯片,进行内容研究、撰写、排版,并支持添加单张幻灯片、调整样式主题、重构章节。插件还能调用 Grok 连接器,从邮件或 SharePoint 中获取信息。该插件同样适用于 Word 和 Excel。

xAI:News(网页)
TechCrunch:AI(RSS)
Anthropic 5月企业AI订阅份额首超OpenAI,特朗普政府禁令反促采用量创新高

Anthropic 5月企业AI订阅市场份额达41%,首次超越OpenAI(39.5%)。公司刚完成650亿美元融资、估值9650亿美元,并因首次盈利季度秘密提交IPO。特朗普政府以出口管制为由要求Anthropic禁止非美国人访问最新模型Mythos 5及Fable 5,导致两款模型下架。Ramp首席经济学家指出,类似争议(如3月被国防部列为供应链风险)反而推动Anthropic企业采用量创纪录。Ramp数据显示,企业支出主要流向Claude Opus模型(最新为Opus 4.8)。

TechCrunch:AI(RSS)
DeepSeek 完成首轮外部融资,估值超 500 亿美元

中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。

The Decoder:AI News(RSS)
综合资讯
IT之家(RSS)

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

官方Qwen:Blog Retrieval(API)

Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 …

02

产品发布/更新

Product
8 篇

教育部“阳光志愿”信息服务系统全新升级上线:智能筛选志愿,数据权威可信

综合资讯IT之家(RSS)

教育部“阳光志愿”信息服务系统今日全新升级上线,依托招生、学籍、就业等海量官方数据,免费为考生和家长提供志愿填报服务。系统支持31个省区市本专科普通批次志愿筛选,输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI助手“智慧小招”24小时在线解答政策规则。平台数据由高校直接报送、官方核验,真实可靠。同时推出专业倾向测评和21项生涯测评工具,帮助学生认清特长、规划未来。

Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文

综合资讯MarkTechPost(RSS)

Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 `type`、`title`、`description` 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制…

Copilot Cowork 全球正式可用,支持多模型

X·KOLX:Satya Nadella (@satyanadella)

Copilot Cowork 现已全球正式可用,并支持多模型! 每个组织都可以让长期运行的智能体处理复杂的多步骤任务,基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15

AI 版支付宝官宣开启邀测:右滑打开“阿宝”,官方放出 100 个邀请码

综合资讯IT之家(RSS)

支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。

小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线

公众号·官方公众号:小米 MiMo

小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPla…

Subagent:让模型把琐碎任务委托出去

官方OpenRouter:Announcements(RSS)

OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。

Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览

官方Midjourney:Updates(RSS)

Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。

Grok for PowerPoint 发布:在 Microsoft PowerPoint 内直接生成和编辑幻灯片

官方xAI:News(网页)

xAI 于 6 月 16 日发布 Grok for PowerPoint,作为免费 Microsoft 365 插件上线。用户无需离开应用即可利用 Grok 将大纲转为完整幻灯片,进行内容研究、撰写、排版,并支持添加单张幻灯片、调整样式主题、重构章节。插件还能调用 Grok 连接器,从邮件或 SharePoint 中获取信息。该插件同样适用于 Word 和 Excel。

03

行业动态

Industry
8 篇

美国司法部援引国家安全为xAI未经许可的燃气轮机辩护

综合资讯The Decoder:AI News(RSS)

美国司法部在一份驳回诉讼的动议中称,xAI的聊天机器人Grok对军事行动至关重要,以此为其在密西西比州Southaven的Colossus 2设施运行未经许可的燃气轮机辩护。NAACP已提起诉讼,指控xAI的燃气轮机数量从4月的27台增至57台,导致氮氧化物排放飙升111%。国防部首席数字与人工智能官Cameron Stanley表示,Grok是支持机密和绝密网络军事任务的四款AI模型之一,包括近期针对伊朗的打击。

五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断

X·KOLX:阿易 AI Notes (@AYi_AInotes)

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。

微软考虑为 Copilot Cowork 集成 DeepSeek V4

X·KOLX:Kim (@kimmonismus)

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜的模型选项。Copilot Cowork 将放弃无限定价,转向按使用量计费,原因是成本过高(用户每周执行数百项任务导致费用激增)。若采用 DeepSeek,该模型将是可选的、经过微调与安全防护,并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型,最终决定待定。

Fable 遭美国政府封禁,TechCrunch 质疑真正原因并非模型越狱

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

美国政府对 Anthropic 的模型 Fable 实施封禁,但 TechCrunch 发文质疑,实际原因可能并非此前认为的“模型越狱”问题。该文章在 Hacker News 引发讨论,获得 103 个点赞。

SpaceX 以 600 亿美元股票收购 AI 编程公司 Cursor

综合资讯TechCrunch:AI(RSS)

SpaceX 在历史性 IPO 数天后,同意以 600 亿美元股票收购 AI 编程初创公司 Cursor,旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资,估值 500 亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示,其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。

Anthropic 5月企业AI订阅份额首超OpenAI,特朗普政府禁令反促采用量创新高

综合资讯TechCrunch:AI(RSS)

Anthropic 5月企业AI订阅市场份额达41%,首次超越OpenAI(39.5%)。公司刚完成650亿美元融资、估值9650亿美元,并因首次盈利季度秘密提交IPO。特朗普政府以出口管制为由要求Anthropic禁止非美国人访问最新模型Mythos 5及Fable 5,导致两款模型下架。Ramp首席经济学家指出,类似争议(如3月被国防部列为供应链风险)反而推动Anthropic企业采用量创纪录。Ramp数据显示,企业支出主要流向Claude Opus模型(最新为Opus 4.8)。

DeepSeek 完成首轮外部融资,估值超 500 亿美元

综合资讯The Decoder:AI News(RSS)

中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。

04

论文研究

Research
3 篇

Anthropic:智能体编码中专业知识回报持续存在

官方Anthropic:Research(发表成果 · 网页)

Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。

OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。

公开聊天数据能否预测真实世界AI失调?

官方OpenAI:Alignment 研究博客(RSS)

OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

05

技巧与观点

Tips & Takes
5 篇

Meta 解散工程部门引发热议

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。

毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%

公众号·媒体公众号:数字生命卡兹克

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求AIGC率不超40%,学生用Claude反复修改并花上百元检测费(维普20元/篇,知网/万方2元/千字符),最终降至36.1%。答辩时老师要求改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用AI使用声明表替代一刀切检测。

WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入

公众号·媒体公众号:数字生命卡兹克

从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。

OpenAI 的领先优势正在快速缩小

大咖博客Gary Marcus:The Road to AI We Can Trust(RSS)

评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。

前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈

大咖博客Nathan Lambert:Interconnects(RSS)

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemot…

29
今日事件
12
一手报道
5
新模型
20
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成