AIHOT
内容
精选全部 AI 动态AI 日报
接入
Agent 接入
更多
关于更新日志反馈
登录
精选全部日报更多
最新一期2026-06-20
2026 年 6 月20
  • 20 日阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式
  • 19 日首个统一科学大模型 LOGOS 正式开源
  • 18 日MolmoMotion:语言引导的3D运动预测模型
  • 17 日Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
  • 16 日MiniMax 开源 M3 模型权重及 MSA 技术论文
  • 15 日Anthropic 暂停新模型访问,印度辩论 AI 未来
  • 14 日智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源
  • 13 日MiniMax M3 开源权重模型发布,已上架 HuggingFace
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
6月20日6月19日6月18日更早
AIHOT DAILY
2026年6月20日 · 周六

1产品发布/更新

阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式

阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。

X:阿易 AI Notes (@AYi_AInotes)
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架

NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

MarkTechPost(RSS)
Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 `wrangler deploy --temporary`,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

Cloudflare Blog
Claude Code v2.1.183 发布

Claude Code v2.1.183 增强了自动模式安全性:未经请求时阻止 `git reset --hard`、`git commit --amend`(非本轮提交)、`terraform destroy` 等破坏性命令。新增 `attribution.sessionUrl` 设置,可省略 claude.ai 会话链接;`/config --help` 列出所有速记键;`/config` 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP …

Claude Code:GitHub Releases(RSS)

2行业动态

Figure机器人数首超人类员工

我们已超越理论阶段。 有史以来第一次,Figure的机器人数量超过了人类员工数量。

X:Rohan Paul (@rohanpaul_ai)
JAWBONE Act:一项打击政府为压制合法网络言论而施压的新法案

上周,参议员Ted Cruz和Ron Wyden提出两党法案JAWBONE Act,为受政府胁迫的广播商、互动计算机服务商及AI提供商创建针对政府官员的联邦诉讼权,并建立政府与中间方就用户表达问题沟通的透明度体系。法案旨在应对政府施压私营公司审查受第一修正案保护的言论。EFF支持该法案,并举证:2025年6月联邦高官威胁起诉ICEBlock创建者,同年10月司法部长要求苹果下架该应用。EFF还提起信息自由诉讼,要求披露政府与苹果、谷歌、Meta的沟通记录。

Hacker News 热门(buzzing.cc 中文翻译)
AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic

AlphaFold 团队负责人 John Jumper 宣布,在 Google DeepMind 工作近 9 年后决定离职,将加入 Anthropic(先休整一段时间)。DeepMind CEO Demis Hassabis 表示,过去 9 年与 Jumper 的非凡合作改变了世界,AlphaFold 展示了 AI 在科学与医学领域的巨大潜力,并为 AI 造福人类指明了方向。Jumper 回忆,Hassabis 在他博士毕业仅 6 个月后就大胆让他领导 AlphaFold 团队,感谢团队教会他如何做伟大的科学。

X:Demis Hassabis (@demishassabis)

3技巧与观点

Humanize PPT v0.9:为演讲而生的开源PPT Skill

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。

公众号:卡尔的AI沃茨
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。

X:阿易 AI Notes (@AYi_AInotes)
baoyu-design Skill迭代:修复导出样式与渐变丢失问题,支持AI配图导出PPTX

宝玉分享 baoyu-design Skill 的迭代过程:用户测试发现导出问题(样式表未铺满整页、渐变色丢失),他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖,修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图,支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图,并能连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。迭代循环:自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。

X:宝玉 (@dotey)
/youtube-notetaker:YT 视频转 Artifacts

YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。 捕获幻灯片、笔记、转录内容…… 快去试试 ↓

X:Elvis Saravia (@omarsar0, DAIR.AI)
Salesforce CodeGen教程:生成、验证并重排序Python函数(含单元测试与安全检查)

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。

MarkTechPost(RSS)
我们在 Elasticsearch 上构建了一个持久化代理内存层,其召回率为0.89

Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。

Hacker News 热门(buzzing.cc 中文翻译)
15今日事件
4一手报道
0新模型
12信源
← 前一日历史后一日 →
VOL.2026.06.20·15 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年六月二十日 星期六DAILY · 每早八时
01

产品发布/更新

Product
4 篇

阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式

X·KOLX:阿易 AI Notes (@AYi_AInotes)

阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。

NVIDIA Research 发布 SpatialClaw:免训练空间推理框架

综合资讯MarkTechPost(RSS)

NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

Cloudflare 为 AI 智能体推出临时账户

官方Cloudflare Blog

Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 `wrangler deploy --temporary`,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

Claude Code v2.1.183 发布

官方Claude Code:GitHub Releases(RSS)

Claude Code v2.1.183 增强了自动模式安全性:未经请求时阻止 `git reset --hard`、`git commit --amend`(非本轮提交)、`terraform destroy` 等破坏性命令。新增 `attribution.sessionUrl` 设置,可省略 claude.ai 会话链接;`/config --help` 列出所有速记键;`/config` 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP …

OpenRouter vs LiteLLM:如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

OpenRouter:Announcements(RSS)
AI中心的数据黑洞

智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。

Dwarkesh Patel:Podcast & Blog(RSS)
02

行业动态

Industry
3 篇

Figure机器人数首超人类员工

X·KOLX:Rohan Paul (@rohanpaul_ai)

我们已超越理论阶段。 有史以来第一次,Figure的机器人数量超过了人类员工数量。

JAWBONE Act:一项打击政府为压制合法网络言论而施压的新法案

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

上周,参议员Ted Cruz和Ron Wyden提出两党法案JAWBONE Act,为受政府胁迫的广播商、互动计算机服务商及AI提供商创建针对政府官员的联邦诉讼权,并建立政府与中间方就用户表达问题沟通的透明度体系。法案旨在应对政府施压私营公司审查受第一修正案保护的言论。EFF支持该法案,并举证:2025年6月联邦高官威胁起诉ICEBlock创建者,同年10月司法部长要求苹果下架该应用。EFF还提起信息自由诉讼,要求披露政府与苹果、谷歌、Meta的沟通记录。

AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic

X·KOLX:Demis Hassabis (@demishassabis)

AlphaFold 团队负责人 John Jumper 宣布,在 Google DeepMind 工作近 9 年后决定离职,将加入 Anthropic(先休整一段时间)。DeepMind CEO Demis Hassabis 表示,过去 9 年与 Jumper 的非凡合作改变了世界,AlphaFold 展示了 AI 在科学与医学领域的巨大潜力,并为 AI 造福人类指明了方向。Jumper 回忆,Hassabis 在他博士毕业仅 6 个月后就大胆让他领导 AlphaFold 团队,感谢团队教会他如何做伟大的科学。

03

技巧与观点

Tips & Takes
8 篇

Humanize PPT v0.9:为演讲而生的开源PPT Skill

公众号·媒体公众号:卡尔的AI沃茨

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。

DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环

X·KOLX:阿易 AI Notes (@AYi_AInotes)

DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。

baoyu-design Skill迭代:修复导出样式与渐变丢失问题,支持AI配图导出PPTX

X·KOLX:宝玉 (@dotey)

宝玉分享 baoyu-design Skill 的迭代过程:用户测试发现导出问题(样式表未铺满整页、渐变色丢失),他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖,修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图,支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图,并能连同图片一起导出为 PPTX,在 PowerPoint/Keynote 中二次编辑。迭代循环:自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。

/youtube-notetaker:YT 视频转 Artifacts

X·KOLX:Elvis Saravia (@omarsar0, DAIR.AI)

YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。 捕获幻灯片、笔记、转录内容…… 快去试试 ↓

Salesforce CodeGen教程:生成、验证并重排序Python函数(含单元测试与安全检查)

综合资讯MarkTechPost(RSS)

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。

我们在 Elasticsearch 上构建了一个持久化代理内存层,其召回率为0.89

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。

OpenRouter vs LiteLLM:如何选择 LLM 网关

官方OpenRouter:Announcements(RSS)

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

AI中心的数据黑洞

大咖博客Dwarkesh Patel:Podcast & Blog(RSS)

智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。

15
今日事件
4
一手报道
0
新模型
12
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成