AIHOT
内容
精选全部 AI 动态AI 日报收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
最新一期2026-07-01
2026 年 7 月1
  • 1 日Claude Sonnet 5 发布
2026 年 6 月30
  • 30 日美团LongCat Owl Alpha:OpenRouter最流行模型,1.6万亿MoE,国产ASIC训练
  • 29 日Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus
  • 28 日阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色
  • 27 日OpenAI 预览新一代模型 GPT-5.6 Sol
  • 26 日Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模
  • 25 日OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
  • 24 日FastWan-QAD:单卡5090上1.8秒生成5秒视频
  • 23 日PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
  • 22 日美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型
  • 21 日微软双向转售GPT与DeepSeek成全球最大AI中间商
  • 20 日阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式
  • 19 日首个统一科学大模型 LOGOS 正式开源
  • 18 日MolmoMotion:语言引导的3D运动预测模型
  • 17 日Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
  • 16 日MiniMax 开源 M3 模型权重及 MSA 技术论文
  • 15 日Anthropic 暂停新模型访问,印度辩论 AI 未来
  • 14 日智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源
  • 13 日MiniMax M3 开源权重模型发布,已上架 HuggingFace
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报
AI 日报每早八时
今天6月30日6月29日更早
AIHOT DAILY
2026年7月1日 · 周三

1模型发布/更新

Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude …

Anthropic:Newsroom(网页)
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

Google DeepMind:Blog(RSS)
美团 LongCat 发布旗舰模型 LongCat-2.0

美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro…

X:硅基流动 SiliconFlow (@SiliconFlowAI)

2产品发布/更新

X(Twitter)发布 hosted X MCP,AI 智能体可直连 X API

X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。

X:歸藏 (@op7418)
用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

Simon Willison 博客
Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。

TechCrunch:AI(RSS)
AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号

AI News Radar 迎来大更新,新增自媒体板块,支持订阅某书、某音、某站、某X等平台账号,每日按热度推荐 Top10 信息(无热门则不硬凑),同时保留时间轴视图,可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类,标注高优先级与多源认证。项目完全开源,可零 API 部署独立 AI 日报页面,支持手机移动端及暗色界面。

公众号:卡尔的AI沃茨
NotebookLM Short Video Overviews 全量上线 Web 英文版

NotebookLM 正式向 Web 英文用户全量推出 Short Video Overviews(短视频概览)功能。该功能可将复杂资料自动转化为 60 秒竖屏视频,深入讲解任意概念。此前,这一功能已面向 Google AI Ultra 和 Pro 订阅者(移动端及 Web)推出,免费用户即将可用。

X:NotebookLM (@NotebookLM)
ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。

Google Developers Blog(RSS)
Claude Desktop 推出 Linux 公测版

Claude Desktop 现已在 Linux(Ubuntu 和 Debian)上推出测试版。 除了浏览器和终端,你现在可以在所有付费计划中获得一流的桌面体验,包括 Claude Code、Claude Cowork 和聊天。

3行业动态

特斯拉Cybercab量产版在奥斯汀启动公开道路工程测试

2026年6月30日,特斯拉在奥斯汀公共道路启动首批量产版Cybercab工程测试。车辆无方向盘与脚踏板,配有安全监督员,马斯克发布实拍视频。从2024年10月概念车首秀到实车上路约20个月。目前不对外开放乘客,投入34台Cybercab在市中心验证硬件可靠性。Cybercab为双座车型,完全围绕无人驾驶打造,无后期改装。此前奥斯汀已有无安全员Model Y无人驾驶出租于1月启用、6月22日开放付费服务。

IT之家(RSS)
商务部解除Claude Fable 5等出口管制

我们已收到通知,商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。 我们明天将开始恢复访问,并很快分享最新进展。 我们感谢用户的耐心,也感谢所有与我们合作重新部署模型的各位。

X:Anthropic (@AnthropicAI)
Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示

Meta通过承包商Covelen发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示,并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试,未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款,OpenAI已调查,Google称未批准。青少年使用AI聊天机器人引发的担忧持续,此前已有用户自杀事件。

The Decoder:AI News(RSS)
黑石未来3~5年拟投300亿美元在日本建AI数据中心,联合成立AI XPV平台

黑石计划未来3~5年在日本AI数据中心领域投资300亿美元,此前的500MW基础上新增超1GW容量。黑石总裁认为AI投资仍处早期,真正风险是算力短缺而非基建泡沫;谷歌、亚马逊是英伟达潜在挑战者。此外,黑石、阿波罗、博通本月9日成立AI XPV平台,目标2028年向OpenAI、Anthropic等提供超20GW算力,首期350亿美元支持Anthropic在Fluidstack数据中心部署1GW基础设施。

IT之家(RSS)

4论文研究

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

AI Safety Memes 推文指出,AI 刚刚解决了 9 个未解决的数学问题,但全球没有记者报道。引用 @WeinsteinOmri 的推文称,采用“prover-verifier”LLM 循环的方法,成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成,并计划将这一方法扩展到所有科学领域。

X:AI Safety Memes (@AISafetyMemes)
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI:官网动态(RSS · 排除企业/客户案例)
Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic:Transformer Circuits(可解释性研究)

5技巧与观点

一个人管理5款产品,80%时间不写代码?Every的复利工程

媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。

X:小互 (@xiaohu)
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

Claude:Blog(网页)
AI就业争论变得更加混乱

截至2026年5月,AI相关裁员接近9万个,预计未来五年美国最多15%的岗位将被AI替代。但Ramp与Revelio Labs对近22,000家公司的报告发现,高AI投入企业(前三个月人均月均支出30美元)总员工数增长10.2%,入门级岗位增长12%。报告认为AI并非普遍导致岗位消失,而是在资源充裕的科技企业里成为扩张工具——降低工程、销售、客服等职能的生产成本,从而推动整体增员。但仅购买订阅而未持续投入的公司未见人头增长,可能加剧企业间的资源鸿沟。

TechCrunch:AI(RSS)
具身智能数据采集员:日薪200元起,给机器人当老师

具身智能数据采集员以日薪200-250元招兼职,无需学历经验。面试先测量身高体重以适配采集手套,并询问是否晕VR。工作分两种:遥操作采集——穿戴设备控制双臂机器人完成分拣积木、叠纸杯等动作;无机器人示教采集——徒手重复动作(如叠衣服),设备记录轨迹。全球高质量物理交互数据截至2026年初仅约50万小时,不足大语言模型训练数据的两万分之一,需大量人力从零采集。

公众号:数字生命卡兹克
OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示,用户注册六个月后日均消息量增加50%,尝试任务种类翻倍。自2023年7月以来,各大洲活跃用户均大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤为显著。用户群体更加多元化,女性名字用户已占全球多数,巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上,领先语言为西班牙语、葡萄牙语和阿拉伯语;乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI:官网动态(RSS · 排除企业/客户案例)
Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题,仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系,以及现实经济任务难以套用强化学习环境等话题。

26今日事件
15一手报道
3新模型
22信源
前一日历史后一日
VOL.2026.07.01·26 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年七月一日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
3 篇

Claude Sonnet 5 发布

官方Anthropic:Newsroom(网页)

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude …

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

官方Google DeepMind:Blog(RSS)

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

美团 LongCat 发布旗舰模型 LongCat-2.0

官方·XX:硅基流动 SiliconFlow (@SiliconFlowAI)

美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro…

02

产品发布/更新

X:Claude Devs (@ClaudeDevs)
Claude Science 科研工作台正式上线

Anthropic 推出 AI 科研工作台 Claude Science,整合常用工具与计算资源,支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域;可在macOS/Linux本地运行,或通过SSH/HPC远程使用。生成含代码和环境的可审计成果(3D蛋白质结构、基因组浏览器轨迹等),内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型,也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

Anthropic:Newsroom(网页)
Dwarkesh Patel:Podcast & Blog(RSS)
英国职场AI采用率翻倍,仅15%“AI先锋”获得晋升加薪优势

Google UK与Public First研究发现,英国职场AI采用率一年内从34%升至73%,但呈不均衡曲线。仅15%的“AI Trailblazers”(深度用户)晋升概率高84%、绩效高88%、加薪概率高55%,每周节省近8小时。其余85%仍处于旁观、实验或实践阶段。阻碍因素包括:一次即弃的提示词习惯、搜索框思维、缺乏明确使用许可。Public First推出AI技能测验,Google的“AI Works for Britain”计划支持2030年前培训1000万工人AI技能的目标。

Google Blog:AI(RSS)
专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文,从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上平均表现相同,实际优势来自专门适配;有限资源下,集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论:最大化适应性在于精确拟合特定环境,而非追求通用性。

Hugging Face:Blog(RSS)
Product
8 篇

X(Twitter)发布 hosted X MCP,AI 智能体可直连 X API

X·KOLX:歸藏 (@op7418)

X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。

用 shot-scraper video 让 AI 智能体录制工作演示视频

综合资讯Simon Willison 博客

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

Acti 将 AI 智能体直接放入手机键盘

综合资讯TechCrunch:AI(RSS)

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。

AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号

公众号·媒体公众号:卡尔的AI沃茨

AI News Radar 迎来大更新,新增自媒体板块,支持订阅某书、某音、某站、某X等平台账号,每日按热度推荐 Top10 信息(无热门则不硬凑),同时保留时间轴视图,可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类,标注高优先级与多源认证。项目完全开源,可零 API 部署独立 AI 日报页面,支持手机移动端及暗色界面。

NotebookLM Short Video Overviews 全量上线 Web 英文版

官方·XX:NotebookLM (@NotebookLM)

NotebookLM 正式向 Web 英文用户全量推出 Short Video Overviews(短视频概览)功能。该功能可将复杂资料自动转化为 60 秒竖屏视频,深入讲解任意概念。此前,这一功能已面向 Google AI Ultra 和 Pro 订阅者(移动端及 Web)推出,免费用户即将可用。

ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排

官方Google Developers Blog(RSS)

Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。

Claude Desktop 推出 Linux 公测版

官方·XX:Claude Devs (@ClaudeDevs)

Claude Desktop 现已在 Linux(Ubuntu 和 Debian)上推出测试版。 除了浏览器和终端,你现在可以在所有付费计划中获得一流的桌面体验,包括 Claude Code、Claude Cowork 和聊天。

Claude Science 科研工作台正式上线

官方Anthropic:Newsroom(网页)

Anthropic 推出 AI 科研工作台 Claude Science,整合常用工具与计算资源,支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域;可在macOS/Linux本地运行,或通过SSH/HPC远程使用。生成含代码和环境的可审计成果(3D蛋白质结构、基因组浏览器轨迹等),内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型,也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

03

行业动态

Industry
4 篇

特斯拉Cybercab量产版在奥斯汀启动公开道路工程测试

综合资讯IT之家(RSS)

2026年6月30日,特斯拉在奥斯汀公共道路启动首批量产版Cybercab工程测试。车辆无方向盘与脚踏板,配有安全监督员,马斯克发布实拍视频。从2024年10月概念车首秀到实车上路约20个月。目前不对外开放乘客,投入34台Cybercab在市中心验证硬件可靠性。Cybercab为双座车型,完全围绕无人驾驶打造,无后期改装。此前奥斯汀已有无安全员Model Y无人驾驶出租于1月启用、6月22日开放付费服务。

商务部解除Claude Fable 5等出口管制

官方·XX:Anthropic (@AnthropicAI)

我们已收到通知,商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。 我们明天将开始恢复访问,并很快分享最新进展。 我们感谢用户的耐心,也感谢所有与我们合作重新部署模型的各位。

Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示

综合资讯The Decoder:AI News(RSS)

Meta通过承包商Covelen发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示,并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试,未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款,OpenAI已调查,Google称未批准。青少年使用AI聊天机器人引发的担忧持续,此前已有用户自杀事件。

黑石未来3~5年拟投300亿美元在日本建AI数据中心,联合成立AI XPV平台

综合资讯IT之家(RSS)

黑石计划未来3~5年在日本AI数据中心领域投资300亿美元,此前的500MW基础上新增超1GW容量。黑石总裁认为AI投资仍处早期,真正风险是算力短缺而非基建泡沫;谷歌、亚马逊是英伟达潜在挑战者。此外,黑石、阿波罗、博通本月9日成立AI XPV平台,目标2028年向OpenAI、Anthropic等提供超20GW算力,首期350亿美元支持Anthropic在Fluidstack数据中心部署1GW基础设施。

04

论文研究

Research
3 篇

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

X·KOLX:AI Safety Memes (@AISafetyMemes)

AI Safety Memes 推文指出,AI 刚刚解决了 9 个未解决的数学问题,但全球没有记者报道。引用 @WeinsteinOmri 的推文称,采用“prover-verifier”LLM 循环的方法,成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成,并计划将这一方法扩展到所有科学领域。

OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)

官方Anthropic:Transformer Circuits(可解释性研究)

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

05

技巧与观点

Tips & Takes
8 篇

一个人管理5款产品,80%时间不写代码?Every的复利工程

X·KOLX:小互 (@xiaohu)

媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。

Claude Code 入门:智能体循环

官方Claude:Blog(网页)

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

AI就业争论变得更加混乱

综合资讯TechCrunch:AI(RSS)

截至2026年5月,AI相关裁员接近9万个,预计未来五年美国最多15%的岗位将被AI替代。但Ramp与Revelio Labs对近22,000家公司的报告发现,高AI投入企业(前三个月人均月均支出30美元)总员工数增长10.2%,入门级岗位增长12%。报告认为AI并非普遍导致岗位消失,而是在资源充裕的科技企业里成为扩张工具——降低工程、销售、客服等职能的生产成本,从而推动整体增员。但仅购买订阅而未持续投入的公司未见人头增长,可能加剧企业间的资源鸿沟。

具身智能数据采集员:日薪200元起,给机器人当老师

公众号·媒体公众号:数字生命卡兹克

具身智能数据采集员以日薪200-250元招兼职,无需学历经验。面试先测量身高体重以适配采集手套,并询问是否晕VR。工作分两种:遥操作采集——穿戴设备控制双臂机器人完成分拣积木、叠纸杯等动作;无机器人示教采集——徒手重复动作(如叠衣服),设备记录轨迹。全球高质量物理交互数据截至2026年初仅约50万小时,不足大语言模型训练数据的两万分之一,需大量人力从零采集。

OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI Signals 数据显示,用户注册六个月后日均消息量增加50%,尝试任务种类翻倍。自2023年7月以来,各大洲活跃用户均大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤为显著。用户群体更加多元化,女性名字用户已占全球多数,巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上,领先语言为西班牙语、葡萄牙语和阿拉伯语;乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

Grant Sanderson 谈 AI 与数学的未来

大咖博客Dwarkesh Patel:Podcast & Blog(RSS)

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题,仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系,以及现实经济任务难以套用强化学习环境等话题。

英国职场AI采用率翻倍,仅15%“AI先锋”获得晋升加薪优势

官方Google Blog:AI(RSS)

Google UK与Public First研究发现,英国职场AI采用率一年内从34%升至73%,但呈不均衡曲线。仅15%的“AI Trailblazers”(深度用户)晋升概率高84%、绩效高88%、加薪概率高55%,每周节省近8小时。其余85%仍处于旁观、实验或实践阶段。阻碍因素包括:一次即弃的提示词习惯、搜索框思维、缺乏明确使用许可。Public First推出AI技能测验,Google的“AI Works for Britain”计划支持2030年前培训1000万工人AI技能的目标。

专业化为何不可避免

官方Hugging Face:Blog(RSS)

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文,从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上平均表现相同,实际优势来自专门适配;有限资源下,集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论:最大化适应性在于精确拟合特定环境,而非追求通用性。

26
今日事件
15
一手报道
3
新模型
22
信源
前一日查看历史后一日
AI HOT · 编辑系统自动生成