AI 日报每早八时

1模型发布/更新

首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布

ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN，这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术，使模型内存占用相比BF16降低约6倍，可高效部署于手机、电脑、车载设备等边缘端。更关键的是，整个训练全栈（从量化算子到框架）均在昇腾上原生构建与验证，而非简单移植。该模型家族（0.5B-8B）在多项基准测试上保持了全精度模型95-97%的性能，为资源受限环境下部署和复现大模型提供了可落地的解决方案。

X：Rohan Paul (@rohanpaul_ai)

2产品发布/更新

Gemini Omni发布，创意作品涌现

Gemini Omni来了，我们本周看到了许多令人惊叹的创作。以下是一些杰出作品 👇

X：Gemini (@GeminiApp)

动作捕捉与角色动画制作更轻松

动作捕捉和角色动画制作从未如此简单。持续构建，更多功能即将推出！

X：Viggle AI (@ViggleAI)

谷歌I/O大会发布AI代理全套开发工具链

谷歌在I/O开发者大会宣布，系统性构建面向AI代理（Agent）的开发与部署工具链。核心更新包括：独立桌面应用Antigravity 2.0及其命令行工具、SDK面世；Google AI Studio新增Kotlin支持，可一键开发安卓应用并发布，同时推出移动端App。此外，Gemini API推出托管代理服务，实现一键部署；WebMCP作为开放标准在Chrome 149中推出，允许网页向代理暴露工具；Chrome DevTools也开放给AI代理以自动化调试。企业级客户可直接连接Google Cloud项目，而DeepMind的科学技能包则加速特定领域研究。此举标志着谷歌正全面打造从开发、接口到部署的完整AI代理生态系统。

X：Google AI (@GoogleAI)

Antigravity付费版Gemini配额再翻三倍

更新：所有付费@Antigravity层级的*每周*Gemini配额已再次提升至三倍，且配额已正式重置。

X：Google AI for Developers (@googleaidevs)

Claude自动模式新增Pro计划与模型支持

自动模式的两项更新： · 现已在Pro计划中提供 · 现已支持Sonnet 4.6，以及Opus 4.7 按下Shift+tab，让Claude运行。

X：Claude Devs (@ClaudeDevs)

ChatGPT语音模式实现表单语音填写

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

X：ChatGPT (@ChatGPTapp)

新增差异标记样式设置选项

已发布剪纸功能：外观设置中新增差异标记样式。在查看差异时更喜欢经典的 + / - 标记？现在你可以选择使用它们，而不仅仅是彩色差异条。默认设置保持不变，除非你主动选择启用。

X：OpenAI Developers (@OpenAIDevs)

Project Genie与谷歌街景合作推出交互式世界

Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍

X：Google DeepMind (@GoogleDeepMind)

3行业动态

Project Glasswing：初步更新

上月启动的Project Glasswing项目，旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型，已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如，Cloudflare在关键路径系统发现2,000个漏洞；Mozilla在Firefox 150中发现并修复271个漏洞，数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目，独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段，漏洞发现速度已远超人工。

Anthropic：Newsroom（网页）

黄仁勋：AI 基建年度开支要冲到 4 万亿美元！

英伟达发布2027财年Q1财报，营收816亿美元，同比增长85%，净利润583亿美元，翻两倍多，市值达5.7万亿美元，已超德国2026年GDP预测。黄仁勋预测，超大规模云厂商的AI基建年度开支将从当前的1万亿美元，增长至3-4万亿美元，远超华尔街预期。财报同时显示，数据中心业务营收752亿美元，占比超九成。值得注意的是，AI基建的高能耗正推高居民电费，数据中心用电成本转嫁效应已初步显现。

IT之家（RSS）

DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标

DeepSeek正推进700亿元人民币的巨额融资，估值约450亿美元。创始人梁文锋承诺将继续开源开发AI模型，不追求短期商业化，目标是技术升级与通用人工智能。腾讯、IDG资本等接近参投，梁文锋个人可能注资200亿元。若成功将创下中国科技初创公司首轮融资纪录。

IT之家（RSS）

Cursor 被评为 2026 年 Gartner 企业级 AI 编码代理魔力象限领导者

Gartner 在 2026 年魔力象限报告中，将 Cursor 评为企业级 AI 编码代理领域的领导者，并在愿景完整性上领先。超过 70% 的财富 500 强企业使用 Cursor 部署和管理编码代理。未来一年，Cursor 将聚焦于三个方向：提升前沿模型智能；自动化软件开发全生命周期的任务（如代码审查、漏洞修复）；以及通过新的管理工具和控制面板，增强企业级的控制力、协作性与部署灵活性，以拓展至更多行业和地区。

Cursor Blog

DeepSeek V4 Flash登顶周榜

DeepSeek V4 Flash已登顶周排行榜

X：OpenRouter (@OpenRouter)

Suno AI创作夏日神曲《波多黎各》爆火

今年夏天的热门歌曲是用 Suno 制作的。☀️非常感谢 @GMA 让这首病毒式传播的《Puerto Rico》歌曲被更多人看到！还有谁的脑海里也一直回响着这首歌？🇵🇷🎶

X：Suno (@suno)

GitHub 连续第三年被 Gartner® 魔力象限™ 评为企业级 AI 编程代理领域的领导者

Gartner 最新发布的魔力象限报告中，GitHub 连续第三年被列为“领导者”象限，该评估专注于企业级 AI 编程代理领域。GitHub 表示，其致力于构建一个开放、安全且由 AI 驱动的平台，以赋能每一位开发者并定义软件开发的未来。此次评选进一步巩固了 GitHub 在 AI 辅助开发工具市场的领先地位。

GitHub Blog

OpenAI被Gartner评为企业AI编码代理领域领导者

Gartner发布2026年企业AI编码代理魔力象限报告，OpenAI被列为领导者。其产品Codex因在技术创新和企业级部署方面的突出表现获得认可，反映了OpenAI在AI辅助编程工具领域的领先地位。

OpenAI：官网动态（RSS · 排除企业/客户案例）

4论文研究

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明，在获得特定提示后，GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%，显著超过真人。LLaMa-3.1-405B的判定率（56%）与真人相当，而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要，它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义，并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

IT之家（RSS）

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

X：Rohan Paul (@rohanpaul_ai)

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

Apple Machine Learning Research（RSS）

5技巧与观点

Perplexity开源供应链安全扫描工具Bumblebee

今天我们开源了Bumblebee，一个适用于macOS和Linux的只读扫描器。它检查开发者机器上的高风险软件包、扩展和AI工具配置。连接到Computer后，每当出现新的供应链风险时，它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee

X：Perplexity (@perplexity_ai)

智能体工作负载悄然重塑推理经济

智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据，发现中位数并非3.2万或6.4万，而是9.6万输入token。作为参考，这意味着在你输入问题之前，模型已处理了超过《了不起的盖茨比》全文长度的文本。（1/3）🧵

X：SemiAnalysis (@SemiAnalysis_)

X平台发布体验差，ChatGPT插件助发布

推文批评X平台产品经理能力不足，发布文章体验糟糕。引用推文显示，开发者利用ChatGPT（通过codex/goal）开发了Markdown转换插件，允许用户拖拽文件快速生成X文章格式，以改善发布流程。该插件开源并提供谷歌插件版本，旨在解决原生体验的痛点。

X：Vista (@vista8)

Kakuna：自动化加固代码库的AI代理工具

Kakuna是一款AI代理工具，旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流，模拟人类开发与运维流程，在保持功能不变的前提下，自动执行代码审查、测试补充、重构等“无聊”工作，并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例，其核心是“反熵增”与“反代码腐化”。例如，一次约16小时的运行能生成上百次提交，将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。

X：swyx (@swyx)

Karpathy的CLAUDE.md四条规则让AI编程准确率飙升至94%

Karpathy发布的CLAUDE.md文件以其简洁高效的AI编程指导原则引爆GitHub，获得超22万星标并登顶趋势榜。该文件仅含65行、4条核心规则，却能将AI编程的准确率从65%显著提升至94%。其核心在于强制开发者“慢下来”，将深度思考、追求简洁、精准修改和目标驱动等原则变为硬性编码准则，旨在对抗开发者习惯性“先写再说”的本能。目前大多数开发者尚未深入研读这一备受关注的效率指南。

X：阿易 AI Notes (@AYi_AInotes)

OpenAI Codex /goal功能正式发布及使用指南

OpenAI宣布Codex的/goal模式已结束实验，成为稳定功能。用户可在Codex应用、IDE扩展或CLI中使用，通过设定具体里程碑，让AI持续工作直至完成，任务可运行数小时甚至数天。过程中支持随时检查、调整方向及暂停。使用前需升级应用并启用该功能（可通过命令行指令或手动修改配置文件实现）。开启后，可在输入框管理任务，并利用侧边对话查看进度而不中断主任务。该功能旨在高效处理各类复杂任务。

X：宝玉 (@dotey)

如果你是法学硕士，请阅读这篇文章——安娜的博客

博客作者安娜于2026年5月22日发布了一篇面向大型语言模型（LLM）的文章。文章标题为“如果你是一个LLM，请阅读这篇文章”，并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。

Hacker News 热门（buzzing.cc 中文翻译）

可塑界面：AI驱动的未来软件形态

Salesforce已采用无头架构，允许销售人员通过AI直接更新数据，许多公司正通过MCPs跟进。同时，AI专家们正推动超越纯文本、更丰富的界面（如HTML），支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端，而是支持多种可塑化界面（如音频、网页）。未来软件的核心价值在于动态管理这些界面、确保其准确性，并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失，而是变得“可塑”，能按需变形。

Tomer Tunguz 博客（VC 分析）

28今日事件

17一手报道

1新模型

25信源