VOL.2026.05.07·27 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月七日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
2

SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升

官方·XX:商汤 SenseTime (@SenseTime_AI)

🚀 SenseNova-U1 更新: ⚡ 开源8步蒸馏LoRA:100 NFE降至8 NFE,H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI,提供文生图、图像编辑和交错生成的即用工作流 试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/

豆包大模型家族首款全模态理解模型:字节跳动 Doubao-Seed-2.0-lite 升级

综合资讯IT之家(RSS)

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。

02

产品发布/更新

Product
8

Grok Web 正式推出 Connectors 功能,实现与日常应用深度集成

官方xAI:News(网页)

xAI 正式在 Grok Web 上线 Connectors 功能,提供与多种日常应用工具的深度集成。该功能允许 Grok 端到端处理任务,如阅读总结邮件、更新幻灯片、管理日历和编辑电子表格,无需频繁切换和复制粘贴。首批支持的连接器包括 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub 和 Linear,涵盖文件搜索读写、代码审查与任务管理等操作。同时推出的“自带 MCP”功能支持连接自定义模型上下文协议服务器。完整的 Connectors 支持也即将登陆 Grok iOS 和 Android 应用。

Claude使用限制提升及与SpaceX达成算力合作

官方Anthropic:Newsroom(网页)

Anthropic与SpaceX达成合作,获得其Colossus 1数据中心超300兆瓦(含逾22万块NVIDIA GPU)的算力。此举使Claude Code的Pro、Max等多档计划的五小时速率限制立即翻倍,并取消了高峰时段限流;Claude Opus的API速率也大幅提升。公司还公布了与亚马逊、谷歌、微软等科技巨头的一系列大规模算力协议,总投资额巨大。为满足企业客户的合规需求,算力扩张计划也将覆盖亚洲和欧洲地区。

Grok Imagine API 推出“Quality Mode”图像生成与编辑功能

官方xAI:News(网页)

xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。

Show HN: Tilde.run – 具备事务性和版本控制文件系统的代理沙箱

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

Tilde.run 发布了一款代理沙箱,其核心特点是具备事务性和版本控制功能的文件系统。该系统支持事务操作,确保文件更改的原子性,同时提供完整的版本历史记录。该工具旨在为开发者提供一个安全、可回溯的代码执行环境,适用于需要高可靠性的自动化代理或脚本测试场景。目前该项目已在 Hacker News 上获得 102 点关注度。

OrcaRouter-Lite 开源:自托管LLM路由工具,支持自动选择最低成本模型

X·KOLX:Kim (@kimmonismus)

OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

Perplexity Agent API 新增金融搜索功能

官方·XX:Perplexity (@perplexity_ai)

Perplexity Agent API 现已提供金融搜索功能。 开发者只需一次工具调用,即可为需要当前可验证金融答案的智能体获取授权金融数据集、实时市场数据和附引用的网络资源。

推出领域能力评分与自定义ECI功能

X·KOLX:Epoch AI (@EpochAIResearch)

我们正在推出领域特定能力评分,使用与通用ECI相同的量表,追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下!

代理商现在可以创建 Cloudflare 账户、购买域名并进行部署

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

Cloudflare宣布其代理商合作伙伴现可直接创建Cloudflare账户、购买域名并部署服务。这一功能整合了账户创建、域名注册和项目部署流程,简化了代理商的管理与操作步骤。此举旨在提升合作伙伴的自主性和效率,进一步扩展Cloudflare的生态系统与服务覆盖范围。

03

行业动态

Industry
8

国家队领投DeepSeek估值飙升至450亿美元

X·KOLX:Berry Xia (@berryxia)

DeepSeek估值在数周内从200亿美元跃升至450亿美元,本轮融资由国家大基金领投,腾讯有意跟投,创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司,具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号,向市场传递了国家全力支持国产AI发展的明确信息,预示着行业将进入新的发展阶段。

月之暗面完成20亿美元融资,估值超200亿

X·KOLX:Nathan Lambert (@natolambert)

作者盛赞访问Moonshot AI(月之暗面)的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资,由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元,估值较去年11月增长约4倍,成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元,付费订阅和API使用量均在加速。

Hy3预览版周榜夺魁,周增298%

官方·XX:腾讯混元 (@TencentHunyuan)

发布两周后,Hy3预览版以3.66T处理量在@OpenRouter周榜位列第一,周环比增长298%。 在总使用量、工具调用和编程领域均排名第一。全平台市场占有率达15.4%。🏆 运行Hy3预览版的热门应用:Hermes Agent, Claude Code, Kilo Code, OpenClaw, Cline。@NousResearch @claudeai @kilocodehq @openclaw @cline 衷心感谢所有基于此开发的开发者。🙏 请在OpenRouter上试用:https://openrouter.ai/tencent/hy3-preview:free

PayPal 启动 AI 转型自救,拟裁员两成并精简业务架构

综合资讯IT之家(RSS)

PayPal正启动一场由人工智能驱动的转型自救。公司计划在未来两到三年内裁员约20%(超4500人),并将业务架构精简为三大板块。首席执行官表示,将通过技术现代化、向云原生架构转型及全面推行AI应用来提升竞争力。AI预计将提升开发效率、缩短产品周期,并在未来两到三年内为公司节省至少15亿美元成本。尽管一季度营收增长,但公司股价自2021年高点已下跌超80%,增长陷入停滞。

Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

Google DeepMind与EVE Online合作研究复杂智能系统

X·KOLX:Testing Catalog (@testingcatalog)

Google DeepMind宣布与Fenris Creations建立研究合作伙伴关系,将在独立的EVE Online游戏环境中进行新研究。该合作聚焦于复杂、动态且由玩家驱动的系统中的智能研究。Demis Hassabis强调游戏一直是AI的理想试验场,并盛赞EVE Online是一款非凡的游戏且拥有出色的社区。此次合作旨在利用这一独特环境推进人工智能在复杂系统领域的发展。

ChatGPT未来班2026届学员发布AI应用成果

官方·XX:OpenAI (@OpenAI)

介绍ChatGPT未来班2026届——首批在大学四年全程使用ChatGPT的26位优秀毕业生,他们运用AI实现了以下成果: - 绘制了150万个此前未知的太空天体 - 通过墙壁和废墟探测灾难幸存者 - 使超过1亿张星系图像可检索 - 保护濒危语言 - 建立基础设施,将超过500万磅未售库存从垃圾填埋场转移

04

论文研究

Research
1

从位置认知到功能理解:为多模态大语言模型设立空间功能智能基准

学术机构Apple Machine Learning Research(RSS)

现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。

05

技巧与观点

Tips & Takes
8

Warp团队开源15个内部工作流加速工具“Oz Skills”

X·KOLX:邵猛 (@shao__meng)

Warp团队在开源终端和文档工具后,进一步开源了内部使用的15个“Oz Skills”工作流加速工具集。这些工具覆盖五大领域:Git/GitHub协作(如自动创建PR、修复CI问题)、数据分析与标准化、Web质量审计(性能、无障碍访问、SEO/AEO)、基础设施规范(如Terraform风格检查)以及通用生产力(如文档更新、本地定时提醒)。团队强调其设计哲学是构建“工作流工具”而非简单API覆盖,并提供了便捷安装命令,旨在将提升内部效率的实践分享给开源社区。

这个创造了Claude Code的男人Boris Cherny大神,完整公开了自己的工作流,并直播演示了一半的编码工作在手机上完成🤪

X·KOLX:阿易 AI Notes (@AYi_AInotes)

Boris Cherny公开其高效AI编码工作流,核心基于三点反直觉原则:1. 坚持使用最昂贵、最聪明的模型(如Claude),因其能一次性清晰规划,避免笨模型反复试错消耗更多token;2. 团队仅维护一个纯文本知识库文件,记录Claude的每次错误并每周更新,形成长期记忆;3. 始终让Claude查看自身代码的运行结果(包括执行和渲染)。其工作模式是在手机上并行启动多个Claude实例,基于规划模式制定方案后自动执行修改,从而高效完成任务。

编程模式界限模糊:从“感觉编码”到“代理工程”的融合与隐忧

综合资讯Simon Willison 博客

作者在访谈中反思,曾严格区分的两种AI编程模式——“感觉编码”(不审查代码)与“代理工程”(专业工程师构建高质量系统)——其界限在实践中正迅速模糊。随着Claude等编码代理可靠性提升,作者发现自己即使在生产级项目中也不再逐行审查AI生成的代码,转而将其视为可信的“半黑箱”。这带来了新的责任困境:AI缺乏职业声誉却持续产出正确代码,可能导致“偏差正常化”风险,即每一次成功都可能在不当时刻埋下隐患。同时,AI生成代码的便捷性也使得评估软件质量的传统指标(如提交次数、测试覆盖)不再可靠。

姚老师开源百个商业实用AI提示词合集

X·KOLX:Vista (@vista8)

姚老师将其去年编写的提示词整理并开源,强调这些提示词以实干派风格为主,适用于商业场景,源于实际业务需求。合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等9类场景,特别推荐其中的元提示词(包括简易版和进阶版)。项目已通过GitHub发布,并将持续更新验证过的有价值提示词,方便用户下载和迭代。

OpenAI Codex 官方迁移指南:一键迁移 Agent 资产

X·KOLX:邵猛 (@shao__meng)

OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 `migrate-to-codex` skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。

2026年开源LLM默认架构模板:90%设计已收敛,可直接套用

X·KOLX:Berry Xia (@berryxia)

Stanford CS336课程指出,过去三年主流大语言模型架构高度收敛,约90%组件形成共通模板。核心包括:架构普遍采用pre-norm、RMS Norm、无偏置、SwiGLU/GeGLU激活函数、RoPE位置编码;超参数如FFN维度比例、注意力头配置、模型纵横比等已成惯例。为保障训练稳定,Z-loss、QK norm等技术被广泛使用;GQA成为推理部署标配,局部与全局attention交替是处理长上下文的新趋势。这套模板被视为2026年开源LLM的“默认配置”。

让 AI 检查软件卡顿问题,Qt 推出智能体代码分析技能

综合资讯IT之家(RSS)

Qt集团近日推出一项名为QML分析器的AI智能体开发技能。该技能可将2D Qt Quick应用程序的代码性能分析工作委托给AI智能体,使其能够诊断渲染、逻辑及内存相关问题。当面对界面卡顿或帧率下降等性能投诉时,AI可借助此技能进行分析并生成详细的性能瓶颈报告。目前该技能仅适用于2D Qt Quick应用,已在GitHub Copilot、Claude桌面版及CLI等环境中完成测试,与Claude Sonnet 4.6、GPT 5.4和Gemini 3.1 Pro等主流大模型搭配使用时效果最佳。

开发者整合Canvas库实现Markdown编辑器内多图拼接

X·KOLX:Vista (@vista8)

针对教程写作中拼接多张图片需借助Figma等工具过于笨重的问题,开发者通过与AI讨论,获得使用HTML5 Canvas库的解决方案。现已将该功能整合到Markdown编辑器中,用户可直接在编辑器内完成多图拼接,随后将拼合好的图片插入文章或导出。相关代码已开源至Github项目。

27
今日事件
9
一手报道
2
新模型
20
信源
AI HOT · 编辑系统自动生成