VOL.2026.05.15·29 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月十五日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
4

SenseNova U1技术报告发布,基于MoE架构开放模型权重

官方·XX:商汤 SenseTime (@SenseTime_AI)

由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Granite Embedding Multilingual R2:开源多语言嵌入模型,具备32K上下文与领先检索性能

官方Hugging Face:Blog(RSS)

IBM Granite团队在Hugging Face发布了Granite Embedding Multilingual R2多语言文本嵌入模型。该模型采用Apache 2.0开源协议,上下文长度扩展至32K令牌,参数量低于1亿。在MTEB基准的检索评估中,它取得了同规模模型的最佳性能,尤其擅长多语言混合检索,为开发者提供了高效、轻量且可商用的嵌入解决方案。

inclusionAI/Ring-2.6-1T

官方蚂蚁 inclusionAI:HuggingFace 新模型

inclusionAI发布了Ring-2.6-1T模型。该模型在Claw-Eval基准测试中取得了两项关键评估结果:在通用能力评估(General)上得分为58.4,在多轮对话评估(Multi Turn)上得分为86.8。这些分数已记录在相应的评估结果排行榜中。

Kimi K2.6登顶金融智能体基准榜首

官方·XX:Kimi.ai (@Kimi_Moonshot)

Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。 [引用 @ValsAI]:AI 能胜任金融分析师的工作吗?

02

产品发布/更新

Product
8

Kimi推出网页桥接扩展 支持多平台交互

官方·XX:Kimi.ai (@Kimi_Moonshot)

认识Kimi网页桥接——Kimi的浏览器扩展。 现在智能体可以像人类一样与网站互动:搜索、滚动、点击、输入并完成任务。 支持Kimi Code CLI、Claude Code、Cursor、Codex、Hermes等平台。 现已在http://kimi.com/features/webbridge和Chrome应用商店上线。

随时随地使用 Codex

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

用户现可通过 ChatGPT 移动应用随时随地使用 Codex。该功能支持跨设备和远程环境实时监控、引导及批准编码任务,实现了对编程工作的无缝移动端管理。

Codex推出自动化钩子与程序化令牌

官方·XX:OpenAI Developers (@OpenAIDevs)

Codex正变得更易于围绕用户代码实现自动化与定制。其核心更新包括“钩子”功能,允许在任务关键节点运行脚本,以进行工作验证、扫描密钥、记录对话或按仓库定制行为。同时,面向商业和企业团队推出“程序化访问令牌”,提供范围化凭证,可从ChatGPT工作区设置创建,用于CI/CD、发布流程和内部自动化,支持设置过期或撤销,并将使用情况关联回工作区。

Luma Agents高效生成电商素材全流程

官方·XX:Luma AI (@LumaLabsAI)

更多产品。更多市场。更多格式。再无瓶颈。 定义需求。设定风格。Luma Agents 从此处理所有电商活动素材。 立即扩展 → http://lumalabs.ai/app

xAI 推出 Grok Build 早期测试版

官方xAI:News(网页)

xAI 面向 SuperGrok Heavy 订阅用户推出 Grok Build 早期测试版。这是一个直接在终端运行的新型编程智能体与命令行工具,专为专业软件工程和复杂任务设计。其核心功能包括:支持“计划模式”,允许用户在代码执行前审阅和修改详细步骤;能无缝集成现有开发工具链;可将大型任务分解,交由并行运行的专用子智能体处理。此外,该工具提供无头模式,便于脚本和自动化流程集成。用户可通过单行命令安装并立即在项目中使用。

开源工具html-anything助力Agent生成高质量HTML

X·KOLX:小互 (@xiaohu)

用户分享了对开源项目html-anything的积极体验。该项目旨在让AI Agent能将任何数据转换为具有世界级设计水准的HTML代码。该项目历时三天开发,包含约一万五千行代码,支持75套Skills和9种导出格式,并能兼容包括Claude Code、Codex、OpenClaw、Hermes在内的多种代码生成Agent。

03

行业动态

Industry
7

Anthropic与盖茨基金会达成2亿美元合作,聚焦全球健康与教育

官方Anthropic:Newsroom(网页)

Anthropic与盖茨基金会建立为期四年、总额2亿美元的合作,通过资金、Claude使用额度及技术支持,共同推进全球健康、生命科学、教育及经济流动项目。合作重点包括改善中低收入国家约46亿人口的基本医疗,利用AI加速疫苗与疗法研发,并开发公共卫生数据集等公共产品。在教育领域,双方将为美国、撒哈拉以南非洲和印度的K-12学生开发AI教学工具。经济流动方面则关注提升小农户生产力及美国职业技能认证。首批成果预计今年晚些时候发布。

OpenEvidence覆盖65%美国医生,shadow AI模式引关注

X·KOLX:小北 (@frxiaobei)

OpenEvidence已覆盖65%的美国医生,4月单月临床场景使用达2700万次,平均每位医生每月使用41次。平台由医生个人通过执业编号在手机上注册,医院最初不知情,Mount Sinai的AI负责人称此为shadow AI,表示其早在基层普及。医院后来才追签企业合作,OpenEvidence强调这是美国医疗史上首次让大多数医生自愿采用单一技术平台的突破。合作伙伴包括NEJM、JAMA、NCCN和Wiley,为此提供了支持。

OpenAI遭集体诉讼,被指通过追踪代码向Meta等泄露用户查询隐私

X·KOLX:阿易 AI Notes (@AYi_AInotes)

南加州联邦法院已受理针对OpenAI的集体诉讼,指控其在ChatGPT网站中嵌入Facebook Pixel等代码,侵犯用户隐私。当用户提交查询时,查询主题会作为浏览器标题与含Facebook唯一ID的cookies一并实时发送给Meta。OpenAI虽称仅分享“有限标识符”用于广告,但原告认为查询主题本身即高度敏感的个人信息。此案揭示免费AI服务的潜在代价:用户每一次查询及数字身份可能成为被交易的产品,与许多用户为逃避追踪而选择ChatGPT的初衷形成讽刺对比。

百度推进智能体布局,以日活为关键指标

官方·XX:百度 Baidu (@Baidu_Inc)

百度推进智能体组合以拥抱智能体时代,主张将日活跃智能体作为关键指标 https://www.prnewswire.com/news-releases/baidu-advances-agent-portfolio-to-embrace-the-agent-era-champions-daily-active-agents-as-key-metric-302771383.html

AI 热潮引发民怨:七成美国民众反对家门口建数据中心

综合资讯IT之家(RSS)

盖洛普调查显示,高达七成美国民众反对在住宅附近建设数据中心,反对率较去年大幅上升,抵触情绪甚至超过对核电站的接受度。全美已有69个辖区出台暂停令,多地项目因抗议和监管纠纷延期。数据中心建设推高批发电价,导致用电成本激增,并引发空气污染、水资源消耗等担忧。尽管白宫要求AI企业承担配套成本,但仅为无约束力承诺,未来审批将更严苛。

MiMo V2.5 Pro 获设计竞技场季军

官方·XX:小米 MiMo (@XiaomiMiMo)

MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

Runway进军日本市场,投资4000万美元开设东京办公室

官方·XX:Runway (@runwayml)

Runway宣布扩张至日本,在东京设立办公室并初始投资4000万美元。日本已成为Runway最大且增长最快的市场之一,过去12个月企业客户基础增长三倍,跃升为全球第三大市场。Yamaha、NHN和SoftBank等公司正采用Runway于营销、广告和创意内容领域。此次扩张使Runway更接近日本在游戏、媒体和机器人行业的领先企业,以进一步拓展业务。

04

论文研究

Research
2

NousResearch推出Token Superposition Training技术,显著加速大语言模型预训练

官方·XX:硅基流动 SiliconFlow (@SiliconFlowAI)

NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

教视觉-语言模型说“电影语言”

学术机构CMU:Machine Learning Blog

研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

05

技巧与观点

Tips & Takes
8

微信群聊总结Skill新增,依赖wx-cli配置

X·KOLX:宝玉 (@dotey)

baoyu-skills 新加了一个 Skill: 微信群聊总结 Skill:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 wx-cli:https://github.com/jackwener/wx-cli 如何配置使用 wx-cli 请看项目文档,无法提供帮助。另外目前只是借助其读取数据,其他没任何关系。 Claude Code + Claude Opus 4.6 效果最佳

UnslothAI发布Qwen3.6 MTP GGUF模型,实现推理速度大幅提升

X·KOLX:Berry Xia (@berryxia)

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。

克劳德代码与《代码书》技能:有针对性的技能培养

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

开发者发布了一款名为“克劳德代码与《代码书》技能”的GitHub工具,旨在通过刻意练习提升编程技能。该工具利用AI模型生成特定主题的代码示例与解释,帮助用户进行针对性学习。项目在Hacker News上获得104点热度,关注度较高。其核心变化在于将传统的广泛学习转化为聚焦、可重复的技能训练模式,通过结构化练习提升学习效率。

创始人手册:构建AI原生初创公司

官方Claude:Blog(网页)

Anthropic公司发布了一份面向AI原生初创企业的实用指南,旨在重塑2026年创业生命周期的构思、最小可行产品、发布和规模化四个核心阶段。该手册为每个阶段提供了具体目标、退出标准、常见失败模式及AI驱动练习,涵盖如何利用Claude进行问题验证与客户发现、避免AI生成代码的技术债务、区分真实产品市场契合度与早期炒作,并引入智能工作流替代创始人手动操作。指南还整合了多家初创企业的实践案例,为从零开始围绕AI构建公司的创始人提供架构、范围与安全方面的最佳实践。

“让 Token 消耗降低 61%”:腾讯开源 Agent Memory

综合资讯IT之家(RSS)

腾讯云开源了TencentDB Agent Memory,旨在解决Agent长任务中上下文窗口易满、Token成本高的问题。该方案采用“上下文卸载”与“Mermaid任务画布”两项核心技术,将完整信息卸载至外部存储,同时用结构化任务图保留关键状态与执行路径。实验显示,该方案在多任务连续会话中最高可降低61%的Token消耗,并提升任务成功率。项目已适配OpenClaw等主流框架,支持一键集成与本地SQLite存储。

在大型代码库中高效运用Claude Code:最佳实践与入门指南

官方Claude:Blog(网页)

Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。

开源项目OpenSquilla:智能路由与本地检索,大幅降低LLM使用成本

X·KOLX:Vista (@vista8)

开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题,提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度,将简单问题路由至廉价模型,复杂任务则分配给更强模型,且路由决策在本地完成,不消耗Token。通过增量发送与缓存命中机制,实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息,支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能,显著提升了使用效率与经济性。

Moonshot AI创始人杨植麟最近放出了一个40分钟视频

X·KOLX:Berry Xia (@berryxia)

杨植麟在视频中拆解Kimi K2模型的训练,仅花费460万美元便在编程大战中击败GPT-5.5等对手。其通过极致优化、线性注意力等架构创新,抹平资源差距,标志AI竞赛规则改变,小团队以聪明设计颠覆大厂传统玩法。

29
今日事件
18
一手报道
4
新模型
25
信源
AI HOT · 编辑系统自动生成