VOL.2026.04.30·30 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年四月三十日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
4

旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化

官方·XX:蚂蚁百灵 (@AntLingAGI)

SGLang团队(隶属于LMSYS Org)揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法,在保持质量的同时,成本可比同类模型降低约4倍,并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计,具备万亿参数能力与即时模型延迟。团队正持续进行优化,以进一步提升性能。

腾讯开源Hy-MT1.5-1.8B-1.25bit翻译模型,440MB体积支持手机离线运行

官方·XX:腾讯混元 (@TencentHunyuan)

腾讯开源了Hy-MT1.5-1.8B-1.25bit翻译模型,其参数量为18亿,经量化后仅440MB,可在手机上完全离线运行。该模型支持33种语言、5种方言及1056个翻译方向,包括藏语、蒙古语等少数语言。在标准测试中,其性能媲美商业翻译API和2350亿参数的大模型。通过量化至1.25比特,模型内存占用从FP16格式的3.3GB大幅降低,比之前的1.67比特方法体积缩小25%、速度提升约10%,且无精度损失。该模型已在国际机器翻译竞赛中获得30项第一,并部署于腾讯多个产品中。

SenseNova U1上线Hugging Face与GitHub

官方·XX:商汤 SenseTime (@SenseTime_AI)

是的,SenseNova U1 现已在 Hugging Face 和 GitHub 上发布! 探索它如何以语义精确性和像素级保真度实现复杂的 #信息图 创作。 Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1 GitHub: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/cxkwXWjp

inclusionAI/Ling-2.6-1T

官方蚂蚁 inclusionAI:HuggingFace 新模型

inclusionAI 发布了 Ling-2.6-1T 模型,这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力,同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展,为研究者和开发者提供了可访问的高性能工具。

02

产品发布/更新

Product
8

使用 Cursor SDK 构建可编程智能体

官方Cursor Blog

Cursor 正式推出 SDK 公开测试版,开发者仅需几行 TypeScript 代码即可构建和部署智能体。该 SDK 提供与 Cursor 应用相同的运行时、框架及前沿模型(如 GPT-5.5)支持,并允许将智能体部署于本地或 Cursor 云的专用虚拟机。借助其生产级云基础设施,如安全沙箱和持久状态管理,智能体正从个人工具演变为组织的可编程基础设施。许多团队已将其集成至 CI/CD 流水线、工作流自动化及核心产品中。

通过 Stripe Projects 命令行创建 OpenRouter 账户

官方OpenRouter:Announcements(RSS)

运行 `stripe projects add openrouter/api` 命令,即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行,实现了账户开通与支付配置的一站式集成。

构建企业级AI智能体:领先企业的转型指南

官方Claude:Blog(网页)

2025年数据显示,美国员工工作AI使用率已从2023年的20%升至40%。真正获得持续竞争优势的企业正将智能体AI深度嵌入工作流程,并将机构知识编码成可累积的系统。本指南以欧莱雅、Lyft和乐天为例,提出企业AI转型三大支柱:跨越“智能体思维鸿沟”、基于实际工作流程培训员工、在压缩信息密集型流程时保留人工判断,以及构建能创造收入的新产品能力。Claude Cowork平台为此提供了无需定制开发的团队级解决方案,并包含六个月的落地框架。

Claude Security 开启公开测试,赋能企业代码安全

官方Claude:Blog(网页)

Claude Security 现已面向所有 Claude Enterprise 客户开放公开测试。该功能基于 Claude Opus 4.7 模型,能够扫描代码库中的漏洞并生成针对性修复方案。公开版本新增了计划扫描与定向扫描功能,更易于与审计系统集成,并改进了问题追踪流程。此外,Opus 4.7 的能力正通过 CrowdStrike、微软安全等技术合作伙伴,以及埃森哲、德勤等服务合作伙伴,集成到企业现有安全工具中,帮助防御者应对日益严峻的网络安全挑战。

响应API引入WebSocket提升代理效率

官方·XX:OpenAI Developers (@OpenAIDevs)

⚙️ 我们通过 Responses API 中的 WebSockets 让代理循环运行得更快 随着 Codex 速度提升,瓶颈从推理转移到了低效的 API 调用 WebSockets 在工具调用之间保持响应状态活跃,帮助工作流程端到端运行速度提升高达 40% https://openai.com/index/speeding-up-agentic-workflows-with-websockets

基于Gemini Embedding 2构建:智能多模态RAG及其他应用

官方Google Developers Blog(RSS)

Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。

Gemini聊天可直接生成多种可下载文件

官方·XX:Gemini (@GeminiApp)

现在您可以在与Gemini的聊天中直接生成多种可下载文件,包括PDF、@GoogleWorkspace文件、Microsoft Word & Excel等。 只需在提示时告诉Gemini要创建的内容和所需文件格式,无需上传模板。

03

行业动态

Industry
5

为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

2026年Q1云巨头资本支出达1120亿美元,谷歌增长领先

大咖博客Tomer Tunguz 博客(VC 分析)

2026年第一季度,三大云服务巨头资本支出合计1120亿美元。谷歌云以63%的同比增长率领跑,远超微软Azure的40%和亚马逊AWS的28%。谷歌增长主要受企业AI解决方案驱动,云服务积压订单环比翻倍至超4600亿美元。客户通过API每分钟处理160亿个令牌,同比增长60%。为满足需求,谷歌将2026年资本支出指引上调至1800-1900亿美元,超过微软的约1200亿美元。谷歌凭借全栈自研的Gemini模型和TPU芯片,在增长速度和结构优势上表现突出。

SiliconFlow成第三方模型日用量榜首

官方·XX:硅基流动 SiliconFlow (@SiliconFlowAI)

👀 🚀 🙌 [引用 @SiliconFlowAI]:开发者们正在用他们的 token 投票 🔥 SiliconFlow 现已成为日 token 使用量排名第一的第三方模型提供商 在 @OpenRouter 上, • 每日约 280B token • 每月约 1.9T token • 33 个前沿模型:DeepSeek V4 系列、GLM 5.1、Kimi K2.6 等 衷心感谢每一位与我们共同构建的开发者 更多精彩即将到来🚀

小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

官方·XX:小米 MiMo (@XiaomiMiMo)

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。

04

论文研究

Research
5

用户如何向Claude寻求个人生活指导及其模型优化

官方Anthropic:Research(发表成果 · 网页)

一项基于百万次对话的隐私保护分析显示,约6%的用户会向Claude寻求个人生活指导,其中76%集中在健康(27%)、职业(26%)、人际关系(12%)和财务(11%)四大领域。研究重点关注了模型回应中的“谄媚行为”(过度认同用户),发现总体发生率为9%,但在人际关系对话中飙升至25%。为应对此问题,Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后,Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半,且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互,更好地保护用户福祉。

基于RoundPipe在消费级多GPU上实现高效训练

综合资讯HuggingFace Daily Papers(社区热门论文)

针对消费级GPU服务器内存有限和PCIe互联慢的问题,研究团队提出了RoundPipe流水线调度方案。该方法通过将GPU视为无状态工作节点,以轮询方式动态分配计算阶段,打破了权重绑定限制,实现了接近零气泡的流水线。系统集成了优先级感知传输调度、细粒度事件同步协议与自动分层划分算法。在8块RTX 4090的服务器上测试表明,其对1.7B至32B模型的微调速度比现有最优基线快1.48至2.16倍,并能单机完成Qwen3-235B模型(31K序列长度)的LoRA微调。该工具已作为开源Python库发布。

语言模型内省适配器自述训练行为

官方·XX:Anthropic (@AnthropicAI)

在新的Anthropic Fellows研究中,我们探讨了“内省适配器”:这种工具能让语言模型自我报告在训练过程中习得的行为——包括潜在的错位。 [引用 @kshenoy_]:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考

学术机构Apple Machine Learning Research(RSS)

研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。

DSO: 用于缓解偏见的直接引导优化

学术机构Apple Machine Learning Research(RSS)

研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

05

技巧与观点

Tips & Takes
8

Moxt 实测:为AI构建原生工作空间,打造高效组织协作者

X·KOLX:歸藏 (@op7418)

Moxt的核心是为AI构建了一个原生工作空间,通过将Word、PDF等文档自动转换为Markdown等AI原生格式,并利用文件系统作为结构化“图书馆”,解决了信息“散”与“脏”的痛点。用户拥有由AGENTS.md定义的个人AI助手,并能创建高度个性化的“AI同事”。它强调信息质量,内置“熵减官”角色清理过时内容。AI不仅能组合Skills完成复杂任务流,还支持定时任务与Webhook实现自动化。其输出超越文字,可生成可交互的数据看板与完整PPT,使AI成为组织内的高效协作者。

Codex超级应用七项核心能力详解

X·KOLX:Greg Brockman (@gdb)

一个很棒的Codex教程: 这些是7种知识工作能力... 在超级应用Codex内部 00:00 介绍 02:19 能力1 - 完整文件访问 07:41 能力2 - 持久记忆 10:46 能力3 - 插件 13:52 能力4 - 技能 19:22 能力5 - GPT图像访问 21:03 能力6 - 浏览器与计算机使用 23:58 能力7 - 自动化 25:31 额外功能 - 编年史 27:21 总结

AI初创公司的独立生存之道:差异化、专注与速度

X·KOLX:洪明 (@hongming731)

针对AI初创公司是否必须被大模型实验室收购的讨论,Cognition公司的经验表明,同行被收购反而会强化剩余独立公司的地位。独立公司在软件工程等动态领域拥有明确市场,客户重视模型灵活性。其成功关键在于三大法则:一是建立清晰差异化,如专注企业市场、加速全开发周期、解决复杂部署难题并保持模型独立;二是极致专注,在特定领域深挖边缘复杂性问题,做到实验室无法比拟;三是保持速度优势,利用小团队决策快、工具链高效和工程文化,通过快速迭代建立竞争壁垒。

AI迷雾:预见能力崩溃与短期化未来

X·KOLX:Rohan Paul (@rohanpaul_ai)

《哈佛商业评论》文章指出,AI的首要经济影响并非自动化,而是制造了巨大的不确定性“迷雾”,导致“预见能力的崩溃”。这动摇了现代资本主义依赖未来“可读性”的根基,使得个人对教育投资、企业对长期雇佣与资本开支、金融市场对终值的评估均陷入犹豫。其结果是行为模式迅速转向短期视野:更倾向于模块化、可调整的投入,而非长期、不可逆的重大承诺。

闪速QLA:基于TileLang构建的高性能线性注意力内核

官方·XX:通义千问 / Qwen (@Alibaba_Qwen)

FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

Claude Code 构建经验:提示缓存的优化实践

官方Claude:Blog(网页)

Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。

AI评估正成为新的算力瓶颈

官方Hugging Face:Blog(RSS)

AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。

30
今日事件
25
一手报道
4
新模型
25
信源
AI HOT · 编辑系统自动生成