VOL.2026.05.01·33 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月一日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
5

AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台

官方·XX:蚂蚁百灵 (@AntLingAGI)

AntLingAGI团队宣布Ling-2.6-1T模型正式开源,已登陆Hugging Face平台,并通过Novita Labs提供官方推理体验。该模型采用混合专家架构,总参数1万亿、激活参数630亿,核心优化方向为“令牌效率”以满足真实生产需求。具体表现为:低令牌开销,能在无需冗长推理链的情况下保持强大智能;可靠的多步执行能力,提升指令、工具、上下文和工作流的控制水平;生产就绪的部署特性,覆盖从代码生成到错误修复的任务,并广泛兼容各类智能体框架。团队旨在通过降低测试、部署、定制和构建的难度,为开发者创造价值。

DeepSeek 公布多模态模型技术报告

综合资讯IT之家(RSS)

DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。

Grok-4.3上线OpenRouter 性价比提升显著

官方·XX:OpenRouter (@OpenRouter)

@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线! Grok-4.3 以比 Grok-4.2 更低的价格发布,同时在代理性能上实现大幅跃升:在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500,尽管价格更低,但仍超越了其他顶级模型。

ERNIE 5.1 Preview发布,架构更轻性能更强

官方·XX:百度 Baidu (@Baidu_Inc)

百度ERNIE 5.1 Preview模型正式上线。该模型采用更轻量高效的架构,在总参数量压缩至前代约1/3、激活参数量约1/2的同时,仅消耗可比模型约6%的预训练成本,实现了在其规模下的领先基础性能。根据@arena的Text Arena榜单,ERNIE 5.1 Preview在全球总排名第13位,并位列中国实验室第一。其在多个细分领域进入全球前十,特别是在法律与政府领域排名第一。百度预告将在2026年的Baidu Create大会上发布更多ERNIE模型更新。

02

产品发布/更新

Product
8

Replit十周年庆 免费开放Agent功能

官方·XX:Replit (@Replit)

Replit 即将迎来十周年,我们正让 Agent 免费开放 准备好享受构建的乐趣吧! 想要奖品?参加我们与 Anthropic 联合举办的构建马拉松 奖品由 Replit 和 RevenueCat 赞助

Codex简化日常办公流程

官方·XX:OpenAI (@OpenAI)

使用Codex处理日常工作从未如此简单。 选择你的角色,连接你每天使用的应用,并尝试建议提示。 Codex能在研究规划、文档、幻灯片、电子表格等方方面面提供帮助。

阿里云发布HappyHorse,实现秒级AI视频生成

官方·XX:阿里云 / Alibaba Cloud (@alibaba_cloud)

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能:可生成影院级1080p高清画质;原生实现精准的音画同步,确保口型与声音对齐;在复杂场景和镜头切换中保持多镜头角色一致性;支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

Agents 现可创建 Cloudflare 账户、购买域名并部署

官方Cloudflare Blog

Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名,并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限,但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。

V8.1画质升级并扩展发布渠道

官方·XX:Midjourney (@midjourney)

两个快速公告——我们推送了一项更新,提升了V8.1的图像质量和清晰度,特别是在SREFs、情绪板和HD图像方面,但整体效果您也应该能注意到!其次,V8.1现已在我们主网站和Discord上可用。尽情享受吧!

Wan2.7-Image实现精准色彩控制

官方·XX:阿里云 / Alibaba Cloud (@alibaba_cloud)

你知道吗?Wan2.7‑Image 也有自己的“调色板”功能?😉 只需输入参考图像、精确色码,甚至插入自己的调色板,该模型就能确保色码匹配以保持品牌一致性,并克服长期困扰 AI 图像的色彩还原不一致问题 🎨 观看视频,立即完美掌控你的色彩! #AlibabaAI #Wan #Innovation

自定义语音与语音库

官方xAI:News(网页)

xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。

Response Caching:相同请求零成本

官方OpenRouter:Announcements(RSS)

新推出的 Response Caching 头部实现了 API 请求的缓存机制,完全相同的请求可获得缓存响应,响应时间大幅缩短至微乎其微的水平,且不会产生额外成本。该功能通过自动识别并复用已生成的响应,显著提升了重复请求的处理效率。

03

行业动态

Industry
5

Meta首次日活用户下降,资本支出激增致股价大跌

X·KOLX:Kim (@kimmonismus)

2026年第一季度,Meta全球日活跃用户首次下降,“应用家族”日活减少2000万。公司归因于伊朗网络中断和俄罗斯禁用WhatsApp,但合并数据掩盖了具体应用流失。同时,Meta将2026年资本支出指引上调至1250-1450亿美元,主要用于应对内存芯片涨价和加码AI基础设施投资,日均投入约4亿美元。尽管营收增长33%至563亿美元、净利跃升61%,公司仍计划裁员8000人以“抵消”AI投资成本,Reality Labs部门亏损40亿美元。华尔街对其支出轨迹不满,股价盘后大跌超7%。

Alphabet市值单日暴增4200亿美元,逼近英伟达

X·KOLX:Rohan Paul (@rohanpaul_ai)

Alphabet股价大涨约9%,市值单日增加约4200亿美元,创下历史最大单日涨幅纪录。其市值目前仅比全球市值最高的上市公司Nvidia低约6%。这一强劲表现的核心驱动力来自Google Cloud,其营收实现了63%的增长,增速超过了近期AWS和Azure的表现。增长主要得益于企业客户广泛采用基于Gemini模型和定制TPU构建的AI解决方案。

英国政府警告:AI网络攻击能力加速远超预期

X·KOLX:AI Safety Memes (@AISafetyMemes)

英国政府向商界领袖发出紧急警告,指出AI网络能力正以前所未有的速度加速发展。英国人工智能安全研究所(AISI)的评估显示,前沿模型的能力翻倍周期已从原先的八个月缩短至四个月。这一结论基于对Anthropic的Mythos等先进模型的测试,表明AI网络威胁的演变速度远超先前预估。政府强调,拥有先进国家AI评估能力的官方机构确认此趋势,证明相关风险并非夸大,各界需高度重视这一急速变化的威胁态势。

Softbank 计划将估值高达1000亿美元的新AI与机器人公司Roze上市

综合资讯The Decoder:AI News(RSS)

软银集团计划在美国启动并推动其新成立的人工智能与机器人公司Roze进行首次公开募股。据《金融时报》报道,这家新公司的估值可能高达1000亿美元。此举标志着软银在AI和机器人领域的重大战略布局,旨在将相关业务整合并独立上市以获取市场资源与更高估值。

国际声学、语音与信号处理会议 (ICASSP) 2026

学术机构Apple Machine Learning Research(RSS)

苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。

04

论文研究

Research
7

微软研究揭示AI助手在长文档编辑中普遍损坏内容

X·KOLX:Rohan Paul (@rohanpaul_ai)

微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

DeepSeek团队提出“视觉基元思维”新范式,解决多模态模型空间推理指代鸿沟

官方DeepSeek:GitHub 新仓库

DeepSeek团队发布了一种新型多模态大语言模型范式,通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹,有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构,能将每4个视觉令牌的KV缓存压缩为单个条目,显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中,其性能媲美GPT-5.4等前沿模型,而模型规模更紧凑且图像令牌预算更低。技术报告已公开,内部基准测试和部分数据将于近期发布,模型权重未来将整合至基础模型后开放。

微软研究揭示AI智能体交互网络风险

官方·XX:Microsoft Research (@MSFTResearch)

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题,以及为什么网络层面的风险需要新的方法。了解更多:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

百万对话揭示用户如何向Claude寻求指导

官方·XX:Anthropic (@AnthropicAI)

人们如何向Claude寻求指导? 我们分析了100万次对话,以了解人们提出什么问题、Claude如何回应,以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance

STARFlow-V:基于标准化流的端到端视频生成建模

学术机构Apple Machine Learning Research(RSS)

研究团队提出了基于标准化流的视频生成模型STARFlow-V,旨在应对视频生成领域长期由扩散模型主导的局面。该模型具备端到端学习、鲁棒的因果预测和原生似然估计等优势,能够直接处理连续数据并建模复杂的时空动态。这一工作标志着标准化流在图像生成取得进展后,首次被系统性地扩展至计算成本更高、时空结构更复杂的视频生成任务中,为生成式模型的设计提供了新的技术路径。

利用 Sign Language Models 自举标注手语注释

学术机构Apple Machine Learning Research(RSS)

研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。

以AI联合临床医生开启医疗保健新模式

官方Google DeepMind:Blog(RSS)

研究团队正致力于开发一款AI联合临床医生,以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式,让AI作为临床医生的协同伙伴深度参与诊疗过程,共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段,迈向AI作为核心协作者的新范式。

05

技巧与观点

Tips & Takes
8

Qwen-Scope开源套件发布:稀疏自编码器助力模型内部特征操控

官方·XX:通义千问 / Qwen (@Alibaba_Qwen)

Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。

DeepSeek-V4 API推理内容字段缺失导致报错问题

X·KOLX:karminski (@karminski3)

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于,当任务步骤的`tool_call`过于简单直接时,DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待…

零基础项目经理借助Claude Code,六周内独立开发并上线压力管理应用

官方Claude:Blog(网页)

毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。

GPT Image 2“笨拙涂鸦”提示词爆红网络

官方·XX:ChatGPT (@ChatGPTapp)

一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是:以最笨拙、潦草且极其糟糕的方式重绘所附图像,背景为白色,使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非,带有低质量像素感和令人困惑的别扭感,以突出其荒诞的“差劲”。推文引用者指出,这条提示词正引发疯狂传播。

GitHub Copilot CLI 入门指南:交互模式与非交互模式

官方GitHub Blog

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。

持续优化智能体工具链:上下文演进与效果评估

官方Cursor Blog

Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。

通过全球合作与开放资源催化科学影响力

官方Google Research:Blog(网页)

Google Research强调通过开源软件和开放数据集推动现代科学发展,秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理,专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系,构建协作生态系统,旨在加速全球科学进步与创新。

史上最大的资本错配?

大咖博客Gary Marcus:The Road to AI We Can Trust(RSS)

随着全球科技巨头与初创企业持续将海量资金投入生成式人工智能和大语言模型的研发竞赛,业界开始出现对资本配置效率的深刻担忧。巨额投资集中于少数头部模型如GPT、Claude和LLaMA的迭代,而基础设施、能源消耗及实际商业应用场景的落地速度引发质疑。部分分析师指出,超过千亿美元的资金涌入可能催生技术泡沫,并挤压其他关键科技领域的创新资源。这种集中趋势正促使投资者重新评估风险与回报的平衡。

33
今日事件
26
一手报道
5
新模型
28
信源
AI HOT · 编辑系统自动生成