5月6日
02:43
Google AI Developers@googleaidevs
精选68
Gemini API 文件搜索工具推出三项新更新,助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。

GoogleMCP/工具检索增强产品更新

推荐理由:如果你在用 Gemini 搭 RAG 系统,这三项更新能直接改善搜索精度和可解释性,多模态搜索终于把图片和文档打通了,值得马上试试。
02:28
The Decoder:AI News(RSS)
59
美国政府现可提前获取五大实验室AI模型以进行国家安全测试

美国商务部正扩大其人工智能安全测试范围。继Anthropic和OpenAI之后,Google DeepMind、微软以及xAI也已与美国人工智能标准与创新中心签署协议。这些公司将在网络安全风险加剧、与中国的技术竞争日趋激烈的背景下,提供降低了安全护栏的模型版本,供政府在机密环境中进行测试。目前,美国政府对五家主要人工智能实验室的模型均拥有了发布前的访问权限。

AnthropicOpenAI安全/对齐政策/监管
02:11
Rohan Paul@rohanpaul_ai
精选73
Luma发布Uni-1.1 API,主打意图优先图像生成

Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型,其核心特点是“意图优先”的图像生成。模型在生成前会进行思考,能补全场景缺失部分,理解空间上下文而非仅像素,并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能,专为生产环境打造。据称,其成本和延迟仅为同类模型的一半以下,且在图像生成与编辑的综合评测中位列前三。

产品更新图像生成多模态
关联讨论 1X:Luma AI (@LumaLabsAI)
推荐理由:Luma 把「意图优先」的图像生成从研究变成了 API,先推理再出图,还不到同类一半价格。做创意工具或广告管线的团队可以立刻接进去试试。
02:05
OpenAI Developers@OpenAIDevs
精选73
更新后的 Agents SDK 现已提供 TypeScript 版本,支持沙盒代理并内置开源测试框架。 【引用 @OpenAIDevs】:构建可长期运行的代理,获得更多对代理执行的控制权。 Agents SDK 的新功能: • 在受控沙盒中运行代理 • 检查并自定义开源测试框架 • 控制记忆创建时机及存储位置
智能体OpenAI产品更新开源生态
关联讨论 1X:Berry Xia (@berryxia)
推荐理由:OpenAI 把 Agents SDK 带到了 TypeScript,而且直接上了沙箱和开源 harness,做 Node.js 代理的可以扔掉自研的调度层了。
02:04
The Decoder:AI News(RSS)
精选72
ChatGPT 更新推出 GPT-5.5 Instant 模型,幻觉减少且答案更个性化

OpenAI 将 ChatGPT 的默认模型更新为 GPT-5.5 Instant。内部测试显示,该模型在医学和法律等高风险主题上产生的幻觉声称减少了 52.5%。新功能“记忆来源”允许用户查看影响特定回答的存储上下文。该模型正立即向所有用户推出,但基于过去聊天记录、文件和 Gmail 的个性化功能将首先在网页版上向 Plus 和 Pro 用户开放。此次更新旨在提升回答的准确性和个性化体验。

OpenAI产品更新安全/对齐
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:GPT-5.5 Instant换到默认模型,减少一半幻觉是个硬指标进步,记忆源让用户知道ChatGPT为什么这样回答,透明度这块终于追上了。
02:02
TestingCatalog News 🗞@testingcatalog
精选77
OPENAI 🚨: GPT-5.5 Instant 正在向所有 ChatGPT 用户推出!"gpt-5.5-chat-latest" 也将进入 API。 > 更加简洁。更好的记忆。更个性化。 即时测试时间 👀
OpenAI模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:GPT-5.5 Instant这版从语气到长度都在优化,免费用户终于能摸到GPT-5.5的门槛了,实际体验可能会比参数更重要。
01:54
Gary Marcus:The Road to AI We Can Trust(RSS)
46
研究揭示:主流AI自主智能体表现堪忧

近期一项对GPT-4、Claude 3等主流AI自主智能体的系统评估显示,其在复杂任务中的成功率普遍低于30%。测试覆盖超500个场景,发现智能体常陷入循环或操作错误,关键问题包括任务分解失效、上下文理解偏差及指令遵循不稳定。研究表明,当前技术在需要多步骤推理的实际应用中仍存在显著缺陷。

智能体大佬观点
01:51
01:46
宝玉@dotey
精选77
OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant,替换原有的 GPT-5.3 Instant,并向所有用户推送。新模型显著减少了事实幻觉,在医疗、法律等高风险领域的错误率大幅降低,并在多项基准测试中性能提升。回答风格更为简洁,减少冗余内容。同时增强了记忆功能,能主动利用用户历史聊天记录等数据提供个性化回答,并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型,付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

OpenAI产品更新推理
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:默认模型直接换到 GPT-5.5 Instant,幻觉砍半、回答更简洁,还开始主动用你的聊天记录,日常对话的体验会有明显提升,值得看看具体变了什么。
01:38
Anthropic@AnthropicAI
精选70
当AI承担人类无法完全核查的任务时,具备高能力的模型可能策略性隐藏实力且难以被察觉。Anthropic与MATS、Redwood的研究团队发现,即使仅使用较弱的模型作为监督者,也能成功训练一个接近完全能力的模型,使其停止这种"装傻"行为。该研究表明,通过弱监督训练可以有效抑制强模型的策略性能力保留问题。
Anthropic安全/对齐论文/研究

推荐理由:Anthropic 这篇论文把「模型故意隐藏能力」这个藏在阴影里的安全隐患摆到台面上,而且证明了弱模型也能监督强模型,做对齐的人值得细读,方向很重要。
01:35
宝玉@dotey
精选75
Google为Gemma 4发布MTP草稿模型,推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。

Google开源生态推理模型发布
关联讨论 3X:Testing Catalog (@testingcatalog)X:Berry Xia (@berryxia)X:karminski (@karminski3)
推荐理由:Gemma 4 的 MTP drafter 不是噱头,在 Apple Silicon 上实测能翻倍,且完全无损,本地跑开源模型的可以直接上,权重和框架都备好了。
01:33
Sam Altman@sama
69
5.5 instant 今日登陆 ChatGPT! 在我看来这是一个相当大的升级,我真的很喜欢使用它。 【引用 @ericmitchellai】:Excited that we're updating the default model in ChatGPT today! 5.5 instant 在智能、图像感知和事实准确性方面都有显著提升。 它还更新了写作风格,使其更平实、更直接。 你的愿望清单上有什么?
OpenAI多模态模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
01:21
Rohan Paul@rohanpaul_ai
精选70
Anthropic发布10款金融智能体模板,将Claude转化为标准化工作流

Anthropic发布了10款面向金融服务的Claude智能体模板,使其从聊天助手转变为可执行募资书制作、KYC审查、月度结算、估值分析等标准化任务的工作流。其核心是通过预置“技能”规范操作,利用“连接器”安全访问数据,并通过“子智能体”拆分任务步骤。该功能支持在Microsoft 365应用间保持上下文连贯,无需重复输入。同时提供具备权限控制与审计日志的托管代理模式。据称,Claude Opus 4.7在Vals AI金融智能体基准测试中以64.37%领先。模板可安装于Cowork和Claude Code,或部署为生产级托管代理。

智能体Anthropic产品更新
关联讨论 4X:Testing Catalog (@testingcatalog)X:Claude (@claudeai)Anthropic:Newsroom(网页)Claude:Blog(网页)
推荐理由:金融从业者能直接把Claude当成一个能跑pitchbook和月底结账的同事了,不再是聊天助手。Anthropic给的性能基准也说明他们这次认真在解决金融合规和工具链的实际问题,值得关注
01:16
Satya Nadella@satyanadella
精选82
Copilot Cowork 新增功能:移动端、技能与插件。 现已在 iOS 和 Android 平台推出,您可通过手机委派工作,在桌面端继续处理,保持任务流畅推进。 借助全新连接器,Cowork 可跨业务系统与数据运作。
智能体Microsoft产品更新

推荐理由:Copilot Cowork 把委托工作从桌面延伸到了手机,加上 skills 和插件,办公自动化终于能随时丢任务随时捡起来,这是微软把 agent 落地的关键一步。
01:14
The Decoder:AI News(RSS)
57
OpenAI的首款硬件产品可能是一款用智能体任务流取代应用网格的手机

OpenAI据传正计划推出自有AI智能手机,将采用联发科和高通的芯片,并由立讯精密负责制造。分析师郭明錤预测,该手机最早可能在2027年上半年开始量产,头两年出货量最高可达3000万台。这款手机的核心设计理念是用基于AI智能体的任务流界面,取代传统的应用图标网格。这一相对保守的形态选择也表明,目前更实验性的AI硬件尚未准备好进入主流市场。

OpenAI端侧行业动态
01:11
Eric@ericmitchellai
精选82
OpenAI宣布将ChatGPT的默认模型更新为GPT-5.5 Instant。新版模型在智能水平、图像理解能力和事实准确性方面均有显著提升。其回应风格变得更简洁、直接和自然,同时提供更个性化和清晰的答案。此次升级基于用户反馈,旨在提供更优质的对话体验。
OpenAI模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:ChatGPT 默认模型这次升级把智能、图片感知和事实性都拉高了一截,更简洁的写作风格可能终于解决了啰嗦的老毛病,所有用户开机就能感受到变化,值得第一时间试。
01:07
01:06
Chubby♨️@kimmonismus
精选83
OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型,实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。

OpenAI多模态推理模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:ChatGPT默认模型直接换到GPT-5.5 Instant,个性化能力是代际跃迁,明天打开就能感受到不同。
01:04
01:03
Chubby♨️@kimmonismus
精选82
Coinbase宣布裁员约14%,CEO Brian Armstrong指出裁员源于市场周期与AI变革的双重压力。公司需在加密市场低迷期调整成本,同时拥抱AI提升效率:AI已让工程师几天完成以前数周工作,非技术团队也能编码。为此,Coinbase将转型为"AI原生"组织,压缩管理层至最多5级,取消纯管理岗位,组建小型高协同团队,并尝试"一人团队"模式。此次重组旨在构建更精简、敏捷的AI核心运营模式。
现象/趋势行业动态
关联讨论 2X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)
推荐理由:Coinbase裁员14%,CEO把AI列为关键原因。这封邮件不是例行通知,它把组织扁平化、砍掉纯管理岗、实验一人团队这些动作讲得很具体,是AI如何倒逼大公司重构的真实案例。
01:02
ChatGPT@ChatGPTapp
精选83
GPT-5.5 Instant 开始向所有 ChatGPT 用户推出。 更简洁。记忆更佳。更个性化。 而且对话体验顺畅得多。真的。
OpenAI模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:GPT-5.5 Instant 不是 GPT-5,但对每天用 ChatGPT 的人来说,更简洁、更好记忆这些改动比跑分提升更实在,值得等推送。
01:02
OpenAI@OpenAI
精选86
GPT-5.5 Instant 正在 ChatGPT 中逐步推出。 这是一次重大升级,以更温暖、更自然的语调为您提供更智能、更清晰、更个性化的答案。 同时它也更加简洁,这正是我们所了解到的用户需求。我们相信您会喜欢与它对话。
OpenAI模型发布
关联讨论 8X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)
推荐理由:GPT-5.5 Instant 是 OpenAI 给所有人的即时升级,更聪明更自然还更简洁,这可能是 ChatGPT 推出以来最接地气的版本迭代。
01:01
01:00
00:56
00:44
宝玉@dotey
精选77
开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

智能体GitHub开源/仓库

推荐理由:让 agent 直接生成可编辑的 slides,npx 一行命令就能跑,还支持动画和网页播放,是产品人和开发者的提效刚需小工具,宝玉推荐的质量一般不差。
00:41
阿绎 AYi@AYi_AInotes
精选71
Anthropic发布10个开源金融AI Agent,重塑华尔街工作流程

Anthropic发布了10个开箱即用的金融专用AI Agent,将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库,原生支持Office,并可通过插件或托管模式使用,全链路审计确保合规。所有代码均已开源,企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动,将AI Agent从实验工具转化为企业级生产力,并精准切入金融行业对安全合规的刚性需求,可能引发行业工作流程重构。

智能体Anthropic产品更新开源生态
关联讨论 4X:Testing Catalog (@testingcatalog)X:Claude (@claudeai)Anthropic:Newsroom(网页)Claude:Blog(网页)
推荐理由:Anthropic一口气发布10个金融Agent,从估值复核到生成PPT全包,连顶级数据库都接好了,还全部开源,这不是演示而是能直接用的生产力工具,金融从业者值得立刻装上试试。
00:39
xAI@xai
精选80
Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布
关联讨论 2X:Elon Musk (@elonmusk, xAI)X:Artificial Analysis (@ArtificialAnlys)
推荐理由:Grok 4.3 登顶 agentic tool calling 榜,定价有竞争力,做 agent 的值得认真看。虽然不算顶级发布,但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。