AIHOT

5月1日

04:51

elvis@omarsar0

传统RAG系统在推理前单次检索，无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架，能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性，学习判断何时引入外部证据有效，并将单次检索开销降低3.2倍。在多个QA数据集上，该框架比标准RAG的F1绝对值提升10.1%，且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中，仅用平均1.8次检索即可达到71.2%的F1值，表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究

04:48

TestingCatalog News 🗞@testingcatalog

OpenAI Codex应用更新至版本26.429.20946，带来多项调整与隐藏功能

OpenAI Codex应用更新至版本26.429.20946，包含隐藏及新功能。隐藏功能（尚未启用）包括设置中的远程控制选项、Connections部分、Avatars更名Pets、键盘类别管理，以及引导组件连接邮件、日历和文件集成。已上线的新功能有引导流程更新、计算机与浏览器使用速度提升20%、幻灯片与表格处理能力升级、对浏览器、工件和代码的批注支持，以及设计和性能优化。此外，在欧盟地区，浏览器使用和计算机使用功能可能已被禁用。开发者Sam Altman强调此为重大升级，建议用户尝试用于非编程的计算机工作。

智能体OpenAI产品更新

04:47

Midjourney：Updates（RSS）

精选56

V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质，这一改进在风格参考（SREF）和情绪板（Moodboards）功能中效果最为显著，同时所有类型的图像生成质量均有所增强，为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由：Midjourney V8.1 只是个小版本迭代，主要提升锐度和图像质量，用惯了 V8 的可以不急着换，但玩 SREF 和 Moodboard 的值得试一下，细节确实有提升。

04:38

Luma@LumaLabsAI

精选60

为你的网站寻找外观。同时探索每个方向。定义目标，设定美学风格，然后让Luma Agents构建每个元素。英雄区域。文案。视觉效果。布局。所有内容都经过结构化设计，从首次滚动开始就旨在实现转化。立即构建 → http：//lumalabs.ai/app

智能体产品更新多模态

关联讨论 1 条

推荐理由：Luma 从视频生成跨到建站，用 Agent 一次性生成整站，描述即站点，对想快速验证品牌页面的创业者是个有趣的新工具。

04:37

Gary Marcus：The Road to AI We Can Trust（RSS）

史上最大的资本错配？

随着全球科技巨头与初创企业持续将海量资金投入生成式人工智能和大语言模型的研发竞赛，业界开始出现对资本配置效率的深刻担忧。巨额投资集中于少数头部模型如GPT、Claude和LLaMA的迭代，而基础设施、能源消耗及实际商业应用场景的落地速度引发质疑。部分分析师指出，超过千亿美元的资金涌入可能催生技术泡沫，并挤压其他关键科技领域的创新资源。这种集中趋势正促使投资者重新评估风险与回报的平衡。

大佬观点现象/趋势

04:31

Rohan Paul@rohanpaul_ai

前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中，GPT-5.5与Mythos Preview表现相当，均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击，而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中，GPT-5.5仅用11分钟、花费1.73美元即告解决。

OpenAI安全/对齐评测/基准

关联讨论 2 条

04:17

dax@thdxr

整个"不能使用我们的模型开发竞争产品"的规定现在变得非常令人困惑，因为模型实验室正在推出像Claude Design这样的常规产品。

Anthropic现象/趋势

04:16

Sam Altman@sama

codex 今日重大升级！尝试将其用于非编码计算机工作。

OpenAI产品更新编码

关联讨论 2 条

04:12

Sam Altman@sama

这确实看起来很酷【引用 @mweinbach】：Codex 目标功能看起来很酷看起来你可以给 Codex 设定一个目标，然后它会持续工作、规划和测试直到完成？我只是在阅读这里的提交记录，但我想这就是它的功能吧？

智能体OpenAI产品更新编码

04:08

Rohan Paul@rohanpaul_ai

David Sacks 澄清，Anthropic 的 Mythos 模型并非魔法或末日武器，而是首个能自动化执行网络安全任务（如代码审计）的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力，所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞，而是发现代码中既有缺陷，利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级，最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具，且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

AnthropicOpenAI大佬观点安全/对齐

04:06

Rohan Paul@rohanpaul_ai

Anthropic开放Claude Security公开测试版，扫描代码漏洞并生成补丁

Anthropic为Claude Enterprise客户推出Claude Security公开测试版，将Claude.ai转变为代码库扫描器，用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同，该工具能处理跨文件的复杂漏洞，减少误报和漏报。产品作为内置工作流集成，无需额外API或代理构建，支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话，提升企业代码安全效率。

Anthropic产品更新安全/对齐编码

04:03

ChatGPT@ChatGPTapp

精选63

一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是：以最笨拙、潦草且极其糟糕的方式重绘所附图像，背景为白色，使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非，带有低质量像素感和令人困惑的别扭感，以突出其荒诞的"差劲"。推文引用者指出，这条提示词正引发疯狂传播。

OpenAI图像生成教程/实践

关联讨论 1 条

推荐理由：这 prompt 把 GPT Image 2 从「精美」逼成了「小学生涂鸦」，是近期最有网感的玩法，做内容的可以直接抄。

04:02

Chubby♨️@kimmonismus

本地LLM游戏开发对决：Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B

在@atomic_chat_hq平台的本地LLM游戏开发竞赛中，Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快（32 tokens/秒）且回答更具创意，但Gemma仅用3分51秒和6209个token，输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上，Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试，Qwen或可通过调整设置提升表现，并邀请社区验证。

开源生态推理评测/基准

04:01

Rohan Paul@rohanpaul_ai

精选74

Alphabet股价大涨约9%，市值单日增加约4200亿美元，创下历史最大单日涨幅纪录。其市值目前仅比全球市值最高的上市公司Nvidia低约6%。这一强劲表现的核心驱动力来自Google Cloud，其营收实现了63%的增长，增速超过了近期AWS和Azure的表现。增长主要得益于企业客户广泛采用基于Gemini模型和定制TPU构建的AI解决方案。

Google行业动态

推荐理由：Alphabet 一天涨出 4200 亿美元，云业务靠着 Gemini 和 TPU 追上来，这是 AI 商业化第一次在财报里这么清晰，科技巨头座次可能真要重排。