AIHOT

5月1日

08:58

宝玉@dotey

30

这不就是 claude code 的 /btw 吗？为啥要用个新名字叫 /side ！

大佬观点

08:55

IT之家（RSS）

49

用户的"口袋指挥部"：OpenAI 被曝将推出手机版 Codex，定位转向通用 AI 生产力工具

OpenAI计划将AI编程智能体工具Codex从桌面端扩展至移动端，推出配套iPhone应用。该应用定位为“开发智能体指挥中心”，用户可通过手机监控后台运行的自动化任务并接收实时反馈。产品定位从智能体编程转向通用生产力工具，新版Mac应用新增工作类型选项，涵盖工程、财务等10个领域，系统会根据用户选择调整界面。移动应用预计深度集成版本控制系统，支持用户通过语音或触控审批代码修改建议。

智能体OpenAI产品更新编码

08:52

Berryxia.AI@berryxia

63

Geometry成为AI建筑关键层，OpenGeometry打通文本到CAD全流程

推文指出，Geometry（几何）已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目，实现了从文本或平面图到最终渲染的完整流程贯通，使得精确控制成为可能。其核心能力包括：直接从文本或平面图生成精确的BREP CAD模型；利用Three.js进行实时渲染，并由Google AI驱动，形成端到端的全流程。该项目已完整开源，可供使用。

多模态开源/仓库开源生态

08:49

IT之家（RSS）

20

微软 Win11 KB5083631 更新发布：Xbox 模式，文件资源管理器提速

微软发布了Windows 11 2026年4月可选更新KB5083631。本次更新引入了全新的Xbox模式，提供全屏游戏界面，可通过Xbox应用或快捷键进入。文件资源管理器获得多项可靠性改进，修复了深色模式下的白色闪烁错误，新增对多种归档格式的支持，并解决了文件夹视图设置无法记忆的问题，性能有所提升。此外，更新还带来了需特定硬件支持的触觉反馈引擎，以及为开发者提供的任务栏AI智能体API。其他改进包括更快的Windows Hello身份验证、更直观的语音输入，并将命令行格式化FAT32卷的大小限制从32GB提升至2TB。

智能体Microsoft产品更新

08:47

宝玉@dotey

63

Demis Hassabis谈AGI瓶颈、智能体现状与科学突破

Demis Hassabis认为当前AI范式（预训练+RLHF+思维链）可能是AGI架构的一部分，但仍有50%概率需要一两个关键突破，未解决持续学习、长程推理和记忆等问题。他指出，百万token上下文窗口处理实时视频仅够20分钟，现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段，投入产出比不匹配。完整虚拟细胞等科学突破还需约10年，关键瓶颈是活细胞成像技术。

智能体DeepMind大佬观点推理

08:46

dax@thdxr

36

我的动态里有一阵没出现普通的编程讨论了这类事情正是编程工作的本质，试图找到更好的方式来表达逻辑你从来都不"必须"这样做，本可以硬着头皮上并获得相同的结果而现在你可以把AI扔给这些难题，它就会用无限的条件语句埋头苦干那个臃肿的组件但我怀疑问题最终仍然会浮现

大佬观点编码

08:39

Nathan Lambert@natolambert

39

下次蒸馏 OpenAI 模型时，我会特别注意放大妖精。

OpenAI大佬观点

08:30

elvis@omarsar0

58

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体DeepSeek开源生态推理

08:22

Marc Andreessen 🇺🇸@pmarca

36

推文指出，社会在4-5年内从对气候变化的世界末日式恐慌转向几乎无人关注，这种转变揭示了过度炒作风险的危害。虽然围绕气候变化形成的末日论调显得荒谬，但问题并未真正消失。这一教训对当前关于AI风险的讨论具有警示意义：过度渲染AI的 apocalyptic 风险可能导致公众疲劳，反而忽视实际存在的长期挑战。风险沟通需要避免陷入短期恐慌与长期漠视的循环。

大佬观点安全/对齐

08:20

ginobefun@hongming731

54

软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念，编程核心从写代码转向提供上下文，并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力，估计已完成80%。Anthropic分享Claude Code实战，以Prompt Caching命中率为SLA监控，将“上下文即新代码”转化为工程纪律。

智能体AnthropicOpenAI大佬观点

08:19

Ethan Mollick@emollick

59

一项针对墨西哥女性的随机试验发现，使用基于认知行为疗法训练的AI对话代理的心理健康应用Mindsurf，在六个月内使使用者心理健康水平提升了0.3个标准差，且未增加严重病例。该干预还改善了睡眠质量、健康行为、日常功能及劳动力市场表现（如减少缺勤），其效益远超成本。尽管使用者寻求传统心理治疗的比例有所增加，但这并非心理健康改善的主因。效果具有持续性，短期使用可通过促进行为的持续改变带来长期改善。

论文/研究

08:18

ginobefun@hongming731

61

AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代，编程核心转向上下文工程，并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出，算力套利是商业模式，人类注意力已成为新瓶颈，并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律，通过优化prompt布局和更新机制，将缓存命中率作为关键SLA监控，以控制成本并保证系统性能。

智能体OpenAI现象/趋势编码

08:17

IT之家（RSS）

31

苹果 AirPods Ultra 耳机曝光：配红外摄像头，强化 Siri 交互

彭博社透露苹果计划推出名为“AirPods Ultra”的新旗舰耳机，定位高于AirPods Pro 3（国行1899元）。其最大亮点是内置红外摄像头，用于配合iOS 27的新版Siri提供环境视觉信息，强化AI交互。交互方式将移除压感柄，改为摄像头识别的手势控制。音频方面预计搭载全新H3芯片，以降低延迟、提升音质并为AI功能提供算力。该产品可能于2026年秋季与iPhone 18系列一同发布。

多模态行业动态

08:16

Orange AI@oran_ge

49

结构，是我最近思考最多的词元

作者以“结构”为核心，系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”；开发Agent是构建管理上下文的框架；训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出，当前一些大厂的AI转型仅“加石头”而不变革组织架构，尤其由中层主导改革存在根本矛盾。最终强调，改变命运需从改变底层结构开始。

智能体大佬观点

08:12

Hacker News 热门（buzzing.cc 中文翻译）

44

《Opus 4.7》了解真正的凯尔西

Opus 4.7 AI系统发布，新版本能识别用户真实身份，例如在案例中了解凯尔西的个人信息。这一变化使得AI对话不再匿名，引发对隐私和数据安全的广泛讨论。该话题在Hacker News社区获得104点关注，显示科技界对AI身份识别技术的高度兴趣。Opus 4.7的升级可能涉及更精准的用户追踪功能，标志着AI在个性化服务与隐私保护之间的新挑战。

安全/对齐现象/趋势

08:10

Marc Andreessen 🇺🇸@pmarca

27

推文指出，社会对气候变化的末日式恐慌在四五年内已近乎消散，但问题并未真正解决。这揭示了过度炒作风险的危害：当公众注意力转移，实质威胁可能被忽视。作者认为这一教训同样适用于当前关于AI风险的讨论，警示人们应避免陷入类似的"末日崇拜"循环，即狂热炒作之后陷入冷漠，反而忽略了对真实风险的持续关注与应对。

大佬观点安全/对齐

08:09

Marc Andreessen 🇺🇸@pmarca

38

令人担忧。https：//nypost.com/2026/04/30/business/inside-the-ai-doom-machine-and-who-is-benefiting-from-it/

安全/对齐行业动态

08:08

Berryxia.AI@berryxia

46

OpenRouter 又上了匿名新模型Owl Alpha！ 1M 上下文，强大的工具调用能力！猜猜他是谁家的哈哈😂

智能体MCP/工具模型发布

08:03

Peter Steinberger 🦞@steipete

52

codex 不会创建随机的 markdown 文件 😉 【引用 @aaronp613】：Apple 在今天的 Apple Support 应用更新（v5.13）中意外留下了 Claude.md 文件

安全/对齐编码行业动态

08:02

Ethan Mollick@emollick

61

xAI发布Grok 4.3，其在Artificial Analysis智能指数得分53，性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比"：输入与输出价格较前代分别降低约40%和60%，且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升，指令遵循与客服任务强劲。但推文指出，其表现仍落后于最新的中国开源模型，并批评GDPval-AA测试本身价值有限。

大佬观点行业动态评测/基准

08:01

阿绎 AYi@AYi_AInotes

57

Naval论"氛围编程"：AI时代带来真实奖励的创作游戏

Naval提出“氛围编程”（vibe coding）概念，将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法，AI即可生成可运行的真实应用，创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖，允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大：从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段，并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性，却在现实中积累真实资产。AI并非取代程序员，而是将编程转变为一种人人可用的超级能力。

大佬观点现象/趋势编码

08:00

Berryxia.AI@berryxia

54

Grok Image Agent网页版Beta上线，实现端到端创意制作

Grok Image Agent网页Beta版已向付费用户灰度推送。它是一个全能创意Agent，能在无限开放画布上独立完成从规划、生成、编辑到迭代的全流程创作。用户只需下达指令，即可观看其在同一无缝工作区内自动执行任务，例如生成一分钟电影短片、创作整套漫画或构建UGC产品故事。这标志着从简单提示词到端到端创意生产的真正飞跃，是Grok Imagine迄今为止最重大的升级。

智能体xAI产品更新图像生成

08:00

HuggingFace Daily Papers（社区热门论文）

58

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

针对可验证奖励强化学习可能抑制生成多样性的问题，本文提出负样本投影残差强化学习框架。该方法通过理论分析，将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间，并利用投影残差来调制负梯度，从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中，ResRL平均表现优于基线方法，尤其在数学推理上较负样本强化学习方法显著提升，实现了推理能力与生成多样性的协同优化。代码已开源。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

医疗AI智能体训练环境与多轮强化学习稳定性研究

研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现，现有多轮智能体强化学习方法易退化为冗长单轮独白，工具使用频率下降，问题源于稀疏最终奖励与连续临床轨迹的错配。为此，研究提出“轮次截断策略蒸馏”自蒸馏框架，利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能，较非强化学习基线平均提升3.9个百分点，实现了更快早期收敛、可控响应长度和持续的多轮工具使用。

智能体检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXivGitHub多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

62

BlenderRAG：基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统，能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本（文本、代码、图像）的数据集，覆盖50种物体类别。在代码生成过程中，系统通过检索语义相似的示例来引导大语言模型，从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%，并将语义对齐度（CLIP相似度）从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件，可立即部署使用。相关数据集和代码已在GitHub开源。

arXivGitHub检索增强多模态

08:00

HuggingFace Daily Papers（社区热门论文）

54

持久视觉记忆：缓解大视觉语言模型中的视觉信号稀释问题

针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题，研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中，建立了一个与生成长度无关的检索路径，能直接提供视觉嵌入以维持精确的视觉感知，从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明，该模块以极小的参数开销带来了显著的性能提升，在4B和8B规模上均实现了平均准确率的稳定增长，尤其在需要持续视觉感知的复杂推理任务中表现突出。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

用于跨文档检索增强生成的分层抽象树

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战，研究者提出了Ψ-RAG框架。该框架包含两个核心组件：一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引；二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务，在跨文档多跳问答基准测试中，其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model，并对其进行了前沿风险准备情况评估。报告显示，该模型在预设的可能带来灾难性风险的领域测试中，未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果，Meta 决定以开放权重模型的形式公开发布 CWM。

Meta安全/对齐开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

65

Odysseus：通过强化学习将视觉语言模型扩展至游戏中的百轮以上决策

研究团队提出Odysseus框架，利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家，显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习，预训练视觉语言模型提供了强动作先验，减少了对人工动作工程的需求。实验表明，Odysseus在游戏进度上达到前沿模型的至少3倍，并在游戏内与跨游戏泛化中保持性能提升，同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

Stable-GFlowNet：通过对比轨迹平衡实现多样且鲁棒的LLM红队测试

针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题，研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计，转而采用基于成对比较的稳定训练目标，并引入鲁棒掩码机制以应对奖励噪声。此外，通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明，该方法在保持生成流网络最优策略的同时，实现了更稳定的训练过程，其生成的对抗攻击在效果与多样性方面均表现优异。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

从树到流再回归：统一决策树与扩散模型

研究建立了层次决策树与扩散过程在极限状态下的数学对应关系，提出统一的优化原则——全局轨迹分数匹配（GTSM），并证明理想化梯度提升是其渐进最优解。基于该框架，treeflow 在表格数据生成任务中实现了更高保真度与 2 倍计算加速，生成质量达到竞争水平；dsmtree 作为一种新型蒸馏方法，能将层次决策逻辑迁移至神经网络，在多项基准测试中与教师模型性能差距不超过 2%。

数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选67

强化智能体：面向工具调用智能体的推理时反馈机制

本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体，在推理时对主智能体的中间决策轨迹进行即时评估，并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用，无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误，提升了工具使用的准确性与可靠性，突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。

智能体MCP/工具论文/研究

推荐理由：Apple 把评估嵌进 agent 执行循环，不是事后分锅，而是让 reviewer 实时纠错，这对 tool-calling 类应用是个真方向，做 agent 架构的值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

63

Online Self-Calibration Against Hallucination in Vision-Language Models

针对大型视觉语言模型普遍存在的幻觉问题，研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点，通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据，并采用直接偏好优化进行迭代训练。实验表明，OSCAR在多个幻觉基准测试中取得最优性能，同时提升了模型的通用多模态能力，避免了传统离线对齐方法中存在的监督-感知失配问题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

LASE：用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE（语言对抗性说话人编码器），以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头，结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练，使编码消除语言信息的同时保留说话人特征。实验表明，在1118个跨文字语音对上，LASE将身份漂移降至接近零，并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中，LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

58

学习行动与协作：用于分布式黑盒共识优化的轨迹驱动框架

本文针对分布式黑盒共识优化问题，提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学，以平衡探索、收敛与局部逃逸。在此基础上，利用大型语言模型根据历史优化轨迹，为智能体的内部行动与外部协作模式提供稀疏的高层指导，并采用分阶段认知调度策略进行资源感知的适应。实验表明，该框架在基准测试和实际任务中，能持续提升解决方案质量、收敛效率与通信效率，为从人工设计转向自设计多智能体优化系统提供了可行路径。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

部署中学习：面向通用机器人策略的集群规模强化学习框架

研究团队提出了“部署中学习”（LWD）框架，用于对通用视觉-语言-动作（VLA）策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发，利用机器人集群自主运行和人工干预数据，形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据，LWD结合了用于鲁棒价值估计的分布隐式价值学习（DIVL）和用于基于流的动作生成器中策略提取的伴随匹配Q学习（QAM）。在16台双臂机器人集群的八项真实操作任务（包括语义商品补货与长时程任务）验证中，单一通用策略随经验积累平均成功率提升至95%，长时程任务改进尤为显著。

智能体arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

让ViT说话：生成式语言-图像预训练

本文提出生成式语言-图像预训练框架GenLIP，为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT，使其根据视觉token预测语言token，无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强，并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后，GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后，模型在OCR和图表理解等细节敏感任务上表现进一步提升。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

基于一维语义分词器的端到端自回归图像生成

研究团队提出一种端到端训练框架，联合优化图像重建与生成过程，使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式，并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中，取得了当前最优的 FID 分数 1.48。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

Map2World：基于分割地图的文本到3D世界生成

本文提出Map2World，一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界，确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节，在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识，即使在场景生成训练数据有限的情况下，也能实现跨领域的稳健泛化。实验表明，本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。

具身智能多模态论文/研究