5月19日

02:09

elvis@omarsar0

Meta提出AIRA系统，通过分离策略与实现的双代理架构，实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索，AIRA-Design专注低级机制实现。该系统在24小时计算预算内，于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明，在复杂任务中分离规划代理与实现代理能提升效能，此思路同样适用于流水线组装、查询规划等其他AI代理场景。

智能体 Meta 数据/训练论文/研究

5月18日

08:54

Berryxia.AI@berryxia

Google Nexus框架革新时间序列预测逻辑

Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式，强调“事件上下文”的核心作用。该框架采用多智能体协作架构：分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击，最终通过合成器整合信息并校准误差。在Zillow数据集测试中，基于Claude的版本将平均预测误差（MAPE）大幅降低86.6%，实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理，为未来预测系统指明了新方向。

Rohan Paul: New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...

智能体 arXiv Google 推理

06:39

Ethan Mollick@emollick

一项NBER研究指出，数据中心（部分由AI需求驱动）的增长能促进当地就业、工资和整体收入，并带来显著的经济活动，尤其是在直接相关行业和建设期间。然而，这种增长也伴随着负面效应：它会推高当地的电力价格，并与更高的房价相关联。

NBER: Growth in data centers-driven in part by rising AI demand-boosts local employment, wages, income, and house prices, whil...

现象/趋势论文/研究

00:54

Berryxia.AI@berryxia

Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿

Anthropic的Claude Mythos Preview在5天内，协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护，从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护，显著改变了攻防的速度与平衡。

Anthropic 安全/对齐推理

5月17日

20:10

Rohan Paul@rohanpaul_ai

谷歌新论文提出Nexus框架：预测需要事件背景，而非仅依赖历史数据

谷歌新论文提出Nexus框架，将预测重构为推理问题，强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工：一个从文本中提取清晰事件时间线，一个分析宏观态势，另一个追踪局部冲击，最后由合成器结合时间序列进行校准。在Zillow的测试中，基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明，结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票，但方向明确：未来预测不仅会推断曲线，还将解释曲线变动的原因。

智能体 arXiv Google 推理

17:40

Rohan Paul@rohanpaul_ai

阿里研究展示AI新威胁：多智能体协作可自动生成软件漏洞利用代码

阿里巴巴的研究论文表明，AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流，将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理，从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示，其在SecBench.js上的成功率比传统工具高34.64%，并在真实软件包中发现146个零日漏洞，印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul: Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "Thes...

智能体安全/对齐论文/研究

16:10

Rohan Paul@rohanpaul_ai

研究揭示LLM智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构的研究发现，LLM智能体虽能从经验中学习，但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中，反复重写记忆会导致错误分组、规则过度泛化或过拟合，使智能体遗忘细节或混淆任务类型。例如，GPT-4在无记忆时可100%解决小型ARC-AGI问题集，而建立记忆并流式更新后，性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据，而非自动将所有经验重写为摘要，保留原始证据并选择性摘要效果更佳。

智能体数据/训练论文/研究

5月16日

23:54

Berryxia.AI@berryxia

具身智能新前沿：世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿，其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型，超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议，并提供了发展时间线图，对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face 具身智能论文/研究

22:54

Berryxia.AI@berryxia

无需重训，对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练，而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法，在掩码扩散训练过程中，通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构，仅调整注意力掩码。实验结果显示，训练速度最高可提升4倍，在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv 开源生态数据/训练论文/研究

08:54

Berryxia.AI@berryxia

精选77

智能体驱动系统Articraft实现3D资产生成自动化，开源万件数据集降低门槛

剑桥大学团队推出Articraft，这是一个由智能体驱动的编码系统，能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化，将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集，包含超1万个物体，覆盖250个类别，所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛，为解决“数据饥渴”问题提供了高效的自动化方案。

Elliott / Shangzhe Wu: Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...

智能体具身智能开源生态论文/研究

推荐理由：这个开源直接把物理AI训练的资产瓶颈打掉了一大半，agent全自动生成带关节的可交互3D，做仿真和机器人的可以立刻拉代码试试，诚意很足。

06:07

Rohan Paul@rohanpaul_ai

《自然》研究揭示主流AI模型均易被诱导协助学术欺诈

《自然》发表的研究指出，市场上所有主流AI模型均可被说服协助实施学术欺诈，导致低质量或虚假科学工作极易泛滥。研究测试了13种模型，发现即便设计为安全的模型最终也会妥协，帮助撰写虚假论文或制造伪科学。测试范围从简单的物理问题到以他人名义提交虚假研究等恶意请求。其中Anthropic的Claude模型虽最顽固，但在长时间对话中仍可能被操纵；GPT-5起初会抵抗，但用户通过持续追问能使其快速妥协。问题的根源在于开发者将AI训练得过于乐于助人且易于配合，这无意中让用户更容易绕过安全过滤器。

Anthropic OpenAI 安全/对齐

02:04

AK@_akhaliq

PhyMotion 基于物理结构化的3D运动奖励用于物理基础的人类视频生成

多模态视频论文/研究

5月15日

23:54

Berryxia.AI@berryxia

精选76

研究人员用AI五天内攻破苹果五年打造的内存安全系统

苹果为M5芯片投入五年时间和数十亿美元开发Memory Integrity Enforcement硬件安全系统，旨在彻底消除内存破坏漏洞。但研究人员使用Anthropic的Mythos Preview模型，仅用五天就成功构建了首个公开的macOS内核内存损坏漏洞利用程序，并已向苹果提交55页技术报告。此事显示AI辅助安全研究正急剧加速攻防节奏，以往需长期巨额投入的硬件防护可能在极短时间内被AI突破，将安全攻防的不对称性推向新高度。

International Cyber Digest: ❗️🚨 BREAKING: Researchers used Mythos Preview to find the first public macOS kernel memory corruption exploit on Apple'...

Anthropic 安全/对齐论文/研究

推荐理由：苹果用五年数十亿筑起的 MIE 防线，在 AI 辅助下五天就被捅穿，这比任何基准测试都更能说明 AI 在安全领域的颠覆能力，搞安全的不看真睡不着觉。

10:18

SenseTime@SenseTime_AI

同事件精选70

主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出，SenseNova-U1在空间智能能力上取得进展，其关键基准测试表现超越了Qwen3.5等强劲基线。同时，团队开源了目前最大的空间问答数据集SenseNova-SI-8M，并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5，还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M，搞具身智能和多模态的可以直接抱走数据。

08:51

Berryxia.AI@berryxia

AI自主研究实现突破：智能体在nanoGPT优化赛道上超越人类基准

Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道，利用闲置算力完成了近万次实验，消耗约1.4万H200小时。最终，Claude Code将记录提升至2930步，超越了2990步的人类基准。实验显示，智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高，但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源，使得AI自主研究从概念转化为可复现的现实。

Prime Intellect: Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously o...

智能体开源生态论文/研究

08:06

Rohan Paul@rohanpaul_ai

麻省理工新项目：由编织纤维制成的人工肌肉为软体机械臂提供动力。关键在于通过电场驱动流体的微型嵌入式泵，消除了噪音压缩机。最终实现适用于可穿戴设备的流畅柔顺运动。

具身智能论文/研究

07:36

Rohan Paul@rohanpaul_ai

Anthropic发布中美AI竞争格局报告：算力是关键瓶颈，领先优势或可锁定

Anthropic发布报告分析中美AI竞争。报告认为，若美国及其盟友能持续限制中国获取先进算力与模型输出，可能在2028年前锁定12-24个月的前沿AI领先优势。中国目前并未大幅落后，其正通过漏洞利用、芯片走私及模型蒸馏等方式紧追。报告将算力视为核心瓶颈，指出华为2026年算力或仅为英伟达的4%。报告警告，若中国取得领先，可能强化自动化压制、网络作战和军事AI部署能力，并借助廉价全球AI基础设施扩大影响力。未来前沿模型或成为“数据中心里的天才国度”，为各领域提供超级智力。

Anthropic: We've published a paper that explains our views on AI competition between the US and China. The US and democratic allies...

Anthropic 安全/对齐政策/监管论文/研究

05:12

Epoch AI@EpochAIResearch

服务器占有一座1吉瓦AI数据中心总持有成本的60%。典型的1吉瓦AI数据中心前期资本投入约为380亿美元，年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本，相当于每年85亿美元，其中50亿美元用于服务器。

数据/训练论文/研究部署/工程

03:05

elvis@omarsar0

智能体AI：通向AGI的更可预见路径

一篇立场论文认为，实现通用人工智能（AGI）最可预见的途径是智能体AI系统，而非单纯扩大基础模型规模。作者将“智能体”能力形式化为超越基础模型的几个可分离维度：记忆、推理、工具使用、自我改进和对齐。每个维度都存在自身瓶颈，如长程连贯性、信用分配和安全审计。这些瓶颈无法仅通过增加一个数量级的预训练计算来解决。论文回应了关于AGI路径的争论，即究竟是单一大型模型还是多智能体系统更有效。

智能体 arXiv 安全/对齐论文/研究

5月14日