17:52

Rohan Paul@rohanpaul_ai

Google DeepMind论文首次系统分类六类攻击：HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体，子智能体劫持成功率58–90%，数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%，仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化，构成主要攻击面。

智能体 DeepMind 安全/对齐论文/研究

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:42

HuggingFace Daily Papers（社区热门论文）

DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法，学习潜空间并分区，同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤，得到非零谱位于单位圆上的有限转移图，字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中，比几何MDMD更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在严重噪声下稳定预测。在高维流（包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔）中，保持相干结构和长期谱统计，而状态空间MDMD失效。

arXiv 数据/训练论文/研究

13:51

Chubby♨️@kimmonismus

一项由斯坦福大学领导的盲测研究，对近3000场匿名对决的分析发现，16所法学院的法律教授在合同法问题中，有75%的时间更偏好AI生成的答案，而非教授自己写的答案，并且认为AI回答的教学危害性远低于后者（3.5% vs 12%）。 "研究团队测试了多种系统，包括商业辅导工具和Google的NotebookLM。" 现在想象6-12个月后模型的表现。

论文/研究评测/基准

12:47

Ethan Mollick@emollick

Ethan Mollick 引用一篇论文：四名牧师、一名拉比、十三名学者和 50 名 MBA 被要求比较《纽约时报》伦理专栏作家与 GPT-4 提出的伦理方案，结果基本持平（tie）。主推文指出，尽管 Ted Chiang 关于让 AI 做选择会导致道德萎缩的观点有一定道理，但重复随机试验发现 AI 似乎是优秀的伦理学家。

Ethan Mollick: Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...

大佬观点安全/对齐论文/研究

12:40

Hacker News 热门（buzzing.cc 中文翻译）

我开发了一个有漏洞的应用，并花费1500美元测试LLMs能否攻破它

一位开发者构建了一个故意包含安全漏洞的Web应用程序，并投入1500美元，用于评估当前主流大语言模型（LLMs）在真实场景中自主发现并利用这些漏洞的能力。测试涵盖了多种模型及其API调用成本，旨在量化LLM在渗透测试与漏洞利用任务上的实际表现与成本效益。结果尚未在正文中提供，但该实验为AI在网络安全攻防中的应用提供了第一手数据。

安全/对齐论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。