6月1日

21:09

AK@_akhaliq

GrepSeek 训练搜索智能体以直接交互语料库

智能体检索增强搜索论文/研究

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。

10:04

Rohan Paul@rohanpaul_ai

AI聊天机器人处理新闻：优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现，当以多选题形式提问时，最佳系统对数小时前新闻的准确率已超过90%，这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而，这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语，或用户提问包含错误预设时，其表现显著下降。超过70%的错误源于检索失败或来源偏差，即系统检索到了近似但不精确的信息，随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》（arxiv.org/abs/2605.22785）。

检索增强搜索论文/研究

05:53

Rohan Paul@rohanpaul_ai

效率增益错觉：人们低估AI使用率并高估其在简单任务上的收益

MIT、斯坦福等高校联合研究发现，人们普遍存在“效率增益错觉”，即高估AI在简单任务（如算术、拼写）上带来的效率提升。在包含2691名参与者的三项研究中，人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒，但实测仅节省了7.5秒。研究指出，使用AI存在界面摩擦（如编写提示词、等待、核对）等隐形成本，并会引发“自我证成”循环：一旦开始使用，即使独立完成更快，人们也可能因惯性而继续依赖AI，从而悄然低估自身的独立判断力。

数据/训练论文/研究

01:48

elvis@omarsar0

效率前沿

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体 arXiv 检索增强论文/研究

5月30日

18:46

Rohan Paul@rohanpaul_ai

RNG：规模化部署的扁平数据中心网络

亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络，并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示，RNG在性能上与传统fat-tree网络持平，但硬件需求减少69%，吞吐量提升33%，并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络，其分散负载的能力有助于提升AI集群训练效率。

论文/研究部署/工程

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

00:45

AK@_akhaliq

DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

arXiv 具身智能多模态论文/研究

00:15

AK@_akhaliq

Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

具身智能多模态开源生态论文/研究

00:15

AK@_akhaliq

OmniRetrieval 跨异构知识源的统一检索

检索增强论文/研究

5月29日

23:14

elvis@omarsar0

AI智能体评估新指标：有效反馈计算提升成功率

新研究提出“有效反馈计算（EFC）”指标，用于优化AI智能体测试框架的设计。传统评估中，原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42，而EFC将此提升至0.99。基于EFC进行资源重分配，可在相同计算量下将智能体成功率从0.27显著提升至0.90，使框架设计从经验猜测变为可预测过程。

智能体 arXiv MCP/工具论文/研究

18:15

Rohan Paul@rohanpaul_ai

本文展示了大语言模型如何在保持答案质量的同时，通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架，用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是，在部署时选择合适的上下文方法可使token使用量减少约25%，在部分记忆复用场景下可降低超50%成本，且答案质量损失较小。研究指出，上下文长度存在收益递减，后增加的token成本高但收益小。在5000个HotpotQA问题的测试中，轻量检索适合低复用率，记忆压缩在高复用率下更优，而全上下文提示仍是获取最高性能所需。

arXiv 推理论文/研究部署/工程

17:15

Rohan Paul@rohanpaul_ai

SkillOpt：实现智能体技能自我进化的执行策略

微软提出SkillOpt方法，旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象，而非直接修改底层大语言模型。该方法让智能体尝试任务，分析成功与失败案例，然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受，从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置（包括直接聊天、Codex和Claude Code）的共52个测试案例中，SkillOpt均达到最佳或并列最佳。在GPT-5.5上，它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用，部署时无需重新训练模型。

智能体 Microsoft 数据/训练论文/研究

11:34

Berryxia.AI@berryxia

文本频率定律的发现与验证

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

Anthropic DeepSeek 数据/训练论文/研究

09:44

Rohan Paul@rohanpaul_ai

LeJEPA何时学习世界模型？

Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是，LeJEPA只有在真实的隐藏变量呈现高斯云结构时，才能可靠地学习它们。论文通过数学证明，当这些隐藏变量是独立高斯变量，并且配对视图由一个稳定的噪声过程生成时，LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构（而不仅仅是提取在测试集上有效的特征）提供了理论解释。

Meta 多模态论文/研究

09:43

Ethan Mollick@emollick

Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文，经由 GPT-5.5 Pro 担任审稿人并指出错误后，Claude 对论文质量进行了量化自评：在1-10的识别度量表上，其稳健性检验后的评分从之前的3.5分提升至4.5分，但认为仍未达到准实验水平（约7分）。因此，Claude 将论文定性为"条件关联一致"的谨慎表述，而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

Anthropic OpenAI 大佬观点论文/研究

06:44

Chubby♨️@kimmonismus

说实话，这让我笑了，但一点也不意外。 Emergence AI 的研究人员让不同的 AI 模型运行模拟社会，结果--嗯--在意料之中：Claude 建立了最稳定的世界，零犯罪；而 Grok 在四天内崩溃灭绝，Gemini 则产生了数百起犯罪。

安全/对齐论文/研究

02:44

Rohan Paul@rohanpaul_ai

精选81

hexoai开源SIA框架：AI智能体实现递归自我改进

hexoai开源了SIA（自我改进AI）框架。该框架展示了AI智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA在LawBench基准上性能提升56.6%，在GPU kernels运行上耗时减少91.9%，在单细胞RNA去噪任务中相比基线提升502%。

Kunal Bhatia: Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...

智能体数据/训练论文/研究

推荐理由：不再只是给AI换提示词，SIA框架连模型自己的权重都更新了，在三个任务里分别提升了56%、502%和91%加速，开源出来会让整个Agent开发范式重新思考。

00:13

AK@_akhaliq

GEM 生成式监督助力具身智能

具身智能论文/研究

00:08

elvis@omarsar0

FluxMem：将AI智能体记忆重构为动态演化的图拓扑

提出了一种名为FluxMem的AI智能体记忆架构，其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行：初始连接形成、基于反馈的精炼，以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中，它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

智能体 arXiv 论文/研究

5月28日

23:43

AK@_akhaliq

SkillOpt 智能体技能自进化的执行策略

智能体论文/研究

23:43

AK@_akhaliq

ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习

数据/训练论文/研究

23:43

AK@_akhaliq

多模态智能体推理的探索性策略优化

智能体 arXiv 多模态推理

23:12

AK@_akhaliq

离散扩散中摊销序列蒙特卡洛的对比分布匹配

arXiv 论文/研究

23:12

AK@_akhaliq

PhysX-Omni 统一的、可直接用于仿真的物理3D生成模型，支持刚体、可变形体和铰接体对象。

具身智能论文/研究

23:12

AK@_akhaliq

MRT 用于大规模分层图像生成与编辑的掩码区域Transformer

图像生成论文/研究

20:11

Rohan Paul@rohanpaul_ai

研究发现AI智能体"衰老"导致可靠性下降，提出新基准AgingBench

论文指出AI智能体在部署后，其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”，导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作，但可靠性已悄然下降。为此提出AgingBench基准，用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施，强调单纯增加记忆并非解决方案。

智能体论文/研究部署/工程

19:11

Rohan Paul@rohanpaul_ai

Diffusion Transformers训练提速8.75倍：革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法，允许每层动态选择使用哪些早期层的输出，且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制，仅通过优化残差连接，使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv 图像生成数据/训练论文/研究

12:36

Ethan Mollick@emollick

关于AI写作的风格特征（如破折号等）已有大量讨论，但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异，要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136

arXiv 数据/训练论文/研究

10:38

AK@_akhaliq

Gamma-World 超越双人对战的生成式多智能体世界建模

智能体 arXiv 论文/研究

10:07

Rohan Paul@rohanpaul_ai

周期性暂停以巩固记忆或能改善长期语言智能体的表现

针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题，论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”：模型在此阶段暂停，多次重读近期上下文，将有用信息写入固定大小的记忆层（如状态空间块的快速权重），然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明，更长的睡眠时间能提升性能，尤其对需要深度推理的复杂任务。该思路表明，长期智能体或可通过记忆巩固实现高效遗忘与重用，不必无限携带原始上下文。

智能体 arXiv 推理论文/研究

02:02

elvis@omarsar0

AI智能体老化基准AgingBench发布

这项研究提出了AgingBench，一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制，包括压缩老化和干扰老化，旨在衡量部署后的智能体是退化以及退化形式。研究指出，即使冻结模型权重，智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化，其可靠性是整个运行系统的寿命属性，而非基础模型的快照。基准测试在智能体部署第一天进行，然后持续数月。

智能体 arXiv 论文/研究

01:02

Qwen@Alibaba_Qwen

精选69

Fast， faster， Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由：Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

5月27日

21:27

Berryxia.AI@berryxia

腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准

20:27

Berryxia.AI@berryxia

MiniMax 发布 M2 论文，预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后，系统性发布了其背后所有工作的论文，详细阐述了设计思路、训练细节与系统架构。此前，其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用，且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时，MiniMax 官方宣布已为下一代模型 M3 做好准备，并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究

10:31

Saining Xie@sainingxie

推文介绍了Cambrian-P，这是一个原生集成相机位姿的多模态大语言模型。其核心观点是，相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿，模型能将图像序列转化为全局结构化的表示。引用推文指出，当前多模态大语言模型在识别视频活动方面表现优异，但对视频中的空间结构及自主体/物体动态的理解仍然不足，而相机位姿信息是弥补这一差距的关键缺失环节。

Jihan Yang: Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...

多模态论文/研究

08:59

宝玉@dotey

Skill自我进化需明确标准，SkillOpt框架实现迭代优化

文章指出，只有具备明确、可程序自动验收标准的Skill才能有效自我进化，例如优化代码性能。微软等机构提出的SkillOpt框架，通过让AI评估并迭代优化Skills，使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并，并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”，这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究

07:21

karminski-牙医@karminski3

微软等发布SkillOpt框架，用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体 arXiv Microsoft 数据/训练

01:04

Rohan Paul@rohanpaul_ai

AI效率增益幻觉研究：感知效率与实际收益的落差

MIT、斯坦福等机构的一项研究（2,691名参与者）揭示了“效率增益幻觉”：在基本计算、拼写等简单任务上，用户实际使用AI的比例高于自我预测，且预期节省时间（平均55.7秒）远高于实际测量值（仅7.5秒）。研究指出，隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是，使用AI会形成依赖循环——仅两次使用后，即便独立完成更快，参与者也更倾向继续依赖AI，这种倾向源于对便捷感的错误认知，可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

现象/趋势论文/研究

5月26日

23:59

Ant Ling@AntLingAGI

团队发布了KPop技术，用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码，改用自适应二元KL散度区域来匹配每个token的固有噪声，从而实现更鲁棒的参数更新，支持长期、智能体化的强化学习训练。具体应用中，万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练（未修改基础设施或路由重放）的情况下，于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究

关联讨论 4 条