AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 608 条
全部一手资讯X论文
标签「论文/研究」清除
AK@_akhaliq · 6月1日58

GrepSeek Training Search Agents for Direct Corpus Interaction

译GrepSeek 训练搜索智能体以直接交互语料库

OpenClaw🦞@openclaw · 6月1日72

In collaboration with @nvidia, we’re open-sourcing a dataset of security scans for 67,453 ClawHub skills on @huggingface: - NVIDIA SkillSpector flagged 1/2 for agentic risk - Only 0.31% were malicious - No two scanners agreed on more than 8.5% of risks https://openclaw.ai/blog/openclaw-nvidia-skill-security

译与 @nvidia 合作,我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集: - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

Rohan Paul@rohanpaul_ai · 6月1日62

AI chatbots can answer fresh news well, but their weakest failures hide inside their confidence. Best systems are surprisingly good at recent news when the question is clean and multiple choice. But it also shows that this success is fragile, because the same systems get worse when they must answer freely, when the news is in Hindi, or when the user’s question contains a false assumption. The best systems crossed 90% accuracy on multiple-choice questions about events reported only hours earlier, which means retrieval-augmented AI has moved from stale encyclopedia mode toward live information work. That accuracy is not the same thing as reliability, because the systems were far worse when answers had to be produced freely these models usually do not fail because they cannot “think,” but because they land on the wrong evidence. More than 70% of errors came from retrieval failures or source divergence, where the system found something nearby but not exact, then answered faithfully from the wrong article, wrong language, wrong scope, or wrong timestamp. ---- Paper Link – arxiv. org/abs/2605.22785 Paper Title: "Evaluating Commercial AI Chatbots as News Intermediaries"

译该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。

Rohan Paul@rohanpaul_ai · 6月1日45

New paper from MIT, Stanford, New York Univ, Princeton. AI can make people feel more efficient even when they are not actually becoming much more efficient. that people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- Paper Link – arxiv. org/abs/2605.22687 Paper Title: "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"

译MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。

elvis@omarsar0 · 6月1日60

// The Efficiency Frontier // Cool paper on context management. As agents reuse the same documents and histories across many turns, the cheapest context strategy is not fixed. This work describes a principled rule for picking one per deployment instead of defaulting to whatever topped a benchmark in isolation. Retrieval and compression methods are almost always benchmarked on accuracy and cost separately, so you never learn when one actually beats another under real load. The Efficiency Frontier models context strategy selection as a single cost-performance problem, with a log-utility term for diminishing returns from extra context and a reuse parameter N that amortizes preprocessing across repeated queries. Sweep N and the optimal strategy changes, exposing crossover regions where retrieval, compression, or full context each wins. On 5,000 HotpotQA instances, deployment-aware selection cuts effective token usage about 25 percent at the same performance, and amortized memory compression runs over 50 percent cheaper than full-context prompting in higher-performance settings. Paper: https://arxiv.org/abs/2605.23071 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

Rohan Paul@rohanpaul_ai · 5月30日69

Amazon unveiled “Resilient Network Graphs,” (RNG) a data center network that reduces hardware needs by 69% and raises throughput by 33%. It is now default for most AWS workloads. They revealed that it has been quietly deploying the design across its data centers since last year, and it is now the default data center network for most AWS workloads. It replaced tree-shaped datacenter networks with flatter random ones that waste less capacity. For decades, fat-tree networks worked because they were predictable, but their layered shape can concentrate traffic at choke points while other links sit underused. So the problem is that fat-tree networks are easy to run, but their hierarchy can trap traffic on a few links while other links sit unused. “Resilient Network Graphs,” (RNG) fixes this by connecting routers in a flat quasi-random graph, so many different paths exist between servers instead of a few fixed routes through upper layers. RNG attacks the problem by flattening the fabric into a quasi-random graph, where many small independent paths replace a few privileged routes. Its routing system, Spraypoint, spreads traffic across many separate paths, while its ShuffleBox cabling device makes the random-looking wiring practical to build and expand. Instead of asking every packet to chase the shortest path, Spraypoint fans traffic outward and then guides it back through distributed waypoints, creating many edge-disjoint paths without requiring exotic switch memory. The authors tested RNG in 2 real Amazon production fabrics and compared it with fat-tree networks using transport and storage workloads. The main result is that RNG matched fat-tree application performance, found far more separate paths than common routing methods, and was estimated to cost 9% to 45% less. The hard part is not the idea, but the engineering, because routing in a random mesh needs smarter path selection and the physical system must manage millions of fiber connections without becoming impossible to operate. This is important for AI clusters because training traffic is huge, synchronized, and sensitive to congestion, so a network that spreads load better can make expensive GPUs spend less time waiting. ---- Link – arxiv. org/abs/2604.15261 Title: "RNG: Flat Datacenter Networks at Scale"

译亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络,并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示,RNG在性能上与传统fat-tree网络持平,但硬件需求减少69%,吞吐量提升33%,并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络,其分散负载的能力有助于提升AI集群训练效率。

Fei-Fei Li@drfeifei · 5月30日83

I’m very excited by this new benchmark dataset for visual generation that is suitable for the modern era of large scale generative models!🤩

译我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

AK@_akhaliq · 5月30日55

DynaFLIP Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

译DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

AK@_akhaliq · 5月30日62

Qwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

译Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

AK@_akhaliq · 5月30日54

OmniRetrieval Unified Retrieval across Heterogeneous Knowledge Sources

译OmniRetrieval 跨异构知识源的统一检索

elvis@omarsar0 · 5月29日68

// Scaling Laws for Agent Harnesses // If you build agent harnesses, this one is worth your time. (bookmark it) Most harness tuning treats every token and tool call as if volume is all that counts. New research shows that most of it does not. The work introduces Effective Feedback Compute (EFC), a coordinate that counts only the feedback an agent can actually act on. Raw token and tool-call counts explain agent failure at R2 of 0.33 to 0.42. EFC pushes that to 0.99. Why does it matter? Once you budget by useful feedback instead of raw volume, reallocation alone lifts success from 0.27 to 0.90 at the same compute. This also turns harness design from guesswork into something you can predict. Paper: https://arxiv.org/abs/2605.29682 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。

Rohan Paul@rohanpaul_ai · 5月29日57

This paper shows how LLMs can use shorter context more cheaply without losing much answer quality. Shows choosing the right context method for the deployment setting can cut token use by about 25% at similar quality, and by over 50% in some reused-memory cases. The problem is that long context gives a model more information, but every extra token costs money and compute, and the extra context often brings smaller gains. Longer context has diminishing returns, and the expensive tokens are often the ones added after the model already has enough signal. The authors propose an Efficiency Frontier, which compares context strategies by looking at answer quality and token cost together instead of treating them as separate scores. The key idea is that some methods are cheap per question, like retrieval, while others spend more upfront, like memory compression, but become cheaper when the same processed context is reused many times. They tested this on 5,000 HotpotQA questions, where the model has to combine facts across documents while ignoring distracting text. The main result is that the best context strategy changes with the setting: lightweight retrieval works best when reuse is low, memory compression becomes better when reuse is high, and full-context prompting is still needed for the highest scores. ---- Link – arxiv. org/abs/2605.23071 Title: "The Efficiency Frontier: A Unified Framework for Cost-Performance Optimization in LLM Context Management"

译论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。

Rohan Paul@rohanpaul_ai · 5月29日60

The problem is that agent skills are usually hand-written, made once by an LLM, or revised in loose ways that can easily make them worse. SkillOpt from Microsoft, argues that agent skills should be trained like small external programs, it teaches AI agents better task habits by editing a reusable skill document, not the model itself. The paper’s core idea is to treat the skill document like the thing being trained, while the main AI model stays frozen and unchanged. SkillOpt watches the agent try tasks, studies what worked and failed, then asks a stronger optimizer model to suggest small edits to the skill. It only accepts an edit when the new skill improves on a held-out check set, so the skill does not drift just because an edit sounds good. The authors tested this across 6 benchmarks, 7 target models, and 3 agent settings, including direct chat, Codex, and Claude Code. SkillOpt was best or tied on all 52 tested cases, and on GPT-5.5 it raised average accuracy by 23.5 points in direct chat. The final result is a small readable skill file that can improve agents across tasks and settings without retraining the model. The best part is that the optimizer is used during training, but deployment only needs the final skill file. That makes the artifact inspectable, portable, and cheap to reuse, which is exactly what most prompt-engineering systems lack. ---- Link – arxiv. org/abs/2605.23904 Title: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills"

译微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

Berryxia.AI@berryxia · 5月29日59

http://x.com/i/article/2044264645683539968 # 「马嘉祺」和Anthropic让全网知道的技术问题,这家初创公司的CEO在洗澡的时候就解决了。 大家还在拼命把Prompt写得文雅、专业、结构严密,以为这样模型就会更听话、输出更准。结果正好相反。 从一个二次元AI弹幕产品里冒出来的FaceMind研究,直接用100种语言、四大核心任务的实验证明:语义不变的前提下,用预训练语料里出现频率更高的表达方式,不管是Prompting还是Fine-tuning,模型表现都会显著提升。 这就是Adam's Law(文本频率定律)。后面详细展开说。 它把当前数据工程的“质量-规模-难度”铁三角直接补上了缺失的第四维度——频率。 Anthropic的Claude Opus 4.7用新分词器间接验证了这一点,DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。 高频表达不是“简化”,而是让模型在它最熟悉的概率空间里干活,效果直接起飞。 ## 在展会上遇到一个让人上头的二次元小产品 今年4月份去参加 Let‘s Vision 展会,在一堆 XR 眼镜和空间计算的展台中间,我被一个画风完全不一样的摊位吸引了,屏幕上跑着游戏,旁边飘着一层二次元角色的 AI 弹幕,角色还在根据游戏画面实时吐槽。 这个产品叫叠叠社(Danmaku Chan)。 简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层,不管你在刷网页、看视频还是打游戏,都会有一个二次元角色在旁边陪着你,根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。 你可以自定义角色的性格和人设,它的回应是上下文感知的——它「看得懂」你屏幕上在发生什么。 我当时还挺好奇的,就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。 怎么说呢,打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅!」,这种体验确实挺上头的。 AI 的反应速度和准确度也比我预想的好不少,不像是那种答非所问的套壳聊天机器人。 后来我查了一下,叠叠社背后的公司叫 FaceMind Corporation(上海脸谱心智智能科技),创始人是 Adam 博士(Hongyuan Adam Lu),港中文博士毕业,曾在微软亚洲研究院负责模型预训练,拿过 EACL Outstanding Paper Award 一作,还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。 这个学术背景,做一个二次元弹幕产品? 我当时就觉得这团队有点意思。 ## 叠叠社背后的秘密:一条被忽视的语言规律 回去之后我就去查了这个团队,然后发现了一个比产品本身更有意思的东西。 叠叠社的 AI 对话之所以反应又快又准,跟一项 FaceMind 自己做的基础研究有很深的关系。 Adam 博士联合香港中文大学发了一篇论文,提出了一个叫 Adam’s Law 的发现——文本频率定律(Textual Frequency Law)。 核心观点一句话就能说清楚:语义不变的前提下,你用预训练语料里出现频率更高的那种说法,模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。 这篇论文并不是第一次触碰这个问题。 其实早在 2025 年,脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文,首次系统性揭示了大模型的低频 token 退化现象,并提出了轻量级的词典 Prompting 方案——无需额外训练,插入一个词典就能显著缓解问题。 2026 年 4 月 2 日,Adam's Law(文本频率定律)作为后续深化研究正式公开预印版,随后被顶级学术会议 ACL 2026 收录。 叠叠社在角色对话的训练和 Prompt 设计中,就应用了这套理论。同样是让 AI 角色对屏幕内容做反应,用更「常见」的表达方式去组织指令和训练数据,模型的理解力和反应质量就是比用精雕细琢的文案好。 你可以把它想象成跟一个在中国生活了二十年的外国人聊天——你用成语他可能愣半天,但换成日常口语,他立马就明白了。你说的是同一个意思,但他的反应完全不一样。 这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多——不是模型本身更强,而是跟模型「说话」的方式更对路。 我觉得这个发现比产品本身还有意思,于是把论文翻出来完整读了一遍。 读完之后我发现,这个东西的影响范围,远不止一个二次元弹幕应用。 学术先行,工业验证——像 DiT 之于 Sora 在聊 Prompt 工程和数据工程之前,我想先说一个最近才在业界引发讨论的背景。 2026 年 5 月 9 日,一场因「马嘉祺」掀起的技术讨论,让「大模型低频 token 退化」这个学术圈早已在研究的话题,第一次被大众视野广泛关注。 但如果你去追源头,会发现这件事其实已经有了明确的先行者和跟随验证者。 脸谱心智是最早的研究者:2025 年 EMNLP 主会论文(SLoW)发现问题、提出方案; 2026 年 4 月 Adam's Law 进一步量化规律,被 ACL 2026 收录。 Anthropic 是最早的生产级验证者:2026 年 4 月下旬,Claude Opus 4.7 正式上线,官方迁移指南写明:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」 业界普遍解读为 Anthropic 缩减或重组了低频退化 token——与脸谱心智的减法策略高度一致,时间比脸谱心智晚了将近一年。 这让人想到 DiT(扩散 Transformer)与 Sora 的关系,学术界率先提出架构,工业界在商业产品中完成大规模生产级验证。 脸谱心智之于 Anthropic,就是这样的关系。 ## 你精心打磨的 Prompt,模型可能根本不领情 过去两年,AI 行业在一件事上砸了天文数字的钱:让数据变得更「好」。更干净的标注,更严格的筛选,更复杂的去重管线。 Prompt 工程师们则在另一端较劲,打磨措辞、设计思维链、雕琢每一个指令的语法结构。 所有人都在追求同一件事:说得更「准确」,写得更「高级」。 但 Adam‘s Law 用横跨 100 种语言、覆盖四大核心任务的实验,证明了一件让人有点不舒服的事实:大语言模型的表现,和你说的话「对不对」关系没那么大,和你说的话「常不常见」关系大得多。 这个发现之所以让人不舒服,是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。 ## 行业正在优化的三个维度,和一个被集体忽略的。 当前大模型训练的主流思路,围绕三个核心变量旋转: 维度核心逻辑代表工作数据质量垃圾进垃圾出,高质量标注才有好模型LIMA、Alpaca数据规模越多越好,Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难,课程学习提升泛化能力Curriculum Learning 这三个维度各有各的道理,也各有各的研究山头。它们构成了今天数据工程的「铁三角」。 但问题来了:如果你已经有了高质量、大规模、按难度排好序的数据,模型的表现就到顶了吗? Adam‘s Law 的回答是:远没有。 核心论点:数据工程存在被集体忽视的第四个维度:文本频率。质量、规模、难度构成的「铁三角」并不完整。 ## 「常见」不等于「简单」,这是最关键的区分。 读到这里,你很可能在想:这不就是说大白话吗?用简单的句子,降低 Flesch-Kincaid 可读性等级? 这恰恰是最容易掉进去的思维陷阱。 论文做了一个很硬的验证:他们计算了文本频率和多种传统复杂度指标之间的相关性,包括句法树深度、Flesch-Kincaid 可读性等级等。结果是,Pearson 相关系数接近 0。 换个说法:一句话可以语法复杂、用词专业,但同时是高频的,因为这种表达方式在互联网上大量出现。反过来,一句话可以很短很简单,但用了一个罕见的搭配,在模型眼里它就是「生僻」的。 回到叠叠社的例子。你给 AI 角色设定一条指令:「当用户在游戏中遭遇挫败性事件时,以富有同理心的方式进行情感支持。」这句话语法没毛病,意思很清楚,但它的表达方式在互联网上几乎不会出现。 换成「用户打游戏被打死了,安慰一下他」,意思完全一样,但这种说法模型在训练时见过无数次,理解起来毫无压力。 频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好,而是模型见过多少次。 ## 四大任务,100 种语言:数据说了什么? 理论再漂亮,得拿实验说话。Adam‘s Law 的验证覆盖面在 NLP 领域算得上少见的全面。 先看数学推理。研究团队在 GSM8K 数据集上测了三个模型,同一道数学题,同一个意思的 Prompt,只是换了一种更高频的表达方式: 题目没变,数字没变,逻辑关系没变,仅仅是换了一种说法,准确率平均涨了 8 个百分点。不是微调,不是换模型,就是改了几个词。 再看机器翻译。这组实验的规模更吓人,在 DeepSeek-V3 上测了 100 种语言到英语的翻译,99/100 种语言对在 BLEU 指标上获得提升,100/100 在 chrF 指标上全部提升,最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域,1 个 BLEU 点的提升就算有统计显著性了,5 个点是很大的跳跃。 更有意思的是频率-性能相关分析。 在老挝语、缅甸语、卡比尔语等语言上,频率和翻译质量的 Pearson 相关系数达到了 1.0——完美正相关。频率排序和翻译质量排序完全一致,频率越高翻译越好,没有例外。 常识推理和 Agent 工具调用的方向也一样,高频文本分区的表现一致地优于低频分区。三个模型,四个任务,100 种语言,箭头全都指向同一个方向。 ## 最反直觉的是:原始标注数据不是最优数据 如果前面的实验只是让人惊讶,接下来这个发现就是直接挑战信仰了。 在微调实验中,研究团队做了一件很「冒犯」的事:他们把原始标注数据(ground truth)用高频表达改写了一遍,然后用改写版数据去训练模型。 发现:高频改写版数据训练出的模型,效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上,改写版 BLEU 为 5.25,原始数据 BLEU 为 4.68,相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设,被实验数据打了脸。 你想想看,每个做微调的团队,花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过,把这些数据「翻译」成模型更熟悉的表达方式,效果可能更好。就像一个老师备课备了半天高级教案,结果发现,用学生最熟悉的语言讲一遍,他们学得更快。 那怎么知道哪种表达频率更高呢?尤其是面对 GPT-4、DeepSeek 这些闭源模型,你根本看不到它们的训练数据。 论文提出了一个叫 TFD(Textual Frequency Distillation,文本频率蒸馏) 的方法:让模型去续写故事。故事续写是个开放式任务,模型不会被特定提示引导,而是自然地用它最「顺手」的词汇和句式来写。 收集这些输出,统计里面不同表达的出现频率,就能反推模型内部的频率偏好。你不需要知道它读过什么书,只需要让它自由聊五分钟,从用词习惯就能猜个八九不离十。 ## 把频率变成课表:一个排序就值 30% 的提升 有了频率估算工具,下一步自然是把它塞进训练流程里。 论文提出的做法叫 CTFT(Curriculum Textual Frequency Training)—按文本的句子频率从低到高排列训练数据,让模型先学「生僻」的表达,再学「常见」的。 这借鉴了课程学习的思路,但排序的维度从「难度」换成了「频率」。 为什么是从低频到高频,而不是反过来?你可以这样理解:先让模型接触那些它不太「熟」的表达方式,强迫它建立更稳健的语义理解; 然后用高频数据收束能力,让它在最熟悉的概率空间里巩固。就像学外语,先啃生词再大量阅读日常文章,比一直泡在简单材料里进步快得多。 效果?在 Pangasinan 语言对上,CTFT 带来了 +29.96% 的 BLEU 提升。 论文实验的全部 8/8 个评估指标上,CTFT 都拿到了最优。 就改了个训练数据的排列顺序。 ## 不只是实验碰巧,背后有数学上的必然 到这里你可能会问:这是不是只是某些数据集上的巧合? 论文在附录中给了完整的理论证明。 核心逻辑是这样的:大语言模型靠最大似然估计训练,模型在预训练阶段读了海量文本,学的是词与词之间的条件概率分布。 一个表达方式在训练语料中出现越多,模型对它的概率估计就越准确,置信度就越高。你用高频表达跟它说话,等于在它最熟练的概率空间里操作,输出自然更稳、更可靠。 论文从 Zipf 定律出发,证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话:模型处理高频文本的时候,内部表示更精确,犯错的空间更小。 有意思的是,人脑也有类似的特性。 神经语言学研究(Desai et al., 2020; Alexandrov et al., 2011)发现,高频词汇在人类大脑中激发更强的神经响应,反应更快,理解更准。人脑如此,用海量文本喂出来的语言模型也如此。 「说模型听得懂的话」,不是修辞,是神经网络层面的物理现实。 Anthropic 的跟进,让这件事有了工业级背书 就在 Adam's Law 发表后不到一个月,一件事给这套理论加了一个意想不到的注脚。 2026 年 4 月下旬,Anthropic 发布 Claude Opus 4.7,官方迁移说明写道:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现,同样文本在新版中 token 消耗增加约 1.20–1.47 倍(英文/代码),而 CJK 字符仅增加约 1.01 倍。 业界普遍解读是:Anthropic 缩减或重组了词表,剔除了低频、容易退化的 token,与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致,时间比脸谱心智晚了将近一年。 学术先行一年,工业落地验证。 就像 DiT 架构和 Sora 的关系——研究者先在论文里验证路线,商业公司用产品规模证明其价值。 ## 从一个弹幕产品到数据工程的第四维度 回过头来看叠叠社这个产品,就会觉得有意思。 一个港中文博士、微软亚研院出来的 NLP 研究者,做了一个二次元弹幕伴侣。 乍一看画风不搭,但仔细想想,这恰恰是 Adam‘s Law 最好的试验场——实时互动场景对模型的反应速度和理解准确度要求极高,你打游戏被 boss 秒了,AI 角色得在半秒内给出一句贴切的吐槽,而不是两秒后蹦出一句文不对题的客套话。 高频表达在这种场景里的优势被放到了最大:同样的安慰、吐槽、欢呼,用模型最熟悉的说法来组织,反应就是更快、更准、更有人味。 而论文的影响范围远不止于此。 如果文本频率确实是影响 LLM 表现的基础性变量,那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时,要不要把低频表达替换成高频同义表达? 数据排序时,频率维度是否应该和难度维度一起考虑?Prompt 优化时,是不是应该先查一下这个表达在互联网上有多常见? 这些问题,在 Adam‘s Law 之前,几乎没人想过要问。 而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性,学术圈的先行探索也就有了最好的工业级注脚。 「数据质量」「数据规模」「训练难度」,这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」?在这篇论文之前,它甚至不在大多数研究者的词汇表里。 在 Let‘s Vision 展会上玩了半小时鬼泣之后,我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜,摸到了一篇可能改变大模型数据工程范式的论文。 所以下次写 Prompt 的时候,别急着堆术语、秀复杂句式。 先问自己一个问题:这句话,是我想说的方式,还是模型最熟的方式? 大模型不挑你说得好不好。它只挑你说得熟悉不熟悉。 你说它熟的话,它就给你靠谱的答案。你说它没怎么见过的话,它也只能用它没什么把握的概率去猜。 跟人打交道是这样,跟模型打交道也是这样。 叠叠社:nijigen.com.cn · 论文:arxiv.org/abs/2604.02176 · 代码:GitHub

译脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

Rohan Paul@rohanpaul_ai · 5月29日65

Yann LeCun's new paper asks when LeJEPA truly learns hidden world variables, and finds Gaussian structure is the key. Means LeJEPA can only reliably learn the real hidden causes behind what it sees when those causes are shaped like a balanced Gaussian cloud. The paper proves that, when the true hidden variables are independent Gaussian variables and the paired views come from a stable noisy process, the best LeJEPA solution must recover those variables up to a rotation or flip. The paper gives a math reason for when a self-supervised AI model is really learning the structure of the world, not just making useful features that happen to work on a test. ---- Link – arxiv. org/abs/2605.26379 Title: "When Does LeJEPA Learn a World Model?"

译Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。

Ethan Mollick@emollick · 5月29日61

Claude really can roleplay an economist. I love this little comment Claude made after some robustness checks on the paper it wrote: "On a 1–10 identification scale, I'd now put the paper at about 4.5 — better than the 3.5 I'd have given before these tests, but well short of quasi-experimental (~7). The framing "conditional association consistent with…" is still the right calibration. I shouldn't claim causal identification."

译Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文,经由 GPT-5.5 Pro 担任审稿人并指出错误后,Claude 对论文质量进行了量化自评:在1-10的识别度量表上,其稳健性检验后的评分从之前的3.5分提升至4.5分,但认为仍未达到准实验水平(约7分)。因此,Claude 将论文定性为“条件关联一致”的谨慎表述,而非声称因果识别。

Chubby♨️@kimmonismus · 5月29日37

Ngl, this made me laugh and didnt surprise me at all. Researchers at Emergence AI let different AI models run simulated societies, and the results were - well - expected: Claude built the most stable world with zero crime, while Grok collapsed into extinction within four days and Gemini produced hundreds of crimes.

译说实话,这让我笑了,但一点也不意外。 Emergence AI 的研究人员让不同的 AI 模型运行模拟社会,结果——嗯——在意料之中:Claude 建立了最稳定的世界,零犯罪;而 Grok 在四天内崩溃灭绝,Gemini 则产生了数百起犯罪。

Rohan Paul@rohanpaul_ai · 5月29日81

Big release - Open Source Recursive Self Improvement from @hexoai Shows AI agent can improve both how it works and what it internally knows after seeing its own task results. i.e. by repeatedly training on its own task feedback, not by relying on a human to hand-code every strategy. Most agents today are frozen workers: you can give them better prompts, better tools, better retry rules, and better code, but the actual model usually stays the same. SIA (Self Improving AI framework) changes the outer workflow, called the harness, and also changes the model’s weights, which are the internal settings that store learned patterns. which means task feedback changes the model’s internal parameters, pushing it toward domain knowledge. The paper reports a 56.6% gain on LawBench, 91.9% runtime reduction on GPU kernels, and 502% improvement on single-cell RNA denoising over baseline.

译hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。

AK@_akhaliq · 5月29日58

GEM Generative Supervision Helps Embodied Intelligence

译GEM 生成式监督助力具身智能

elvis@omarsar0 · 5月29日63

// Memory as Connectivity // One of the cleaner reframings of agent memory I have seen this month. FluxMem treats memory as the continuously evolving topology of a heterogeneous graph. Three stages run together: initial connection formation, feedback-driven refinement, and long-term consolidation of recurrent successful trajectories into reusable procedural circuits. During execution, it repairs missing links, prunes interference, and aligns abstraction granularity. SOTA on LoCoMo, Mind2Web, and GAIA across three distinct memory regimes. Paper: https://arxiv.org/abs/2605.28773 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译提出了一种名为FluxMem的AI智能体记忆架构,其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行:初始连接形成、基于反馈的精炼,以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中,它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

AK@_akhaliq · 5月28日54

SkillOpt Executive Strategy for Self-Evolving Agent Skills

译SkillOpt 智能体技能自进化的执行策略

AK@_akhaliq · 5月28日48

ProRL Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

译ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习

AK@_akhaliq · 5月28日55

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

译多模态智能体推理的探索性策略优化

AK@_akhaliq · 5月28日49

Contrastive Distribution Matching for Amortized Sequential Monte Carlo in Discrete Diffusion

译离散扩散中摊销序列蒙特卡洛的对比分布匹配

AK@_akhaliq · 5月28日64

PhysX-Omni Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

译PhysX-Omni 统一的、可直接用于仿真的物理3D生成模型,支持刚体、可变形体和铰接体对象。

AK@_akhaliq · 5月28日54

MRT Masked Region Transformer for Layered Image Generation and Editing at Scale

译MRT 用于大规模分层图像生成与编辑的掩码区域Transformer

Rohan Paul@rohanpaul_ai · 5月28日62

Super important paper from Univ of Texas. AI agents can slowly become less reliable after deployment, even when the model itself does not change. The problem is that agents are often judged when they are fresh, but real agents keep changing because they summarize old chats, store more memories, update facts, and go through maintenance. An agent that remembers you across weeks is really a small operating system wrapped around a language model: it writes notes, compresses them, retrieves them, updates them, and occasionally cleans house. Every one of those steps can quietly rot. A medication dose can become “a daily medication,” two similar clients can blur into one, a canceled subscription can remain active, and a schedule can vanish after a maintenance pass. The uncomfortable finding is that the agent may still sound competent while becoming less exact. The proposed AgingBench, a benchmark that checks whether an agent stays reliable across many sessions instead of only checking one clean starting point. It studies 4 ways agents age: summaries can drop key details, similar memories can get mixed up, updated facts can stay stale, and maintenance can suddenly break memory. The deeper lesson is that “give it more memory” is often the wrong repair. If the fact was never written, retrieval cannot save it. If the fact was written but crowded out, better summarization will not fix it. If the fact is present but unused, the problem is not storage but the agent’s decision to trust or ignore what it retrieved. This paper reframes deployed agents less like static models and more like aging infrastructure. ---- Link – arxiv. org/abs/2605.26302 Title: "Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems"

译论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。

Rohan Paul@rohanpaul_ai · 5月28日71

Image diffusion Transformers train poorly because their layers pass information in a fixed, outdated way. Now they can train much faster by changing how layers share information. With this paper, the same image quality arrived with 8.75x fewer training iterations. The surprise is not that Diffusion Transformers had an inefficiency, but where it was hiding. Researchers have spent years refining attention, conditioning, tokenization, objectives, and autoencoders, while leaving the residual stream mostly untouched because it looked like plumbing rather than intelligence. In a standard residual stack, every layer keeps adding its output to the running stream, which sounds harmless until the stream’s magnitude swells, gradients fade backward, and neighboring blocks begin saying nearly the same thing. That is bad for any Transformer, but it is especially awkward for diffusion, because denoising is not one fixed task repeated at every step. The authors found 3 signs that this old setup hurts the model: signals get too large going forward, learning signals fade going backward, and nearby blocks often produce almost the same features. Their fix is Diffusion-Adaptive Routing, a replacement that lets each layer choose which earlier layer outputs to use, and the choice changes with the denoising timestep. The big deal is that the paper does not add a new image dataset, loss, tokenizer, or attention trick, but instead questions the old residual connection that most models kept copying from language Transformers. ---- Link – arxiv. org/abs/2605.20708 Title: "Rethinking Cross-Layer Information Routing in Diffusion Transformers"

译传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

Ethan Mollick@emollick · 5月28日55

There is a lot being written about the stylistic tells of AI writing (em-dashes, etc.) but this paper looks at AI narrative tells Fascinating differences between AI & human narrative, and asking AI to write in different styles doesn't do much to change it https://arxiv.org/abs/2604.03136

译关于AI写作的风格特征(如破折号等)已有大量讨论,但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异,要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136

AK@_akhaliq · 5月28日65

Gamma-World Generative Multi-Agent World Modeling Beyond Two Players

译Gamma-World 超越双人对战的生成式多智能体世界建模

Rohan Paul@rohanpaul_ai · 5月28日65

Long-running language agents may work better if they periodically stop to consolidate memory. The problem is that today’s transformer agents get slower and more expensive as their context grows, because attention has to keep checking more past tokens. The usual fix for long context is to keep more tokens nearby, but that turns every next-token prediction into a larger search through the past. The sharper idea here is that memory is not only storage. Sometimes the hard part is converting a messy stretch of experience into a state that can actually be used later. So the paper’s idea is to add a sleep phase, where the model pauses, rereads recent context several times, writes the useful information into fixed-size memory layers, and then clears the short-term attention cache. During sleep, the model runs several offline passes over recent context, writes the result into fast weights inside its state-space blocks, then clears the attention cache. This means the model pays extra compute while sleeping, not while answering, so normal prediction can still happen with 1 forward pass. The authors test this on cellular automata, graph lookup, and GSM-Infinite math problems, where the model must use old information that is no longer sitting in its attention cache. The main result is that longer sleep improves performance, especially on harder cases that need deeper reasoning rather than just remembering a fact. The big deal is that long-horizon agents may not need to carry bigger and bigger raw context forever, because they can consolidate the important parts and safely forget the raw tokens. ---- Link – arxiv. org/abs/2605.26099 Title: "Language Models Need Sleep"

译针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。

elvis@omarsar0 · 5月28日57

// Your Agents are Aging Too // Huh!? They need "sleep," and now they are aging? Joke aside, great write-up on reliable agentic engineering. This new research introduces AgingBench, a longitudinal reliability benchmark. It organizes agent aging into four mechanisms, including compression aging and interference aging, and measures not just whether deployed agents degrade but what form the degradation takes and where repair should target. We benchmark agents on day one and then deploy them for months. That gap hides a basic systems question. How long does an agent stay reliable after deployment? Even with frozen model weights, an agent's effective state keeps shifting. It compresses interaction history, retrieves from a growing memory store, revises facts after updates, and goes through routine maintenance. Reliability becomes a lifespan property of the full harness, not a snapshot of the base model. Paper: https://arxiv.org/abs/2605.26302 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。

Qwen@Alibaba_Qwen · 5月28日69

Fast, faster, Qwen. 🚀 Thrilled to see Qwen3.5 reaching a record-breaking 580 tps for agentic workloads on the TokenSpeed engine! This milestone wouldn't be possible without our incredible partners. Huge thanks to @lightseekorg, @NVIDIAAI, the Mooncake team, and @tri_dao for the pioneering FA4 optimization. Together, we are pushing the boundaries of open-source LLM inference. 🤝✨ Dive into the full @PyTorch blog post below! 👇 https://pytorch.org/blog/up-to-580tps-new-speed-record-of-qwen3-5-397b-a17b-on-gpu-for-agentic-workloads-with-tokenspeed/ #Qwen #Qwen3_5 #TokenSpeed #LLM #Inference #AI #PyTorch #OpenSource #AgenticAI #HighPerformance

译Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

Berryxia.AI@berryxia · 5月27日61

鹅厂好的新基准测试,叫Chronicles-OCR。 腾讯HY实验室和四家机构一起做的,专门测AI对3000年中国古文字的识别能力。 2800张专家标注的图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。 结果28个前沿多模态模型全军覆没。 最强的VLLM在甲骨文上也只拿到14%的准确率。 端到端检测的H-mean最高才16.5%。 GPT-5和Gemini 2.5 Pro直接接近0。 更反直觉的是,开启reasoning模式反而让表现变差。 Chain-of-thought在感知失败的时候,反而放大了幻觉。 模型其实根本没在认字,它认的是载体。 古文字分类准确率能到96.7%,靠的是看到龟壳、青铜器这些容器,而不是看懂上面的字符。 到底非遗中的价值,AI的攻克只有九牛一毛。

译腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。

Berryxia.AI@berryxia · 5月27日55

Minmax 最近沉寂了挺久~ 昨天看到应该是M3蓄势待发了 刚刚留意到MiniMax AI的动态。 他们六个月前在12月23日开源了M2模型。 这半年里,社区把他们的几个核心系统直接拿去用了:CISPO(裁剪重要性采样权重策略优化)、Forge RL System(锻造强化学习系统),还有Self-Evolution(自我进化)。 几乎每一版模型上线,都冲上Hugging Face榜首。 现在他们把M2背后的所有工作系统性整理成论文,挂到了arXiv上。 不是简单发个权重,而是把当时的设计思路、训练细节、系统架构全摊开。 这步其实挺关键。 开源社区最缺的往往不是新模型,而是能看懂为什么它能跑通的完整路径。 MiniMax Head of DevRel Ryan Lee在帖子里说,现在是时候翻开新的一章。 M3已经在路上了,MSA论文也快发布。 他们没有停在刷榜,而是把过去半年踩过的坑、验证过的方案沉淀下来,让后来人少走弯路。 这才是真正推动开源生态往前滚的做法。 兄弟们, 你们觉得开源大模型的下一阶段,是继续卷参数和榜单,还是像MiniMax这样把系统和方法论也彻底公开? M3如果把这些积累再往前推一步,你们最期待它在哪个方向有突破?

译MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

Saining Xie@sainingxie · 5月27日69

📸latest in our cambrian series: cambrian-p, p for pose. i think pose is probably the minimal sufficient 3d signal (and it’s easy to get!) that we need for robust video multimodal models -- jointly modeling frames and pose turns image sequences into a globally grounded structure.

译推文介绍了Cambrian-P,这是一个原生集成相机位姿的多模态大语言模型。其核心观点是,相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿,模型能将图像序列转化为全局结构化的表示。引用推文指出,当前多模态大语言模型在识别视频活动方面表现优异,但对视频中的空间结构及自主体/物体动态的理解仍然不足,而相机位姿信息是弥补这一差距的关键缺失环节。

宝玉@dotey · 5月27日61

以我的经验,只有明确的可以程序自动验收标准的 Skills 才能自我进化,比如说你写个 Skill 去优化代码性能,这个代码性能是可测量可量化的,那么给一些测试样例去优化 Skill,那么能越来越好。 对于一些没有明确的验收标准的 Skill,比如你写一个写作的 Skill,写作的好坏并没有很明确的验收标准,只能是 AI “自己打分”,但是这个打分其实和真实人类的体感还是有差距,AI 打分很好的稿子可能真人看起来一股 AI 味。 真想写好 Agent Skills,还是要人去用,人去指出优化的方向,才能优化好。 但有一点,没必要人自己去写 Skill,最好是人指挥 AI 去优化 Skill,AI 在具体执行上是做的蛮好的。 另外做好版本管理,一轮一轮迭代,有时候还会出现负优化,得回退到旧的版本。

译文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。

karminski-牙医@karminski3 · 5月27日69

什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分! 这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙. 框架的设计也很值得做 Agent 框架的同学借鉴, 比如: 它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本). 然后就是 harness 流程了:每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并. 最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改. 甚至他们还设计了被拒编辑缓冲区, 用来存储训练过程的反面胶材, 以及周期性慢速/元更新, 这个则是跑完一个周期后, 会进行一次盘点, 类似于让框架形成记忆, 能更好的维持后续迭代. 这篇论文的结论十分深刻: skill(prompt) 完全配得上, 也需要一套系统级的训练流程. 原文中的描述直接是: 我们主张, skill 应当作为 Agent 的外部冻结状态来被"训练", 并且训练过程还要"让权重空间优化具有可重复性"! 这是不是意味着, 提示词工程(Prompting)和模型训练(Training) 的界限将逐渐变得模糊? 而提示词工程完全进入了机器学习的领域. 也许很快, 我们再也不需要人类去手动瞎改和调试提示词了! 论文地址: http://arxiv.org/pdf/2605.23904 #skillopt #微软 #提示词工程 #harness

译微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

Rohan Paul@rohanpaul_ai · 5月27日74

AI can make people feel more efficient even when they are not actually becoming much more efficient. New paper from MIT, Stanford, New York Univ, Princeton. That people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- arxiv. org/abs/2605.22687 "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"

译MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

Ant Ling@AntLingAGI · 5月26日69

From IcePop to KPop — our team keeps pushing on RL training stability for large MoE models. 👇 KPop replaces the fixed-ratio mask with an adaptive binary-KL region that matches each token's inherent noise. More robust updates, stable long-horizon agentic RL. Ring-2.6-1T → 76+ on SWE-bench Verified, pure RL. Congrats to @Jia__Guo & team! Blog: https://ringtech.notion.site/kpop

译团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
21:09
AK@_akhaliq
58
GrepSeek 训练搜索智能体以直接交互语料库
智能体检索增强搜索论文/研究
14:00
OpenClaw🦞@openclaw
精选72
与 @nvidia 合作,我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集: - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security
智能体Hugging Face安全/对齐论文/研究

推荐理由:OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果,一半被标风险但真正恶意的不到千分之三,不同扫描器几乎没共识。做 agent 安全的应该看看。
10:04
Rohan Paul@rohanpaul_ai
62
AI聊天机器人处理新闻:优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。

检索增强搜索论文/研究
05:53
Rohan Paul@rohanpaul_ai
45
效率增益错觉:人们低估AI使用率并高估其在简单任务上的收益

MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。

数据/训练论文/研究
01:48
elvis@omarsar0
60
效率前沿

该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体arXiv检索增强论文/研究
5月30日
18:46
Rohan Paul@rohanpaul_ai
69
RNG:规模化部署的扁平数据中心网络

亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络,并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示,RNG在性能上与传统fat-tree网络持平,但硬件需求减少69%,吞吐量提升33%,并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络,其分散负载的能力有助于提升AI集群训练效率。

论文/研究部署/工程
01:14
Fei-Fei Li@drfeifei
精选83
我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face图像生成数据/训练论文/研究

推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
00:45
AK@_akhaliq
55
DynaFLIP 通过三模态动态引导的表征重新思考机器人感知
arXiv具身智能多模态论文/研究
00:15
AK@_akhaliq
62
Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模
具身智能多模态开源生态论文/研究
00:15
AK@_akhaliq
54
OmniRetrieval 跨异构知识源的统一检索
检索增强论文/研究
5月29日
23:14
elvis@omarsar0
68
AI智能体评估新指标:有效反馈计算提升成功率

新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。

智能体arXivMCP/工具论文/研究
18:15
Rohan Paul@rohanpaul_ai
57
本文展示了大语言模型如何在保持答案质量的同时,通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。

arXiv推理论文/研究部署/工程
17:15
Rohan Paul@rohanpaul_ai
60
SkillOpt:实现智能体技能自我进化的执行策略

微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

智能体Microsoft数据/训练论文/研究
11:34
Berryxia.AI@berryxia
59
文本频率定律的发现与验证

脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

AnthropicDeepSeek数据/训练论文/研究
09:44
Rohan Paul@rohanpaul_ai
65
LeJEPA何时学习世界模型?

Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。

Meta多模态论文/研究
09:43
Ethan Mollick@emollick
61
Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文,经由 GPT-5.5 Pro 担任审稿人并指出错误后,Claude 对论文质量进行了量化自评:在1-10的识别度量表上,其稳健性检验后的评分从之前的3.5分提升至4.5分,但认为仍未达到准实验水平(约7分)。因此,Claude 将论文定性为"条件关联一致"的谨慎表述,而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

AnthropicOpenAI大佬观点论文/研究
06:44
Chubby♨️@kimmonismus
37
说实话,这让我笑了,但一点也不意外。 Emergence AI 的研究人员让不同的 AI 模型运行模拟社会,结果--嗯--在意料之中:Claude 建立了最稳定的世界,零犯罪;而 Grok 在四天内崩溃灭绝,Gemini 则产生了数百起犯罪。
安全/对齐论文/研究
02:44
Rohan Paul@rohanpaul_ai
精选81
hexoai开源SIA框架:AI智能体实现递归自我改进

hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。

Kunal Bhatia: Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...

智能体数据/训练论文/研究

推荐理由:不再只是给AI换提示词,SIA框架连模型自己的权重都更新了,在三个任务里分别提升了56%、502%和91%加速,开源出来会让整个Agent开发范式重新思考。
00:13
AK@_akhaliq
58
GEM 生成式监督助力具身智能
具身智能论文/研究
00:08
elvis@omarsar0
63
FluxMem:将AI智能体记忆重构为动态演化的图拓扑

提出了一种名为FluxMem的AI智能体记忆架构,其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行:初始连接形成、基于反馈的精炼,以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中,它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

智能体arXiv论文/研究
5月28日
23:43
AK@_akhaliq
54
SkillOpt 智能体技能自进化的执行策略
智能体论文/研究
23:43
AK@_akhaliq
48
ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习
数据/训练论文/研究
23:43
AK@_akhaliq
55
多模态智能体推理的探索性策略优化
智能体arXiv多模态推理
23:12
AK@_akhaliq
49
离散扩散中摊销序列蒙特卡洛的对比分布匹配
arXiv论文/研究
23:12
AK@_akhaliq
64
PhysX-Omni 统一的、可直接用于仿真的物理3D生成模型,支持刚体、可变形体和铰接体对象。
具身智能论文/研究
23:12
AK@_akhaliq
54
MRT 用于大规模分层图像生成与编辑的掩码区域Transformer
图像生成论文/研究
20:11
Rohan Paul@rohanpaul_ai
62
研究发现AI智能体"衰老"导致可靠性下降,提出新基准AgingBench

论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。

智能体论文/研究部署/工程
19:11
Rohan Paul@rohanpaul_ai
71
Diffusion Transformers训练提速8.75倍:革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv图像生成数据/训练论文/研究
12:36
Ethan Mollick@emollick
55
关于AI写作的风格特征(如破折号等)已有大量讨论,但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异,要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136
arXiv数据/训练论文/研究
10:38
AK@_akhaliq
65
Gamma-World 超越双人对战的生成式多智能体世界建模
智能体arXiv论文/研究
10:07
Rohan Paul@rohanpaul_ai
65
周期性暂停以巩固记忆或能改善长期语言智能体的表现

针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。

智能体arXiv推理论文/研究
02:02
elvis@omarsar0
57
AI智能体老化基准AgingBench发布

这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。

智能体arXiv论文/研究
01:02
Qwen@Alibaba_Qwen
精选69
Fast, faster, Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由:Qwen3.5在TokenSpeed上跑出580 tps,这是开源LLM推理的极限突破,对agent类应用是实实在在的性能跃进,PyTorch这篇博客值得每一个做推理部署的细读。
5月27日
21:27
Berryxia.AI@berryxia
61
腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准
20:27
Berryxia.AI@berryxia
55
MiniMax 发布 M2 论文,预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究
10:31
Saining Xie@sainingxie
69
推文介绍了Cambrian-P,这是一个原生集成相机位姿的多模态大语言模型。其核心观点是,相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿,模型能将图像序列转化为全局结构化的表示。引用推文指出,当前多模态大语言模型在识别视频活动方面表现优异,但对视频中的空间结构及自主体/物体动态的理解仍然不足,而相机位姿信息是弥补这一差距的关键缺失环节。

Jihan Yang: Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...

多模态论文/研究
08:59
宝玉@dotey
61
Skill自我进化需明确标准,SkillOpt框架实现迭代优化

文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究
07:21
karminski-牙医@karminski3
69
微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练
01:04
Rohan Paul@rohanpaul_ai
74
AI效率增益幻觉研究:感知效率与实际收益的落差

MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

现象/趋势论文/研究
5月26日
23:59
Ant Ling@AntLingAGI
69
团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
‹ 上一页
1…56789…16
下一页 ›