AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 504 条
全部一手资讯X论文
Anthropic@AnthropicAI · 4月30日56

In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've learned during training—including potential misalignment.

译在新的Anthropic Fellows研究中,我们探讨了“内省适配器”:这种工具能让语言模型自我报告在训练过程中习得的行为——包括潜在的错位。 [引用 @kshenoy_]:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

elvis@omarsar0 · 4月29日55

// Agentic Harness Engineering // Pay attention to this one, AI devs. (bookmark it) Most coding-agent harnesses are still tuned by hand or brittle trial-and-error self-evolution. This new work introduces Agentic Harness Engineering, a framework that makes harness evolution observable. They do this through three layers: components as revertible files, experience as condensed evidence from millions of trajectory tokens, and decisions as falsifiable predictions checked against task outcomes. Each edit becomes a contract you can verify or revert. Results: pass@1 on Terminal-Bench 2 climbs from 69.7% to 77.0% in ten iterations, beating human-designed Codex-CLI (71.9%) and self-evolving baselines like ACE and TF-GRPO. The evolved harness also transfers across model families with +5.1 to +10.1 point gains, while using 12% fewer tokens than the seed on SWE-bench-verified. Harness work is the biggest hidden cost in most agent systems. This is the first credible recipe for letting the harness improve itself without drifting into noise. Paper: https://arxiv.org/abs/2604.25850 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

Rohan Paul@rohanpaul_ai · 4月29日62

Long‑context breakthrough paper from AMD. Proves that long-context ability can be added after pretraining in a cheaper way, with far less memory use and only a small drop in normal short-context quality. HyLo hybrid LLM architecture extends usable context up to 2M tokens with over 90% KV‑cache reduction and gains on long‑context benchmarks like RULER The problem is that normal Transformer LLMs get costly and memory hungry on long inputs, while most newer hybrid models still need full pretraining from scratch. HyLo’s answer is structural triage. Keeps some attention layers for quality, replaces many others with cheaper layers that track long sequences with fixed memory, and starts from an already trained model. They then train the converted model in 2 stages, first to stay close to the original model and then to work at 8K and 64K context with help from a larger teacher model. Across Llama and Qwen models around 1B to 3B size, HyLo kept short-range results close to standard baselines and beat earlier upcycled hybrids on long-context tests. That matters because it gives model builders a cheaper way to get much longer context and much lower memory use without throwing away a strong existing checkpoint. Hybrid scaling may be less about inventing a brand new architecture, and more about deciding which parts of attention are truly worth keeping. ---- Paper Link – arxiv. org/abs/2604.24715v1 Paper Title: "Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling"

译AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

向阳乔木@vista8 · 4月29日53

姚老师和张凯经过大量数据研究分析写的论文,还有一手实战经验。 用科学的方法做GEO,像用数据洞察做增长一样。

译姚老师和张凯的GEO论文已在全球最大论文平台arxiv完成审核并发布,这是全球第二篇GEO专项研究。论文基于今年3月最新数据,涵盖大量Prompt、引用和AI抓取记录,采用科学方法进行GEO分析,类似数据驱动的增长洞察。研究成果以正式报告形式呈现,源数据已开源在GitHub。作者表示,如果对社区有帮助,将继续抓取更多数据进行专项研究并开放成果。

Berryxia.AI@berryxia · 4月29日61

🚀 视频模型其实早就懂3D了! 微软World-R1用RL直接唤醒,无需改架构、无视频训练数据、无额外推理成本! 1. 把相机轨迹嵌入扩散噪声,零额外模块 2. 用Depth Anything 3 + Qwen3-VL做3D几何评判器 3. 周期性解耦训练,建筑保持刚性、旗帜依然飘动 4. 仅用3K条文本提示完成训练,效果惊人 视频生成迈向真实世界模拟的关键一步! 项目地址: https://github.com/microsoft/World-R1

译微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Berryxia.AI@berryxia · 4月29日52

3D 网格生成重磅突破!SATO 来了! • 从点云(Point Clouds)直接生成完整网格 • Strip-based tokenization,实现超干净边缘流与结构 • 原生 UV segmentation 直接 baked into 生成过程 • 单个模型同时支持三角网格 + 四边形网格

译3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

elvis@omarsar0 · 4月29日57

// From Skill Text to Skill Structure // One of the more practical skill papers I've seen this month. SKILL.md files entangle invocation interface, execution flow, and tool/resource side effects in one blob of natural language. This makes downstream discovery and risk review brittle. New research proposes SSL, a three-layer typed JSON representation: a Scheduling layer for invocation signals, a Structural layer for execution scenes, and a Logical layer for atomic actions and resource use. It's drawn from Schank and Abelson's classical work on scripts, MOPs, and conceptual dependency. An LLM-based normalizer converts existing SKILL.md files into this structure. The numbers: Skill Discovery MRR jumps from 0.573 to 0.707, and Risk Assessment macro F1 from 0.744 to 0.787. They release a 6,184-skill corpus, 403 task queries, and 500 risk-labeled skills. As skill registries scale, you can't keep treating capability packages as unstructured prose. Paper: https://arxiv.org/abs/2604.24026 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

宝玉@dotey · 4月29日61

港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述,试图解决一个越来越尴尬的问题:“世界模型”这四个字在不同圈子里意思完全不同。 做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统,做视频生成的说的是 Sora 那种画面生成器,做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的,论文之间根本没法比。这篇论文提出了一个“能力等级 x 领域法则”的二维框架,想把这些散落的社区拉到同一张地图上。 能力分三层: L1 预测器只管预测下一步, L2 模拟器能做多步推演且推演结果要遵守所在领域的基本规则(物理世界不能让杯子穿桌子,软件世界不能调不存在的 API), L3 进化器能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。 领域分四类: 物理世界(机器人、自动驾驶)、 数字世界(网页浏览器、代码、GUI)、 社会世界(多智能体交互、社会模拟)、 科学世界(天气预报、材料发现、药物设计)。 每个领域对“什么算合法的状态转换”有完全不同的约束,失败模式也不同。 综述 400 多篇工作后有几个跨领域的共性发现: 视频生成模型视觉逼真度远超物理忠实度,最好的模型在物理一致性测试上通过率只有 26.2%; LLM 驱动的社会模拟能复现舆论极化等涌现现象,但智能体有系统性的趋同偏差,跟真实人类行为分布偏离大; 目前 L3 做得最成熟的是自动化科学实验,比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物,失败实验被提炼为持久知识而非丢弃。 论文末尾有个观察: 从牛顿定律到麦克斯韦方程,人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。 现在的神经网络把所有规则藏在权重里,L1 和 L2 阶段够用,但到了需要修改模型结构本身的 L3,这种隐式表示就成了障碍。 世界模型的终局,是越来越大的神经网络,还是终究要回到可编辑的符号规则?

译针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

Epoch AI@EpochAIResearch · 4月29日59

GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines multiple benchmarks into a unified scale.

译GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

AK@_akhaliq · 4月29日66

Meta presents Tuna-2 Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation paper: https://huggingface.co/papers/2604.24763

译Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763

AK@_akhaliq · 4月29日57

Meta presents TUNA Taming Unified Visual Representations for Native Unified Multimodal Models paper: https://huggingface.co/papers/2512.02014

译Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014

AK@_akhaliq · 4月29日57

From Skills to Talent Organising Heterogeneous Agents as a Real-World Company paper: https://huggingface.co/papers/2604.22446

译从技能到人才 将异构智能体组织为现实世界的公司 论文: https://huggingface.co/papers/2604.22446

AK@_akhaliq · 4月29日58

Apple presents Stochastic KV Routing Enabling Adaptive Depth-Wise Cache Sharing paper: https://huggingface.co/papers/2604.22782

译Apple 推出随机键值路由 实现自适应深度缓存共享 论文: https://huggingface.co/papers/2604.22782

AK@_akhaliq · 4月29日53

Microsoft presents World-R1 Reinforcing 3D Constraints for Text-to-Video Generation paper: https://huggingface.co/papers/2604.24764

译微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764

Rohan Paul@rohanpaul_ai · 4月28日48

Great survey paper on better AI memory. Modern AI needs three different memory systems: weights for slow, durable knowledge, retrieval for fresh and specific facts, and agent memory for ongoing goals, preferences, and experience. A model with only parametric memory is knowledgeable but stale, while a model with only retrieval can fetch facts yet still lack continuity, judgment, and a stable sense of what matters across time. The real bottleneck is not storage but control: when to retrieve, what to keep, what to forget, and how to update memory without corrupting everything nearby. External memory is less like giving a model more text and more like giving it an index for experience, so it can bind the right detail to the right moment instead of forcing every fact into frozen parameters. The point is that memory turns AI from a predictor into a system. Once agents act over days, not seconds, memory stops being a convenience feature and becomes the machinery behind personalization, temporal reasoning, self-correction, and eventually embodied behavior. The paper is also careful about what remains unsolved. Long context is expensive, retrieval can contaminate generation, memory editing can break nearby knowledge, and multimodal systems face a brutal scaling problem because video, audio, and action all create long, messy histories. So the distance from human memory is still large. But the frontier now looks clearer: not one giant memory, but a negotiated truce between permanence, retrieval, and experience. ---- Paper Link – arxiv. org/abs/2601.09113 Paper Title: "The AI Hippocampus: How Far are They From Human Memory?"

译现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

Rohan Paul@rohanpaul_ai · 4月28日47

AI agents fail not at calling tools, but at coordinating many tools reliably over time. This paper is a comprehensive review of recent progress in multi-tool LLM agents. The main proposal is to treat multi tool orchestration as its own problem, meaning the agent must choose, order, monitor, and sometimes redo many tool actions. The authors review the field across 6 linked areas: planning at run time, training data and tuning, safety, efficiency, missing tool handling, and benchmarks that test harder interactive tasks. Their main finding is that progress now depends less on single call accuracy and more on graph style planning, memory, verification, rollback, and better ways to evaluate long running tool use. That matters because an agent can look smart on a small demo yet still fail badly in software work, enterprise systems, phones, or web tasks if it cannot keep state straight and recover safely. And also current benchmarks and research are shifting away from simple single-call tests toward harder real-world tests where agents must stay reliable over long tool chains. ---- Paper Link – arxiv. org/abs/2603.22862v2 Paper Title: "The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration"

译本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

meng shao@shao__meng · 4月28日71

VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索" GUI 智能体的瓶颈不是模型不够强,而是缺少"何时停、何时换路、何时查资料"的强制机制。现在 GUI 智能体们的常见问题: · 假性成功:OSWorld 上 86%+ 的失败是智能体自以为做完了。 · 死循环:在同一动作或界面间反复打转,烧光步数。 VLAA-GUI 方法论:三个模块 · STOP Completeness Verifier:把任务改写为可视化成功标准;独立模型复审 done(),证据不足即驳回 · RECOVER Loop Breaker:三级递进:换交互模态 → 换整体策略 → 外部裁判禁用重复动作 · SEARCH Search Agent:直接把"How to..."丢给搜索型 LLM,返回纯文本教程注入上下文(避开浏览器视觉链) 关键数据 OSWorld-Verified(人类 72.4%) · VLAA-GUI + Opus 4.6 → 77.5%(首次超人类,新 SOTA) · Opus 4.5 / Gemini 3.1 Pro 同框架下也越过人类线 · Sonnet 4.6 仅 15 步即 64.1%,超过此前最佳 50 步系统 WindowsAgentArena · Gemini 3 Flash + VLAA-GUI → 61.0%(SOTA,比 GPT-5 系高 ~4%) 消融(WAA, 满分 60.4) · 去 Verifier → 51.3 / 去 Loop Breaker → 52.6 / 去 Search → 49.4(三者皆不可少) 项目地址: https://ucsc-vlaa.github.io/VLAA-GUI/

译研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。

Ethan Mollick@emollick · 4月28日60

This is an incredibly cool experiment It is also fascinating that the model knows information up to 1931, but, at least in some science topics, seems very stuck in the early 1900s. For example, it defends the lumiferous aether hypothesis & has a distrust of special relativity

译研究人员推出了仅使用1931年前文本训练的13B模型Talkie,旨在探索语言模型的泛化能力。该实验发现,模型虽掌握截至1931年的信息,但在某些科学议题上明显停留在20世纪初的认知框架中。例如,它仍坚持“发光以太”假说,并对狭义相对论表现出不信任。这凸显了训练数据的时间范围会深刻固化模型的知识体系与世界观。

Rohan Paul@rohanpaul_ai · 4月28日56

Optimizing RAG for precision can quietly hurt retrieval accuracy by 40%, putting agentic pipelines at risk. Redis says in new research that enterprise teams fine-tuning RAG embedding models for improved precision may be unknowingly reducing the retrieval quality those pipelines need. Training embeddings to notice meaning-level edits can damage the retrieval they were built for. This paper says 1 embedding cannot do broad search and exact meaning checks at the same time. The reason is simple. A dense retriever squeezes an entire sentence into one vector, then asks cosine similarity to decide both topical relevance and exact meaning. That works well when the job is broad recall. It works much less well when the difference is structural, like “the dog bit the man” versus “the man bit the dog,” or a negation that reverses the claim. Here’s the deeper point. When you force one embedding to separate those near-misses, you spend representational space that was previously helping the model group related material across domains. The paper shows that this extra sensitivity is uneven. Negation and spatial flips improve, but binding errors remain stubborn, which is precisely the kind of mistake that matters in contracts, compliance, and other role-sensitive work. So the fix is not to keep squeezing harder on the same vector. The better design is two-stage retrieval: use embeddings for fast recall, then verify the shortlisted results with token-level comparisons that can actually see structure. That is also why MaxSim helps relevance but still misses identity-level errors, while a small Transformer over token similarity maps does better at rejecting near-misses. The real lesson is not that RAG fails. It is that “almost the same sentence” is not the same thing as “the same meaning,” and systems that blur those two will fail most confidently where precision matters most. ---- Paper Link – arxiv. org/abs/2604.16351 Paper Title: "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization"

译最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

AK@_akhaliq · 4月28日49

Building a Precise Video Language with Human-AI Oversight paper: https://huggingface.co/papers/2604.21718

译构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718

AK@_akhaliq · 4月28日53

Agentic World Modeling Foundations, Capabilities, Laws, and Beyond paper: https://huggingface.co/papers/2604.22748

译能动世界建模 基础、能力、法则与超越 论文: https://huggingface.co/papers/2604.22748

AK@_akhaliq · 4月28日48

Video Analysis and Generation via a Semantic Progress Function paper: https://huggingface.co/papers/2604.22554

译通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554

elvis@omarsar0 · 4月28日69

How do AI agents spend your money:

译一项针对AI智能体在编码任务中token消耗成本的系统性研究发现,其消耗量可达聊天或代码推理的约1000倍,且相同任务在不同运行中的消耗差异高达30倍。更高的token支出并不直接带来更高的准确性,性能在中等成本时达到峰值后趋于饱和。模型自身也难以预测其token使用量,自我预测相关性最高仅0.39。不同模型在相同任务上可能多消耗150万token而并无质量提升。这表明智能体的运行时成本具有高方差、与质量关联弱、甚至模型自身也无法预测的特性,这将影响团队的预算规划、模型间路由策略以及终止任务运行的决策。

elvis@omarsar0 · 4月27日63

// Agentic World Modeling // Massive 40-author survey just dropped. Cleanest taxonomy of world models in agent research I've seen. (bookmark it) The paper proposes a "levels × laws" framework. Three capability levels: > L1 Predictors do one-step transitions > L2 Simulators do multi-step action-conditioned rollouts > L3 Evolvers self-revise as the world changes It discusses four law regimes, including physical, digital, social, scientific. They synthesize 400+ works and 100+ representative systems spanning model-based RL, video generation, web/GUI agents, multi-agent simulation, and scientific discovery. The framework also identifies failure modes and proposes evaluation principles for each level. Why it matters: as agents shift from chatbots to goal-accomplishers, the bottleneck moves from language to environment. This is the first paper that gives builders a shared vocabulary for designing and evaluating world models across communities that have been working in isolation. Paper: https://arxiv.org/abs/2604.22748 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。

elvis@omarsar0 · 4月27日62

I consider this one of the most interesting research themes happening in AI today. Worth taking a look. As I automate more with agents, I feel like there is all kinds of incredible opportunities to optimize multi-agent systems to do things like automated knowledge discovery or tuning advanced AI systems that gauge other AI agents at software engineering or AI engineering tasks. All kinds of new agent architectures, algorithms, prompting techniques, and data processing and synthesis techniques just waiting to be discovered.

译推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。

elvis@omarsar0 · 4月27日64

NEW paper from Alibaba. A 30B MoE with only 3B active params matches Qwen3-235B on real tool-use workloads. AgenticQwen-30B-A3B: 50.2 average on TAU-2 + BFCL-V4 Multi-Turn. AgenticQwen-8B: 47.4. Both more than double their vanilla Qwen baselines and close most of the gap to a 235B model. How: two RL flywheels run in parallel. - The reasoning loop mines the model's own errors into harder problems each round. - The agentic loop grows simple linear tool-use trajectories into multi-branch behavior trees. - Simulated users actively try to mislead the agent. The training distribution gets harder on its own. Why it matters for agent devs: you can stop paying frontier prices for routine tool-use workloads. And the flywheel recipe is reusable. Generate your hard examples from your own agent's failures, not from static synthetic data. Paper: https://arxiv.org/abs/2604.21590 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。

elvis@omarsar0 · 4月27日54

Here is a very common problem when building complex agents. Long-horizon agents (in particular) fail in two ways: the decision-maker can't decompose well, or the skill library goes stale. This new research tackles both at once. The paper introduces a co-evolution framework where an LLM decision agent and a dynamic skill bank improve each other through iterative refinement. The decision agent picks and chains skills. Performance feedback updates both the policy and the skills. New skills emerge by generalizing successful sequences instead of being hand-coded upfront. Why does it matter? Most long-horizon agent stacks treat skills and decision-making as separate optimization problems, which is why they plateau. Co-evolution gives you adaptive planning and a growing library of reusable behaviors from a single loop, which is what you actually want when task structure isn't predetermined: robotics, game agents, complex planning. Paper: https://arxiv.org/abs/2604.20987 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译构建复杂智能体时,长期任务智能体常因决策者分解能力不足或技能库过时而失败。新研究提出一种协同进化框架,让LLM决策智能体与动态技能库通过迭代优化共同改进。决策智能体负责选取和串联技能,性能反馈同时更新其策略和技能库本身。新技能通过归纳成功序列自动生成,而非预先手动编码。传统方法将技能与决策作为独立问题优化,容易陷入瓶颈。协同进化则能在单一循环中实现自适应规划,并持续增长可复用行为库,这对任务结构不确定的领域(如机器人、游戏智能体、复杂规划)至关重要。

meng shao@shao__meng · 4月26日77

[论文分享] 深入阅读 Claude Code 泄露源代码,结合 Anthropic 官方文档和社区分析,重建出一个生产级 Coding Agent 的完整架构图谱,并以独立开源系统 OpenClaw 作为对照组! 论文地址:https://arxiv.org/pdf/2604.14228 # 最核心的一个数字:1.6% vs 98.4% 社区估算:Claude Code 整个代码库里,只有约 1.6% 是"AI 决策逻辑"(提示词、模型调用、循环),其余 98.4% 是确定性的运行环境(permission、context、tool routing、recovery)。 这个悬殊比例意味着: · 模型几乎拥有完全自主决策权(reason 在哪做、调什么工具) · 但模型从不直接接触文件系统、shell、网络 · 工程复杂度不是为了约束模型,而是为了让模型在一个安全富饶的环境里自由发挥 这和 LangGraph(用状态图约束控制流)、Devin(显式 planner)走的是相反路线:最小脚手架 + 最大化操作型 harness。 # 团队做设计权衡时的五种人类价值驱动整套架构 · 人类决策权:用户最终拥有控制权;通过原则等级(Anthropic→operators→users)形式化 · 安全/隐私:即使用户不专心,系统也要保护代码、数据与基础设施 · 可靠执行:既要单轮正确,也要跨上下文窗口、跨会话、跨子 agent 保持一致 · 能力放大:让用户做以前根本不会尝试的事(Anthropic 内部数据:~27% 任务是"没有这工具就不会做"的) · 情境适配:系统适应用户项目、习惯、技能,关系随时间演进 第六个是评估视角而非设计价值:长期人类能力保留——这是论文最重要的批判性观察,后面会展开。 # 十三条设计原则与架构骨架 · Deny-first with human escalation(默认拒绝、不识别就升级给人) · Graduated trust spectrum(信任是渐进光谱) · Defense in depth(多重独立安全层) · Externalized programmable policy(策略外部化,可配置) · Context as scarce resource(上下文是稀缺资源) · Append-only durable state(追加式持久化) · Minimal scaffolding, maximal harness(最小脚手架 + 最大 harness) · Values over rules(重价值判断,轻硬规则) · Composable multi-mechanism extensibility(可组合的多机制扩展) · Reversibility-weighted risk(按可逆性加权评估风险) · Transparent file-based config/memory(透明文件而非黑盒数据库) · Isolated subagent boundaries(子 agent 隔离) · Graceful recovery and resilience(优雅恢复) 整体架构可以读作两层视图: · 七组件视图(高层):用户 → 接口 → Agent Loop → 权限系统 → 工具 → 状态/持久化 → 执行环境 · 五层视图(细化):Surface 层(CLI/SDK/IDE)→ Core 层(loop + compaction)→ Safety/Action 层(权限、hooks、tools、sandbox、subagent)→ State 层(context 装配、session、CLAUDE.md)→ Backend 层(shell、MCP、远程执行) # Agent 主循环:一个朴素的 while-true queryLoop() 是一个 async generator,每一轮固定走 9 步:设置解析 → 状态初始化 → 上下文装配 → 五个 pre-model shaper → 模型调用 → tool_use 派发 → 权限网关 → 工具执行 → 停止判定。 不再做的事:没有显式 planner,没有状态图,没有 tree search。这是 ReAct 的最简实现。 工具执行用 StreamingToolExecutor:模型一边流式输出 tool_use,一边并行执行只读工具,写操作串行。结果按收到顺序回填,保证模型看到的工具结果顺序与它发起请求时的顺序一致。 恢复机制有五种(输出 token 升级、reactive compact、prompt-too-long 处理、流式回退、fallback model),全部是"先静默自救、不行才告诉人"。 # 安全的"七层防御" 任何工具调用都要穿过这七层,任何一层都可以否决: 1. Tool 预过滤(被全局拒绝的工具甚至不会出现在模型视野里) 2. Deny-first 规则(deny 永远压制 allow,即使 allow 更具体) 3. Permission Mode 约束(plan/default/acceptEdits/auto/dontAsk/bypassPermissions/bubble 共七模式) 4. Auto-mode ML 分类器(yoloClassifier.ts,独立 LLM 调用判定安全性) 5. Shell sandbox(独立于权限系统的文件系统/网络隔离) 6. Resume 不恢复 session 级权限(强制重新授权) 7. Hook 拦截(PreToolUse 可阻断/重写/异步审批) 最关键的设计哲学:Anthropic 自己的研究发现用户对权限提示的批准率高达 93%——这意味着交互式确认在行为上不可靠。所以架构选择是"不靠人盯着",而是用 sandbox + 分类器把需要人决策的次数压低 84%。 # 上下文管理:五层渐进式压缩 模型的上下文窗口是整套系统的瓶颈资源。每次模型调用前依次跑 5 个 shaper: · Budget reduction(始终生效):单条 tool 结果超尺寸就替换为引用 · Snip:删掉旧历史段 · Microcompact:缓存友好的细粒度压缩,等 API 返回后再用真实 cache_deleted_input_tokens · Context collapse:read-time projection——存储不动,模型看到的是投影视图(这是论文里很精彩的设计) · Auto-compact:兜底的全模型生成式摘要 为什么要 5 层而不是 1 层:每层成本不同,先做便宜的轻压缩,不行才升级。这是 lazy-degradation 思想。代价是用户难以预测系统行为,因为有些层(特别是 context collapse)对用户不可见。 CLAUDE.md 的四级层次(managed→user→project→local)是文件型记忆——刻意拒绝向量数据库,理由是"用户必须能读、能改、能 git commit"。代价是检索粒度只能到文件级(用 LLM 扫文件头选最多 5 个),不如向量检索精细。 重要洞察:CLAUDE.md 是以"用户消息"形式注入而非 system prompt,因此对模型的约束是概率性的。真正的强制力来自 deny-first 的权限规则。这是一个刻意的"指引层(概率) vs 执行层(确定)"分离。 # 扩展机制:四个、不是一个 论文回答了一个常见困惑——为什么 Claude Code 既有 MCP,又有 plugins、skills、hooks? 答案是这四者承担的上下文成本不同: · MCP servers:外部服务集成,上下文开销高 · Plugins:多组件打包分发,上下文开销中 · Skills:领域指令 + 元工具,上下文开销低 · Hooks:生命周期拦截,上下文开销默认零 梯度上下文成本意味着便宜的扩展(hooks)可以大量铺开,昂贵的(MCP)保留给真正需要新工具的场景。代价是开发者要学 4 套 API。 Hook 系统极其细致:源码定义了 27 种事件,其中 5 种参与权限决策,22 种用于生命周期/编排。 # 子 Agent:隔离而非共享 通过 AgentTool(Task 是它的 legacy alias)派遣。子 agent 有三种隔离模式: · Worktree:临时 git worktree,文件系统隔离 · Remote(仅内部):远端 Claude Code 运行 · In-process(默认):共享 FS,隔离上下文 关键约束:子 agent 只把最终摘要文本回传给父级,完整 transcript 走 sidechain 存独立 .jsonl 文件——既保留可审计性,又不污染父上下文。 代价:每次调用基本都得自包含 prompt(除 fork-subagent 外)。Anthropic 自己披露 agent teams 模式 token 开销约为普通 session 的 7×,这才是为什么"摘要回传"如此关键。 多 agent 协调用文件锁而不是 message broker——零依赖、可调试,但牺牲吞吐。 # 持久化:append-only JSONL Session 存为几乎只追加的 JSONL(极少数清理重写除外)。三条独立持久化通道: 1. Session transcript(项目级,每 session 一文件) 2. 全局 prompt history(仅用户输入,supports Up 与 Ctrl+R) 3. 子 agent sidechain(独立 .jsonl + .meta.json) --resume 重放 transcript 重建会话,但刻意不恢复 session 级权限——这是把"信任"作为会话隔离的安全不变量:用户每次都重新授权,避免旧上下文中的授权决策被带进新的语境。 compact_boundary 标记里嵌入 headUuid/anchorUuid/tailUuid,让 loader 在读取时打补丁拼接消息链——既压缩了上下文,又保留了完整历史的可重建性。 # 与 OpenClaw 的对照:同样的问题,不同的答案 维度:Claude Code vs. OpenClaw · 系统形态:临时 CLI 进程 vs. 持久化网关 daemon · 信任模型:每动作 deny-first 评估 + 7 模式 vs. 网关边界鉴权(DM 配对、白名单、可选沙箱) · Agent runtime:queryLoop() 是系统中心 vs. Pi-agent 嵌入网关 RPC,per-session 队列 · 扩展架构:4 机制按上下文成本梯度 vs. manifest-first 插件,12 种能力,集中注册表 · 内存:CLAUDE.md 4 级 + 5 层压缩 vs. 工作区引导文件 + dreaming 长期记忆推举 · 多 agent:父-子任务委派 vs. 路由(多 agent 服务不同渠道) + 委派两层分离 最有意思的发现是两者可组合:OpenClaw 可以通过 ACP 把 Claude Code 当作外部 coding harness 托管。这暗示 agent 设计空间不是平面分类,而是层级式的——网关层和任务层可以叠在一起。 核心洞察:"Claude Code 把信任边界放在模型与执行环境之间;OpenClaw 把它放在网关周界。" # 五大价值张力(最有思想深度的章节) · Authority × Safety:93% 批准率证明人类督查不可靠,安全要靠分类器/sandbox 补 · Safety × Capability:>50 子命令的 bash 会跳过 per-subcommand 检查(解析慢导致 UI 卡顿)——defense-in-depth 的层共享性能瓶颈 · Adaptability × Safety:多个 CVE 利用"信任对话框出现前"的 hook/MCP 初始化窗口攻击 · Capability × Adaptability:主动式提示让任务完成率 +12-18%,但高频时用户偏好骤降 · Capability × Reliability:上下文有界 + 子 agent 隔离 → 局部好决策 ≠ 全局好结果 # 第六视角:长期人类能力保留 论文不把它列为价值,而作为评估透镜,外部经验证据汇总: · Becker et al. 2025(16 名经验丰富开发者 RCT):AI 工具使开发者慢 19%,但他们自我感觉快了 20% · Shen & Tamkin 2026:AI 辅助组理解力测试低 17% · He et al. 2025(Cursor 在 807 个仓库的因果分析):代码复杂度 +40.7%,初期速度增益三个月内消散 · Liu et al. 2026:30.4 万 AI 提交审计,约 1/4 引入的问题持续到最新版本,安全问题留存率更高 · Kosmyna et al. 2025(54 人 EEG 研究):LLM 用户神经连接性减弱,且移除 AI 后仍持续 · Rak 2025:2023→2024 入门级技术岗招聘下降 25% 论文的判断是:Claude Code 显著放大短期能力,但提供的支持长期人类成长、深度理解、代码库连贯性的机制非常有限。 论文结尾把"未来系统应当把可持续性差距作为一等公民设计问题"作为最重要的开放挑战。 # 六个开放方向(未来 agent 系统) 1. 可观察性—评估鸿沟:78% 的 AI 失败是隐性的,89% 团队有可观察性但只 52% 做离线评估。需要 generator-evaluator 分离的脚手架。 2. 跨会话持久性:CLAUDE.md(静态)和 transcript(单会话)之间的"中间层"是空白 3. Harness 边界演化:where/when/what/with whom 四个轴向的扩展(特别是物理 VLA 行动会改变 reversibility-weighted risk 的代价不对称) 4. Horizon scaling:从单会话到多周期科学研究的可靠性 5. 治理与监管:EU AI Act(2026 年 8 月全面适用)、GPAI Code of Practice 对日志、透明度、人类监督提出外部约束 6. 长期人类能力作为一等设计目标:测量层与设计层都是空白 # 值得记住的几个判断 "模型推理在哪里、harness 执行在哪里——是整个 agent 系统设计的根问题。" "95% 单步准确率下,100 步任务成功率只有 0.6%。"——这是为什么每一步都要验证。 "前沿模型在编码任务上的能力正在收敛,operational harness 的质量正在成为主要差异化因素。" "agent 的设计选择不是平面的分类,而是层级化的——任务级 harness 可以被网关级控制平面托管。" "工程复杂度不是为了限制模型决策,而是为了让模型能更好地决策。" # 对工程实践的启示 对正在构建 agent 系统的我们: · 投入确定性基础设施(context 管理、安全分层、恢复机制)比给越来越强的模型套 planning 脚手架更有回报 · deny-first + 多层独立检查比单一沙箱在生产环境更鲁棒,但要警惕共享性能瓶颈导致的同时降级 · 上下文压缩做成多层渐进式比一次性截断或单步摘要更可靠,但用户需要可观察性 · append-only 持久化 + 不跨会话恢复权限是把审计性和安全不变量同时拿到的便宜做法 · 扩展机制按上下文成本分层:让"贵的"扩展(MCP)只用在真正需要新工具的场景,"便宜的"(hooks)可以铺开 · 子 agent 用摘要回传,不要共享 transcript——否则 token 开销线性爆炸(Claude Code 数据:7×) · 把用户长期能力保留写进设计目标,而不是只在事后用 metric 衡量

译论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。

elvis@omarsar0 · 4月26日53

Great paper on improving proactive agents.

译研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。

elvis@omarsar0 · 4月26日63

NEW paper from Microsoft. This is an important read. (bookmark it) The work introduces DELEGATE-52, a benchmark simulating long document-editing workflows across 52 professional domains like coding, crystallography, and music notation. Across 19 tested models, even frontier ones (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) corrupted an average of 25% of document content by the end of long workflows. Agentic tool use didn't help. Lots of other insights in this one. Check it out below... Paper: https://arxiv.org/abs/2604.15597 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。

AK@_akhaliq · 4月25日39

Context Unrolling in Omni Models paper: https://huggingface.co/papers/2604.21921

译Omni模型中的上下文展开 paper: https://huggingface.co/papers/2604.21921

AK@_akhaliq · 4月24日44

Seeing Fast and Slow Learning the Flow of Time in Videos paper: https://huggingface.co/papers/2604.21931

译看见快与慢 学习视频中的时间流 论文: https://huggingface.co/papers/2604.21931

AK@_akhaliq · 4月24日39

Near-Future Policy Optimization paper: https://huggingface.co/papers/2604.20733

译近未来策略优化 论文:https://huggingface.co/papers/2604.20733

Saining Xie@sainingxie · 4月24日72

vision🍌 is here https://vision-banana.github.io/ if you got into computer vision the way I did, starting with pixel-level labeling tasks like segmentation, edges, depth, or surface normals, you’ll probably feel the same seeing these results -- something big has quietly shifted, and it’s going to change how we approach these problems for good 🧵

译vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感——某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵

AK@_akhaliq · 4月22日44

OneVL One-Step Latent Reasoning and Planning with Vision-Language Explanation paper: https://huggingface.co/papers/2604.18486

译OneVL 一步到位的潜在推理与规划,附带视觉-语言解释 论文: https://huggingface.co/papers/2604.18486

AK@_akhaliq · 4月22日47

Agent-World Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence paper: https://huggingface.co/papers/2604.18292

译智能体世界 为进化通用智能体智能而扩展真实世界环境合成 论文: https://huggingface.co/papers/2604.18292

AK@_akhaliq · 4月22日39

MathNet a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval paper: https://huggingface.co/papers/2604.18584

译MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584

AK@_akhaliq · 4月21日39

OpenGame Open Agentic Coding for Games paper: https://huggingface.co/papers/2604.18394

译OpenGame 面向游戏的开放智能体编码 论文: https://huggingface.co/papers/2604.18394

AK@_akhaliq · 4月21日48

PersonaVLM Long-Term Personalized Multimodal LLMs paper: https://huggingface.co/papers/2604.13074

译PersonaVLM 长期个性化多模态大语言模型 论文: https://huggingface.co/papers/2604.13074

AK@_akhaliq · 4月21日37

Elucidating the SNR-t Bias of Diffusion Probabilistic Models paper: https://huggingface.co/papers/2604.16044

译阐明扩散概率模型的SNR-t偏差 paper: https://huggingface.co/papers/2604.16044

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
04:08
Anthropic@AnthropicAI
56
在新的Anthropic Fellows研究中,我们探讨了"内省适配器":这种工具能让语言模型自我报告在训练过程中习得的行为--包括潜在的错位。 【引用 @kshenoy_】:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

keshav: Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...

Anthropic数据/训练论文/研究
4月29日
22:43
elvis@omarsar0
55
智能体缰绳工程:实现AI智能体核心组件的可观测自动化进化

针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

智能体arXivMCP/工具编码
16:38
Rohan Paul@rohanpaul_ai
62
AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究
11:11
向阳乔木@vista8
53
姚老师和张凯的GEO论文已在全球最大论文平台arxiv完成审核并发布,这是全球第二篇GEO专项研究。论文基于今年3月最新数据,涵盖大量Prompt、引用和AI抓取记录,采用科学方法进行GEO分析,类似数据驱动的增长洞察。研究成果以正式报告形式呈现,源数据已开源在GitHub。作者表示,如果对社区有帮助,将继续抓取更多数据进行专项研究并开放成果。

姚金刚: 我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布 这应该是全球第二篇与GEO有关的专项论文 论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...

arXiv搜索数据/训练论文/研究
07:38
Berryxia.AI@berryxia
61
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
07:38
Berryxia.AI@berryxia
52
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
06:41
elvis@omarsar0
57
从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究
02:10
宝玉@dotey
61
多校联合综述提出统一框架,厘清"世界模型"概念割裂问题

针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

Trueman (CHU Meng): 🚀 Our new preprint is out: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond It also reached #1 on Hu...

具身智能现象/趋势论文/研究
02:09
Epoch AI@EpochAIResearch
59
GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。
OpenAI模型发布评测/基准
01:38
AK@_akhaliq
66
Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763
Meta多模态论文/研究
01:08
AK@_akhaliq
57
Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014
Meta多模态论文/研究
00:38
AK@_akhaliq
57
从技能到人才 将异构智能体组织为现实世界的公司 论文: https://huggingface.co/papers/2604.22446
智能体Hugging Face论文/研究
00:38
AK@_akhaliq
58
Apple 推出随机键值路由 实现自适应深度缓存共享 论文: https://huggingface.co/papers/2604.22782
论文/研究部署/工程
00:08
AK@_akhaliq
53
微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764
Microsoft视频论文/研究
4月28日
20:36
Rohan Paul@rohanpaul_ai
48
AI海马体:距离人类记忆还有多远?

现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

智能体检索增强论文/研究
20:06
Rohan Paul@rohanpaul_ai
47
AI智能体的核心失败点:非单次工具调用,而是长时间多工具协调

本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

智能体MCP/工具论文/研究
09:55
meng shao@shao__meng
71
VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索"

研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。

Cihang Xie: 🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...

智能体开源/仓库论文/研究
08:31
Ethan Mollick@emollick
60
研究人员推出了仅使用1931年前文本训练的13B模型Talkie,旨在探索语言模型的泛化能力。该实验发现,模型虽掌握截至1931年的信息,但在某些科学议题上明显停留在20世纪初的认知框架中。例如,它仍坚持"发光以太"假说,并对狭义相对论表现出不信任。这凸显了训练数据的时间范围会深刻固化模型的知识体系与世界观。

Nick Levine: New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...

数据/训练现象/趋势论文/研究
04:30
Rohan Paul@rohanpaul_ai
56
为精确性优化RAG可能悄然损害检索效果,危及智能体流程

最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

检索增强论文/研究部署/工程
00:49
AK@_akhaliq
49
构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718
多模态视频论文/研究
00:46
AK@_akhaliq
53
能动世界建模 基础、能力、法则与超越 论文: https://huggingface.co/papers/2604.22748
智能体具身智能论文/研究
00:34
AK@_akhaliq
48
通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554
多模态视频论文/研究
00:33
elvis@omarsar0
69
一项针对AI智能体在编码任务中token消耗成本的系统性研究发现,其消耗量可达聊天或代码推理的约1000倍,且相同任务在不同运行中的消耗差异高达30倍。更高的token支出并不直接带来更高的准确性,性能在中等成本时达到峰值后趋于饱和。模型自身也难以预测其token使用量,自我预测相关性最高仅0.39。不同模型在相同任务上可能多消耗150万token而并无质量提升。这表明智能体的运行时成本具有高方差、与质量关联弱、甚至模型自身也无法预测的特性,这将影响团队的预算规划、模型间路由策略以及终止任务运行的决策。

DAIR.AI: How do AI Agents spend your money? Most teams treat agent token costs as a rounding error even though the data says they...

智能体论文/研究部署/工程
4月27日
23:28
elvis@omarsar0
63
40位学者提出智能体世界模型"能力层级×法则体系"新框架

一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。

智能体现象/趋势论文/研究
23:28
elvis@omarsar0
62
多智能体系统自动化管理成为AI前沿研究方向

推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。

hardmaru: For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...

智能体数据/训练论文/研究
04:59
elvis@omarsar0
64
阿里发布智能体训练新方法:双强化学习飞轮催生高效工具使用模型

阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。

智能体推理论文/研究部署/工程
00:54
elvis@omarsar0
54
新研究提出智能体协同进化框架,解决长期任务规划与技能库僵化难题

构建复杂智能体时,长期任务智能体常因决策者分解能力不足或技能库过时而失败。新研究提出一种协同进化框架,让LLM决策智能体与动态技能库通过迭代优化共同改进。决策智能体负责选取和串联技能,性能反馈同时更新其策略和技能库本身。新技能通过归纳成功序列自动生成,而非预先手动编码。传统方法将技能与决策作为独立问题优化,容易陷入瓶颈。协同进化则能在单一循环中实现自适应规划,并持续增长可复用行为库,这对任务结构不确定的领域(如机器人、游戏智能体、复杂规划)至关重要。

智能体具身智能论文/研究
4月26日
23:20
meng shao@shao__meng
精选77
【论文分享】 深入解析 Claude Code 架构:生产级 Coding Agent 的设计哲学与实现

论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。

BURKOV: A must read for anyone interested in building practical AI systems in 2026: Dive into Claude Code: The Design Space of T...

智能体Anthropic编码论文/研究

推荐理由:这篇论文逆向拆解了 Claude Code 的完整架构,最值钱的不是那 13 条设计原则,而是 1.6% vs 98.4% 这个数字——它直接回答了「agent 系统该把工程重心放在哪」,做 coding agent 的人应该把这当设计参考书来读。
04:52
elvis@omarsar0
53
研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。

DAIR.AI: Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate som...

智能体论文/研究评测/基准
01:02
elvis@omarsar0
63
微软论文揭示AI长文档编辑工作流普遍损坏内容

微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。

论文/研究评测/基准部署/工程
4月25日
00:20
AK@_akhaliq
39
Omni模型中的上下文展开 paper: https://huggingface.co/papers/2604.21921
Hugging Face多模态论文/研究
4月24日
11:19
AK@_akhaliq
44
看见快与慢 学习视频中的时间流 论文: https://huggingface.co/papers/2604.21931
多模态视频论文/研究
00:48
AK@_akhaliq
39
近未来策略优化 论文:https://huggingface.co/papers/2604.20733
推理数据/训练论文/研究
00:07
Saining Xie@sainingxie
72
vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感--某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
图像生成多模态论文/研究
4月22日
01:44
AK@_akhaliq
44
OneVL 一步到位的潜在推理与规划,附带视觉-语言解释 论文: https://huggingface.co/papers/2604.18486
多模态推理论文/研究
01:14
AK@_akhaliq
47
智能体世界 为进化通用智能体智能而扩展真实世界环境合成 论文: https://huggingface.co/papers/2604.18292
智能体具身智能论文/研究
00:14
AK@_akhaliq
39
MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584
推理论文/研究评测/基准
4月21日
23:42
AK@_akhaliq
39
OpenGame 面向游戏的开放智能体编码 论文: https://huggingface.co/papers/2604.18394
智能体编码论文/研究
06:05
AK@_akhaliq
48
PersonaVLM 长期个性化多模态大语言模型 论文: https://huggingface.co/papers/2604.13074
智能体多模态论文/研究
02:04
AK@_akhaliq
37
阐明扩散概率模型的SNR-t偏差 paper: https://huggingface.co/papers/2604.16044
图像生成论文/研究
‹ 上一页
1…10111213
下一页 ›