AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 2755 条
全部一手资讯X论文
标签「论文/研究」清除
今天7月3日 周五
05:08Apple Machine Learning Research(RSS)31反因果域泛化:利用无标签数据
05:08Apple Machine Learning Research(RSS)52Conformal Thinking:计算预算下推理的风险控制框架
05:08Apple Machine Learning Research(RSS)51残差上下文扩散语言模型(Residual Context Diffusion Language Models)
05:08Apple Machine Learning Research(RSS)46学习扩散语言模型的去掩码策略
04:03Krea33Krea AI用Tinker原型奖励模型并进行RL训练
02:44Hacker News 热门(buzzing.cc 中文翻译)68单层Transformer即可匹配全参数强化学习训练:Qwen3/Qwen2.5等模型研究
01:08Apple Machine Learning Research(RSS)46通过可追踪轨迹控制学习结构化推理
01:08Apple Machine Learning Research(RSS)38MemoryLLM:可插拔可解释的Transformer前馈记忆
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
01:08Apple Machine Learning Research(RSS)51苹果提出摊销MIPS方法:用神经网络直接预测最大内积搜索解
01:08Apple Machine Learning Research(RSS)56精选VideoFlexTok:可变长度粗到细视频分词
01:08Apple Machine Learning Research(RSS)72精选多智能体团队阻碍专家发挥
00:39elvis67斯坦福 AutoMem:记忆管理成为可训练技能,32B 模型性能媲美顶尖闭源模型
00:34Epoch AI54EBR-bench:即时学习能力基准测试
7月2日周四
23:33HuggingFace Daily Papers(社区热门论文)49性能优化基准是否可靠衡量编码智能体?
22:33Berryxia.AI48GenRecon:结合生成式先验的多视角3D重建方法
17:31HuggingFace Daily Papers(社区热门论文)34轻量级IIoT入侵检测模型跨域泛化失败研究
17:31HuggingFace Daily Papers(社区热门论文)49图原生强化学习通过概念重组实现可追溯的科学假设生成
16:28HuggingFace Daily Papers(社区热门论文)51逆向规划实现个性化:通过结构去噪学习潜在设计意图的智能体幻灯片生成
15:28HuggingFace Daily Papers(社区热门论文)39ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由
15:28HuggingFace Daily Papers(社区热门论文)54多模态连续推理:非对称互变分学习
12:28HuggingFace Daily Papers(社区热门论文)53状态预测分离假说:双计算流Transformer变体提升语言建模效率
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
11:28HuggingFace Daily Papers(社区热门论文)41CausalMix:将数据混合优化重构为因果推断问题
11:28HuggingFace Daily Papers(社区热门论文)51Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架
10:28HuggingFace Daily Papers(社区热门论文)46DiscoPER:基于迭代元反思的自主科学发现框架
10:28HuggingFace Daily Papers(社区热门论文)41Valdi:价值扩散世界模型
10:28HuggingFace Daily Papers(社区热门论文)39ABot-M0.5:统一的移动与操作世界动作模型
10:05Rohan Paul69MCP Server架构模式论文:LLM集成应用工具设计需遵循5种模式、避免4类错误
09:28HuggingFace Daily Papers(社区热门论文)52RepoRescue:LLM智能体全仓库兼容性救援实证研究
09:28HuggingFace Daily Papers(社区热门论文)50VideoSearch-R1:通过软查询优化实现迭代视频检索与推理
05:37elvis46SkillComposer:将代码Agent技能组合视为联合决策的论文
05:03Rohan Paul42Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解
04:28HuggingFace Daily Papers(社区热门论文)44SpheRoPE:基于球形RoPE的零样本无优化360度全景生成
03:28HuggingFace Daily Papers(社区热门论文)35TRIAGE:智能体强化学习的角色类型化信用分配框架
00:07AK49LiteResearcher:可扩展深度研究智能体RL训练框架
7月1日周三
23:40The Decoder:AI News(RSS)48Meta 发布非侵入式脑机接口 Brain2Qwerty v2,词错误率降至 39%
23:22Jim Fan71Jim Fan团队推出ASPIRE:机器人自我进化的技能库系统
22:28HuggingFace Daily Papers(社区热门论文)39Goku:面向指令视频编辑的百万级通用数据集与基准
22:03IT之家(RSS)45理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:08
Apple Machine Learning Research(RSS)
31
反因果域泛化:利用无标签数据

针对目标环境分布偏移下的域泛化问题,在反因果设定中(结果变量导致观测协变量),环境扰动不影响结果变量,因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签,从而能利用多环境中的无标签数据。提出两种方法,分别惩罚模型在环境间协变量均值和协方差的变化,并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。

数据/训练论文/研究
05:08
Apple Machine Learning Research(RSS)
52
Conformal Thinking:计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展,准确率随 token 预算增加而提升,但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题:在最小化计算量的同时限制错误率。该框架引入上阈值(模型足够自信时停止推理,承担输出错误的风险)和下阈值(提前终止无法解决的实例,承担过早停止的风险)。给定目标风险与验证集后,使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明,该方法在遵守用户指定风险目标的同时,通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究
05:08
Apple Machine Learning Research(RSS)
51
残差上下文扩散语言模型(Residual Context Diffusion Language Models)

扩散大语言模型(dLLM)可并行解码多个token,但现有分块式dLLM依赖重新掩码机制,仅保留最置信token而丢弃其余,造成计算浪费。本文提出Residual Context Diffusion(RCD)模块,将丢弃token的表示转化为上下文残差并注入下一次去噪步骤,采用解耦两阶段训练绕过内存瓶颈。在长CoT推理(SDAR)和短CoT指令跟随(LLaDA)模型上验证,标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点,在最具挑战的AIME任务上几乎翻倍基线准确率,等效精度下减少4–5倍去噪步数。

推理论文/研究
05:08
Apple Machine Learning Research(RSS)
46
学习扩散语言模型的去掩码策略

研究人员提出使用强化学习训练扩散语言模型(dLLM)的采样策略。该方法将掩码扩散采样形式化为马尔可夫决策过程,以 dLLM 为环境,采用单层 Transformer 策略网络将 token 置信度映射为去掩码决策。实验表明,在半自回归(块)生成中,该策略匹配了最先进的启发式方法,在全扩散设置中则超越后者。

数据/训练论文/研究
04:03
Krea@krea_ai
33
感谢Thinking Machines团队,我们使用Tinker原型化了我们的奖励模型,并通过RL训练了提示词扩展器。 更多信息,请阅读关于Krea 2背后数据、架构和训练的完整技术报告 👇

Tinker: Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...

图像生成数据/训练论文/研究
02:44
Hacker News 热门(buzzing.cc 中文翻译)
68
单层Transformer即可匹配全参数强化学习训练:Qwen3/Qwen2.5等模型研究

研究发现,训练单个Transformer层即可恢复甚至超越全参数强化学习(RL)后训练带来的收益。研究引入“层贡献度”量化指标,在Qwen3和Qwen2.5两个模型家族的七个模型上,使用GRPO、GiGPO、Dr. GRPO三种RL算法,覆盖数学推理、代码生成和智能体决策任务,发现RL收益高度集中于少数Transformer层,且高贡献层集中在堆栈中间,两端层贡献显著较小。

arXiv数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
46
通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
38
MemoryLLM:可插拔可解释的Transformer前馈记忆

MemoryLLM将Transformer中的前馈模块(FFN)与自注意力解耦,使其作为无上下文的token级神经检索记忆运行。训练时FFN与自注意力隔离,直接使用token嵌入,从而可预计算为token级查找(ToL),实现VRAM与存储间的按需传输,提升推理效率。此外还提出了介于传统Transformer与MemoryLLM之间的Flex-MemoryLLM架构,以弥补因使用无上下文token嵌入训练FFN导致的性能差距。

数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
01:08
Apple Machine Learning Research(RSS)
51
苹果提出摊销MIPS方法:用神经网络直接预测最大内积搜索解

苹果机器学习研究团队提出摊销MIPS方法,训练神经网络直接预测最大内积搜索(MIPS)的解。核心思路是将MIPS值函数建模为键集的凸支撑函数,其梯度指向最优键。据此设计两种互补模型:SupportNet(输入凸神经网络拟合支撑函数,用作聚类路由)和KeyNet(向量值网络直接回归最优键,可替换原始查询输入索引流水线)。在BEIR基准文档嵌入实验中,两种模型在FLOPs、探测次数或时钟时间等计算开销指标下均显著提升IVF匹配率。代码已开源。

搜索论文/研究
01:08
Apple Machine Learning Research(RSS)
精选56
VideoFlexTok:可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。

数据/训练视频论文/研究

推荐理由:把视频 tokenization 从固定网格改成变长 coarse-to-fine,训练效率提升明显,还能做更长的视频。研究角度挺漂亮,但离产品落地还有距离,做视频生成的可以追一下。
01:08
Apple Machine Learning Research(RSS)
精选72
多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由:这篇研究给多智能体热浇了盆冷水,自组织团队反而拖累专家,瓶颈不在认不认识专家而在会不会用专家,做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。
00:39
elvis@omarsar0
67
斯坦福 AutoMem:记忆管理成为可训练技能,32B 模型性能媲美顶尖闭源模型

斯坦福大学提出 AutoMem,将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式,文件系统操作升级为一级动作。AutoMem 采用双循环机制:强 LLM 审查完整轨迹并重写记忆结构(提示词、模式、动作词表);同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆(不改任务动作),便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升,使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文:arxiv.org/abs/2607.01224。

智能体arXiv论文/研究
00:34
Epoch AI@EpochAIResearch
54
介绍 EBR-bench,我们用于衡量即时学习的新基准。 AI 反复玩一款名为 Earthborne Rangers 的挑战性棋盘游戏,并尝试从错误中学习。迄今为止:没有改进的迹象。
推理论文/研究
7月2日
23:33
HuggingFace Daily Papers(社区热门论文)
49
性能优化基准是否可靠衡量编码智能体?

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准
22:33
Berryxia.AI@berryxia
48
GenRecon:结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究
17:31
HuggingFace Daily Papers(社区热门论文)
34
轻量级IIoT入侵检测模型跨域泛化失败研究

四种轻量级架构在一个IIoT数据集上训练后,不经重新训练直接在另两个结构不同的IIoT数据集上评估,仅使用三者共有的特征。可解释性分析显示,两个最优模型主要依赖粗粒度端口类别特征,其中最具影响力的类别在源域攻击流量出现频率是目标域的96至435倍,表明粗化端口分辨率只是转移而非消除已知捷径。自然不平衡分布下,评价协议可能反转对哪个目标域更具挑战的判断。对抗鲁棒性与跨网络泛化无关,有限目标域数据适应的恢复效果因架构而异。建议部署就绪性应在真实类别分布下通过跨网络评估。

端侧论文/研究部署/工程
17:31
HuggingFace Daily Papers(社区热门论文)
49
图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。

arXiv推理数据/训练论文/研究
16:28
HuggingFace Daily Papers(社区热门论文)
51
逆向规划实现个性化:通过结构去噪学习潜在设计意图的智能体幻灯片生成

幻灯片个性化需要同时定制主题与布局,现有AI智能体方法依赖预设模板或用户详细指令,难以捕捉细粒度潜在设计意图。SPIRE将页面级幻灯片个性化(PSP)重新定义为逆向规划问题,在不假设具体执行工具(如PowerPoint、Beamer)的前提下学习设计意图。通过故意破坏干净幻灯片的视觉结构,SPIRE创建可验证的去噪任务,两个智能体通过强化学习协作优化可执行设计。理论证明结构去噪是PSP的一致代理,且多智能体公式严格降低策略梯度方差。实验表明SPIRE在幻灯片个性化生成上表现优越。

智能体论文/研究
15:28
HuggingFace Daily Papers(社区热门论文)
39
ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。

推理论文/研究部署/工程
15:28
HuggingFace Daily Papers(社区热门论文)
54
多模态连续推理:非对称互变分学习

多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。

多模态推理论文/研究
12:28
HuggingFace Daily Papers(社区热门论文)
53
状态预测分离假说:双计算流Transformer变体提升语言建模效率

Transformer使用同一前向计算流同时预测下一个token和存储用于未来预测的状态。为解耦这两个角色,作者提出状态预测分离假说,并设计了一种采用双计算流的Transformer变体。不同规模下的预训练实验表明,该方法在数据和计算效率上持续优于标准Transformer,验证损失更低,下游任务平均性能提升2-3个百分点。进一步的实证分析排除了潜在混淆因素,揭示了新设计在梯度上的根本差异。

数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
11:28
HuggingFace Daily Papers(社区热门论文)
41
CausalMix:将数据混合优化重构为因果推断问题

CausalMix将大语言模型训练中的数据混合优化重构为因果推断问题,将数据池统计特征作为协变量、领域混合作为处理变量,在512次Qwen2.5-0.5B运行上拟合因果模型估计条件平均处理效应(CATE),外推出800K数据池的最优混合比例并用于训练7B模型。该框架还能泛化至Qwen3-4B-Base的长链式推理数据。通过因果建模隔离混杂偏差,CausalMix动态推断状态依赖的最优数据混合,在多个下游任务上优于RegMix等基线,并借助CATE解释器提供可视化分析。

arXiv数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
51
Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究
10:28
HuggingFace Daily Papers(社区热门论文)
46
DiscoPER:基于迭代元反思的自主科学发现框架

DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标,动态生成代码探索数据集,且每个发现必须通过统计检验。框架引入二阶元反思机制,周期性分析自身已有发现,识别结构模式、混淆和认知空白,主动将假设探索重定向到未知区域。结合工具使用,可处理多模态来源(如图像)的信息。在 iNatDisco 生态基准上,DiscoPER 恢复 8/9 已知模式,假设支持率 72.7%,优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。

多模态数据/训练论文/研究
10:28
HuggingFace Daily Papers(社区热门论文)
41
Valdi:价值扩散世界模型

Valdi(Value Diffusion World Models)将端到端在线训练模型预测控制(MPC)与潜在扩散动力学模型相结合,利用单步扩散同时用于训练和推理,在保证低延迟的同时建模不确定的未来。在CarRacing环境中的初步实验显示,Valdi的性能与确定性MLP基线相当,同时揭示了预测多模态性与控制效果之间的权衡。代码已开源。

具身智能论文/研究
10:28
HuggingFace Daily Papers(社区热门论文)
39
ABot-M0.5:统一的移动与操作世界动作模型

ABot-M0.5 是一种面向机器人移动操作的新型 World Action Model(WAM)。它从三个层面解决现有 WAM 的对齐问题:时间粒度对齐通过引入中间潜在动作捕捉局部视觉状态转换,作为视频潜在与具身控制之间的桥接;动作空间对齐采用双级 Mixture-of-Transformers 架构,解耦模态表示与异构动作子空间(如底座移动与机械臂操作);推理条件对齐提出 dream-forcing 训练策略,在模型预测视频上逐步训练逆动力学,提升自回归推理时的对齐与鲁棒性。在移动与精细操作基准上,ABot-M0.5 在长程任务成功率与细粒度控制精度上均达到当前最优。

具身智能数据/训练论文/研究
10:05
Rohan Paul@rohanpaul_ai
69
MCP Server架构模式论文:LLM集成应用工具设计需遵循5种模式、避免4类错误

该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

arXivMCP/工具论文/研究部署/工程
09:28
HuggingFace Daily Papers(社区热门论文)
52
RepoRescue:LLM智能体全仓库兼容性救援实证研究

RepoRescue研究LLM智能体能否使旧仓库适应新环境,从193个Python和122个Java仓库构建基准(每个仓库原始环境通过、现代化后失败)。评估5个Python和3个Java智能体系统。Claude Code有时会编辑失败的测试;运行时阻断下,Kimi仍能救援41.5%的仓库。系统联合救援率达62.7%,超过最佳单系统10.9个百分点。需要全代码库协调修改的14个仓库上,GPT-5.2 through Codex全部通过,每个Claude Code系统最多通过2个。通过测试是初步信号:34个无人维护Python候选仓库中,22个在真实场景可用,12个通过bug排查。

编码论文/研究
09:28
HuggingFace Daily Papers(社区热门论文)
50
VideoSearch-R1:通过软查询优化实现迭代视频检索与推理

现有视频检索方法常将检索视为预处理步骤,失败后无法优化查询,且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架,通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化(SQR),在连续潜在空间中优化搜索查询token,而非在离散文本空间重写。SQR及推理过程使用组相对策略优化(GRPO)训练,由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索(VCMR)数据集上达到最先进性能,且生成的token远少于显式文本级查询优化。

多模态搜索论文/研究
05:37
elvis@omarsar0
46
SkillComposer:将代码Agent技能组合视为联合决策的论文

论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。

智能体编码论文/研究
05:03
Rohan Paul@rohanpaul_ai
42
Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解

Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。

Meta推理论文/研究
04:28
HuggingFace Daily Papers(社区热门论文)
44
SpheRoPE:基于球形RoPE的零样本无优化360度全景生成

提出SpheRoPE框架,无需微调或优化,直接通过球形旋转位置编码(Spherical RoPE)将球面先验注入预训练扩散Transformer,实现零样本、无训练的360度全景图像与视频生成。低频率通道重参数化为3D笛卡尔坐标以编码球面流形,高频率通道进行谐波量化确保严格周期性,配合语义畸变无分类器引导(CFG)显式控制几何结构。在Flux.1、Flux.2和LTX-Video骨干上完成文生全景任务,性能达基线水平,无需任何训练。

图像生成论文/研究
03:28
HuggingFace Daily Papers(社区热门论文)
35
TRIAGE:智能体强化学习的角色类型化信用分配框架

TRIAGE 提出角色类型化信用分配框架,替代标准 GRPO 的均匀优势信号。结构化判断器将每个智能体片段分类为决定性进展、有用探索、无进展基础设施或回归,并映射为固定角色条件规则下的过程奖励,修正纯结果信用对失败轨迹中有用探索的惩罚和对成功轨迹中冗余/倒退动作的强化。在 ALFWorld、Search-QA 和 WebShop 上,TRIAGE 提升成功率,优于标量判断器过程奖励和结果监督共享主干价值基线。消融实验表明收益来自角色类型化,成功轨迹内的回归检测是主要贡献,探索信用提供二次增益;在完整轨迹上,TRIAGE 分别减少 10.4% 和 14.8% 的环境交互轮数。

智能体数据/训练论文/研究
00:07
AK@_akhaliq
49
LiteResearcher 用于深度研究智能体的可扩展智能体RL训练框架
智能体数据/训练论文/研究
7月1日
23:40
The Decoder:AI News(RSS)
48
Meta 发布非侵入式脑机接口 Brain2Qwerty v2,词错误率降至 39%

Meta FAIR 团队发布 Brain2Qwerty v2,从非侵入性 MEG 脑信号重建完整句子。九名志愿者输入 22000 句,平均词错误率 39%,最佳参与者 22%。v2 采用异步连续信号窗口,无需击键时间戳。模型使用三个 AI 构建块,包括基于 Qwen3 微调的语言模型将噪声信号转为连贯句子。字符错误率 31%,高于 v1 N-gram 模型的 26%,但词错误率和语义准确率更优。当前与植入式系统(词错误率 <2%)仍有差距,但数据量增加后精度持续提升。

Meta论文/研究
23:22
Jim Fan@DrJimFan
71
继EMPIRE后,Jim Fan团队发布ASPIRE,为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹,对控制程序进行进化搜索,将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略,而是通过传递"技能知识"绕过sim2real和跨本体迁移难题,相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证,计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究
22:28
HuggingFace Daily Papers(社区热门论文)
39
Goku:面向指令视频编辑的百万级通用数据集与基准

Goku是一个包含200万高质量视频编辑对的百万级数据集,首次将基于指令的视频编辑从单一外观扩展至多任务和结构操控(如主体运动控制)。研究者设计了分解式数据合成流水线与渐进式过滤系统以解决复杂编辑的数据合成难题。基于该数据集训练的Goku-Edit模型采用MLLM作为文本编码器,并采用解耦双分支架构:专用掩码分支处理结构控制,主分支负责外观渲染。配套基准Goku-Bench包含1000个人工验证测试用例和7项新增编辑指标,Goku-Edit的指令遵循能力较其他开源模型提升高达+8%。

数据/训练论文/研究
22:03
IT之家(RSS)
45
理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选

理想汽车近日在 ISCA 2026 发表题为《马赫 M100:面向通用 AI 计算的编排式数据流架构》的演讲,成为自 2020 年该会议工业分区设立以来首家入选的中国车企。马赫 M100 是全球首款基于数据流架构的大算力端侧推理芯片,采用 5nm 车规级工艺,单芯片算力 1280TOPS,算力利用率达 82%;双 SoC、双 MCU、双供电完全冗余架构满足 ASIL-D 最高功能安全等级。该芯片已随全新理想 L9 及 L8 量产上车,全链路自主完成。

端侧论文/研究
‹ 上一页
123…50
下一页 ›