AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月2日周二
17:13MarkTechPost(RSS)67阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus
17:06Alibaba Cloud60阿里云Qwen3.7模型登陆Vercel AI Gateway
16:31X.PIN69微信AI智能体构建方式与测试进展
16:23MiniMax (official)51MiniMax 联合 BAI_AGI 发布智能体交易层
15:07IT之家(RSS)48黄仁勋:Vera CPU 将比 GPU 更受欢迎,为 AI 智能体开辟全新市场
15:07IT之家(RSS)53黄仁勋回应AI威胁论,称现在是软件公司的"绝佳时代"
14:40HuggingFace Daily Papers(社区热门论文)68MCP-Persona:首个面向真实场景个性化工具的LLM智能体基准测试
13:40HuggingFace Daily Papers(社区热门论文)64JAMEL:通过新颖性信号联合训练智能体记忆与探索策略(开源)
13:40HuggingFace Daily Papers(社区热门论文)73精选OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
13:08AYi60AI变现的核心:从接单到封装技能(Skill)
12:50数字生命卡兹克84同事件精选为了不花那120刀,我把电脑清理软件做成了开源skill同一事件,精选展示《基于 Codex 的开源 AI 技能“清理垃圾.skill”:自动扫描电脑生成 HTML 报告,一键清理垃圾》
12:40HuggingFace Daily Papers(社区热门论文)61在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形
12:40HuggingFace Daily Papers(社区热门论文)68多智能体计算机使用
12:19OpenRouter:Announcements(RSS)77精选OpenRouter 5月发布亮点
12:07IT之家(RSS)52英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"
12:07IT之家(RSS)50微软 Copilot 超级应用曝光:整合多款工具,常驻 AI 智能体 Scout
12:07Ethan Mollick70AI编程智能体生产力提升显著但受限于人类瓶颈
12:07meng shao35图灵社区今晚开讲 Agent Skills 公开课
12:06StepFun69阶跃星辰Step 3.7 Flash发布,专为高效推理设计
11:40HuggingFace Daily Papers(社区热门论文)67PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型
11:40HuggingFace Daily Papers(社区热门论文)69K-BrowseComp:基于韩语语境的网页浏览智能体基准测试
11:07IT之家(RSS)56腾讯正测试微信AI智能体原型,并列为最高战略优先级
10:47Berryxia.AI63Claude Code 工作流拆解
10:47Berryxia.AI32图灵社区Agent Skills公开课与新书发布
10:36Alibaba Cloud82阿里云发布通义千问3.7-Plus多模态智能体模型
10:07IT之家(RSS)60图灵奖得主萨顿:普通生成式AI难当科学发现重任
09:58公众号:数字生命卡兹克71精选基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾
09:35meng shao54用户邵猛的 $10K Cursor 额度使用体验回顾
09:05meng shao64Lee Robinson 分享四条「Agent 友好型代码库」原则
09:05meng shao78精选Anthropic 开发者分享 Claude Code「理解验证」工作流
09:00宝玉54宝玉分享 Agent Skills 实操经验与新书
08:47凡人小北67Codex 成为 AI 智能体默认运行时
08:00HuggingFace Daily Papers(社区热门论文)43SkillHarness:为计算机使用智能体安全地利用技能
08:00HuggingFace Daily Papers(社区热门论文)50Curation-Bench:通用智能体能否自动化数据筛选?
08:00HuggingFace Daily Papers(社区热门论文)49EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具
08:00HuggingFace Daily Papers(社区热门论文)50Skill-RM:通过智能体技能统一异构评估标准
08:00HuggingFace Daily Papers(社区热门论文)49Lean4Agent:面向智能体工作流与轨迹的形式化建模与验证
08:00HuggingFace Daily Papers(社区热门论文)51EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理
08:00HuggingFace Daily Papers(社区热门论文)70精选ACTS:面向高效可控LLM推理的智能体链式思维引导
08:00HuggingFace Daily Papers(社区热门论文)66Token Budgets:63起LLM智能体预算超支事故的经验目录与仿射类型Rust缓解案例研究
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
17:13
MarkTechPost(RSS)
67
阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布
17:06
Alibaba Cloud@alibaba_cloud
60
很高兴看到 Qwen3.7-Plus 和 Max 为 @vercel_dev 社区赋能!即日起至6月4日,可在 AI Gateway 上免费测试其原生智能体能力。🚀

Vercel Developers: Both Qwen 3.7 Plus and Max are free for paid users of AI Gateway from now till 12PM PT June 4 in partnership with @Aliba...

智能体行业动态
16:31
X.PIN@thexpin
69
微信AI智能体构建方式与测试进展

据X.PIN独家消息,微信的AI智能体采用agent-to-agent架构运行。其中,“管家”智能体负责理解用户意图,并将任务(如外卖、打车等)路由至各小程序自带的“技能”中执行,实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建,目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态,使其具备显著的落地优势。

Financial Times: Tencent moves closer to launching AI agent for WeChat's 1.4bn Chinese users https://ft.trib.al/bto5t0c

智能体MCP/工具产品更新
16:23
MiniMax (official)@MiniMax_AI
51
智能体需要的不仅仅是大脑,还需要一种支付、交易和实际使用服务的方式。 这就是为什么我们很高兴地宣布,我们正在与 Web3 API 先驱 @BAI_AGI 合作。 我们一起 🤝?我们刚刚为自主智能体发布了交易层。 未来不是即将到来。它已经在交易了 🔥
智能体产品更新
15:07
IT之家(RSS)
48
黄仁勋:Vera CPU 将比 GPU 更受欢迎,为 AI 智能体开辟全新市场

英伟达CEO黄仁勋在台北电脑展表示,未来Vera CPU将比自家GPU更受欢迎。Vera CPU已内置在所有英伟达AI机器中,上市即具备软件生态优势。其能效相比现有CPU高3-6倍,速度比x86处理器快1.8倍,专为AI智能体打造。黄仁勋强调,Vera CPU并非为争夺传统CPU市场,而是旨在开辟一个此前规模为零的全新AI智能体市场。

智能体大佬观点
15:07
IT之家(RSS)
53
黄仁勋回应AI威胁论,称现在是软件公司的"绝佳时代"

黄仁勋在2026台北国际电脑展主题演讲中表示,智能体AI时代并非软件公司的末日,反而将带来“绝佳时代”。他指出,智能体AI会调用更多工具,软件需求不会消失。未来软件竞争将转向“智能体如何使用软件”,软件公司必须调整产品形态以适应这一变化。

智能体大佬观点
14:40
HuggingFace Daily Papers(社区热门论文)
68
MCP-Persona:首个面向真实场景个性化工具的LLM智能体基准测试

MCP-Persona是首个专门评估LLM智能体在个性化MCP工具上表现的基准测试,涵盖Reddit、小红书、Lark和Slack等应用。在多个SOTA智能体上的实验表明,当前智能体在个性化工具使用方面仍面临重大挑战。该基准旨在弥合现有评估主要聚焦通用工具、忽视个人社交应用中工具与个人账户或本地数据库交互所带来的实际挑战这一空白。

智能体MCP/工具论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
64
JAMEL:通过新颖性信号联合训练智能体记忆与探索策略(开源)

JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互,将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号,为记忆模块提供无需人工标注的监督信号。实验评估表明,JAMEL 成功泛化至未见过的环境,其探索能力超越开源基线,达到与闭源模型相当的深度,同时减少了 token 消耗。相关代码与模型已开源于 GitHub。

智能体arXiv论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
精选73
OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架

OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。

智能体开源生态推理论文/研究

推荐理由:做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。
13:08
AYi@AYi_AInotes
60
AI变现的核心:从接单到封装技能(Skill)

作者指出,当前许多人仍停留在用AI工具接单的“时间换钱”模式。真正的高价值路径是将个人验证过的方法论(如写作、选题、提示词等)封装成可被AI智能体(如Claude Code、Codex等)反复调用的“技能(Skill)”。这能实现边际成本近乎为零的被动收益,其本质是将自身技能转化为一个“分身”。作者强调,封装的前提是拥有真实、被验证过的方法论,而非空壳,并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。

AYi: http://x.com/i/article/2061406941541240838

智能体大佬观点
12:50
数字生命卡兹克@Khazix0918
同事件精选84
为了不花那120刀,我把电脑清理软件做成了开源skill

作者受一条推文启发,使用Codex对自己的MacBook进行了只读存储分析,发现了B站缓存视频等大量可清理空间(激进方案超140G)。为替代收费软件CleanMyMac,作者制作并开源了一个跨平台(支持Mac/Windows)的AI清理skill。该skill会扫描文件并生成可交互的HTML报告,通过三色分级(绿灯可放心清理、黄灯需人工判断、红灯禁止动)直观展示,并提供安全执行按钮。实测清理后释放了近120G空间,相比CleanMyMac仅扫描出的15.8G,其信息更透明、建议更详细。

智能体GitHubMCP/工具开源/仓库
同一事件,精选展示《基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾》
推荐理由:不花120刀就把Mac清理干净,卡兹克这个开源skill比CleanMyMac更透明、更懂你的乱七八糟。Agent让你直接说人话清垃圾,传统软件那层UI真的多余。
12:40
HuggingFace Daily Papers(社区热门论文)
61
在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究
12:40
HuggingFace Daily Papers(社区热门论文)
68
多智能体计算机使用

当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。

智能体开源/仓库论文/研究
12:19
OpenRouter:Announcements(RSS)
精选77
OpenRouter 5月发布亮点

OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。

智能体MCP/工具产品更新部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 五月交付了一整套平台级能力,从安全护栏到语音 API 再到模型融合,Pareto Code Router 按质量阈值选廉价模型这个思路,对 coding agent 的成本控制很实用。如果你重度依赖 OpenRouter,这次更新值得细读。
12:07
IT之家(RSS)
52
英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"

英伟达CEO黄仁勋在媒体招待会上表示,新推出的Vera CPU是为智能体而非人类设计的,开辟了新市场。同时推出的RTX Spark电脑芯片被定位为面向智能体AI时代的计算平台。黄仁勋认为智能体AI将是未来十年最重要的算力变革,并表示英伟达将尽可能使用现成的ARM技术。他坦言公司目前供应仍显紧张。此外,黄仁勋支持SK海力士与三星电子的高薪政策,认为公司“应该尽可能多地奖励员工”。

智能体推理行业动态
12:07
IT之家(RSS)
50
微软 Copilot 超级应用曝光:整合多款工具,常驻 AI 智能体 Scout

根据曝光的截图,微软正在开发“Copilot 超级应用”,内部口号是“Delivering one Copilot”,旨在统一所有 Copilot 工具入口。该应用计划整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 及内部代号为 Autopilot 的新智能体能力。应用内包含一个代码页,形态类似 Claude Code 面板,带有一个名为 Scout 的常驻 AI 智能体。用户可通过该页面管理代码仓库、切换模型并安排定时任务。另一个 Cowork 标签页用于汇总数据并提供提示词。

智能体产品更新编码
12:07
Ethan Mollick@emollick
70
关于使用Github及其他数据的AI编程智能体的重要论文 自动补全工具(如Copilot)使代码量增加2.2倍,本地智能体(如初版Claude Code)增加7.4倍,而当前远程编程智能体增加17.3倍(!) 但编程中的人类瓶颈意味着实际发布量"仅"增加了30%
智能体编码论文/研究
12:07
meng shao@shao__meng
35
今晚20:00,图灵社区直播间将举办一场关于 AI Agent Skills 的公开课。分享内容将涵盖讲者制作技能(Skills)的实操经验和心得体会,并介绍新书《图解Skill: AI提效实战指南》。该活动面向需要 AI 提效的受众。

宝玉: 北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。

智能体行业动态
12:06
StepFun@StepFun_ai
69
阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构,从设计之初就专注于推理效率。其采用多矩阵分解注意力机制,使KV-cache成本仅为DeepSeek模型的约22%;同时通过注意力与FFN解耦技术,实现了硬件优化的高效服务。该模型已通过Fireworks AI提供,采用Apache 2.0许可,并可用于构建智能体应用。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ...

智能体开源/仓库推理模型发布
11:40
HuggingFace Daily Papers(社区热门论文)
67
PEFT的扩展性研究:迈向由万亿参数模型支撑的百万个人模型

论文提出,参数高效微调(PEFT)不仅是全参数微调的低成本替代,更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开:Scale Up(更强共享先验提升小适配器效用)、Scale Down(探索适配器可靠性的最小化边界)、Scale Out(大规模持久化适配实例共存)。以MinT为例,展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明,PEFT有潜力成为持久化个人模型的紧凑底座,而不仅仅是预算替代方案。

智能体数据/训练论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
69
K-BrowseComp:基于韩语语境的网页浏览智能体基准测试

K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。

智能体arXiv搜索论文/研究
11:07
IT之家(RSS)
56
腾讯正测试微信AI智能体原型,并列为最高战略优先级

腾讯正在为拥有14亿用户的微信测试内嵌式AI智能体原型。用户只需在微信主界面向右滑动,即可调出对话窗口,输入指令后智能体能自动调用微信小程序完成各类任务,例如根据要求找咖啡馆点单。该产品计划最快于本月启动合规审批,之后通过灰度测试分阶段推广。然而,其全量上线面临算力供给不足的挑战,且成本投入极高。面对阿里千问、字节豆包等竞品的AI智能体功能,腾讯已将此项目列为最高战略优先级,力求打磨细节。

智能体产品更新
10:47
Berryxia.AI@berryxia
63
Claude Code 工作流拆解

该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统,包含三个核心角色:Claude负责拆解任务与规划,Runtime负责调度管理状态,每个AI智能体(agent)仅处理一个子任务,并通过并发池与队列推进。系统关键设计是“状态外置”,即中间结果由执行系统保存,主上下文只读取摘要,从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式,代表了一种新的工程编排方式,并可将其工作流转换为自有系统的可执行格式。

huangserva: 肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚 有人说它的伟大程度,不亚于 MCP 和 Skill。 第一眼我是不信的,直到拆开看它内部怎么跑: 这不是"问一句答一句"的对...

智能体AnthropicMCP/工具教程/实践
10:47
Berryxia.AI@berryxia
32
图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey,内容包括其制作Skill的实操经验与心得体会,并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学,书籍的实用性很高。

宝玉: 北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。

智能体教程/实践
10:36
Alibaba Cloud@alibaba_cloud
82
阿里云发布通义千问3.7-Plus多模态智能体模型

阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

智能体多模态模型发布
关联讨论 6 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)
10:07
IT之家(RSS)
60
图灵奖得主萨顿:普通生成式AI难当科学发现重任

图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。

智能体大佬观点推理
09:58
公众号:数字生命卡兹克
精选71
基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾

作者基于 Codex 创建并开源了“清理垃圾.skill”,可对 Mac 和 Windows 电脑进行只读扫描,自动生成可交互的 HTML 报告,将文件按优先级分为绿灯(可自动清理)、黄灯(建议手动)、红灯(跳过)。在作者的 MacBook Air 上扫出近 120 GB 垃圾,其中 96.7 GB 为 B 站离线缓存视频,而 CleanMyMac 仅检出 15.8 GB。用户可在网页上逐项或一键清理,全程需二次确认,项目已开源至 GitHub。

智能体GitHub开源/仓库

推荐理由:卡兹克这个开源skill直接用Agent清理电脑垃圾,比CleanMyMac更透明、可定制,而且马上就能用,是AI冲击工具软件的活案例。
09:35
meng shao@shao__meng
54
用户邵猛的 $10K Cursor 额度使用体验回顾

用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。

meng shao: 收到 @cursor_ai 团队成员私信,随后 $10K 到手,非常感谢! 5月份是 Cursor Token 自由的一个月 😃 把 Cursor 新功能用起来,多多给团队提反馈,自己也试试在 Token 自由的情况下,看看能做出什么有趣...

智能体教程/实践编码
09:05
meng shao@shao__meng
64
Lee Robinson 分享四条「Agent 友好型代码库」原则

Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。

Lee Robinson: Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have so...

智能体教程/实践编码
09:05
meng shao@shao__meng
精选78
Anthropic 开发者分享 Claude Code「理解验证」工作流

Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。

Thariq: been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...

智能体Anthropic教程/实践编码

推荐理由:Anthropic内部的「理解验证」工作流,把结对编程的认知摊到全程,用清单和测验逼你真正懂。做AI辅助开发又不想当审批按钮的,可以直接套用。
09:00
宝玉@dotey
54
宝玉分享 Agent Skills 实操经验与新书

宝玉(@dotey)宣布将于北京时间当晚20:00在图灵社区直播间举办公开课,主题为 Agent Skills。他将分享自己制作 Skill 的实操经验和心得体会,并介绍新书《图解Skill: AI提效实战指南》。

智能体MCP/工具行业动态
08:47
凡人小北@frxiaobei
67
Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。 如果你要搭建一个 agent,技术栈可以是: typescript + codex + cc-switch

Vaibhav (VB) Srivastav: We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...

智能体OpenAI开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
43
SkillHarness:为计算机使用智能体安全地利用技能

计算机使用智能体在动态交互环境中面临提示注入等对抗性交互和弹窗等环境动态带来的安全风险。现有技能学习方法假设静态安全环境,可能导致危险技能学习。SkillHarness将技能学习与利用建模为安全约束交互过程,引入技能边界机制,利用多源监督信号从交互轨迹中识别安全技能,并构建自改进的安全约束;同时通过选择性技能复用,根据上下文引导任务分解并选择性激活技能子集。实验表明,SkillHarness将学习技能的不安全率降低57.1%,并在动态环境变化下持续提升执行稳定性。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Curation-Bench:通用智能体能否自动化数据筛选?

Curation-Bench 是一个面向智能体的基准,固定模型、训练配方和评估套件,赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中,开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距:智能体主要调整局部策略变体,而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法,引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略,以十分之一的数据预算超越了强基线。代码和基准已开源。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具

EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。

智能体推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Skill-RM:通过智能体技能统一异构评估标准

针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题,提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行,把奖励计算当作结构化的智能体任务,通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中,Skill-RM持续优于传统judge基线,为奖励建模提供了统一且透明的方案。代码已开源。

智能体arXivGitHub数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
49
Lean4Agent:面向智能体工作流与轨迹的形式化建模与验证

大语言模型执行多步工作流缺乏形式化规范与验证。受形式语言克服自然语言歧义启发,Lean4Agent 首次用依赖类型形式语言 Lean4 建模和验证智能体行为。其核心 FormalAgentLib 是可扩展的 Lean4 库,在显式假设下验证工作流语义一致性并定位运行时故障。LeanEvolve 利用验证结果修正工作流。在 SWE-Bench-Verified 困难子集和 ELAIP-Bench 子集上,5 个 LLM 的验证通过工作流性能平均高 11.94%,LeanEvolve 进一步将 SWE 性能提升 7.47%。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理

EvoDS 是一个自进化自主数据科学智能体,通过智能体强化学习实现技能扩展与长期上下文自适应管理。核心包括自主技能获取(ASA)机制与自适应上下文压缩(ACC)策略,前者用于合成、验证和复用可执行技能,后者将上下文管理转化为学习控制问题。采用两阶段多智能体训练方案。理论证明其分层设计降低工具选择错误,优化目标符合信息瓶颈原理。在四个基准测试中,EvoDS 平均优于现有开源数据科学智能体 28.9%,并消除 token 溢出失败。代码与数据已开源。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ACTS:面向高效可控LLM推理的智能体链式思维引导

ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。

智能体arXiv推理论文/研究

推荐理由:ACTS 把 LLM 推理过程变成可控制的 MDP,用预算感知的策略节省 token 同时保持精度,做推理加速的研究者应该试试他们开源的代码。
08:00
HuggingFace Daily Papers(社区热门论文)
66
Token Budgets:63起LLM智能体预算超支事故的经验目录与仿射类型Rust缓解案例研究

论文整理了2023-2026年间21个编排框架中63起LLM智能体预算超支生产事故,构建8簇故障分类(Cohen's kappa=0.837,N=113),附加47个结构条目。开发了1,180行无unsafe的Rust crate token-budgets,通过仿射所有权模型使克隆、双重花费及委托后使用在编译期报错。单智能体下4行Python计数器表现相当(0/30超支);多智能体委托场景中Python asyncio模式30/30超支,Rust crate编译期拒绝相同模式。在5个运行时、3个提供商、160次温度分层实时API测试中,方案零预算违规且零误拒,静态过度预留4-6倍(自适应2.11倍)。二进制级别预算安全性暂未解决。

智能体MCP/工具论文/研究
‹ 上一页
1…4647484950
下一页 ›