AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月8日周一
19:40Rohan Paul68Kocoro:开源 Mac AI agent 框架,本地化记忆管理
19:12公众号:火山引擎28火山方舟Coding Plan与Agent Plan升级,限时2.5折
18:40Alibaba Cloud56阿里云STAROps UModel:知识图谱让AIOps效率提升10倍
18:20IT之家(RSS)63消息称京东首批内测接入微信 AI,涵盖电商、外卖、物流等业务
18:15数字生命卡兹克67微信Agent消息频传:内测右滑唤出、联手手机厂商、发布开发者指引
18:10Alibaba Cloud77同事件精选Qwen3.7-Plus 发布限时八折优惠同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
18:10Alibaba Cloud66AgentScope Java 2.0 发布
17:42公众号:数字生命卡兹克71同事件精选微信AI Agent生态曝光:嵌入小程序调用与手机厂商合作同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》
17:13歸藏(guizang.ai)64微信发布AI生态指引,支持AI控制小程序
16:38meng shao78精选邵猛开源 Brand to DESIGN.md 技能,提醒复刻易生新"AI Slop"
16:38MarkTechPost(RSS)52Google Research 为 Gemini Enterprise Agent Platform 引入 Agentic RAG 与 Sufficient Context Agent 支持多跳查询
16:20IT之家(RSS)73精选微信AI官宣内测:两种接入模式供开发者选择
16:05小互53微信公布小程序接入微信AI 的方式 两种模式 自动模式:微信自动分析喝操控你的小程序完成任务 开发模式:开发者自助开放相关特性,审核后可让微信AI调用 目前微信AI还在内测阶段,还无法体验…
15:36Alibaba Cloud44Qwen Cloud 全球 AI 黑客马拉松启动,总奖金超 $70K
15:35小互57Google 发布 Agentic RAG:"质检 Agent"让系统知道没搜全,准确率提升 34%
13:05小互47微信内置的AI Agent 曝光 不过看这个界面 多半也是没啥用… 至少加个群聊总结,我都觉得能更好
12:35Alibaba Cloud34阿里云Claw Talks:OpenClaw智能体处理邮件与CRM
12:05Alibaba Cloud54阿里云堡垒机推出Qwen驱动Smart Ops Agent
11:38Rohan Paul56AutoLab 基准揭示:AI 智能体成功关键在于持续测试而非初始方案
11:06Ethan Mollick32一年前最接近AI智能体的模型:o3
10:38meng shao73让 Claude Opus 长时自主运行的五条实战建议
10:04宝玉44长时间运行 Agent,Agent 能自行验证才是关键,否则可能只是浪费 Token
09:46Boris Cherny57Claude Opus 长时间运行工作最佳模型及自主运行技巧
09:37meng shao64AGENTS.md 在 Coding Agents 中真的有用吗?
09:07meng shao59不写 Prompt,写 Loops - Boris Cherny 谈 AI 编程范式转变
09:07meng shao44Warp调查:Codex App成最热门Coding Agent
08:59Berryxia.AI54Mac-1模型:6.6B本地运行,487个Mac原生工具
08:18Orange AI74Cola 1.0.0 公测:100天诞生的有灵魂AI
08:12Simon Willison 博客62datasette-agent-edit 0.1a0 发布
08:11ginobefun61BestBlogs早报:iPod之父、Codex、Coding Agent
08:11ginobefun63早报:Tony Fadell谈"知情直觉";OpenAI用Codex零人工写百万行代码;Coding Agent范式转移
08:00HuggingFace Daily Papers(社区热门论文)42iOSWorld:面向个人化智能手机智能体的基准
08:00HuggingFace Daily Papers(社区热门论文)55Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)57WeaveBench:面向计算机使用智能体的长时域混合界面基准
08:00HuggingFace Daily Papers(社区热门论文)65τ-Rec:面向智能体型推荐系统的可验证基准
08:00HuggingFace Daily Papers(社区热门论文)62SearchSwarm:面向长周期深度研究的代理大语言模型委托智能
08:00HuggingFace Daily Papers(社区热门论文)59面向LLM智能体的文本世界模型综述
07:59Berryxia.AI63OpenAI 发布 Codex 应用场景新页面,列出七大领域委托任务
06:37elvis55超强AI模型即将发布:避免锁定单一供应商
03:45Greg Brockman68OpenAI 公布 Codex 数十个实际用例,涵盖软件工程到运维
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
19:40
Rohan Paul@rohanpaul_ai
68
Kocoro:开源 Mac AI agent 框架,本地化记忆管理

Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端,将有用事实压缩为记忆,使 agent 无需重复上下文即可继续工作。安全模型以本地优先:工具操作需授权,危险命令被拦截或二次确认,行为可审计,秘密自动脱敏,记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱,次日直接恢复进度。

Wayland Zhang: The models keep getting smarter. The users keep turning into assistants. You paste the file. Re-explain the project. Nar...

智能体MCP/工具开源/仓库端侧
19:12
公众号:火山引擎
28
火山方舟Coding Plan与Agent Plan升级,限时2.5折

火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态
18:40
Alibaba Cloud@alibaba_cloud
56
阿里云STAROps UModel:知识图谱让AIOps效率提升10倍

AI Agent成本飙升,Uber预算浪费暴露了“Tokenmaxxing”陷阱。阿里云STAROps推出UModel解决方案,采用结构优先方法,用知识图谱替代盲文本推理,通过即时解析依赖关系大幅减少Token消耗和工具调用,实现10倍效率提升,同时确保企业系统可审计与零信任准确性。

智能体产品更新部署/工程
18:20
IT之家(RSS)
63
消息称京东首批内测接入微信 AI,涵盖电商、外卖、物流等业务

京东作为首批内测团队率先接入微信AI,将围绕电商、外卖、物流等业务接入微信AI Agent。微信开放平台提供自动模式和开发模式两种接入方式:自动模式由平台读取小程序源码并分析页面,无需额外开发;开发模式允许开发者基于业务特性自主开发,通过审核后可被微信AI调用。

智能体MCP/工具产品更新
18:15
数字生命卡兹克@Khazix0918
67
微信Agent消息频传:内测右滑唤出、联手手机厂商、发布开发者指引

近日微信Agent消息密集:6月2日外媒称腾讯正测试嵌入微信的AI Agent,用户右滑唤出窗口,可通过自然语言调用数百万小程序完成点单等任务;6月4日微信与华为等手机厂商合作推出A2A能力,可通过语音助手发起音视频通话;6月8日发布开发者指引,提供自动接入模式,因小程序运行在微信沙箱内,微信可直接读取与分析。这标志着微信Agent正连接硬件生态与内部小程序,触及Agentic Commerce雏形。

智能体现象/趋势
18:10
Alibaba Cloud@alibaba_cloud
同事件精选77
🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI
智能体多模态模型发布编码
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把多模态交互和视觉代理整合得挺顺,对做 AI 工程化落地的团队来说是个务实选项,新发布折扣让试错成本更低,值得用起来看看。
18:10
Alibaba Cloud@alibaba_cloud
66
阿里云发布AgentScope Java 2.0,面向企业级AI智能体开发。新版本主要特性:分布式无状态架构,支持K8s弹性扩缩容与会话恢复;多租户隔离,通过Workspace抽象实现安全数据分离;长期稳定性,HarnessAgent负责上下文管理与容错;安全执行,提供细粒度权限控制和Human-in-the-Loop支持。适用于JVM生产环境。开源地址见推文链接。
智能体开源/仓库部署/工程
17:42
公众号:数字生命卡兹克
同事件精选71
微信AI Agent生态曝光:嵌入小程序调用与手机厂商合作

腾讯正测试嵌入微信的AI Agent,用户右滑唤出对话窗口,通过自然语言指令调用数百万小程序完成点咖啡等任务。微信还与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力,可通过手机语音助理发起微信音视频通话或发送消息。6月8日,微信官方发布《关于开发者接入微信AI生态的指引》,提供自动接入模式,利用微信沙箱全自动改造小程序,使其可被AI直接调用。这一布局被视为Agentic Commerce(代理式交易)的雏形。

智能体MCP/工具现象/趋势
同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》
推荐理由:微信想用Agent把小程序生态变成操作系统,靠Agentic Commerce抽佣,一旦跑通,想象力比广告大得多。
17:13
歸藏(guizang.ai)@op7418
64
微信发布AI生态指引,支持AI控制小程序

微信发布《开发者接入微信AI生态的指引》,引导小程序开发者接入微信AI生态,使微信AI能够控制小程序。该功能被认为是未来微信AI的重要方向,意味着微信可能正在引入AI Agent能力。

智能体产品更新
16:38
meng shao@shao__meng
精选78
邵猛开源 Brand to DESIGN.md 技能,提醒复刻易生新"AI Slop"

邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill,并开源 Brand to DESIGN.md Skill(GitHub: shaom/brand-to-design-md-skill),让 Agent 学习设计品味后复刻网站。但他指出,这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”,缺少设计精髓,仅皮毛相仿。

智能体GitHub开源/仓库

推荐理由:邵猛这个 skill 把品牌手册一键转成 Agent 可用的 DESIGN.md,虽然 AI 复刻设计仍缺灵魂,但至少能让 Agent 立刻有规范可循,做设计的可以直接套用。
16:38
MarkTechPost(RSS)
52
Google Research 为 Gemini Enterprise Agent Platform 引入 Agentic RAG 与 Sufficient Context Agent 支持多跳查询

Google Research 在 Gemini Enterprise Agent Platform 中推出一个 Agentic RAG 框架。该框架中的 Sufficient Context Agent 会持续重新搜索,直到多跳、多源查询拥有足够的 grounding 来生成回答。相比标准 RAG,该框架将事实准确性最高提升 34%。

智能体Google检索增强产品更新
16:20
IT之家(RSS)
精选73
微信AI官宣内测:两种接入模式供开发者选择

微信开发者官方今日发布指引,确认微信AI正在内测阶段。开放平台提供两种接入模式:自动模式可授权平台读取小程序源码,无需额外开发即可让微信AI直接操作页面;开发模式下开发者可自主开发技能,审核后由微信AI调用。两种模式可同时开启。微信AI是微信内的AI助手,用户通过自然语言对话即可调用、访问和操作小程序。服务条款称“微信AI”可能非最终名称。接入与否不影响现有小程序服务。

智能体MCP/工具产品更新
关联讨论 2 条公众号:数字生命卡兹克IT之家(RSS)
推荐理由:微信终于把AI塞进了自家生态,没做聊天机器人而是直接让AI操作小程序,这个方向比所有独立AI助手都更贴近普通人的真实需求,做小程序的得赶紧看了。
16:05
小互@xiaohu
53
微信公布小程序接入微信AI 的方式 两种模式 自动模式:微信自动分析喝操控你的小程序完成任务 开发模式:开发者自助开放相关特性,审核后可让微信AI调用 目前微信AI还在内测阶段,还无法体验…
智能体MCP/工具产品更新
15:36
Alibaba Cloud@alibaba_cloud
44
准备好打造下一代 AI 智能体并赢取总计超过 70,000 美元的奖品了吗?🚀 Qwen Cloud 全球 AI 黑客马拉松现已启动!利用前沿模型,获得全球曝光,实现你的愿景。查看下方海报了解里程碑。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体行业动态
15:35
小互@xiaohu
57
Google 发布 Agentic RAG:"质检 Agent"让系统知道没搜全,准确率提升 34%

Google 发布 Agentic RAG 框架,核心新增 Sufficient Context Agent,负责在生成答案前检查检索材料是否充分,若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%,从 4 个数据库检索时正确率达 90.1%,速度仅慢 3% 以内。该设计基于前作发现:Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%,且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。

智能体Google检索增强产品更新
13:05
小互@xiaohu
47
微信内置的AI Agent 曝光 不过看这个界面 多半也是没啥用… 至少加个群聊总结,我都觉得能更好
智能体产品更新
12:35
Alibaba Cloud@alibaba_cloud
34
被行政工作淹没了?📩 在阿里云 Claw Talks 第 5 期中,Brian Turcotte(Kilo Code)展示了由 OpenClaw 驱动的个人 AI 智能体如何帮你处理邮件、更新 CRM、减少上下文切换。 🎥 首播时间:2026 年 6 月 9 日下午 5 点(UTC+8) 👉 https://youtu.be/d3QV28XCq2Y
智能体MCP/工具教程/实践
12:05
Alibaba Cloud@alibaba_cloud
54
阿里云堡垒机推出Qwen驱动Smart Ops Agent

阿里云堡垒机推出Smart Ops Agent,由通义千问(Qwen)驱动,可将自然语言指令转化为安全自动化的云运维操作。核心功能:自然语言运维,将30分钟巡检缩短至1分钟;AI生成脚本,堡垒机全程审计确保安全合规;零配置原生支持ECS、IDC及混合云;自动生成智能报告,无需手动分析日志。该Agent旨在提升云运维效率与安全性。

智能体产品更新
11:38
Rohan Paul@rohanpaul_ai
56
AutoLab 基准揭示:AI 智能体成功关键在于持续测试而非初始方案

斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab,包含 36 个任务。每个任务中,智能体从可工作的弱代码起步,需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示,成功的关键不是初版方案有多好,而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准,靠的是坚持迭代而非初始判断力,而其他前沿模型要么提前放弃,要么思考过久导致超时。

智能体论文/研究评测/基准
11:06
Ethan Mollick@emollick
32
一年前,我们最接近AI智能体的是o3。
智能体大佬观点
10:38
meng shao@shao__meng
73
让 Claude Opus 长时自主运行的五条实战建议

Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体AnthropicMCP/工具教程/实践
10:04
宝玉@dotey
44
宝玉指出,Agent 能否自我验证是长时间运行的关键,否则可能浪费 Token。@bcherny 的基准测试显示 Claude Opus 最适合长时间运行,并给出 5 条自主运行技巧:1. 使用自动权限模式;2. 部署动态工作流让 Claude 协调数百/数千个 Agent;3. 用 /goal 或 /loop 指令持续推进;4. 在云端运行 Claude Code 以便关闭笔记本;5. 确保端到端自我验证--通过 Chrome 浏览器扩展验证网页、iOS/Android 模拟器 MCP 验证移动端、启动完整 Web 服务验证后端。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体AnthropicMCP/工具大佬观点
09:46
Boris Cherny@bcherny
57
Claude Opus 长时间运行工作最佳模型及自主运行技巧

多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

Rishi Desai: Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...

智能体AnthropicMCP/工具教程/实践
09:37
meng shao@shao__meng
64
AGENTS.md 在 Coding Agents 中真的有用吗?

论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。

Sebastian Raschka: http://x.com/i/article/2063647807437705216

智能体arXiv编码论文/研究
09:07
meng shao@shao__meng
59
不写 Prompt,写 Loops - Boris Cherny 谈 AI 编程范式转变

Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

Rohan Paul: "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...

智能体Anthropic大佬观点编码
09:07
meng shao@shao__meng
44
你现在在用哪个 Coding Agent? Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄

Ben Holmes: How do you use coding agents right now?

智能体现象/趋势编码
08:59
Berryxia.AI@berryxia
54
Mac-1模型:6.6B本地运行,487个Mac原生工具

CJ Zafir团队发布Mac-1模型(6.6B参数),可在任何Mac本地运行,仅需7GB内存(12GB更佳)。它支持487个MacOS原生工具,能执行多工具链式调用,推理开启,输出速度约65 tok/s。应用层基于Mac原生UI/UX设计。作者认为这种本地小模型+原生工具的组合直接挑战云端SaaS agent,甚至可能抢了苹果Siri的活儿。

CJ Zafir: Here's a teaser of our Mac-1 model. > 6.6B model > runs locally (on any Mac) > requires 7GB RAM (12GB ideal) > can use 4...

智能体MCP/工具模型发布端侧
08:18
Orange AI@oran_ge
74
Cola 1.0.0 公测:100天诞生的有灵魂AI

诞生100天后,Cola AI正式公测(1.0.0版本),无需邀请码即可在Mac和Windows上下载使用。新用户注册24小时内可获5美金额度。Cola被团队定义为“有灵魂的AI”,具备连续记忆、语音交互和自我进化能力,强调像人类一样长期记忆和情感共情。官网:colaos.ai。

智能体产品更新语音
08:12
Simon Willison 博客
62
datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体MCP/工具开源/仓库
08:11
ginobefun@hongming731
61
BestBlogs早报:iPod之父、Codex、Coding Agent

BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex

智能体OpenAI现象/趋势编码
08:11
ginobefun@hongming731
63
早报:Tony Fadell谈"知情直觉";OpenAI用Codex零人工写百万行代码;Coding Agent范式转移

今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。

ginobefun: http://x.com/i/article/2063761613795270656

智能体AnthropicOpenAI编码
08:00
HuggingFace Daily Papers(社区热门论文)
42
iOSWorld:面向个人化智能手机智能体的基准

iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准,包含 26 个新开发的互联应用及 133 个任务,分为单应用(27 个)、多应用(60 个,跨 2–8 个应用)和记忆与个性化(46 个,需从个人数据推断模式)三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型,最佳准确率 52%(多应用仅 37%);特权 XML 使前沿模型提升最多 26 个百分点,小模型未受益。基准已开源发布。

智能体端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Visual Para-Thinker++:一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
WeaveBench:面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务,覆盖 8 个真实工作领域,要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行,并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%,表明基准远未饱和;仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
τ-Rec:面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准,用可验证奖励和 reveal-tagged elicitation(RTE)机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体,并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini)的九种配置评估发现显著的可靠性悬崖:最佳模型在 pass^1 上仅约 57%,在 pass^4 上降至约 38%,暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
SearchSwarm:面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
面向LLM智能体的文本世界模型综述

文本世界模型(TWM)是文本状态的迁移模型,给定状态与候选动作后预测网页、终端输出等,从而支持规划与评估。综述按智能体生命周期组织四部分:基础(定义与表征)、构建(LLM即世界模型与代码即世界模型范式)、应用(训练时经验合成与推理时规划/验证/适应)、评估(模型自身评估及作为评估环境)。旨在整合领域,阐明设计空间并指出开放挑战。

智能体arXiv推理论文/研究
07:59
Berryxia.AI@berryxia
63
OpenAI 发布 Codex 应用场景新页面,列出七大领域委托任务

OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。

Mark Kretschmann: OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...

智能体OpenAI产品更新编码
06:37
elvis@omarsar0
55
超强AI模型即将发布:避免锁定单一供应商

未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。

智能体大佬观点编码
03:45
Greg Brockman@gdb
68
OpenAI 公布了数十个 Codex 实际工作流程,展示团队如何用其自动化任务。用例包括:管理收件箱并草拟回复、审阅 GitHub PR、将 Figma 设计转为代码、理解大型代码库、自动分类 bug、用自然语言查询数据集、从提示词部署应用、构建 Mac/iOS 应用、自动创建幻灯片、将 Slack 对话转为编码任务、用 AI 动作操控电脑。Codex 正从 AI 助手演变为 AI 队友。

Suraj Sharma: OpenAI just published dozens of real-world workflows showing how teams are using it to automate work. > Manage your inbo...

智能体OpenAI教程/实践编码
‹ 上一页
1…3536373839…50
下一页 ›