AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月23日周二
23:13歸藏(guizang.ai)42豆包 Seed 2.1 Pro 补齐 Agent 与 Coding 短板
23:12AYi64日本Fugu:0.6B参数的AI项目经理
22:50elvis65Microsoft Teams 推出执行任务的 AI 员工
22:49HuggingFace Daily Papers(社区热门论文)78精选能力强但粗心:计算机使用智能体是否遵循情境完整性?
21:42TechCrunch:AI(RSS)58Fika Jobs 获 400 万美元预种子轮,打造视频优先 AI 面试招聘平台
21:20karminski-牙医69Doubao-Seed-2.1-pro 发布,作者分享自我迭代 Agent 构建技巧
21:20Hugging Face:Blog(RSS)73精选IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用
21:11AYi74EverOS 1.0.0:给AI Agent搭建持久记忆的开源本地记忆操作系统
19:11AYi73Sakana AI 发布 Fugu:0.6B 参数多智能体编排系统,性能超 Claude 和 GPT
19:10公众号:小红书技术(dots.llm)54小红书QEcon分享:Agent驱动的服务端端到端测试
19:10公众号:千问APP(阿里)60精选国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师
19:10IT之家(RSS)48字节新一代豆包AI手机或延迟发布,因需双重认证
18:07IT之家(RSS)42企业微信 AI Agent"大圆"开启内测:左滑唤起,自动理解诉求并给出回复
18:07IT之家(RSS)51QQ邮箱推出Agently Mail,为AI智能体提供专属邮箱服务
18:03fofr72Gemini Interactions API 正式可用
17:16Alibaba Cloud56Coding Agent 2.0:从个人工具到组织系统
17:07IT之家(RSS)59腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测
17:02向阳乔木41最近听到了好多workbuddy在中小企业的应用,出乎意料的受欢迎。 这可能是腾讯目前最PMF的AI产品。
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:46Alibaba Cloud55阿里云Coding Agent 2.0:从个人工具到组织系统
16:16Alibaba Cloud39阿里云Autopilot智能体竞技场启动
16:12Hugging Face:Blog(RSS)59精选我们用免费本地模型对 OpenClaw 仓库进行实时分类
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
16:07IT之家(RSS)40比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市
15:55X.PIN62微信AI助手"小微"抢先体验:基于WeLM,部分由DeepSeek响应
15:41MarkTechPost(RSS)49Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练
15:07IT之家(RSS)54Sakana AI 推出多智能体编排系统 Sakana Fugu
14:33数字生命卡兹克782026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力
14:13HuggingFace Daily Papers(社区热门论文)55Tmax: 终端智能体的简单配方
14:07IT之家(RSS)48DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定
13:13HuggingFace Daily Papers(社区热门论文)61Self-Compact:让语言模型智能体自行决定何时压缩轨迹
13:13HuggingFace Daily Papers(社区热门论文)52PhoneBuddy:训练开放模型实现智能体手机使用
13:13HuggingFace Daily Papers(社区热门论文)50CLI-Universe:面向终端智能体的可验证任务合成引擎
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:13HuggingFace Daily Papers(社区热门论文)51EnterpriseClawBench:从真实工作会话构建的企业智能体基准
12:13HuggingFace Daily Papers(社区热门论文)48causal-learn+:智能体应辅助因果发现而非提供因果结论
09:13Berryxia.AI72成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成
08:13ginobefun48OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
23:13
歸藏(guizang.ai)@op7418
42
测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准
23:12
AYi@AYi_AInotes
64
日本Fugu仅0.6B参数,本质是AI项目经理,自动拆分任务,从顶级模型池挑选选手,分配思考、执行、验证三种角色,多轮协作合成答案。API调用与普通模型无异,编排策略由训练习得。跑分超越Claude和GPT,绕过scaling law军备竞赛。缺点包括黑箱、复杂任务延迟高、简单题成本更高。信号意义在于多智能体编排从实验室玩具正式变为可用生产力工具,orchestration layer新赛道开启。

AYi: 全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...

智能体大佬观点推理
22:50
elvis@omarsar0
65
Microsoft Teams 刚刚跨过了一条我今年没预料到的界限。 它现在运行一个 AI 员工,这个员工能完成工作,而不是回答问题的员工。 以下是新内容:
智能体Microsoft产品更新
22:49
HuggingFace Daily Papers(社区热门论文)
精选78
能力强但粗心:计算机使用智能体是否遵循情境完整性?

AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由:计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理,发现平均泄漏率接近 70%,把这个隐患摆到了台面上,做 agent 产品的团队该把它加入上线前测试清单。
21:42
TechCrunch:AI(RSS)
58
Fika Jobs 获 400 万美元预种子轮,打造视频优先 AI 面试招聘平台

斯德哥尔摩初创公司 Fika Jobs 推出视频优先招聘平台,求职者连接 LinkedIn 后,AI 基于 Google Gemini 模型生成个性化问题并完成约 10 分钟视频面试。面试内容自动剪辑成短视频,组织成可被雇主发现和回访的动态档案。平台本周向求职者开放早期访问,秋季全面推出。对求职者免费,雇主在成功招聘后支付候选人首年工资的 10%。本轮 400 万美元预种子轮由 Luminar Ventures 领投,Alliance VC 及 King 联合创始人参与。已有超 100 家公司进入候补名单,超 50 家公司参与测试。

智能体行业动态
21:20
karminski-牙医@karminski3
69
Doubao-Seed-2.1-pro 发布,作者分享自我迭代 Agent 构建技巧

字节跳动发布 Doubao-Seed-2.1-pro 模型。作者分享自我迭代 Agent 技巧:用两个 Agent(打工+评审),打工 Agent 完成任务后,评审 Agent 输出结构化评分(JSON)并说明优劣;打工 Agent 根据评分修改,评审 Agent 再次打分,仅当新得分高于上次才合并修改。此方法基于 AI 反馈的强化学习雏形,类似吴恩达 Agentic Workflow 中的 Reflection 原则。最终利用 Seed-2.1 的强多模态与自我迭代能力,实现“上传城市相册即可建模整个城市”的 demo。

智能体教程/实践
21:20
Hugging Face:Blog(RSS)
精选73
IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用,涵盖电影推荐、IBM Cloud 架构顾问等场景,每个应用仅需一个 FastAPI 文件。

智能体GitHubMCP/工具产品更新

推荐理由:CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置,开发者只写工具列表和 prompt 就能跑起 agent,配套的二十多个单文件应用是现成的模板库,对自建 agent 的团队来说省去了八成重复工作。
21:11
AYi@AYi_AInotes
74
EverOS 1.0.0:给AI Agent搭建持久记忆的开源本地记忆操作系统

EverOS 1.0.0是一款开源、本地优先的记忆操作系统,专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件(唯一可信来源),配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤,无需Docker或向量数据库集群。官方基准:LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取(PDF/图片/网页URL),任务可自我演化成可复用Skill,计划加入Knowledge Wiki和Reflection。用户通过CLI(everos init/server start)约30分钟上手。

智能体开源生态教程/实践部署/工程
19:11
AYi@AYi_AInotes
73
Sakana AI 发布 Fugu:0.6B 参数多智能体编排系统,性能超 Claude 和 GPT

日本团队 Sakana AI 推出 Fugu(Fugu Ultra),一个仅 0.6B 参数的多智能体编排系统,通过统一 API 调用。它不是单体大模型,而是 AI“项目经理”:简单任务自处理,复杂任务自动拆分,从全球模型池选择模型分配思考、执行、验证角色,多轮协作输出答案。编排策略由训练生成,而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT,性能匹敌 Fable 和 Mythos,绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具,开启编排层赛道。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新部署/工程
19:10
公众号:小红书技术(dots.llm)
54
小红书QEcon分享:Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%,新方案以Coding Agent为核心,采用逆向链式推导与知识库渐进式加载实现动态规划,Debug-first策略生成脚本,并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级,常见场景秒级完成,新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口,无需预设编排。

智能体推理教程/实践
19:10
公众号:千问APP(阿里)
精选60
国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由:千问高考志愿Agent的测评报告,数据看着漂亮,但全是阿里自家实验室出品,参考意义不大,真填志愿还是得找独立第三方。
19:10
IT之家(RSS)
48
字节新一代豆包AI手机或延迟发布,因需双重认证

据蓝鲸新闻6月23日援引知情人士消息,中兴通讯与字节共同推进的新一代豆包AI手机可能延迟,原因是要同时通过网信部门大模型备案和工信部手机终端入网认证。若审批顺利,最快7-8月面世。屏幕供应商从前一代深天马换为京东方,电池采用德赛ATL电芯,预计由福日电子旗下中诺通讯代工。此前双方于2025年12月发售了搭载豆包手机助手技术预览版的工程样机努比亚M153,配备骁龙8至尊版芯片、6.78英寸LTPO显示屏及6000mAh电池。

智能体端侧行业动态
18:07
IT之家(RSS)
42
企业微信 AI Agent"大圆"开启内测:左滑唤起,自动理解诉求并给出回复

6月23日,企业微信启动代号“大圆”的AI Agent内测。该产品定位为“长在企业微信工作流里”的AI助理,移动端左滑即可唤起,能自动理解用户当前界面及问题,基于群聊、文档、会议、邮件等数据给出回复。正在灰度测试的“服务总结”功能可在员工与客户沟通过程中自动提炼客户需求、成交意向和卡点,并推送建议重点跟进的客户。管理侧,客户群和客户信息可自动沉淀到AI智能表格,生成数据分析仪表盘,拆解客户意向、转化漏斗和服务质量。

智能体产品更新
18:07
IT之家(RSS)
51
QQ邮箱推出Agently Mail,为AI智能体提供专属邮箱服务

6月23日,腾讯QQ邮箱推出专为AI智能体打造的专属邮箱服务Agently Mail,并开启内测。该产品独立于个人邮箱运行,可为AI Agent提供安全、隔离且具备独立身份的数字通信空间。支持WorkBuddy、QClaw、Marvis、OpenClaw、Claude Code、Kimi Work、豆包超能模式、Codex、Hermes、Cursor等主流Agent。腾讯公关总监张军表示后续会开放更多平台。Agently Mail已上架腾讯SkillHub,代码仓库在GitHub以Apache-2.0协议开源。

智能体产品更新开源生态
18:03
fofr@fofrAI
72
今天,Interactions API 正式可用,作为 Gemini 模型和智能体的主要接口。该 API 基于开发者反馈构建,针对有状态、智能体的工作流优化,带来 Managed Agents、后台执行、扩展工具支持、多模态生成以及即将推出的 Gemini Omni 等新能力。开发者可通过 `npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global` 为其 agent 添加该 API 技能。

Google: Today, the Interactions API is now generally available as our primary interface for Gemini models and agents. Built base...

智能体GoogleMCP/工具教程/实践
17:16
Alibaba Cloud@alibaba_cloud
56
🚀 Coding Agent 2.0:从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多渠道访问 ꔷ 防止配额消耗并确保安全 使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource #AIEngineering #Java
智能体产品更新编码
17:07
IT之家(RSS)
59
腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测

腾讯 QQ 邮箱推出 Agently Mail,为 AI 智能体提供独立于个人邮箱的专属邮箱地址,已开启内测。开通需实名认证,所有写操作需生成摘要经用户确认后执行,读邮件具备 Prompt 注入防护。Agent 可用该邮箱自主注册第三方平台、接收验证码,并支持企业间 A2A 自动通信(询价、报价、订单对接)。已适配 WorkBuddy、Claude Code、Kimi Work、豆包超能模式等多款 AI Agent,代码在 GitHub 以 Apache-2.0 协议开源。用户可通过 Agent 对话安装 CLI 工具、微信扫码授权使用。

智能体MCP/工具产品更新
17:02
向阳乔木@vista8
41
最近听到了好多workbuddy在中小企业的应用,出乎意料的受欢迎。 这可能是腾讯目前最PMF的AI产品。
智能体大佬观点现象/趋势
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:46
Alibaba Cloud@alibaba_cloud
55
🚀 Coding Agent 2.0:从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多通道访问 ꔷ 防止配额燃烧并确保安全 使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource#AIEngineering #Java
智能体产品更新编码
16:16
Alibaba Cloud@alibaba_cloud
39
🏎️ 欢迎来到 Autopilot Agent Arena!你的挑战是端到端自动化真实世界的商业工作流,赢取 $70,000+ 奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体产品更新
16:12
Hugging Face:Blog(RSS)
精选59
我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。

智能体Hugging Face开源生态教程/实践

推荐理由:Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案,包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队,这是一套可直接借鉴的 recipe。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
16:07
IT之家(RSS)
40
比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市

比亚迪腾势超级智能体“迪迪虾”基于整车智能体系,采用活人逻辑,支持根据用户需求操控车辆、理解和执行多步骤复杂指令,并打通手机生态。该智能体将登陆腾势N8L闪充版,该车今晚19:30发布上市,预售价35-40万元,标配第二代刀片电池,插混闪充版纯电续航430km(同级第一),自称“5分钟充好,9分钟充饱”“零下30度,只多3分钟”。新车全球首搭新一代AI智能座舱,配备天神之眼5.0辅助驾驶系统。

智能体产品更新多模态
15:55
X.PIN@thexpin
62
微信AI助手"小微"抢先体验:基于WeLM,部分由DeepSeek响应

作者抢先体验了微信AI助手“小微”。小微基于腾讯自研中文大模型WeLM,部分响应由DeepSeek处理。用户手动激活后,可设置日程、发消息、打电话、生成歌单、启动小程序,并能唤醒美团外卖和京东购物,但转账、红包等最终支付需手动确认。隐私方面:聊天信息仅当前会话读取,不保存、不用于训练,上下文记忆可手动关闭。微信拥有超10亿用户,而腾讯在大模型领域落后于字节和阿里,因此微信成为其最重要的AI落地窗口。支付宝也已在测试具备车辆预约和外卖配送能力的AI智能体。

智能体DeepSeek产品更新
15:41
MarkTechPost(RSS)
49
Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架,针对万亿参数 MoE 模型,聚焦长周期智能体任务(如软件工程)。研究团队在 GLM-5 上训练 SWE 任务,序列长度达 131k,步时间低于5分钟,batch size 256,仅用28个H200节点。推理优化包括 FP8(DeepEP、DeepGEMM 内核)、宽专家并行(≥32 GPU)、前填充与解码分离、KV 缓存分层卸载(vLLM 原生或 Mooncake Store)以及路由重放(R3,降低 KL 不匹配约一个量级)。训练基于 torchtitan,采用3D并行(FSDP2、上下文并行、专家并行)和块缩放 FP8(由 DeepSeek V3 提出),以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程
15:07
IT之家(RSS)
54
Sakana AI 推出多智能体编排系统 Sakana Fugu

日本 Sakana AI 于当地时间 6 月 22 日推出多智能体编排系统 Sakana Fugu。该语言模型可根据任务智能调用包括自身在内的最适模型,对外封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可与 Anthropic Fable 5 / Mythos Preview 相当甚至更优。该系统可帮助用户避免对单一供应商的依赖,个别模型不可用时影响较小。

智能体Anthropic产品更新推理
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
14:13
HuggingFace Daily Papers(社区热门论文)
55
Tmax: 终端智能体的简单配方

Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率,超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据,并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据,使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。

智能体开源生态数据/训练论文/研究
14:07
IT之家(RSS)
48
DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定

DeepSeek Harness团队负责人崔添翼6月21日发文称,新成立的Harness团队目标宏大、工作繁重,人员紧缺,正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论,崔添翼回应称,公司招人需要能用中文工作,如同美国公司要求能用英语,并无不招外国人的规定。知情人士透露,DeepSeek已在内部组建Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。

智能体DeepSeek编码行业动态
13:13
HuggingFace Daily Papers(社区热门论文)
61
Self-Compact:让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。

智能体arXiv推理论文/研究
13:13
HuggingFace Daily Papers(社区热门论文)
52
PhoneBuddy:训练开放模型实现智能体手机使用

训练开放模型实现可靠手机操控面临真实设备慢、难重置,模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案:先共享监督微调,再对比真实RL与混合RL。在150项真实手机评估中,成功率从SFT的36.67%提升至混合RL的45.33%;在AndroidWorld上从60.3%升至83.2%。结果表明,模拟训练是真实RL的互补来源,优势在应用/小程序任务,跨应用工作流仍是开放挑战。

智能体arXiv数据/训练论文/研究
13:13
HuggingFace Daily Papers(社区热门论文)
50
CLI-Universe:面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
12:13
HuggingFace Daily Papers(社区热门论文)
51
EnterpriseClawBench:从真实工作会话构建的企业智能体基准

EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。

智能体GitHub数据/训练论文/研究
12:13
HuggingFace Daily Papers(社区热门论文)
48
causal-learn+:智能体应辅助因果发现而非提供因果结论

当前将大语言模型(LLM)与因果发现结合的做法,常让模型推断边方向、提出图结构或注入先验与约束,但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色:检查数据、检索上下文、解释方法假设并澄清图输出,而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现,协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体arXiv论文/研究
09:13
Berryxia.AI@berryxia
72
成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体MCP/工具开源/仓库教程/实践
08:13
ginobefun@hongming731
48
OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗

OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。

智能体OpenAI安全/对齐现象/趋势
‹ 上一页
1…1314151617…50
下一页 ›