AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2135 条
全部一手资讯X论文
标签「Agent」清除
6月23日周二
17:07IT之家(RSS)59腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:12Hugging Face:Blog(RSS)59精选我们用免费本地模型对 OpenClaw 仓库进行实时分类
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
16:07IT之家(RSS)40比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市
15:41MarkTechPost(RSS)49Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练
15:07IT之家(RSS)54Sakana AI 推出多智能体编排系统 Sakana Fugu
14:13HuggingFace Daily Papers(社区热门论文)55Tmax: 终端智能体的简单配方
14:07IT之家(RSS)48DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定
13:13HuggingFace Daily Papers(社区热门论文)61Self-Compact:让语言模型智能体自行决定何时压缩轨迹
13:13HuggingFace Daily Papers(社区热门论文)52PhoneBuddy:训练开放模型实现智能体手机使用
13:13HuggingFace Daily Papers(社区热门论文)50CLI-Universe:面向终端智能体的可验证任务合成引擎
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:13HuggingFace Daily Papers(社区热门论文)51EnterpriseClawBench:从真实工作会话构建的企业智能体基准
12:13HuggingFace Daily Papers(社区热门论文)48causal-learn+:智能体应辅助因果发现而非提供因果结论
08:00HuggingFace Daily Papers(社区热门论文)71精选SkillHone:基于持久决策历史的持续智能体技能演进工具
08:00HuggingFace Daily Papers(社区热门论文)45我们准备好迎接智能体原生记忆系统了吗?
08:00HuggingFace Daily Papers(社区热门论文)45MEMPROBE:基于隐藏用户状态恢复的长期记忆智能体探测基准
05:12Hacker News 热门(buzzing.cc 中文翻译)72精选Show HN:Oak--专为代理设计的 Git 替代方案
05:05TechCrunch:AI(RSS)61Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要
04:40MarkTechPost(RSS)65xAI 为 Grok Build 推出 /goal 模式,支持长周期自主编码与内置验证
03:10MarkTechPost(RSS)76Sakana AI 发布多智能体编排系统 Sakana Fugu,对外表现为单一模型
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
02:14The Decoder:AI News(RSS)46Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
00:41Hacker News 热门(buzzing.cc 中文翻译)56Claude Code 的"扩展思维"只是总结,而非真实推理
00:11xAI:News(网页)69精选Grok Build 推出 /goal 模式,支持长时间自主任务执行
00:11Artificial Intelligence News(RSS)56日本AI公司Sakana AI推出Fugu多智能体模型
00:08Google Developers Blog(RSS)61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性
6月22日周一
22:30公众号:数字生命卡兹克72精选微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录
21:05IT之家(RSS)49谷歌云与诺基亚扩大合作,将 Gemini 模型融入电信网络智能运维平台
20:05IT之家(RSS)54亿咖通科技拟 18 亿元收购 Flyme 软件业务,年内魅族现有手机将迎大规模系统升级
16:43The Decoder:AI News(RSS)66Sakana AI 推出 Fugu:动态协调多 LLM 的系统,匹配 Anthropic 顶级模型性能
15:38Hacker News 热门(buzzing.cc 中文翻译)52福古(Fugu)订阅与按量付费计划
10:20公众号:数字生命卡兹克49AI用得好不好,跟你会不会管人是同一件事
08:00HuggingFace Daily Papers(社区热门论文)54程序性记忆管理:LLM智能体的控制、适应与评估
08:00HuggingFace Daily Papers(社区热门论文)50GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
17:07
IT之家(RSS)
59
腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail,开启内测

腾讯 QQ 邮箱推出 Agently Mail,为 AI 智能体提供独立于个人邮箱的专属邮箱地址,已开启内测。开通需实名认证,所有写操作需生成摘要经用户确认后执行,读邮件具备 Prompt 注入防护。Agent 可用该邮箱自主注册第三方平台、接收验证码,并支持企业间 A2A 自动通信(询价、报价、订单对接)。已适配 WorkBuddy、Claude Code、Kimi Work、豆包超能模式等多款 AI Agent,代码在 GitHub 以 Apache-2.0 协议开源。用户可通过 Agent 对话安装 CLI 工具、微信扫码授权使用。

智能体MCP/工具产品更新
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:12
Hugging Face:Blog(RSS)
精选59
我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。

智能体Hugging Face开源生态教程/实践

推荐理由:Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案,包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队,这是一套可直接借鉴的 recipe。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
16:07
IT之家(RSS)
40
比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市

比亚迪腾势超级智能体“迪迪虾”基于整车智能体系,采用活人逻辑,支持根据用户需求操控车辆、理解和执行多步骤复杂指令,并打通手机生态。该智能体将登陆腾势N8L闪充版,该车今晚19:30发布上市,预售价35-40万元,标配第二代刀片电池,插混闪充版纯电续航430km(同级第一),自称“5分钟充好,9分钟充饱”“零下30度,只多3分钟”。新车全球首搭新一代AI智能座舱,配备天神之眼5.0辅助驾驶系统。

智能体产品更新多模态
15:41
MarkTechPost(RSS)
49
Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架,针对万亿参数 MoE 模型,聚焦长周期智能体任务(如软件工程)。研究团队在 GLM-5 上训练 SWE 任务,序列长度达 131k,步时间低于5分钟,batch size 256,仅用28个H200节点。推理优化包括 FP8(DeepEP、DeepGEMM 内核)、宽专家并行(≥32 GPU)、前填充与解码分离、KV 缓存分层卸载(vLLM 原生或 Mooncake Store)以及路由重放(R3,降低 KL 不匹配约一个量级)。训练基于 torchtitan,采用3D并行(FSDP2、上下文并行、专家并行)和块缩放 FP8(由 DeepSeek V3 提出),以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程
15:07
IT之家(RSS)
54
Sakana AI 推出多智能体编排系统 Sakana Fugu

日本 Sakana AI 于当地时间 6 月 22 日推出多智能体编排系统 Sakana Fugu。该语言模型可根据任务智能调用包括自身在内的最适模型,对外封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可与 Anthropic Fable 5 / Mythos Preview 相当甚至更优。该系统可帮助用户避免对单一供应商的依赖,个别模型不可用时影响较小。

智能体Anthropic产品更新推理
14:13
HuggingFace Daily Papers(社区热门论文)
55
Tmax: 终端智能体的简单配方

Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率,超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据,并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据,使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。

智能体开源生态数据/训练论文/研究
14:07
IT之家(RSS)
48
DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定

DeepSeek Harness团队负责人崔添翼6月21日发文称,新成立的Harness团队目标宏大、工作繁重,人员紧缺,正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论,崔添翼回应称,公司招人需要能用中文工作,如同美国公司要求能用英语,并无不招外国人的规定。知情人士透露,DeepSeek已在内部组建Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。

智能体DeepSeek编码行业动态
13:13
HuggingFace Daily Papers(社区热门论文)
61
Self-Compact:让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。

智能体arXiv推理论文/研究
13:13
HuggingFace Daily Papers(社区热门论文)
52
PhoneBuddy:训练开放模型实现智能体手机使用

训练开放模型实现可靠手机操控面临真实设备慢、难重置,模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案:先共享监督微调,再对比真实RL与混合RL。在150项真实手机评估中,成功率从SFT的36.67%提升至混合RL的45.33%;在AndroidWorld上从60.3%升至83.2%。结果表明,模拟训练是真实RL的互补来源,优势在应用/小程序任务,跨应用工作流仍是开放挑战。

智能体arXiv数据/训练论文/研究
13:13
HuggingFace Daily Papers(社区热门论文)
50
CLI-Universe:面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
12:13
HuggingFace Daily Papers(社区热门论文)
51
EnterpriseClawBench:从真实工作会话构建的企业智能体基准

EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。

智能体GitHub数据/训练论文/研究
12:13
HuggingFace Daily Papers(社区热门论文)
48
causal-learn+:智能体应辅助因果发现而非提供因果结论

当前将大语言模型(LLM)与因果发现结合的做法,常让模型推断边方向、提出图结构或注入先验与约束,但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色:检查数据、检索上下文、解释方法假设并澄清图输出,而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现,协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
SkillHone:基于持久决策历史的持续智能体技能演进工具

SkillHone 通过持久决策历史将技能修订与评估证据配对,记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能,并基于先前决策提出修订,实现跨会话改进。在深度研究基准上,SkillHone 无需预集成搜索栈,在 GAIA 上超越商业深度研究智能体 15.8 分,在 WebWalkerQA-EN 上超越 3.2 分,同时优于先前技能进化方法。内部工具中介分析场景中,平均准确率提升 18.8 分。

智能体论文/研究

推荐理由:SkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程,在 GAIA 上超越商业 agent 15.8 个点,做 agent 产品的团队该认真读一下。
08:00
HuggingFace Daily Papers(社区热门论文)
45
我们准备好迎接智能体原生记忆系统了吗?

从数据管理视角对LLM智能体记忆系统进行系统性实验研究,将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线,覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优,效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
MEMPROBE:基于隐藏用户状态恢复的长期记忆智能体探测基准

MEMPROBE是一个评估长期记忆AI智能体的新基准,通过隐藏用户状态恢复直接衡量记忆质量。基准在受控任务中模拟50个用户,每个携带31个隐藏维度(共1550个恢复目标),让配备记忆的智能体辅助完成任务,随后从记忆中重构用户状态,支持全存储与top-k两种访问模式。测试5种代表性记忆系统后,任务完成率几乎饱和(无记忆基线也达),但类别平衡恢复率仅约0.6,在top-k检索下进一步下降。MEMPROBE是首个直接研究记忆恢复的基准,将恢复率作为可优化目标。

智能体论文/研究
05:12
Hacker News 热门(buzzing.cc 中文翻译)
精选72
Show HN:Oak--专为代理设计的 Git 替代方案

Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型,可选 SQLite 和 git 后端。以分支-会话为基本工作单元,用分支描述替代逐次提交,通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)及 Windows,可通过 curl 或 cargo 安装,Apache-2.0 开源。

智能体产品更新编码

推荐理由:专为 AI 代理打造的全新版本控制工具,分支作为会话单元、内容寻址懒加载,设计直接摆脱了 git 的包袱,用 agent 的开发者值得一试。
05:05
TechCrunch:AI(RSS)
61
Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要

Claude Code创建者Boris Cherny在Meta @Scale大会上表示,AI智能体循环(loops)是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构,另一个寻找重复抽象并提交PR,循环永不停歇。这种循环类似递归函数,由子agent决定何时停止;一种实现是Ralph Loop,检查已完成工作是否达成目标。Loops本质是增加test-time compute,通过持续投入计算资源直到任务完成,但token消耗无上限、成本高昂。若设置得当,收益可能远超成本。

智能体Anthropic大佬观点编码
04:40
MarkTechPost(RSS)
65
xAI 为 Grok Build 推出 /goal 模式,支持长周期自主编码与内置验证

xAI 在终端编码智能体 Grok Build 中新增 /goal 模式。用户输入一条目标指令后,Grok Build 自动规划步骤、生成进度清单,逐一执行并验证(审查代码、检查网页或运行脚本)直至完成。期间可用 /goal status、/goal pause、/goal resume、/goal clear 命令监控与操控运行。该模式面向多文件迁移、重构、依赖升级等长周期任务,需 SuperGrok 或 X Premium Plus 订阅。与 Claude Code、OpenAI Codex CLI、Cursor Agent Mode 相比,/goal 的核心差异在于显式的可操控目标对象和内置验证步骤。

智能体xAI产品更新编码
03:10
MarkTechPost(RSS)
76
Sakana AI 发布多智能体编排系统 Sakana Fugu,对外表现为单一模型

今日 Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,对外表现为单一模型。用户通过 OpenAI 兼容端点发送请求,Fugu 内部决定直接求解或组建专家模型团队协作。提供两个变体:Fugu(平衡性能与低延迟,支持特定 agent opt-out)和 Fugu Ultra(针对困难多步问题优化,固定 agent 池,当前模型 ID 为 fugu-ultra-20260615)。在 11 项基准测试中,Fugu Ultra 在 SWE Bench Pro(73.7%)、TerminalBench 2.1(82.1%)、LiveCodeBench(93.2%)、Humanity’s Last Exam(50.0%)等 10 项上取得最高分,表现与 Anthropic 的 Fable 5 和 Mythos Preview 相当。Fugu 通过 OpenAI 兼容 API 调用,无需更换 SDK,并支持 opt-out 以应对合规和单供应商风险。

智能体产品更新编码
关联讨论 1 条X:Berry Xia (@berryxia)
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
02:14
The Decoder:AI News(RSS)
46
Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口

Google DeepMind 宣布 Interactions API 正式可用,成为 Gemini 模型和智能体的默认接口。该 API 自 2025 年 12 月进入 Beta 测试,现取代 Google AI Studio 和文档中的旧 generateContent 接口;未来新智能体功能仅通过它提供。近期新增功能包括:自带 Linux 沙箱的 Managed Agents、后台执行、Google 搜索与地图工具链、图像/音乐/语音媒体生成。架构从旧的 "user"/"model" 角色简化为 typed steps,每步动作独立定义。开发者可选择 Flex 模式(成本降低 50%)或 Priority 模式(优化速度)。

智能体Google产品更新部署/工程
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
00:41
Hacker News 热门(buzzing.cc 中文翻译)
56
Claude Code 的"扩展思维"只是总结,而非真实推理

Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。

智能体Anthropic现象/趋势编码
00:11
xAI:News(网页)
精选69
Grok Build 推出 /goal 模式,支持长时间自主任务执行

xAI 在 Grok Build 中引入 /goal 新模式。用户只需用一行命令设定目标,agent 便会自动规划方案、分解任务为进度清单并持续执行,直至目标完成且通过验证,期间可额外下达指令。该模式支持监控与引导命令,任务完成时清单全部勾选。即日起可用,用户可通过 curl -fsSL | bash 安装 CLI 并登录账号即可使用。

智能体xAI产品更新编码

推荐理由:把Grok Build从单步指令升级成可长期自主执行任务的Agent,对习惯把代码扔给AI就跑开的开发者很友好,但目前只有CLI,生态还没铺开。
00:11
Artificial Intelligence News(RSS)
56
日本AI公司Sakana AI推出Fugu多智能体模型

日本AI公司Sakana AI推出Fugu,一种编排语言模型,通过调用多种模型完成多步任务,帮助企业避免单一AI API依赖。用户通过单一OpenAI兼容端点访问,系统内部完成模型选择、委派、验证和整合。Fugu提供标准版和Fugu Ultra,后者在科学、工程和推理基准上表现与Fable 5及Mythos Preview等领先闭源模型相当。近500早期用户测试了网络安全评估和代码审查,一名工程师称Fugu Ultra“显著优于GPT-5.5”,能发现更多漏洞。Fugu通过可替换的智能体池动态路由流量,以应对出口管制等供应链中断风险,支持AI主权。

智能体产品更新
00:08
Google Developers Blog(RSS)
精选61
Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。

智能体Google编码论文/研究

推荐理由:AI 编码代理的评估从任务修复转向目标洞察,Google 这个思路让评估更接近真实开发场景,但实验还是内部数据,等公开 GitHub 版本再看落地效果。
6月22日
22:30
公众号:数字生命卡兹克
精选72
微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录

微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。

智能体MCP/工具产品更新
关联讨论 1 条公众号:数字生命卡兹克
推荐理由:微信把Agent做成了超级入口,灰度测试的完成度远超预期。能聊天、读朋友圈、打通公众号,还藏着AI生成小工具的能力,这已经不只是功能更新,是生态级的布局。
21:05
IT之家(RSS)
49
谷歌云与诺基亚扩大合作,将 Gemini 模型融入电信网络智能运维平台

谷歌云与诺基亚宣布扩展合作,将谷歌 Gemini 模型整合至 Nokia Assurance Center 网络软件套件。双方基于 Gemini 开发了六个专项 AI 智能体:路由智能体(核心编排)、事件分类智能体(告警分析与历史比对)、KPI 选择器智能体(解读性能指标)、异常推理智能体(判断数据偏差是否为故障)、动作推理智能体(匹配自动化操作目录)及仪表板智能体(自然语言生成可视化)。目标是为电信运营商降低运营成本、快速定位网络故障,推动网络运维向全自动化“自驾”模式演进。官方将于 6 月 23 日至 25 日在哥本哈根 DTW Ignite 大会现场演示上述智能体。

智能体Google行业动态
20:05
IT之家(RSS)
54
亿咖通科技拟 18 亿元收购 Flyme 软件业务,年内魅族现有手机将迎大规模系统升级

亿咖通科技控股在纳斯达克宣布签署最终收购协议,以18亿元人民币(约2.66亿美元)收购Flyme软件业务,包括Flyme Auto智能座舱操作系统和跨终端Flyme OS。交易通过收购星纪魅族专项拆分的湖北骐光科技完成,亿咖通将获得对应知识产权、研发团队和量产项目体系。Flyme已于2026年实现盈利。亿咖通将持续支持Flyme迭代,重点推进AI Agent版本研发。年内魅族现有手机将迎大规模系统升级,全新Flyme Auto 3.0车载系统也将正式发布。

智能体行业动态
16:43
The Decoder:AI News(RSS)
66
Sakana AI 推出 Fugu:动态协调多 LLM 的系统,匹配 Anthropic 顶级模型性能

日本 AI 初创公司 Sakana AI 发布 Fugu,一个能动态协调多个大语言模型的系统。Fugu 本身也是一个语言模型,可从可替换的智能体池中调用其他 LLM(含自身副本),通过单一 OpenAI 兼容 API 提供服务。Fugu 有基础版和 Fugu Ultra 变体。Sakana 公布的基准测试显示,Fugu Ultra 在编码、推理、科学和智能体评测中与 Anthropic Fable 5 和 Mythos Preview 表现相当。Fugu 旨在降低对单一 AI 供应商的依赖,模型池可完全替换。约 500 名 Beta 用户在长流程任务中测试,Fugu Ultra 的 bug 捕获量远超 GPT 5.5。两个变体现在已通过 API 上线。

智能体产品更新部署/工程
15:38
Hacker News 热门(buzzing.cc 中文翻译)
52
福古(Fugu)订阅与按量付费计划

Fugu 和 Fugu Ultra 提供订阅和按量付费两种计划。订阅三档:Standard 月费 $20,Pro 月费 $100(10 倍用量),Max 月费 $200(20 倍)。按量付费按 token 计费,不叠加多 agent 费用。Fugu Ultra(fugu-ultra-20260615)每 1M token 定价:输入 $5、输出 $30、缓存输入 $0.50;上下文超过 272K token 时升至 $10 / $45 / $1.00。所有计划均包含两者访问权限。

智能体产品更新
10:20
公众号:数字生命卡兹克
49
AI用得好不好,跟你会不会管人是同一件事

作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。

智能体AnthropicOpenAI大佬观点
08:00
HuggingFace Daily Papers(社区热门论文)
54
程序性记忆管理:LLM智能体的控制、适应与评估

程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试(440个桌面任务、18个应用、12个工作流类别),对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比,两者接受相同目标、状态和最终状态验证器,但仅限使用模态原生操作。最强GUI智能体全通过率59.1%,高于最强原始技能CLI智能体的48.2%;经验证器引导的技能增强后,CLI成功率升至69.3%,表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈:GUI受限于长时程工作流中的可靠接地交互,CLI受限于技能接口的覆盖率和可扩展性。

智能体arXiv论文/研究评测/基准
‹ 上一页
1…45678…50
下一页 ›