22:35

Chubby♨️@kimmonismus

Hyperagent（由Airtable团队构建）回应了当前智能体依赖单台笔记本、单WiFi及人工守夜重启的脆弱性，为每个Agent分配独立云机器，提供真实浏览器与代码执行环境，确保Agent在离线和无监督状态下持续运行。引用推文对比OpenClaw的频繁崩溃、秘密泄露和持续监控问题，推广Hyperagent：限时注册获$100推理积分，迁移首个Agent再得$500。

Andrew Busse: If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...

智能体产品更新

22:35

Chubby♨️@kimmonismus

Airwallex 推出 Airi 与 T：0，攻克 AI 智能体金融"无聊"环节

Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi（当前提供更快的智能体结账，正在开发真实钱包）和 T:0（AI 原生财务后台平台，仍处于测试版）。Airwallex 已拥有支付轨道，现在此基础上构建智能层。此前，Airwallex 宣布完成 3.2 亿美元融资，估值 110 亿美元，由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势，并用 10 年建设了适配这一世界的金融基础设施。

Jack Zhang: We've raised $320M at an $11B valuation, led by Addition. AI is changing how companies are built. Teams are smaller, glo...

智能体行业动态

22:08

向阳乔木@vista8

腾讯出了专门给Agent用的邮箱，快去抢注你的邮箱名… 注册以后，会有一段提示词，发给Codex或你的其他Agent来完成cli设置。地址见评论区

智能体 MCP/工具产品更新

19:30

公众号：百度智能云（文心）

浦发银行携手百度智能云：超2500个金融智能体上岗，覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体，近200个深度嵌入真实业务流程，覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式，并首创“三态管理”（创设、发布、运行）适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施，包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身，以对话交互实现“对话即服务”。

智能体行业动态部署/工程

19:14

AYi@AYi_AInotes

Agent生产崩溃80%与模型无关，Harness与Loop才是2026分水岭

推文指出80%的Agent生产崩溃与模型智商无关，根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness（办公室制度、安保系统、质检流程，含独立验证节点、分层记忆、延迟绑定工具）和Loop（自我发现、任务分派、验证结果、状态记录）。好模型配差循环产生昂贵垃圾，普通模型配好循环加验证反而稳定出货。模型是可替换引擎，Harness是底盘安全系统，Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。

Wizard: http://x.com/i/article/2069720576693022720

智能体 MCP/工具大佬观点

18:53

Rohan Paul@rohanpaul_ai

高盛研究：AI智能体token使用量预计到2030年增长24倍

高盛研究预测，到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion，推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限，计划6月30日前迁移至自研Copilot CLI工具，此举被解读为降低成本。

智能体推理现象/趋势

18:13

HuggingFace Daily Papers（社区热门论文）

开放权重LLM中的约束代价：结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时，多个开放权重LLM出现工具调用抑制（Tool Suppression）。控制实验在多模型与部署设置下复现了该现象。分析表明，JSON Schema约束被编译成基于语法的token掩码，导致工具调用token在解码中不可达。研究提出约束优先级反转（CPI）假设，并设计透明两遍执行（Transparent Two-Pass Execution）推理策略，将工具执行与模式约束响应生成解耦，无需重训练即可恢复工具调用并维持结构化输出。结果表明，单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程

18:07

The Decoder：AI News（RSS）

高通凭借自研处理器进入数据中心市场

高通推出数据中心处理器 Dragonfly C1000，针对 AI 智能体优化，主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时，高通以约 40 亿美元收购 AI 初创公司 Modular，其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振，高通盘后股价上涨 15%，公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元，其中数据中心目标 150 亿美元。

智能体 Meta 产品更新推理

17:51

meng shao@shao__meng

火山引擎发布 ArkClaw 安全白皮书

火山引擎发布53页白皮书，将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类，列出六大原生风险（如Gateway绑定0.0.0.0无认证等），并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。

智能体安全/对齐

17:38

fofr@fofrAI

这个 Chrome 扩展让你在浏览器中录制操作，再由 Gemini 3.1 Flash Lite 自动将这些任务转换为 Skills。DOM 中的动作会补充视频，从而获得非常精细的指令。我喜爱这个。

👩💻 Paige Bailey: 🎣 Made this @GoogleChrome extension with @antigravity that lets you record actions in the browser, then has Gemini 3.1 ...

智能体 Google 其他

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

17:07

The Decoder：AI News（RSS）

Google将电脑控制功能直接集成到Gemini 3.5 Flash中

Google将“Computer Use”功能直接集成到Gemini 3.5 Flash，模型可自主看、理解并操作电脑、浏览器和移动设备，此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具，开发者可构建跨平台智能体，用于软件测试或办公自动化。在OSWorld基准测试中，Gemini 3.5 Flash得分78.4，高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1)，略低于GPT-5.5(78.7)，Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护：敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供，附带Browserbase演示和GitHub参考实现。

智能体 Google 产品更新推理

15:54

Alibaba Cloud@alibaba_cloud

阿里云推出AI智能体安全约束基础设施

阿里云发布面向AI智能体的约束基础设施（Constraint Infra），提供治理层解决Agent混乱问题。核心能力包括：通过Nacos热更新提示词与规则实现动态控制；支持token限制及多智能体安全的细粒度治理；已在生产环境验证，StarOps SRE智能体在该边界内安全运行高风险任务；通过AgentLoop数据飞轮驱动规则自我进化。

智能体产品更新部署/工程

15:38

数字生命卡兹克@Khazix0918

16个国民级App推出Skill/MCP/CLI服务，支持Agent调用真实世界能力

卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App，均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外，千问、豆包等AI产品也集成第三方服务，Agent化趋势明显。

智能体 MCP/工具现象/趋势

15:37

向阳乔木@vista8

同事件精选82

豆包Seed-2.1实测：编程可用，识鱼封神！

火山引擎发布豆包Seed-2.1系列（Pro、Turbo）。实测Seed-2.1 Pro显示：Agent和Coding能力达到生产级可用线，能完成SVG动画、网页开发、CMS系统等任务；配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜，拍照识鱼准确识别鱼种和数量，优于Gemini 3.1 Flash。价格实惠，API已通过火山方舟全量开放。

智能体多模态编码评测/基准

同一事件，精选展示《Seed2.1 正式发布，深入 AI 生产力》

推荐理由：乔木的实测很有说服力，Seed 2.1 Pro 在编程和 Agent 任务上已能用，多模态识鱼甚至反超 Gemini，对正在选模型的开发者是及时且扎实的参考。

11:37

向阳乔木@vista8

谷歌推出Open Knowledge Format规范

谷歌于六月推出Open Knowledge Format（OKF）规范，参考AK的LLM wiki思路。核心是用Markdown加YAML frontmatter将知识组织为可读、可版本控制、可直接被AI智能体（Agent）消费的文件包。示例中，Codex读取该文章后，将自身做过的项目整理为OKF格式并添加到系统记忆索引中。文章见评论区。

智能体 Google 产品更新

11:12

HuggingFace Daily Papers（社区热门论文）

Autodata：让AI智能体成为数据科学家，自动构建高质量合成数据

Autodata是一种通用方法，使AI智能体扮演数据科学家角色，自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化，使其学会生成更优数据，具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明，Autodata生成的合成数据集质量优于经典方法，且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据，有望改变AI数据的构建方式。

智能体数据/训练论文/研究

10:10

公众号：数字生命卡兹克

盘点16个推出Skill/MCP的国民级App

近日，瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款国民级App陆续将核心能力封装为Skill、MCP或CLI，供AI智能体调用，实现点咖啡、叫车、查航班、管理文档、支付等操作。支付环节目前仍需用户跳转App完成，但Agent化趋势已不可逆。

智能体 MCP/工具现象/趋势

09:07

向阳乔木@vista8

Agent 是新型生产要素，人的核心素质转变

推文提出，Agent 是一种数字化、随时调用、最终趋近免费的劳动力，但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代，人的具体技能不再重要，积极好奇、灵活性和自驱力才是核心素质。

智能体大佬观点

08:58

IT之家（RSS）

英伟达黄仁勋：AI 工厂时代来临，智能体重塑计算格局

昨日（6月24日）股东大会上，英伟达CEO黄仁勋称AI产业进入新阶段，智能体AI已到来，物理AI将驱动下轮增长。他将数据中心比作“AI工厂”，强调AI基础设施成企业计算核心。财务方面，过去1年营收增长65%，利润增长60%，2026财年自由现金流超960亿美元，计划将50%通过回购和分红返还投资者。黄仁勋举例称，运行英伟达系统生成token具盈利性，GitHub今年pull request数量增长近3倍。

智能体具身智能大佬观点

08:51

meng shao@shao__meng

开源 Skills 系列新增「loop-me」技能：通过拷问挖掘重复模式生成工作流规格

开源 Skills 系列（165K stars）新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户，发现其工作、生活中的重复模式（Loop），并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括：一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于：grill-me 对齐任意计划，loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发，而非直接构建 Agent；规格是唯一交付物，实现留作后续步骤；人类时间最珍贵，将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体开源/仓库编码

08:51

meng shao@shao__meng

《The Coming Loop》：AI循环工程的两层困境

文章将AI循环分为内层agent loop（模型说“完成”即止）和外层harness loop（外部判定是否真完成，可续接session）。循环放大LLM代码的过度防御、回避不变量等缺陷，每轮叠加局部防御使系统更难理解。有效领域（移植、性能探索）共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”，人不再完全理解代码。深层隐忧是认知依赖：代码由循环产出、review，一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”，而是如何在循环未来中保留判断力与工程规则。

智能体大佬观点编码

08:00

HuggingFace Daily Papers（社区热门论文）

延迟验证破坏多智能体LLM信念：不稳定性阈值与最优校正器放置

多智能体大语言模型系统中，验证器与批评者智能体存在延迟，导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识，通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值：过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定；延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则，用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡，而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

代码智能体需要多少静态结构？确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库，但缺失调用图、继承关系等结构信息，导致导航随机且难以复现。研究以OpenAI Codex为基线，向提示词注入不同粒度的轻量级静态结构注释，发现确定性锚定效应：函数级定位Func@5提升2.2个百分点，交互轮次减少1.6轮；链接跟随率从0.15–0.18升至0.21–0.24，单次运行Pass@1提升3.4个百分点，但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑，大型仓库剪枝前向边，密度高的语义注释仅用于隐式依赖场景。

智能体 OpenAI 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹，并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示：代码执行平均每任务8.8次测试运行，频率2-19，后期成功率更高；对商用SOTA代理，禁止执行与无限制执行间修复成功率差距仅1.25个百分点（无统计显著性），但禁止执行显著节省token与墙钟时间；执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行，应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”，Qwen-Image-Agent 提出统一智能体框架，以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径，Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上，Qwen-Image-Agent 超越强基线，取得最优性能。

智能体图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OPID：智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督，构建分层技能：回合级技能捕获全局流程，步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能，默认回退至回合级。技能注入交互历史后，旧策略在原始与技能增强上下文下重新评分同一响应，产生token级自蒸馏优势，与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上，OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠，在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段：通过统一接口组织异构视觉工具，每个工具接收子查询和经可靠性-相关性评分筛选的可信帧，返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合（高/中/低）与置信-成本GRPO奖励，联合优化正确性、可靠性和效率。在八个任务上，Robust-TO清洗输入准确率56.4%，超过最强开源基线10.6%p和Gemini-2.5-Pro（46.2%）；五种腐蚀下保持54.3%，高出最强开源基线5.8%p，且准确率下降最小。

智能体具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

何时结合语言模型有帮助？跨越67个前沿模型的路由、投票和混合智能体的共同失败上限

多模型LLM系统（路由、投票、级联、融合、混合智能体）的准确率提升受限于共同失败上限1−β（β为所有模型在同一查询上均出错的比率）。在21家供应商的67个模型上，开放数学题实际β=0.052，是高斯copula预测值0.023的2.5倍；代码任务β=0.079；GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA，但组合模型很少击败单一最佳模型，除非有强查询级路由信号。收益来自模型在不同问题上犯错，而非增加模型数量。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GauntletBench：在陌生环境中重新评估AI智能体能力

GauntletBench是一个基于网络的基准测试，用于评估AI智能体在陌生场景中的泛化能力，聚焦时间感知、图形理解与3D推理三项未被充分探索的能力，覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用，每项包含20个视觉密集型任务（共100个）。测试结果显示，最先进智能体的成功率仅19.1%，而人类非专家可达80%以上，凸显当前智能体与复杂现实场景之间的显著差距。

智能体论文/研究评测/基准

07:37

TechCrunch：AI（RSS）

前Infosys CEO Vishal Sikka创立Hang Ten Systems，挑战IT服务行业

Hang Ten Systems是一家企业AI服务公司，由前Infosys CEO Vishal Sikka创立，旨在通过AI驱动的开发和自动化帮助企业持续构建、修改和运营软件。公司完成3200万美元种子轮融资，由Mayfield领投，Aramco Ventures战略投资，雅虎联合创始人Jerry Yang担任董事会成员。Hang Ten已与Siemens Gamesa Renewable Energy和Fresenius合作进行AI原生项目交付，围绕智能体代码生成、可复用AI技能和领域专业知识构建服务。公司总部位于湾区，正在全球多地招聘。

智能体编码行业动态

07:19

宝玉@dotey

AI处理播客访谈：多稿合并法避免细节遗漏

针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题，常见做法是连续追问“还有什么细节需要补充？”三次左右（甚至可做成Agent Skill）。但作者采用不同策略：同时让AI生成2-3份稿子，挑选最佳一份作为底稿，再将其它稿子的内容手动合并进来。这样既能避免细节遗漏，也能防止单次生成质量差导致后续追问难以提升质量。

向阳乔木: 长达3个小时的播客访谈,如果原文提供给AI生成文章。经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。哪怕同一个模型,连续追问也能改善质量。当然,目...

智能体教程/实践

06:58

IT之家（RSS）

消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月，旨在优化模型性能

据 Business Insider 获悉，谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线，现推迟至 7 月，以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告，CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能，并融入了 Flash 3.5 用户反馈，包括 token 消耗过快问题。

智能体 Google 推理行业动态

06:54

karminski-牙医@karminski3

聊聊智谱市值破万亿为什么不是高估

作者在自研的硅基骑手参考评测（silicon-rider-bench）中累计测试30个模型，发现智谱GLM系列Agent能力持续进化：GLM-5首次实现反思自身行为并主动少接单提准时率；GLM-5.1首创送顺路单，路径效率低于单次配送理论值；GLM-5.2只需看一次地图便记住全部地点与换电站位置，无需调用search_nearby_battery_stations()，大部分tool_call用于推进任务，分数断崖式领先。直至kimi-k2.7-code出现前，无模型超越GLM-5（2月发布），智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

智能体大佬观点

06:47

Artificial Analysis@ArtificialAnlys

Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试，测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果：Claude Opus 4.8 平均每任务 23 分钟，得分最高但最慢；GPT-5.5 (xhigh) 仅 11 分钟，效率最高且 Elo 前五；GLM-5.2 得 1261 分耗时 16.3 分钟，为开源模型最佳；MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%，其余由输出冗余、回合数和推理速度决定。

智能体 Anthropic OpenAI 推理

06:23

elvis@omarsar0

Eric Xing论文定义智能体"五维度"框架

Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发，分析智能体架构的五维度：目标、身份、决策、自我调节和学习。论文指出，真正“智体性”需这些维度以特定方式组合，从而区分自动化与智能体。论文地址：arxiv.org/abs/2606.23991。

智能体论文/研究

05:50

Rohan Paul@rohanpaul_ai

前高盛高管Raoul Pal：智能体AI将吞噬传统软件/SaaS

前高盛高管Raoul Pal在访谈中指出，若产品仅是软件，智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr，能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”，AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

智能体大佬观点现象/趋势

05:46

ClaudeDevs@ClaudeDevs

当 Claude 与四人一同在频道中工作时，它使用谁的凭证？答案：它自己的。标注 Claude 时，Claude 会像其他队友一样被配置，拥有自己的凭证。我们将这种访问模型称为"智能体身份"。其工作原理如下： 🧵

智能体 Anthropic 教程/实践

05:29

Hacker News 热门（buzzing.cc 中文翻译）

Gemini 3.5 Flash 中的计算机使用

Google 将计算机使用（Computer use）作为内置工具集成至 Gemini 3.5 Flash，使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供，现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面，模型采用针对性对抗训练降低提示注入风险，并新增两项可选企业级保护：要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。（198字）

智能体 Google MCP/工具模型发布

关联讨论 2 条