动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。
动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。
Claude Tag is the next evolution of agents. It's a proactive, multiplayer agent with memory and identity, built on top o...
OpenAI 发布内部论文,显示 Codex 已成为公司主力 AI,产出 99.8% 内部输出 tokens,而一年前这一比例低于 10%。除工程部门外,法务、财务、招聘、支持及业务团队使用量快速增长。自 Aug-25 以来,非开发者个人使用增长 137 倍,组织使用增长 189 倍。重度用户日均运行约 71 小时代理任务,28.6% 的用户管理 5 个以上并发 agent,25.6% 的个体提交过超过 8 小时人工等价的任务。OpenAI 称,Agent 正使工作更复杂、更长期、更跨职能。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》i10X推出Superagent,号称世界首个AI首席幕僚。用户输入业务目标,即可部署智能体团队端到端处理销售、内容创作和SEO。Superagent的核心设计是吸收协调层:自动规划步骤、收集信息、调用100+工具、云端产出成果,无需人工持续监督。关键创新在于审批门控——低风险任务静默执行,涉及发邮件或发布页面等高后果操作时先请求批准,将自主变为受监督的自主,避免盲目委托。
Today we're introducing the world's first AI Chief of Staff. Enter your business goal and it deploys a team of AI agents...
We raised $8m to build self-healing software. In 2026, software moves fast. But monitoring and observability are still m...
麦肯锡报告指出,AI智能体可跨多家商店扫描库存、比对价格并构建可立即购买的购物车,预计到2030年将调解3万亿至5万亿美元全球消费商务。自动化分为6个层级:最低级仅比较价格与功能,最高级由个人AI智能体直接与商店AI智能体谈判价格和运输条款。品牌将更多竞争以赢得算法而非人类消费者。零售商店需通过API使产品目录和退货政策机器可读;隐藏数据的品牌会被AI忽略,而开放定价和库存的商店将主导市场。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
Introducing the OpenRouter MCP, live model intelligence right inside your agent Your agent builds and ships, but when it...
Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...
http://x.com/i/article/2070125273790492672
Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
关联讨论 1 条X:Kim (@kimmonismus)Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用,支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体,可处理长期任务。新特性包括:内置移动与桌面操作系统支持;所有函数调用配备 intent arguments;可定制的客户端函数实现人工接管(HITL);提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。
同一事件,精选展示《Gemini 3.5 Flash 引入 computer use 功能》DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...
SuperNori 是一个专为家庭照顾者设计的 Proactive Family AI Agent。与现有AI专注于工作场景不同,它能主动感知堵车、冰箱快空、孩子学习进度、纪念日冲突等家庭事务,再询问用户是否处理。旨在减轻家中“一直记事、提醒、安排、照顾所有人”的成员的负担。目前开放候补名单。
Most AI helps you write, design, code, and ship faster at work. Nothing was built for the person quietly holding the fam...
If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...
Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi(当前提供更快的智能体结账,正在开发真实钱包)和 T:0(AI 原生财务后台平台,仍处于测试版)。Airwallex 已拥有支付轨道,现在此基础上构建智能层。此前,Airwallex 宣布完成 3.2 亿美元融资,估值 110 亿美元,由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势,并用 10 年建设了适配这一世界的金融基础设施。
We've raised $320M at an $11B valuation, led by Addition. AI is changing how companies are built. Teams are smaller, glo...
推文指出80%的Agent生产崩溃与模型智商无关,根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness(办公室制度、安保系统、质检流程,含独立验证节点、分层记忆、延迟绑定工具)和Loop(自我发现、任务分派、验证结果、状态记录)。好模型配差循环产生昂贵垃圾,普通模型配好循环加验证反而稳定出货。模型是可替换引擎,Harness是底盘安全系统,Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。
http://x.com/i/article/2069720576693022720
高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion,推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限,计划6月30日前迁移至自研Copilot CLI工具,此举被解读为降低成本。
火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。
🎣 Made this @GoogleChrome extension with @antigravity that lets you record actions in the browser, then has Gemini 3.1 ...
阿里云发布面向AI智能体的约束基础设施(Constraint Infra),提供治理层解决Agent混乱问题。核心能力包括:通过Nacos热更新提示词与规则实现动态控制;支持token限制及多智能体安全的细粒度治理;已在生产环境验证,StarOps SRE智能体在该边界内安全运行高风险任务;通过AgentLoop数据飞轮驱动规则自我进化。
卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App,均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外,千问、豆包等AI产品也集成第三方服务,Agent化趋势明显。
火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》谷歌于六月推出Open Knowledge Format(OKF)规范,参考AK的LLM wiki思路。核心是用Markdown加YAML frontmatter将知识组织为可读、可版本控制、可直接被AI智能体(Agent)消费的文件包。示例中,Codex读取该文章后,将自身做过的项目整理为OKF格式并添加到系统记忆索引中。文章见评论区。
推文提出,Agent 是一种数字化、随时调用、最终趋近免费的劳动力,但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代,人的具体技能不再重要,积极好奇、灵活性和自驱力才是核心素质。
开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。
针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题,常见做法是连续追问“还有什么细节需要补充?”三次左右(甚至可做成Agent Skill)。但作者采用不同策略:同时让AI生成2-3份稿子,挑选最佳一份作为底稿,再将其它稿子的内容手动合并进来。这样既能避免细节遗漏,也能防止单次生成质量差导致后续追问难以提升质量。
长达3个小时的播客访谈,如果原文提供给AI生成文章。 经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。 哪怕同一个模型,连续追问也能改善质量。 当然,目...