I built a @threejs game director skill system for Codex & Claude Code to help agents create more polished playable brows...
OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。
LandingAI 将 Agentic Document Extraction 升级为 Agent Skills,支持在 Codex、Claude Code、Cursor 等 coding agent 的对话中直接调用,实现零脚本文档处理流水线。两个 Skill 分工明确:document-extraction 提供结构化 Markdown/层级 JSON 解析、基于 JSON Schema/Pydantic 的字段抽取、按文档类型拆分、按页分类路由(预览)、目录生成(预览)、异步大文件处理(最高约 1GB/6000 页)及元素级坐标与置信度可视化;document-workflows 封装并行批处理、Classify→Extract 混合流水线、RAG 准备(语义分块、embedding、ChromaDB/FAISS)、DataFrame/CSV/Snowflake 导出、bbox 标注叠加及 Streamlit 交互 UI。安装命令:/plugin marketplace add landing-ai/ade-document-processing-skills。
Turn Claude Code into a Document Processing Agent! We just released Agentic Document Extraction (ADE) skills for AI codi...
ANTHROPIC IS SO BACK conductor, t3 code, helmor and more can continue to use your subscription are they learning to play...
论文分析Claude Code,其有效工作核心并非复杂AI大脑,而是简单AI循环——调用模型、执行已批准工具、回传结果、重复——被精心构建的外围系统(工具、安全、记忆、权限、恢复)包裹。作者研究公开TypeScript源码,主agent循环代码量极小,大量代码来自harness(常规软件),负责定义工具、权限、记忆及故障处理。上下文管理是主要设计挑战,采用多层压缩或总结旧信息避免模型空间耗尽。论文强调能运行shell命令和编辑文件的编码智能体不能等同于带插件的聊天机器人,每个动作都有副作用,需要明确边界约束。
We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...
Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。
自6月15日起,Claude 将 Agent SDK 和 claude -p 的用量从订阅套餐原有额度中剥离,每月额外提供一笔“专用零花钱”,其中 Pro 用户 $20、Max 5x 用户 $100,以此类推。该额度专门用于运行 claude -p、自写 Agent SDK 脚本或第三方 Agent App,不占用日常对话配额。额度用完后才扣其他费用,未用完不滚存下月;需手动领取一次后自动续期。
Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。
1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...
Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent,结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作,输出受 Zod schema 约束的 JSONL UI 规格(仅限 Steps、FileChange、Terminal 等预定义组件),前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计:Harness 抽象允许像换模型一样互换 Agent;UI 层与执行层完全解耦;Session 绑定 Sandbox,10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果,失败必须展示 error step、非零 exit code 或失败测试。
Introducing Generative UI for Claude Code, Codex and Pi Charts, forms, 3D, anything Your agent renders real UI for users...
@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。
Here are my 7 phases of AI-powered development. I've been thinking that the pre-PRD phase needs more structure. You need...
循环工程将人机协作从单次对话转为连续回路,需回答何时启动、工具集、错误检测、记忆、刹车五个问题。Agent工具设计强调单一职责、强约束schema、结构化错误返回、幂等键等有效模式,并列出静默部分成功、功能重叠等反模式。Token成本控制揭示用户提问仅占成本1%以下,真正大头顶在系统提示词、项目文档、Skill定义、历史会话等固定前缀。速览还涉及Anthropic Fable 5模型被美政府出口管制叫停、Scaling Law参数冗余研究。
BestBlogs精选10篇AI行业文章:Token成本控制大头在系统提示词、Skill和会话历史;AI Agent工具设计强调单一职责、强约束schema、幂等键;循环工程(Loop)作为新范式让模型连续跑规则;Scaling Law参数空转扮演骨架角色;GlobalGPT零融资做到千万美金ARR;AI应用层泡沫破裂,Sora等180天关停;Anthropic旗舰模型Fable 5遭美国政府出口管制禁令;夏勇峰暂停智能眼镜业务转向“为AI造硬件”;SpaceX登陆纳斯达克市值超2万亿美元;利用盖亚卫星18亿颗恒星数据模拟银河图像。
http://x.com/i/article/2066671362920599553
FactoryAI 今日推出 Factory 2.0,将 AI 智能体与整个软件工作流打通——涵盖工单、客户请求、代码、测试、安全检查、代码审查、部署、文档和生产事故。系统强调反馈循环的重要性:每个事故和审查记录都应成为下一任务的训练信号。所有 bug 报告、客户请求、内部讨论、测试失败、安全警告和事故被视为单一循环内的信号,由智能体协助分类、编写代码、测试、审查、发布、监控生产环境,并将结果反馈回系统。这标志着从编码智能体向软件工厂的升级。
Today, we're announcing Factory 2.0: from coding agents to software factories.
DAIR AI 创始人 Elvis Saravia 开源 /learn skill,允许用户通过 AI 智能体和 HTML artifacts 学习任意主题。该 skill 可安装后与任何 Agent 交互,生成视觉化、交互式的 artifact,帮助深入理解或生成知识检测(如测验)。支持 DAIR Academy pro 会员在 AI Builder 中使用。GitHub 链接及试用平台已开放。
开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。
Github 本身在成为一个 A2A 平台。 我本周经历了一个特别魔幻的事情: 1. 我把一个 Github 链接丢给 Codex,让它帮我部署一下。 2. 我用了一段时间,发现似乎有个 Bug。我让 Codex 查了一下,它确认是个 Bu...
http://x.com/i/article/2061850535708483585
小互介绍了一个AI Agent悬赏任务市场,类似AI版“猪八戒”。用户可发布复杂任务(如优化数据库、开发工作流)并设定赏金,由AI Agent自动抢单、交付结果、收款。流程五步:用户下单(资金冻结)→Agent抢单报价→用户选择Agent→Agent干活(写代码、跑测试)→用户验收,通过则自动付款,平台抽15%,Agent拿85%。设计亮点:支持CLI命令行发任务(可脚本化,实现机器给机器派活);Agent有信誉分(五级,从新手到传奇),高分优先接高价任务。
6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。
Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。
There seem to be two main groups 1️⃣ Those who post all day long about using coding agents but don't seem to ship anythi...
tips for codex goals sure you can use /goal but it also has a set_goal() function its almost better to prompt the model ...
Databricks 推出 Omnigent,一个开源(Apache 2.0)meta-harness,位于 Claude Code、Codex、Pi 及自研 Agent 之上,提供统一接口。三大能力:组合(一行配置切换不同 harness,YAML 定义跨 harness 可移植 agent,同一 Agent 内可组合不同 subagent);控制(有状态成本策略如每 $100 暂停,安全策略如 npm 后 git push 需审批,OS 沙箱,策略与 harness 解耦);协作(通过 URL 共享 live session,支持多端访问及实时评论)。理念类似 Kubernetes,让 session、policy 与具体 harness 解耦,形成可迁移工作层。
Introducing Omnigent, a meta-harness to combine, control, and share your agents. The best teams already mix models and h...
手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。
http://x.com/i/article/2065692454490103808
宝玉在开发 baoyu-skills 时,采用 EXTEND.md 文件保存用户自定义设置,初衷是方便 Agent 读取。但实践发现,Markdown 非严格结构化数据,虽能被 LLM 理解,却难以被程序解析,且格式难以保持一致性。他认为更合理的方案是采用 JSON 或 YAML 作为 Skill 扩展配置,既能被 LLM 方便读取,也便于代码解析与持久化。
http://x.com/i/article/2066281164134825984
Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。
Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。
引用推文指出,Codex 可自主查看和设置 /goal,这是元提示的泛化。主推文作者强调,智能体凭借上下文能帮你设定更强目标,因此将 /goal 作为工具是明智之举。他还在编排器中为 /goal 构建了 UI,并建议从会话中挖掘表现良好的目标,封装为技能自动化复用。需注意,LLM 可能出现奖励黑客、偏向快速完成等奇怪行为,使用 /goal 时要格外谨慎。
Codex can see and set its own /goal. Everything we build, we build also as a tool for the agent. This is a generalizatio...
I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...