论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。
Perplexity's CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average use...
New block in Notion: HTML. Build interactive HTML right on your Notion page. Ask AI to turn your content into interactiv...
Zai正式发布ZCode 3.0,一款为GLM-5.2深度优化的AI原生编程IDE。支持多智能体协作,可自主执行从规划、编码到审查和部署的长期任务,并可通过Telegram、微信、飞书远程控制。GLM Coding Plan订阅用户在ZCode中享有1.5倍使用配额,同时支持BYOK(自带密钥)。覆盖macOS、Windows、Linux平台,付费计划起价$18/月。
Introducing ZCode, the official development environment for GLM-5.2 - GLM Coding Plan subscribers: now 1.5x usage quota ...
xAI 推出 Voice Agent Builder 无代码平台,基于原生 speech-to-speech 架构 Grok Voice,打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库,两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体,并免费附赠一个电话号码。支持日历、搜索、工单等内置功能,可接入自有号码和系统。定价 $0.05/分钟,无额外平台费。
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...
主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...
Anthropic 今天发布了 Claude Science,一个面向科学研究者的 AI 工作台。它的定位很明确:做科学研究领域的 Claude Code。 去年 Claude Code 改变了程序员的工作方式,Anthropic CEO ...
xAI 发布 Grok Voice Agent Builder(Beta),将 Grok 语音模型产品化,支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言,并可分配电话号码。相比传统方案门槛大幅降低。体验地址:http://x.ai/voice
推文推荐飞书 Aily,称其对普通人已足够好用。Aily 理解飞书全套数据,通过 MCP 连接外部系统,能自主调用工具,覆盖生态内各类任务。相比需要精细控制的 CLI,Aily 对话交互即可满足多数需求。引用推文则强调,用好飞书文档(类比20年前的 Office)和 AI 调用飞书 CLI,是学渣保住空调房工作的机会。两者共同指向飞书生态内 AI 工具的实用价值。
如果你是一个学渣,马上大学毕业,大学也差/专业也差,大概率找不到送外卖以外的工作的话,强烈建议你好好学习用好飞书文档,这大概就是 20 年的的 office,是你留在空调房最好的机会 顺便要是会用 AI 来调用飞书 cli 就基本不怕没工作...
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!
This is what Bloome was built for. Drop Claude Code, Codex and DeepSeek into one group chat and they build competing ver...
Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...
Lev8 被定位为营销领域的 Codex,专门解决找客户、写破冰信等脏活。Benchmark 显示:海外找客户场景有效结果量 Lev8 90 个(Exa 58.2,Codex 20),匹配精度 83.3%(Exa 76.5%,Codex 71.8%),单条成本 $0.052(Exa $0.061)。产品聚合 50+ 实时数据源(LinkedIn、X、YouTube 等),覆盖 10 亿+ 职场人脉,自动监控融资、招聘、网站改版等信号,生成定制破冰话术,通过邮件、LinkedIn、WhatsApp、Instagram、X 五个渠道批量发送并统一管理回复。适用于独立开发者、一人公司、猎头、中介等需要精准找人的场景。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...
This guy earned $4,208 in his FIRST week on Capafy with a World Cup Skill! Keep that going, and it is over $16,000 a mon...
文章总结9组39条AI设计原则,核心是让用户信任程度匹配AI真实可靠性。关键点:AI应发挥模糊意图、内容生成等优势,而非替代传统界面;接受输出多样性,提供多版本和局部修改;输出附证据便于一键验证;用户保留编辑、拒绝、撤销等控制权;AI诚实说明角色和限制;重视失败路径,支持撤销、日志、转人工。
Lev8聚合50+实时数据源(LinkedIn、X、YouTube、Instagram、GitHub),覆盖10亿+职场人脉,实时追踪融资、招聘、改版等信号,自动生成定制破冰开场白,并通过邮件、LinkedIn、WhatsApp、Instagram、X五渠道一键发送统一回复。在找海外客户场景中:有效结果量Lev8 90个,Exa 58.2个,Codex仅20个;匹配精度83.3% vs 76.5% vs 71.8%;单条匹配成本$0.052 vs $0.061。三项指标全面超越。
Perplexity CEO Aravind Srinivas 指出,AI 使用的重心正从普通用户转向重度用户。单个重度用户消耗的计算量可匹敌一个小团队:Meta 等公司工程师每年在编码工具上花费约 1000 万美元/人;Perplexity Computer 上有用户月支出超 1 万美元,其业务依赖在 harness 内运行的 agent loops。公司内部也已出现多智能体层级和 agent loops 架构,消耗远超平均预期。旧软件思维追求十亿人做小动作,而智能体 AI 下,一个熟练操作者即可创造全天候的机器工作流。
MCP、API、CLI 本质都是让 Agent 调用工具的方式。MCP 是唯一在协议层考虑“人在回路”的方案,支持回传会话、UI 嵌入、等待人操作等。API 凭借接口描述、可读状态等元信息,适合 90% 场景。CLI 目前因 bash 可组合性强、本地调试方便而最好用,但长期是死路:需 Unix shell 环境,有依赖问题,易因等待人类输入卡死。
http://x.com/i/article/2070358283723141120
We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...
Right now Codex is using Computer Use to organize the 1500 PDFs I have in GoodNotes while I watch the world cup. This is...
WordPress 推出 WPVibe 插件,连接网站后即可让已付费的 Claude 等 AI 通过自然语言直接管理整个系统,包括文章、媒体、SEO、主题及主题文件。无需二次 AI 订阅或本地安装,自带 40+ WP-CLI 命令的 MCP 工具箱,支持写文章、改页面、传图片、管理插件和主题、网站健康检查(如插件冲突、PHP 版本、性能问题),甚至可搭建新主题。
Francois Chollet 推荐 Bloome.im,一个集成 Claude、ChatGPT、Gemini 和人类队友的共享工作空间。核心功能是智能体互相检查:一个起草,另一个批评,第三个捕捉遗漏细节;人类可在同一线程实时引导。所有模型与人类共享同一上下文窗口,大幅提升协作效率。
Anthropic 发布 Claude Science,面向科学家的本地 AI 工作台(macOS/Linux,可 SSH/HPC 远程)。内置 60+ 技能与连接器,覆盖基因组学等,接入 UniProt、PDB 等数据源。可自主起草计算任务,经用户同意后提交至 HPC 或 Modal GPU,数据本地留存。内置审稿 agent 校验引用与图表一致性。
v2026.6.11 has dropped. This release focuses on the rough edges that make OpenClaw feel less dependable: misplaced repli...
mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。
/writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...
Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills,使所学内容持续累积而非每次调用重置。Rohan Paul 指出,这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充,Spira 旨在解决产品发布后无人知晓的问题:用户提供产品链接,agent 学习并自动在多社交渠道发布品牌一致、无废料的内容,形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。
Most products don't die because they're bad, they die because nobody sees them. Imagine if only your product kept market...
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
中国团队发布Agents-A1,一个35B参数的agent模型,通过让模型学习更长的验证工作习惯(平均训练样本45K tokens),声称达到1T参数模型的性能。模型采用Apache-2.0许可,权重已开源至Hugging Face。训练方法:构建长动作记录数据,训练多个专家教师模型(搜索、科学、指令跟随、工具使用等),再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。
Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。
Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。
http://x.com/i/article/2072100123912687616