新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。
新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。
推文作者全天遭遇网络代理(🪜)问题,导致Codex连接失败。他使用Cursor分析代理设置,Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式,随后亲自调用CLI测试Codex以确认修复。为预防未来问题,Cursor还集成了用户此前提供的DeepSeek API密钥,创建了一键切换至DeepSeek的选项,确保了服务可用性。
Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。
关联讨论 17 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:洪明 (@hongming731)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)Firecrawl推出/monitor监控功能,解决AI智能体追踪网页更新时消耗大量LLM token的问题。用户输入URL并用自然语言描述跟踪目标,功能即可按设定频率监测页面。一旦有实质变化,便通过webhook通知智能体,并仅推送变化部分的diff(清晰列出新增、删除和修改),最多可节省90%的LLM token,避免广告等噪声干扰。该功能支持通过API、CLI、MCP或dashboard初始化,调度频率可自定义。
Today we're releasing Monitoring by Firecrawl 📡 Just enter a URL, describe what you want to track, and /monitor notifie...
Anthropic 在文章中指出,保障日益强大的 AI Agent 安全,不能仅依赖模型自身的防错能力,更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如,Claude Code 早期因用户疲劳导致93%的权限提示被批准,防线失效;针对通过伪造指令窃取 AWS 凭据的风险,则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调,授予 Agent 接入 GitHub、Slack 或 MCP 等权限,实质是赋予其一整组能力,必须在架构层面谨慎设计。
作者开源了 guizang-social-card-skill,这是一个专为小红书、微信公众号等图文平台设计的竖屏(3:4)卡片生成工具。它针对图文内容特点进行了视觉校准,内置了11个图文品类的适配规则,能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图;默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图,以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界(如不做追星粉丝向、纯促销硬广)和迭代记录的产品化技能。
同一事件,精选展示《藏师傅发布小红书图文排版AI Skill,集成地图与自动配图》MCP协议新版本将于7月28日发布,包含几个关键特性:服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制,以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么,并表示自己感觉几乎没有了。
Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
OpenAI推出Private MCP Tunnels,允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接,无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API,提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍,将OpenAI平台升级为企业级基础设施。
Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...
Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...
The wild part of Codex sub-agents isn't that one AI can use Chrome. It's watching a single prompt turn into seven browse...
OpenAI 为 ChatGPT 和 Codex 推出 Secure MCP Tunnel 功能,允许它们安全调用部署在企业内网的 MCP 服务器,核心目标是防止数据泄露。其原理是:企业在内网部署 tunnel-client 程序,该程序主动向 OpenAI 建立一条加密的 HTTPS 出站通道。当模型需要调用内部 MCP 服务时,请求通过此隧道安全转发至内网客户端,再由客户端分发给本地服务器,结果沿原路返回。此举补全了 MCP 协议在安全访问私有工具方面的缺口,是 OpenAI 完善企业级应用的关键一步,技术思路类似反向隧道,但作为原生功能与组织权限体系打通。
推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器,自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟,消耗65万Token。作者同时表达了对OpenAI产品力的看法,认为其配套开发工具丰富,但指出GPT在写作方面目前仍不如Claude。
Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。
Anthropic 黑客松冠军,把自己的 AI 编程工作台开源了。 项目叫 ECC。作者 Affaan Mustafa 和队友用 Claude Code 8 小时做出 http://zenith.chat 拿了冠军,后来把背后的工作流整理成...
Over the weekend, I asked Codex to analyze my Slack message history and recommend a better way to organize my growing nu...
Introducing Merge Gateway - Build Your Own Router. You're three sprints into your coding assistant. You pick the most hy...
推文介绍了“悄悄话”功能:在群聊中发送的内容仅自己可见,但可以与他人正常对话交流,其他用户无法看到内容。此外,引用推文补充信息显示,相关服务(如 Bloome)的 iOS 客户端已可在美区下载使用,体验流畅。
卧槽... 兄弟们 我真的是后知后觉~ 今天还屁颠屁颠跑到Bloome 去问什么时候可以支持iOS端啊? 结果告诉我说美区已经可以使用了... 因为我一直以为没有在iOS 添加到主屏幕在用,忍受着... 结果下载完使用起来太丝滑了........
Grok Build 目前已面向全体 SuperGrok 及 X Premium+ 用户开放 Beta 版本。 可使用计划模式(Plan Mode)、通过 Imagine 功能生成图像与视频,同时借助命令行工具(CLI)搭建自动化程序或编排器。 大家知道可以做什么了吗?🤔😄
Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...
xAI 正式推出命令行工具 Grok Build 并开启测试,直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放,核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务,以及完整的会话管理。此外,它通过 MCP 集成外部工具,支持自定义技能与插件,并具备多模态能力,可通过命令生成图片与视频。用户可通过指定命令安装启动。
xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具,专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程,支持在编码前制定结构化计划,并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令,可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力,支持以无头模式在CI/CD管道中运行,并能在沙盒环境中执行代码。
开源深度研究系统Onyx在DeepResearch Bench上排名第一,超越了Claude和ChatGPT。其核心设计十分反直觉:顶层调度器(orchestrator)被完全剥夺了网络搜索和URL访问权限,仅负责任务分解与评估。这种约束迫使调度器专注于高阶战略思考,避免了传统系统中调度器因能搜索而过早给出浅层答案的缺陷。Onyx采用两层架构和三阶段流水线,并完全开源,支持接入企业内部数据源。
The No. 1 deep researcher beats Claude and ChatGPT with a trick neither uses. I studied the open-source architecture beh...
推文预告了一个基于PPT技能的新项目,该技能能够一键生成适用于微信公众号和小红书平台的封面图。同时,它也能根据文档内容,自动生成符合小红书图文所需的3:4比例的多张图片。该技能的一个核心特点是自动化处理能力,可以自动处理用户提供的截图素材并进行内容匹配。
有开发者利用 Claude、MCP 与 N8N 构建了一个全自动晨间研究智能体。该智能体每日自动运行,将产出的 5 分钟晨报直接存入 Obsidian 笔记库,从而将用户原本需要 45 分钟的每日信息筛选时间压缩至 5 分钟,节省了 87% 的时间。发布者表示,如果感兴趣可以制作教程,并顺便提到 Cursor 提供的 $10,000 额度还远未用完。
http://x.com/i/article/2058683409505882112
用户发现AI工具Bloome已可在美区iOS上使用,称其体验“太丝滑”。该工具支持多Agent协作模式,引用推文描述了具体工作流程:三个Agent合作,其中两个负责执行任务,一个负责复核与查漏补缺,用户仅需通过指令(“动动嘴皮子”)与它们交互。
这个状态有点舒服了,三个Agent 协作审核干活。 2个负责执行任务,1个进行复核和查漏补缺。 而你只需要动动嘴皮子和不断的PUA他们就行了。
这是一个发布于GitHub的开源Skill,用于小红书个人号或矩阵运营。它通过浏览器自动化模拟真人操作,而非调用小红书API,以降低封号风险。该工具支持零代码操作,用户可通过与Claude等大语言模型交互,下达分析、生成选题、复刻爆款、自动发布与回复评论等指令,形成完整的运营闭环。所有操作结果会存为Markdown知识库,安装方式是通过Openclaw直接引用其GitHub仓库。
http://x.com/i/article/2058381329318682624
AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。
Anthropic宣布Claude将推出新功能Memory Files,用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记,并在需要时读取,用户可随时浏览和编辑。这并非简单记录聊天内容,而是将记忆转变为可编辑、可审计的文件系统,更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代,可能为未来Claude Conway的推出做准备。
ANTHROPIC 🔥: Claude will soon receive a new file-based memory upgrade, offering users the option to choose between Memo...
Claude Skills 是一种功能,使 Claude 能以可重复方式完成特定任务。它是一个指令文件夹,包含提示词、脚本和资源(如 API、文件、MCP 服务器),Claude 动态加载以提升专业任务性能。技能通过 YAML 配置将工具打包成可重复工作流,用户可在对话中直接调用,例如“运行文档套件”或“使用网页应用测试”。Reddit 上的讨论表明,这类技能(如 10 种被验证的技能)能显著改变工作流程,提升生产力,是构建更强大 AI 智能体的基础模块。