AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3071 条
全部一手资讯X论文
标签「Agent」清除
Berryxia.AI@berryxia · 5月30日77

Windows的兄弟们终于等到了~ 很多人以为AI agent的电脑操作还得靠Mac或云端,OpenAI直接把Codex的Computer Use推到Windows上了。 现在Codex能在Windows真实桌面执行任务,ChatGPT手机App还能远程启动、查看和指挥,整个流程边走边控,电脑继续干活。 早期体验,但对Windows主力用户来说,跨设备agent落地一步到位。

译OpenAI宣布其AI智能体Codex的Computer Use功能现已登陆Windows,允许Codex在Windows真实桌面执行任务。同时,ChatGPT手机App新增了对Windows端Codex的支持,用户可在移动端远程启动、查看和控制任务,实现跨设备协同。该功能目前处于早期体验阶段。

🚨 AI News | TestingCatalog@testingcatalog · 5月30日78

xAI released grok-build-0.1, the model powering Grok Build CLI, on the API console in public beta. > $1/m input and > $2/m output

译xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

Tibo@thsottiaux · 5月30日62

Nobody knows Codex better than itself

译没人比Codex更了解它自己

Google AI Developers@googleaidevs · 5月30日42

Good implementation of Managed Agents in the Gemini API by our friends at @Eigent_AI! Root causing CI failures at lightning speed. ⚡

译Eigent平台展示了集成Gemini Managed Agents API的实际效果。其开源协作工具Eigent使用Gemini 3.5 Flash和该API,快速定位了一个真实的megatron-lm CI故障,在几分钟内找到了根本原因。工作流程中,协调员智能体规划审计,开发员智能体加载`ml-failure-audit`技能并收集证据,随后Gemini智能体作为远程子智能体接手进行深度推理。这体现了Managed Agents在自动化复杂任务中的效率。

OpenAI Developers@OpenAIDevs · 5月30日54

Builders Unscripted with @0xmts Matias talked to @romainhuet about bringing Codex to work and into side-project workflows. 00:58 Codex at Alchemy 01:51 Code review catches bugs 08:04 Side projects with Codex 18:51 Codex App Server projects 24:01 Computer use, GPT-5.5, SnapCat

译Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00:58 Codex在Alchemy的应用 01:51 代码审查捕获错误 08:04 使用Codex进行副项目 18:51 Codex App Server项目 24:01 计算机使用、GPT-5.5、SnapCat

🚨 AI News | TestingCatalog@testingcatalog · 5月30日60

OPENAI 🔥: Codex for Windows now supports Computer Use and remote control from ChatGPT as well! Windex 💪👀

译OpenAI宣布Codex的Windows版本现已支持Computer Use功能,能够直接在用户的Windows电脑上执行操作。同时,ChatGPT移动应用也新增了对Windows平台Codex的支持,允许用户在移动中启动、审查和引导任务,而任务本身可在Windows设备上持续运行。这是一项早期体验,OpenAI表示将继续开发更多功能,帮助用户随时随地高效工作。

Google AI Developers@googleaidevs · 5月30日63

The team at @llama_index built an awesome template using LlamaParse and the new Managed Agents in the Gemini API. See how they built an agent that can tackle unstructured documents. 📄↓

译LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板,使智能体能够访问 LlamaParse 和 LiteParse,从而自动处理非结构化文档。其工作流程为:配置数据与输出的 Git 仓库,将仓库克隆至智能体沙箱,安装 LiteParse CLI 与 LlamaParse SDK 及相关技能,最后通过提示词驱动智能体自主执行任务。该模板最终形成一个可直接使用 LlamaParse 和 LiteParse 处理真实世界文档的智能体。

宝玉@dotey · 5月30日33

我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

swyx@swyx · 5月30日54

guys Opus 4.8 is very very good at writing agent code (zero dependencies, all llm 1P SDKs not just claude, sorry agent frameworks) you should try it. think they trained @ErikSchluntz's and @barry_zyj's Building Effective Agents into this thing

译各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里

宝玉@dotey · 5月30日66

对于 Claude Design 和实际代码的版本同步问题,我目前是这么处理的: 首先要有一个唯一源,就是把 Claude Design 的结果当做设计唯一的源,以它为准 然后在更新design的时候会让它写一个changelog,让 Claude Code 去根据Changelog 同步 尽可能先改 Claude Design 的设计再改代码。有时候临时在代码中修改了,时候去 Claude Design 那边同步一下。 如果有更好的办法也欢迎分享

译针对后续UI改动可能导致Claude Design与实际代码不一致的问题,分享的实践方法是:始终将Claude Design作为唯一设计源,并在更新时生成changelog供Claude Code同步。遵循先修改设计再改代码的原则,若临时修改了代码,事后也应同步回Claude Design。

宝玉@dotey · 5月30日63

OpenAI 今天宣布,Codex 的 Computer Use 功能正式登陆 Windows。 这个功能让 AI 能像人一样操作桌面应用,看屏幕、点鼠标、打字,4 月中旬上线时只支持 macOS。 同时更新的还有手机远程控制。5 月中旬 OpenAI 把 Codex 接入了 ChatGPT 手机 App,可以在手机上启动、监控和审批电脑上跑着的 Codex 任务,但当时只能连 Mac 主机。现在 Windows 也能当主机了,出门在外用手机盯着家里的 Windows 电脑干活,流程算是跑通了。

译OpenAI宣布其Codex的“计算机使用”功能正式支持Windows系统。该功能使AI能像人类一样操作桌面应用,此前于4月中旬上线时仅支持macOS。同时更新了手机远程控制能力,现可通过ChatGPT手机App在移动设备上启动、监控和审批运行于Windows电脑的Codex任务。这是继5月支持Mac主机后的扩展,目前仍属于早期体验。

OpenAI Developers@OpenAIDevs · 5月30日72

Codex now supports more of the Windows developer loop. With Computer use on Windows, Codex can test apps, debug flows, and review work where your project context lives. Codex in the ChatGPT mobile app lets you connect to Windows machines and keep steering from your phone.

译OpenAI 的 Codex 现已增强对 Windows 开发流程的支持。其“电脑操作”功能可在 Windows 上直接测试应用、调试流程和审查代码,让任务在项目上下文环境中运行。此外,ChatGPT 移动应用中的 Codex 也支持 Windows,允许用户从手机端发起、审核和引导任务,同时工作在 Windows 机器上持续进行。这标志着 Codex 在跨设备无缝协作方面的早期进展。

Greg Brockman@gdb · 5月30日71

Significant upgrades for Codex users on Windows:

译Codex 用户在 Windows 上迎来重大升级: 现在计算机操作功能已在 Windows 上可用,Codex 可以在你的 Windows 电脑上执行操作。 同时,ChatGPT 移动应用中的 Codex 也支持 Windows,让你可以随时随地启动、审查和引导任务,而工作则在你的 Windows 机器上继续进行。 这是一次早期体验,但我们正在努力提供更多方式,让你无论身在何处都能保持工作推进。

Chubby♨️@kimmonismus · 5月30日63

Codex can now control and work on Windows computers, including through the ChatGPT mobile app, so users can start, monitor, and steer coding tasks remotely while work continues on their PC.

译Codex现在可以控制和操作Windows电脑,包括通过ChatGPT移动应用,这样用户就可以在PC上继续工作的同时,远程启动、监控和引导编码任务。

OpenAI@OpenAI · 5月30日73

Windows users, this one’s for you. Computer use now works on Windows, so Codex can take action on your Windows computer. And with Windows support for Codex in the ChatGPT mobile app, you can start, review, and steer tasks on the go while work continues on your Windows machine. An early experience, but we’re working on more ways to keep your work moving, wherever you are.

译Windows用户,这条消息是给你的。 计算机使用功能现已在Windows上可用,因此Codex可以在你的Windows电脑上执行操作。 通过ChatGPT移动应用中Codex的Windows支持,你可以在工作继续在Windows电脑上进行时,随时随地启动、审查和引导任务。 这是一项早期体验,但我们正在努力提供更多方式,让你的工作无论身在何处都能持续进行。

MiniMax (official)@MiniMax_AI · 5月30日43

MiniMax M2.7 + CyOps = the scorecard speaks for itself 💪

译MiniMax M2.7 + CyOps = 评分说明一切 💪

Replit ⠕@Replit · 5月30日34

Here's everything you need to know about Replit in 60 seconds ⭐️ → Plain English prompts turned into real working software → End-to-end workflow from UI to deployment → Real-time team collaboration with just a link → Parallel AI agents building different parts of your app at once

译这是你需要在60秒内了解的关于Replit的一切 ⭐️ → 简单的英文提示词即可生成真实可用的软件 → 从UI到部署的端到端工作流 → 仅需一个链接即可实现实时团队协作 → 并行AI智能体同时构建应用的不同部分

Rohan Paul@rohanpaul_ai · 5月30日60

Jensen Huang talked about how a real-time AI tutor is making personalized, one-on-one instruction widely accessible. Instead of giving answers, it coaches step-by-step, adapting in real time. What was once expensive private tutoring is now becoming available to anyone as they learn. --- (Video credit - WWT Fireside Chat, Jensen Huang & Jim Kavanaugh)

译黄仁勋阐述了一种实时AI导师如何通过逐步引导和实时适应,提供个性化一对一教学,从而将原本昂贵的私人辅导服务变得普及可用。引用推文为这一场景提供了背景:当前AI在教育中的应用可能让学习者被动接受信息,而像Koji这样的AI导师工具则旨在引导学生真正思考,改变这一现状。

Google AI Developers@googleaidevs · 5月30日43

We love this use of Managed Agents in the Gemini API by the team at @wandb. Silent bugs don't stand a chance. 🐛⬇️

译我们很欣赏@wandb团队在Gemini API中使用托管智能体的方式。隐蔽的bug无处遁形。🐛⬇️

宝玉@dotey · 5月30日62

Claude Opus 4.8 发布的同时,Anthropic 还上线了一个 API 层面的新能力:mid-conversation system messages(对话中途系统消息)。对于做 Agent 开发的会很有用。 简单来说它就是类似于后续注入的方式修改原始系统提示词(System Prompt),并且不会影响 Prompt Caching。 4.8 之前 Claude 是不能发送类型是 system 的消息,只能支持 user 或者 assistant 消息,system prompt 只能在最前面。 所以 Claude Code 之前是用的一种特殊的消息内容:<system-reminder>,尝试覆盖系统消息指令。 举个例子,你在初始 system message 指定这个 Agent 是一个系统设计师的角色,擅长做系统设计,但是不允许写代码,只写文档。 然后随着任务推进,现在得让这个 Agent 开始写代码了,但你就算通过 user message 去让它可以写代码,因为权重不够高,它还是会倾向于不写代码写文档。 现在有了 mid-conversation system messages,你就可以新加一条指令,明确要求它转变角色变成一个开发工程师,不必再遵守之前不写代码只写文档的约定,并且 mid-conversation system messages 的优先级更高,能覆盖原始 system message 的设定。 这个功能目前只支持 Claude Opus 4.8,只在 Anthropic 自家 API 和 AWS 上的 Claude Platform 可用,Bedrock、Vertex AI、Microsoft Foundry 都不支持。系统消息不能放在对话开头(开头还是用顶层 system 字段),也不能连续放两条,必须跟在 user 消息后面。 对于普通用户,这功能无需关心。

译Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词(System Prompt),且不会影响Prompt Caching。此前,系统提示词只能在对话开头固定设置,开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。

Google Gemini@GeminiApp · 5月30日63

Gemini Spark is now available to all Google AI Ultra subscribers in the U.S. It can handle the heavy lifting and connect the dots across your digital ecosystem to take action where it matters most. Whether you watch it work or let it run in the background, Gemini Spark is always under your direction. Give it a try at http://gemini.google or in the app and let us know what you think.

译谷歌宣布Gemini Spark现已向所有美国的Google AI Ultra订阅用户开放。这是一款24/7个人AI智能体,可自主在后台工作,即使设备关闭也能执行任务。它旨在连接用户的数字生态系统并采取行动,但重大操作前会与用户确认。用户可通过gemini.google网页端或应用体验。

Google Gemini@GeminiApp · 5月30日63

From a newly redesigned Gemini experience to 24/7 agentic assistance with Gemini Spark, here’s a look at this month’s Gemini Drops. 🧵

译从全新设计的 Gemini 界面,到 Gemini Spark 提供的全天候智能体辅助,以下是本月 Gemini 更新概览。🧵

OpenRouter@OpenRouter · 5月30日72

OpenRouter now supports "apply_patch," a server tool that lets any model propose file edits using V4A diffs through the Responses API. The model generates a patch (create, update, or delete a file). OpenRouter validates the diff syntax server-side.

译OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。

Berryxia.AI@berryxia · 5月30日57

很多人还在等参数更大的模型才能跑好本地Agent! Liquid AI的LFM2.5-8B-A1B却用1.5B active参数就已经做到了。 这个8B MoE训练了38T tokens加大规模RL,上下文直接128K,工具调用和多步agent能力很强,能接近4倍参数模型的表现。 单台笔记本就能跑完整本地agent loop,延迟低、全程隐私安全,不用调用GPT-4o或Claude。 支持llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。 本地Agent落地比多数人想的快多了。 你已经在本地跑Agent了吗?

译Liquid AI发布了LFM2.5-8B-A1B,一款为设备端优化的模型。它采用8B MoE架构,但仅有1.5B active参数,在38T tokens上进行了大规模RL训练,并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲,表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环,具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。

Boris Cherny@bcherny · 5月30日62

Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'd scoped at 231 days shipped in 13. One PR delivered 21 endpoints at 100% test coverage.

译Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。

AK@_akhaliq · 5月29日61

AgentDoG 1.5 A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

译AgentDoG 1.5 一个用于AI智能体安全与保障的轻量且可扩展的对齐框架

elvis@omarsar0 · 5月29日68

// Scaling Laws for Agent Harnesses // If you build agent harnesses, this one is worth your time. (bookmark it) Most harness tuning treats every token and tool call as if volume is all that counts. New research shows that most of it does not. The work introduces Effective Feedback Compute (EFC), a coordinate that counts only the feedback an agent can actually act on. Raw token and tool-call counts explain agent failure at R2 of 0.33 to 0.42. EFC pushes that to 0.99. Why does it matter? Once you budget by useful feedback instead of raw volume, reallocation alone lifts success from 0.27 to 0.90 at the same compute. This also turns harness design from guesswork into something you can predict. Paper: https://arxiv.org/abs/2605.29682 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。

歸藏(guizang.ai)@op7418 · 5月29日63

有了 Claude Code 和 Cursor 这种软件以后,真的不只是写代码厉害。 我之前拿到豆包手机以后,想给它装个谷歌框架,但一直在 Google Play 那有点问题,死活装不上。 今天突然想起来,打开让 Claude Code 帮我装。 打开 USB 调试模式后,它直接就帮我搞定了:自动下载安装包、自动安装、自动调试好 这个未来感觉很有用。

译推文指出,Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例:在手机安装谷歌框架遇到问题时,通过Claude Code自动完成了下载安装包、安装和调试的全过程,体现了这类工具在解决日常技术问题上的潜在实用价值。

StepFun@StepFun_ai · 5月29日70

Appreciate it 🙏 Step 3.7 Flash was built for agentic workflows — curious to see what @NousResearch users build with it on Hermes Agent.

译感谢 🙏 Step 3.7 Flash专为智能体工作流打造——期待看到@NousResearch用户用它在Hermes Agent上构建什么。

StepFun@StepFun_ai · 5月29日68

Step 3.7 Flash is now live in @kilocode ! Open weights, ready to run. Appreciate the quick integration 🙏

译Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

AYi@AYi_AInotes · 5月29日52

今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的——真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思考。 这段话最近反复在我脑子里出现, 但我觉得他还少说了一句: 这个认知,到底从哪来? 首先肯定不是看几本书、刷几条推就能来的, 我觉得至少得是你自己上手干过、踩过坑、改过错,这个认知才能慢慢长出来, 这就是以术入道。 就像做菜,你得自己掌过勺,才知道一道菜真正的好坏在哪,AI 也一样,你得先用过、踩过坑、改过错,才能判断它给你的建议到底对不对。 我现在的判断是,AI 工具大概率会分成两条路。 一条是 agent 型,Claude Code、Codex、Hermes 那种,你给个目标它自己跑,你睡觉时它也跑,手机戳一戳继续跑,像一辆自动驾驶汽车。 另一条是 实习生型,典型代表是 Cursor, 每一步都要你判断:diff 改对了吗? 这个建议要不要采用?要不要切 MAX 模型重跑一次? 它有判断力,但没有自主决策权,你不在跟前盯着,它就停下来。 agent 是替你思考,实习生是和你一起思考,而只有后者,才是真正以术入道的过程。 agent 型工具的核心是省时间,你用它做事,实习生型工具的核心是磨判断力,你用它的过程,就是你长出自己那个道的过程。 但实习生型工具有个致命瓶颈——你不在跟前,它就停了。 自从被官方投喂 $10000 额度之后,我现在是个 Cursor 重度用户, 家里专门放了一台 Mac 跑 Cursor, 结果它就变成一个必须我在场才能用的稀缺资源。 直到最近朋友给我推了 UU 远程,网易做的,都免费两年了,而且没广告没会员,一开始我都有点不敢相信。 试了下发现真香,手机一打开就能接进家里那台 Mac,4K 144 帧,几乎感觉不到延迟, 看 Cursor 实时 diff、处理报错、切模型,跟坐电脑前没区别。 最让我惊喜的是,手机能直接开终端, 以前出门想登家里 Mac 跑命令行, 得 Tailscale 再 ssh 再 tmux,折腾半天, 还原生支持一个完整终端,跟敲 zsh 没区别, Cursor 跑一半要 git status、kill 进程、npm install, 手机抬手就办了,特别方便。 更新版本的时候我才发现,UU 远程刚好做到第二年, 周年庆重申不收费,继续打磨产品给大家免费用,还预告了几个新功能:安卓屏幕共享、小窗模式、精细化权限管理、文件夹共享、笔记本设备性能优化。 一个免费做了两年、还在持续往里砸功能的产品,我觉得是真有长期主义、想把产品做好的。 话说回来,AI 发展到这个阶段,我们真正需要的,我理解已经不是更厉害的 AI了,而是一种能让你随时和你的 AI 一起思考的连接方式。 目前看,Cursor和UU 远程这类体验和功能都做的非常丝滑极致的产品, 对我来说就是这个连接方式, 把我和家里那个顶级实习生之间的物理距离消除了, 让我能在任何地方,磨我自己的那个道。 毕竟 AI 工具的尽头,不是替我们做事,是把我们磨成那个,值得被它认真回答的提问者, 以上和大家共勉,一起在学习和使用AI的这条路上,达到以术入道,以道御术的境界。

译本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

歸藏(guizang.ai)@op7418 · 5月29日67

Cursor 发布了一份开发者报告,里面有些数据很有意思 挑几个比较重要的点来说: 头部用户的 AI 代码产出、token 消耗、PR 合并量都远高于中位数,而且差距还在扩大。 AI 写代码前读得越来越多,input/output token ratio 大幅上升。真正贵是理解一个代码库和任务。 缓存变得非常重要,如果每次 agent 都从零读上下文,成本会爆炸。这意味着未来 coding agent 的竞争力很可能在上下文缓存、增量理解、长期记忆这些地方。 放权越来越多,手动 diff acceptance 变少,更多 AI 改动直接进入 commit 流程。 PR 变大,工作颗粒度变大,报告里说单个 PR 的新增行数、1000 行以上的大 PR 占比都在上升。副作用是 review、测试、架构边界会更重要。

译Cursor发布开发者报告,基于全球最全面的AI编程数据集指出:头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”(理解上下文)的成本急剧上升,input/output token ratio显著增加,表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外,AI自主性提高,手动确认减少,更多改动直接进入代码流程;同时PR规模变大,对代码审查和测试要求更高。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日69

Explee launched AutoGTM, a 24/7 AI sales agent that reads your website, maps your ideal customer profile, finds matching buyers across 105M+ companies, and sends personalized cold emails. Get started with $50 in free credits 👀 https://explee.com/auto-gtm/x/an1 It’s composed of seven autonomous agents: market research, ICP sharpening, prospect discovery, email writing, sequencing, and follow-ups, with pre-warmed mailboxes ready from day one and 97% claimed deliverability. Built for AI-native founders and product teams running outbound manually while everything else runs on AI. AutoGTM covers 105M company profiles and 536M people profiles, runs at $0.03 per email, and is positioned at 15x lower cost than ZoomInfo or Apollo.

译Explee发布了AutoGTM,一个全天候工作的AI销售智能体。它由七个自主智能体构成,负责市场研究、理想客户画像、潜在客户发现、邮件撰写、序列安排及跟进。该产品能从超过1.05亿家公司和5.36亿个人资料中匹配目标客户,并发送个性化冷邮件。AutoGTM提供预热邮箱,声称邮件送达率达97%,每封邮件成本为$0.03,定位成本低于ZoomInfo或Apollo达15倍。该产品面向AI原生团队。

Peter Steinberger 🦞@steipete · 5月29日37

Couldn’t be more excited to have Vince on board. 🦞 Very few people understand the new ways, how software is built. He gets it.

译非常高兴Vince加入。🦞 很少有人理解软件构建的新方式。他理解。 [引用 @vincent_koc]:我已加入🦞@openclaw基金会,担任首席架构师!很兴奋能与@steipete和世界级团队一起推动智能体计算的未来。 在后claw时代,AI正从编码领域扩展到我们的个人生活。@nvidia Computex和@Microsoft Build上将有重大发布!

Rohan Paul@rohanpaul_ai · 5月29日60

The problem is that agent skills are usually hand-written, made once by an LLM, or revised in loose ways that can easily make them worse. SkillOpt from Microsoft, argues that agent skills should be trained like small external programs, it teaches AI agents better task habits by editing a reusable skill document, not the model itself. The paper’s core idea is to treat the skill document like the thing being trained, while the main AI model stays frozen and unchanged. SkillOpt watches the agent try tasks, studies what worked and failed, then asks a stronger optimizer model to suggest small edits to the skill. It only accepts an edit when the new skill improves on a held-out check set, so the skill does not drift just because an edit sounds good. The authors tested this across 6 benchmarks, 7 target models, and 3 agent settings, including direct chat, Codex, and Claude Code. SkillOpt was best or tied on all 52 tested cases, and on GPT-5.5 it raised average accuracy by 23.5 points in direct chat. The final result is a small readable skill file that can improve agents across tasks and settings without retraining the model. The best part is that the optimizer is used during training, but deployment only needs the final skill file. That makes the artifact inspectable, portable, and cheap to reuse, which is exactly what most prompt-engineering systems lack. ---- Link – arxiv. org/abs/2605.23904 Title: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills"

译微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

歸藏(guizang.ai)@op7418 · 5月29日63

Agent 就是 3D 打印机,Token 就是虚拟世界 3D 打印机的 PLA 材料 它是通用的,但最后打印出来的东西都不一样。

译此推文用3D打印机比喻AI智能体(Agent),Token是其“打印材料”。这一比喻旨在说明软件正从功能固定、彼此隔绝的“应用房间”,转变为用户可塑造、组合的“可编程材料”。旧模式是选择工具,新模式是表达意图并与系统协作。界面(UI)也随之变化,从固定菜单变为响应意图的“黏土”。最终,软件不再仅由程序员创造,而成为人人可塑造的媒介,如同“可执行的纸张”。

Rohan Paul@rohanpaul_ai · 5月29日64

Stronger agents will not come only from larger models, but from better systems around them. The problem is that many AI agents are judged as if the model alone did the work, even though the real behavior also depends on memory, tools, context, routing, checks, and permissions. This surrounding setup around the agent is called harness, meaning the system that decides what the model sees, what tools it can use, what it remembers, and what actions get checked. Progress should come from scaling this harness, especially 3 parts: better context control, more trustworthy memory, and better routing to tools or helper agents. Long context is not the same as usable context, memory is not the same as trustworthy memory, and having many tools is not the same as knowing when to use them. A stale note can be more dangerous than no note, because it gives the agent confidence exactly when it should re-check the world. A specialized subagent can also fail quietly if its output sounds plausible but no later layer verifies whether it is true. This is why one-shot benchmark scores feel increasingly thin. Two agents can reach the same final answer, while one burns far more tokens, makes riskier tool calls, carries corrupted memory, or succeeds only by accident. The next frontier is not just scaling the mind inside the machine. It is scaling the discipline around it. ---- Link – arxiv. org/abs/2605.26112 Title: "From Model Scaling to System Scaling: Scaling the Harness in Agentic AI"

译推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

小互@xiaohu · 5月29日67

让一个AI 实时监督另一个 AI 干活 OpenAI 产品负责人 Nick Turley 在采访里讲的介绍了他们的 Auto Review功能 • 主 Agent 干活 • 第二 Agent 实时验证主 Agent 的每个动作 • 检查它没在做任何可能伤害你的事 "这是OpenAI安全团队和对齐团队的研究的成果",内部是用一个AI来监督另一个AI防止它干坏事... 然后无意是它解锁了一种全新的用法: 你终于敢把生活里很多东西的访问权交给 Agent,让它整夜跑着处理敏感数据,第二天起床你只批准几件关键的,剩下的它自己搞完。 不用担心半夜你的 Agent 给一个陌生人发了一封带你个人信息的邮件... 说白了,这是"AI 对齐研究"第一次以普通用户摸得着的方式落地。 以前对齐是论文里的曲线,现在变成了"我能放心睡过夜"。

译OpenAI 产品负责人介绍了 Auto Review 功能,其核心是一个 AI 智能体执行任务时,由另一个 AI 智能体实时验证其动作的安全性。该功能是 OpenAI 安全与对齐团队的研究成果,旨在让“AI 对齐”从研究概念变为实际产品,使用户能放心地让智能体处理敏感任务。

Berryxia.AI@berryxia · 5月29日24

身边不少人都说小米这次送的Token没多大用处,我反倒觉得只是没有用起来~~ 刚领到小米赠送的Token,第一时间就安排上了。 特意给Berry小跟班补充好储备。 之前总听大家讨论MiMo-2.5-Pro,一直没空实测。 现在直接接入我的Agent,专门测试它的调用能力。 坐等测试结果,后续慢慢跟大家分享。

译作者分享使用小米赠送的模型token,对MiMo-2.5-Pro进行实测。其计划将该模型接入自己的AI智能体环境,专门评估其在实际调用场景下的表现,并表示将在后续分享测试结果。

meng shao@shao__meng · 5月29日48

Coding Agent 在开发之外能做什么,这个问题昨晚我有了一些新的认识 昨天全天我的🪜都有问题,X Google ChatGPT Cursor 都没问题,就是 Codex 一直连接不上。。。 就让 Cursor 帮我分析我🪜的问题,以让 Codex 能正常跑起来为目标,几分钟时间,它分析了代理的实现,做了一些测试,帮我改了代理方式,又自己 CLI 调用 Codex 跑通了测试。 到这还没完,为了让我在🪜出问题时还能用 Codex,还给我接通了 DeepSeek API (我之前在 Cursor 给过 API Key),给我做了一键在 Codex 切换为 DeepSeek 的选项。 确实太贴心了,我都想给它🧎🏻‍♂️一个了。

译推文作者全天遭遇网络代理(🪜)问题,导致Codex连接失败。他使用Cursor分析代理设置,Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式,随后亲自调用CLI测试Codex以确认修复。为预防未来问题,Cursor还集成了用户此前提供的DeepSeek API密钥,创建了一键切换至DeepSeek的选项,确保了服务可用性。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
09:34
Berryxia.AI@berryxia
77
OpenAI Codex登陆Windows,支持手机远程控制

OpenAI宣布其AI智能体Codex的Computer Use功能现已登陆Windows,允许Codex在Windows真实桌面执行任务。同时,ChatGPT手机App新增了对Windows端Codex的支持,用户可在移动端远程启动、查看和控制任务,实现跨设备协同。该功能目前处于早期体验阶段。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新端侧
关联讨论 3 条X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)
07:50
🚨 AI News | TestingCatalog@testingcatalog
78
xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体xAI模型发布编码
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)xAI:News(网页)
07:39
Tibo@thsottiaux
62
没人比Codex更了解它自己

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

智能体OpenAI产品更新编码
05:45
Google AI Developers@googleaidevs
42
Eigent平台展示了集成Gemini Managed Agents API的实际效果。其开源协作工具Eigent使用Gemini 3.5 Flash和该API,快速定位了一个真实的megatron-lm CI故障,在几分钟内找到了根本原因。工作流程中,协调员智能体规划审计,开发员智能体加载`ml-failure-audit`技能并收集证据,随后Gemini智能体作为远程子智能体接手进行深度推理。这体现了Managed Agents在自动化复杂任务中的效率。

Eigent AI: Gemini 3.5 flash + Gemini managed agents api just audited a real megatron-lm ci failure inside Eigent. root cause in min...

智能体GoogleMCP/工具教程/实践
04:55
OpenAI Developers@OpenAIDevs
54
Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00:58 Codex在Alchemy的应用 01:51 代码审查捕获错误 08:04 使用Codex进行副项目 18:51 Codex App Server项目 24:01 计算机使用、GPT-5.5、SnapCat
智能体OpenAI教程/实践编码
04:50
🚨 AI News | TestingCatalog@testingcatalog
60
OpenAI宣布Codex的Windows版本现已支持Computer Use功能,能够直接在用户的Windows电脑上执行操作。同时,ChatGPT移动应用也新增了对Windows平台Codex的支持,允许用户在移动中启动、审查和引导任务,而任务本身可在Windows设备上持续运行。这是一项早期体验,OpenAI表示将继续开发更多功能,帮助用户随时随地高效工作。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新多模态
03:45
Google AI Developers@googleaidevs
63
LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板,使智能体能够访问 LlamaParse 和 LiteParse,从而自动处理非结构化文档。其工作流程为:配置数据与输出的 Git 仓库,将仓库克隆至智能体沙箱,安装 LiteParse CLI 与 LlamaParse SDK 及相关技能,最后通过提示词驱动智能体自主执行任务。该模板最终形成一个可直接使用 LlamaParse 和 LiteParse 处理真实世界文档的智能体。

LlamaIndex 🦙: 🚀 The team at @Google just released the Agents API, a service for building and running custom agents inside a sandboxed...

智能体GoogleMCP/工具教程/实践
03:39
宝玉@dotey
33
我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

jason: did you wish codex ask__user_question tool was available outside of plan mode

智能体OpenAI大佬观点编码
03:38
swyx@swyx
54
各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里
智能体Anthropic大佬观点
03:09
宝玉@dotey
66
Claude Design与代码同步的实践方法

针对后续UI改动可能导致Claude Design与实际代码不一致的问题,分享的实践方法是:始终将Claude Design作为唯一设计源,并在更新时生成changelog供Claude Code同步。遵循先修改设计再改代码的原则,若临时修改了代码,事后也应同步回Claude Design。

CanCan: @dotey 这里有一个小问题,后续ui 改动怎们办?先改 claude design,有时候小改动直接改code,但是这样时间长了 design 和 code就 不一致了

智能体教程/实践编码
03:09
宝玉@dotey
63
Codex计算机使用功能正式登陆Windows

OpenAI宣布其Codex的“计算机使用”功能正式支持Windows系统。该功能使AI能像人类一样操作桌面应用,此前于4月中旬上线时仅支持macOS。同时更新了手机远程控制能力,现可通过ChatGPT手机App在移动设备上启动、监控和审批运行于Windows电脑的Codex任务。这是继5月支持Mac主机后的扩展,目前仍属于早期体验。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体MCP/工具OpenAI产品更新
02:55
OpenAI Developers@OpenAIDevs
72
OpenAI 的 Codex 现已增强对 Windows 开发流程的支持。其"电脑操作"功能可在 Windows 上直接测试应用、调试流程和审查代码,让任务在项目上下文环境中运行。此外,ChatGPT 移动应用中的 Codex 也支持 Windows,允许用户从手机端发起、审核和引导任务,同时工作在 Windows 机器上持续进行。这标志着 Codex 在跨设备无缝协作方面的早期进展。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新编码
关联讨论 3 条X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)
02:49
Greg Brockman@gdb
71
Codex 用户在 Windows 上迎来重大升级: 现在计算机操作功能已在 Windows 上可用,Codex 可以在你的 Windows 电脑上执行操作。 同时,ChatGPT 移动应用中的 Codex 也支持 Windows,让你可以随时随地启动、审查和引导任务,而工作则在你的 Windows 机器上继续进行。 这是一次早期体验,但我们正在努力提供更多方式,让你无论身在何处都能保持工作推进。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新编码
02:45
Chubby♨️@kimmonismus
63
Codex现在可以控制和操作Windows电脑,包括通过ChatGPT移动应用,这样用户就可以在PC上继续工作的同时,远程启动、监控和引导编码任务。
智能体OpenAI产品更新编码
02:38
OpenAI@OpenAI
同事件精选73
Windows用户,这条消息是给你的。 计算机使用功能现已在Windows上可用,因此Codex可以在你的Windows电脑上执行操作。 通过ChatGPT移动应用中Codex的Windows支持,你可以在工作继续在Windows电脑上进行时,随时随地启动、审查和引导任务。 这是一项早期体验,但我们正在努力提供更多方式,让你的工作无论身在何处都能持续进行。
智能体MCP/工具OpenAI产品更新
同一事件,精选展示《ChatGPT移动端支持Codex,实现跨设备协作》
推荐理由:Windows 用户终于等到 Codex 能直接操控电脑了,配合手机端协同一气呵成,虽然还早期,但已经把 AI 真正带进日常工作流里。
02:26
MiniMax (official)@MiniMax_AI
43
MiniMax M2.7 + CyOps = 评分说明一切 💪

Leo Fan (mainnet arc): I gave the same Go MMRPG backend spec to two coding agents and then asked Claude to judge the performance. CC (with Sonn...

智能体编码评测/基准
02:26
Replit ⠕@Replit
34
这是你需要在60秒内了解的关于Replit的一切 ⭐️ → 简单的英文提示词即可生成真实可用的软件 → 从UI到部署的端到端工作流 → 仅需一个链接即可实现实时团队协作 → 并行AI智能体同时构建应用的不同部分
智能体教程/实践编码
02:15
Rohan Paul@rohanpaul_ai
60
黄仁勋阐述了一种实时AI导师如何通过逐步引导和实时适应,提供个性化一对一教学,从而将原本昂贵的私人辅导服务变得普及可用。引用推文为这一场景提供了背景:当前AI在教育中的应用可能让学习者被动接受信息,而像Koji这样的AI导师工具则旨在引导学生真正思考,改变这一现状。

Sue: AI is making kids dumber. It should be making them geniuses. Introducing Koji, the first AI tutor that gets kids to actu...

智能体产品更新
02:15
Google AI Developers@googleaidevs
43
我们很欣赏@wandb团队在Gemini API中使用托管智能体的方式。隐蔽的bug无处遁形。🐛⬇️

Weights & Biases: The scariest bug from a coding agent isn't the one that crashes. It's the one that runs cleanly, passes tests, and quiet...

智能体Google教程/实践编码
01:09
宝玉@dotey
62
Claude Opus 4.8 支持对话中途修改系统提示词

Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词(System Prompt),且不会影响Prompt Caching。此前,系统提示词只能在对话开头固定设置,开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。

Lance Martin: a number of useful tips + tricks for Opus 4.8: 1/ you can now update the system prompt mid-conversation w/o breaking the...

智能体AnthropicMCP/工具产品更新
01:06
Google Gemini@GeminiApp
63
谷歌宣布Gemini Spark现已向所有美国的Google AI Ultra订阅用户开放。这是一款24/7个人AI智能体,可自主在后台工作,即使设备关闭也能执行任务。它旨在连接用户的数字生态系统并采取行动,但重大操作前会与用户确认。用户可通过gemini.google网页端或应用体验。

Google Gemini: Gemini Spark is your new 24/7 personal AI agent. Give it a task and it works autonomously in the background, even if you...

智能体Google产品更新
00:36
Google Gemini@GeminiApp
63
从全新设计的 Gemini 界面,到 Gemini Spark 提供的全天候智能体辅助,以下是本月 Gemini 更新概览。🧵
智能体Google产品更新
00:36
OpenRouter@OpenRouter
精选72
OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。
智能体MCP/工具产品更新编码

推荐理由:OpenRouter 这个 apply_patch 解决了多模型文件编辑的碎片化,任何模型接上就能出 diff,做 coding agent 的可以少写一堆适配代码。
00:34
Berryxia.AI@berryxia
57
Liquid AI发布设备端优化模型LFM2.5-8B-A1B

Liquid AI发布了LFM2.5-8B-A1B,一款为设备端优化的模型。它采用8B MoE架构,但仅有1.5B active参数,在38T tokens上进行了大规模RL训练,并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲,表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环,具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。

Liquid AI: Today, we're releasing LFM2.5-8B-A1B, a device-optimized model designed to power real-life applications on phones, lapto...

智能体模型发布端侧
00:25
Boris Cherny@bcherny
62
Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。
智能体Anthropic教程/实践编码
5月29日
23:45
AK@_akhaliq
61
AgentDoG 1.5 一个用于AI智能体安全与保障的轻量且可扩展的对齐框架
智能体安全/对齐
23:14
elvis@omarsar0
68
AI智能体评估新指标:有效反馈计算提升成功率

新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。

智能体arXivMCP/工具论文/研究
22:42
歸藏(guizang.ai)@op7418
63
AI编程工具不止写代码:新实用场景涌现

推文指出,Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例:在手机安装谷歌框架遇到问题时,通过Claude Code自动完成了下载安装包、安装和调试的全过程,体现了这类工具在解决日常技术问题上的潜在实用价值。

智能体Anthropic教程/实践端侧
21:10
StepFun@StepFun_ai
70
感谢 🙏 Step 3.7 Flash专为智能体工作流打造--期待看到@NousResearch用户用它在Hermes Agent上构建什么。

Nous Research: Our users love @StepFun_ai models and this new release packs a punch at a small size. Looking forward to seeing how well...

智能体模型发布
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
20:34
AYi@AYi_AInotes
52
今天,把一件关于 AI 很底层的事,彻底想透了。

本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

智能体大佬观点编码
19:42
歸藏(guizang.ai)@op7418
67
Cursor开发者报告揭示AI编程五大趋势

Cursor发布开发者报告,基于全球最全面的AI编程数据集指出:头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”(理解上下文)的成本急剧上升,input/output token ratio显著增加,表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外,AI自主性提高,手动确认减少,更多改动直接进入代码流程;同时PR规模变大,对代码审查和测试要求更高。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码
19:20
🚨 AI News | TestingCatalog@testingcatalog
69
Explee推出AutoGTM:7x24小时AI销售智能体

Explee发布了AutoGTM,一个全天候工作的AI销售智能体。它由七个自主智能体构成,负责市场研究、理想客户画像、潜在客户发现、邮件撰写、序列安排及跟进。该产品能从超过1.05亿家公司和5.36亿个人资料中匹配目标客户,并发送个性化冷邮件。AutoGTM提供预热邮箱,声称邮件送达率达97%,每封邮件成本为$0.03,定位成本低于ZoomInfo或Apollo达15倍。该产品面向AI原生团队。

智能体产品更新
18:49
Peter Steinberger 🦞@steipete
37
非常高兴Vince加入。🦞 很少有人理解软件构建的新方式。他理解。 【引用 @vincent_koc】:我已加入🦞@openclaw基金会,担任首席架构师!很兴奋能与@steipete和世界级团队一起推动智能体计算的未来。 在后claw时代,AI正从编码领域扩展到我们的个人生活。@nvidia Computex和@Microsoft Build上将有重大发布!

Vincent Koc: I've joined the🦞@openclaw Foundation as Chief Architect! Excited to propel the future of agentic computing with @steipe...

智能体行业动态
17:15
Rohan Paul@rohanpaul_ai
60
SkillOpt:实现智能体技能自我进化的执行策略

微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

智能体Microsoft数据/训练论文/研究
16:42
歸藏(guizang.ai)@op7418
63
此推文用3D打印机比喻AI智能体(Agent),Token是其"打印材料"。这一比喻旨在说明软件正从功能固定、彼此隔绝的"应用房间",转变为用户可塑造、组合的"可编程材料"。旧模式是选择工具,新模式是表达意图并与系统协作。界面(UI)也随之变化,从固定菜单变为响应意图的"黏土"。最终,软件不再仅由程序员创造,而成为人人可塑造的媒介,如同"可执行的纸张"。

Ryo Lu: from apps to material software used to be something you opened an app was a room with walls: calendar here, notes there,...

智能体大佬观点现象/趋势
16:15
Rohan Paul@rohanpaul_ai
64
更强的智能体将不仅来自更大的模型,而是来自其周围更好的系统

推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

智能体大佬观点部署/工程
15:40
小互@xiaohu
67
OpenAI Auto Review:一个AI监督另一个AI

OpenAI 产品负责人介绍了 Auto Review 功能,其核心是一个 AI 智能体执行任务时,由另一个 AI 智能体实时验证其动作的安全性。该功能是 OpenAI 安全与对齐团队的研究成果,旨在让“AI 对齐”从研究概念变为实际产品,使用户能放心地让智能体处理敏感任务。

智能体OpenAI产品更新安全/对齐
15:34
Berryxia.AI@berryxia
24
用小米赠送的Token实测MiMo-2.5-Pro调用能力

作者分享使用小米赠送的模型token,对MiMo-2.5-Pro进行实测。其计划将该模型接入自己的AI智能体环境,专门评估其在实际调用场景下的表现,并表示将在后续分享测试结果。

智能体行业动态
15:10
meng shao@shao__meng
48
Cursor不只是编程助手:它解决了我的网络问题

推文作者全天遭遇网络代理(🪜)问题,导致Codex连接失败。他使用Cursor分析代理设置,Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式,随后亲自调用CLI测试Codex以确认修复。为预防未来问题,Cursor还集成了用户此前提供的DeepSeek API密钥,创建了一键切换至DeepSeek的选项,确保了服务可用性。

智能体MCP/工具教程/实践编码
‹ 上一页
1…3031323334…50
下一页 ›