AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3074 条
全部一手资讯X论文
标签「Agent」清除
Google AI Developers@googleaidevs · 6月3日74

Building autonomous agents for scientific discovery? 🧬🤖 @GoogleDeepMind Science Skills is now available on GitHub. We've open-sourced this specialized toolkit to accelerate your agentic workflows with scientific grounding and higher token efficiency. Download now ↓ https://github.com/google-deepmind/science-skills

译构建用于科学发现的自主智能体?🧬🤖 @GoogleDeepMind Science Skills 现已在 GitHub 上发布。我们已开源这个专用工具包,以科学基础和更高的 token 效率加速您的智能体工作流。 立即下载 ↓ https://github.com/google-deepmind/science-skills

Microsoft Research@MSFTResearch · 6月3日54

Agentic experiences powered by small models that fit on your own device. Hear from Maya Murad on MagenticLite at the Microsoft Research Lab at #MSBuild.

译由可在您自己设备上运行的小型模型驱动的智能体体验。请听 Maya Murad 在 #MSBuild 微软研究院实验室介绍 MagenticLite。

Thariq@trq212 · 6月3日81

http://x.com/i/article/2061850535708483585 # A harness for every task: dynamic workflows in Claude Code Last week, we released dynamic workflows in Claude Code. Claude can now write its own harness on the fly, custom-built for the task at hand. While the default Claude Code harness is built for coding, it is also useful for many other types of tasks because, as it turns out, many tasks resemble coding tasks. But there are certain classes of tasks where we have had to build custom harnesses on top of Claude Code to achieve peak performance such as Research, security analysis, agent teams, or Code Review. Workflows allow you to dynamically create harnesses that enable Claude to solve all of those problems and more natively inside of Claude Code. You can also share and re-use these workflows with others. In this article, I’ll cover my initial workflows experiences and learnings so you can take full advantage. That said, best practices are still developing! Dynamic workflows often use more tokens, so think carefully about when and how to use them. Note: this post is also available on the Claude Blog ## Example prompts Before diving into the technical details, I’d like to start with some example prompts to get you thinking about the possibilities with workflows: - "This test fails maybe 1 in 50 runs. Set up a workflow to reproduce it, form theories and adversarially test them in worktrees /goal don't stop until one theory works." - "Using a workflow, go through my last 50 sessions and mine them for corrections I keep making and turn the recurring ones into CLAUDE.md rules" - “Use a workflow to dig through #incidents in Slack for the past six months and find recurring root causes where nobody has filed a ticket." - "Take my business plan and run a workflow where different agents tear it apart from an investor's, a customer's, and a competitor's perspective." - "Here's a folder of 80 resumes, use a workflow to rank them for the backend role and double-check the top ten. Interview me using the AskUserQuestion tool for a rubric." - "I need a name for this CLI tool. Use a workflow to brainstorm a bunch of options and run a tournament to pick the top 3." - "Use a workflow to rename our User model to Account everywhere." - “Go through my blog post draft and using a workflow verify every technical claim against the codebase, I don't want to ship anything wrong." ## How dynamic workflows work Dynamic workflows execute a javascript file with a few special functions that help spawn and coordinate subagents: Dynamic workflows also include standard JavaScript functions like JSON, Math, and Array, to help process data. It’s particularly useful to know that dynamic workflows can decide which models an agent uses and whether subagents are run in their own worktree, allowing Claude to choose the intelligence level and isolation needed. If a workflow is interrupted, for example by user action or quitting the terminal, resuming the session will allow the workflow to pick up where it left off. ## Why dynamic workflows When you ask the default Claude Code harness to do a task, it needs to both plan and execute in the same context window. For many coding tasks, this is highly effective, but it can sometimes break down over long-running, massively parallel and/or highly structured adversarial tasks. This is because the longer Claude works on a complex task in a single context window, the more it becomes susceptible to a few specific failure modes: - Agentic laziness refers to when Claude stops before finishing a particularly complex, multi-part task and declares the job done after partial progress, for example addressing 20 of the 50 items in a security review. - Self-preferential bias refers to Claude’s tendency to prefer its own results or findings, especially when asked to verify or judge them against a rubric. - Goal drift refers to the gradual loss of fidelity to the original objective across many turns, especially after compaction. Each summarization step is lossy, and details like edge-case requirements or "don't do X" constraints can get lost. Creating a workflow helps combat these by orchestrating separate Claudes with their own context windows and focused, isolated goals. ## Dynamic vs static workflows You may have previously created a static workflow using the Claude Agent SDK or claude -p to coordinate multiple instances of Claude Code together. But because static workflows need to work for all edge cases, they are usually more generic. With Claude Opus 4.8 and dynamic workflows, Claude is now intelligent enough to write a custom harness tailor-made for your use case. # Helpful patterns when using dynamic workflows You can start using dynamic workflows just by asking Claude to make one, or by using the trigger word “ultracode” to ensure that Claude Code creates a workflow. But building a mental model for how dynamic workflows work will help you understand when to use them and how you might nudge Claude via prompts. There are a few common patterns that Claude might use and compose together when building workflows: Classify-and-act Use a classifier agent to decide on the type of task, and then route to different agents or behavior based on the task. Or, use a classifier at the end to determine output. Fan-out-and-synthesize Split up a task into many smaller steps, run an agent on each step and then synthesize those results. This is particularly useful for when there are a large number of smaller steps, or when each step benefits from its own clean context window so they don't interfere or cross-contaminate. The synthesize step is a barrier—it waits for all the fan-out agents, then merges their structured outputs into one result. Adversarial verification For each spawned agent, run a separate spawned agent to adversarially verify its output against a rubric or criteria. Generate-and-filter Generate a number of ideas on a topic and then filter them by a rubric or by verification, dedupe duplicates and return only the highest quality, tested ideas. Tournament Instead of dividing the work, have agents compete on it. Spawn N agents that each attempt the same task using different approaches. Prompts or models then judge the results in a pairwise fashion using a judging agent until you have a winner. Loop until done For tasks with an unknown amount of work, loop spawning agents until a stop condition is met (no new findings, or no more errors in the logs) instead of a fixed number of passes. # Use cases Think creatively of when and how to ask Claude Code to make dynamic workflows. I’ve found that workflows are sometimes even more useful for non-technical work. ## Migrations and refactors Bun was rewritten from Zig to Rust using workflows. You can read more about how that was done in Jarred’s X thread. The key is to break down the task into a series of steps that need to be operated on for example callsites, failing tests, modules, etc. Spin off a subagent for every fix in a worktree to make the fix, then have another agent adversarially review, and merge them. Consider telling the agent not to use resource intensive commands so that you can maximally parallelize without running out of resources on your machine. ## Deep research We published a deep research skill (/deep-research) inside Claude Code that uses dynamic workflows. Specifically, it fans-out web searches, fetches sources, adversarially verifies their claims, and synthesizes a cited report. But you may do this sort of research for more than just web searches. For example, asking Claude to compile a status report from context in Slack or to research how a feature works by exploring a codebase in-depth. ## Deep verification On the other hand, if you have a report where you want to check and source every factual claim that it references you may want to generate a workflow which has one agent identify all of the factual claims and then spin off a subagent to check each one in-detail. You could also have a verification agent check the source subagent to make sure its source is high quality. ## Sorting You may have a list of items that you want to sort by some qualitative measurement that you believe that Claude Code is good at evaluating, for example: support tickets sorted by severity of the bug. But if you try to sort 1000+ rows in one prompt, quality degrades and it won't fit in context. Instead run a tournament, a pipeline of pairwise-comparison agents (comparative judgment is more reliable than absolute scoring), or bucket-rank in parallel then merge. Each comparison is its own agent, so the deterministic loop holds the bracket and only the running order stays in context. ## Memory and rule adherence If you have a particular set of rules that you find Claude misses or struggles with, even when put into the CLAUDE.mds, create a workflow with a list of rules that must be checked by verifier agents—one verifier per rule. Creating a skeptic persona subagent to review the rules to make sure they are in line will help avoid too many false positives. The reverse direction works too: mine your recent sessions and code review comments for corrections you keep making, cluster them with parallel agents, adversarially verify each candidate (would this rule have prevented a real mistake?), and then distill the survivors back into a CLAUDE.md. ## Root-cause investigation Debugging works best when you come up with several independent hypotheses and test them, but if you’re only using one context window, Claude can run into self-preferential bias. A workflow can structurally prevent this by spinning up agents to generate hypotheses from disjoint evidence. For example, separate agents for logs, files, and data. Each hypothesis can then face a panel of verifiers and refuters. This isn't just for code. Workflows can be used for sales (why did sales drop in March?), data engineering (why did this pipeline fail?), or any post-mortem exercise. ## Triaging at scale Every team has a support queue, bug reports, or some other backlog that cannot be fully processed by humans. A triage workflow classifies each item, dedupes against what's already tracked, and takes action. This could mean attempting the fix or escalating to a human user. A useful pattern for triage workflows is quarantine. This involves barring the agents that read untrusted public content from taking high-privilege actions, which are instead done by the agents in charge of acting on the information. Pair triage workflows with /loop to have Claude do this continuously. ## Exploration and taste Workflows can be useful when exploring different approaches to a solution, especially when it is taste based, like design or naming, and would benefit from a rubric. Try asking Claude to explore a bunch of solutions, and give a review agent a rubric for what a good solution looks like. The task is complete when the review agent feels like it has met the criteria. Solutions can also be ordered or selected via a tournament based on the rubric. ## Evals You can run lightweight evals for particular tasks by spinning off separate agents in a worktree and then spinning off comparison agents to compare and grade the specific outputs against a rubric. For example, evaluating and then refining a skill you’ve created against a particular criteria. ## Model and intelligence routing Create a classifier agent tuned to your tasks that decides which model to use. This can be helpful when your task will involve many tool calls and conducting research prior to execution can identify the best model for the job. For example, the best model for the task “explain how the auth module works” depends on how many files in the auth module there are and the shape of the codebase. A classifier agent can do this research and then route to Sonnet or Opus based on the expected complexity of the task. ## When not to use dynamic workflows Workflows are new. While there are many use cases where it will create outsized results, they are not needed for every task and may end up using significantly more tokens. It’s best to use workflows creatively to push Claude Code in ways that you haven’t previously. For regular coding tasks, try and ask yourself does it really need more compute? For example, most traditional coding tasks do not need a panel of 5 reviewers. # Tips for building dynamic workflows Prompting Detailed prompting, using the specific techniques we described above, for dynamic workflows creates the best results. Workflows are not just for large tasks. You can prompt the model to use a “quick workflow.” For example, you can create a quick adversarial review of an assumption. Combine with /goal and /loop When using workflows that can be repeated, for example triage, research, or verification, pair them with /loop to be run at regular intervals, and /goal to set a hard completion requirement. Token usage budgets You can set explicit token usage budgets for dynamic workflows to limit how many tokens a task uses. You can prompt it with a budget like: “use 10k tokens,” which will set the cap. Saving and sharing dynamic workflows You can save workflows by pressing “s” in the workflow menu. You can check these into ~/.claude/workflows or distribute them via a skill. To share them via a skill, put your JavaScript workflow files in the skill and folder and reference them in the SKILL.MD. To allow for more flexibility, you may want to prompt Claude to think of the workflows in the skill as a template instead of a script that needs to be run verbatim. ## A whole new world Workflows are a helpful new way to extend Claude Code. I encourage you to think of this as a starting point, there's still much to discover in how to use them best. Let us know what you find. Thariq Shihipar and Sid Bidasaria (@sidbid) are members of technical staff at Anthropic, working on Claude Code.

译Claude Code 新增动态工作流功能,使 Claude 能根据任务动态创建定制化的执行框架。该功能通过执行 JavaScript 文件来协调子智能体,并可指定模型与工作区隔离级别。它适用于研究、安全分析、代码审查等复杂任务,支持共享与复用。需要注意,动态工作流会消耗更多 token。

Thariq@trq212 · 6月3日69

Workflows are the biggest upgrade to Claude Code’s capabilities since skills and subagents. I dove deep into it with @sidbid to figure out best practices, examples and more.  I’m particularly excited about the non-technical tasks it enables for Claude Code.

译工作流是 Claude Code 自技能和子智能体以来最大的能力升级。 我和 @sidbid 深入探讨了最佳实践、示例等内容。我特别兴奋于它为 Claude Code 启用的非技术任务。

ClaudeDevs@ClaudeDevs · 6月3日73

How do you get Claude Code to check its own work before handing it back? Watch how you can encode your manual checks so Claude closes its own feedback loop:

译如何让 Claude Code 在交回工作前检查自己的成果? 看看如何编码你的手动检查,让 Claude 自己关闭反馈循环:

Artificial Analysis@ArtificialAnlys · 6月3日49

We’re hosting a Coding Agent Benchmarks event on Thursday, June 11 in San Francisco with lightning talks and a panel discussion with leading AI researchers, builders, and engineers. If you're building coding agents, LLM tooling, or AI infrastructure, we’d love to see you there! Request to join 👇 https://luma.com/i5zotp6c

译我们将于6月11日星期四在旧金山举办一场编程智能体基准测试活动,包含闪电演讲以及与顶尖AI研究人员、开发者和工程师的小组讨论。 如果你正在开发编程智能体、LLM工具或AI基础设施,我们很期待你的到来! 申请加入 👇 https://luma.com/i5zotp6c

Chubby♨️@kimmonismus · 6月3日51

Very excited for this „no prior“ episode! Curious if the hear more about their project Solaris, their agentic handhelds

译非常期待这期“无先例”节目! 好奇能否了解更多关于他们的项目Solaris,他们的智能体手持设备。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日62

MICROSOFT 🔥: A new Copilot super app has been announced! It arrives with a concept of Autopilots, long-running, always-on agents, with Scout being the first Agent coming out of the box. More Autopilot Agents will be added later.

译微软 🔥:一款新的 Copilot 超级应用已发布! 它引入了 Autopilots 概念,即长期运行、始终在线的智能体,Scout 是首个开箱即用的智能体。后续将添加更多 Autopilot 智能体。

Peter Steinberger 🦞@steipete · 6月3日67

It’s been great working with Omar to get observability and verifiable workspaces into OpenClaw.

译很高兴与 Omar 合作,将可观测性和可验证工作区引入 OpenClaw。

Chubby♨️@kimmonismus · 6月3日56

Microsoft scout revealed „your always-on personal agent for work.“ If "AI" was the Word of the Year in 2025, in 2026 it will be "agents" (always-on). Everything is agentic this year.

译微软 Scout 揭示了“您始终在线的个人工作智能体”。 如果说“AI”是2025年的年度词汇,那么2026年将是“智能体”(始终在线)。 今年一切都是智能体化的。

向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2061873460926943233 # Codex进化:写代码只是第一块拼图,下一块是什么? 很多公司已经遇到一个尴尬场景。 AI 帮员工写完一段代码很容易。 可一旦任务变成整理 Slack 里的上下文、翻 Google Docs、拉 CRM、做一份高管材料、把数据变成仪表盘,事情马上变复杂。 OpenAI 这次给 Codex 的更新,重点就在这里:把一个开发工具,继续往通用工作系统推。 OpenAI 披露,Codex 每周用户已经超过 500 万。 非开发者,包括分析师、市场、运营、设计师、研究员、投资人和银行从业者,已经约占整体用户 20%,增长速度是开发者的 3 倍多。 这个数字有意思。 Codex 正在从“会写代码的助手”,变成“懂岗位交付的工作台”。 ## 六个角色插件,把 Codex 推进真实工位 这次最硬的变化,是角色插件。 OpenAI 一口气推出了 6 个面向角色的插件:数据分析、创意生产、销售、产品设计、公开股票投资、投行业务。 每个插件不只是多接几个应用。 更关键的是,它把相关应用、技能、指令和工作流打包在一起。 OpenAI 给出的数字是:这些插件合计覆盖 62 个热门应用和 110 个技能。 这背后的产品思路很清楚。 分析师需要追问指标为什么变了,销售需要把客户信号变成跟进动作,投行团队需要把研究和尽调变成客户能看的材料。 岗位不同,默认上下文不同,交付标准也不同。 如果 Codex 想进入这些岗位,就不能只等用户一句一句教它“怎么做”。 它要提前知道这个角色的常见材料、常见工具和常见判断方式。 下面是原文展示的插件生态图标墙(部分) 这堆图标看起来像一张合作名单,但它真正透露的是另一件事:OpenAI 不想让 Codex 只待在自己的产品边界里。 它要进企业已有的工具链。 ## Sites 出现后,AI 回答开始变成工作空间 第二个关键能力叫 Sites。 这是面向 Business 和 Enterprise 客户的预览功能。 Codex 可以把想法、分析和计划做成可分享的交互式网站或小应用,同一个 workspace 里的成员可以通过 URL 访问。 这件事比“生成一个网页”更重要。 很多知识工作的问题,从来不缺一段文字总结。 缺的是一个可以反复查看、协作更新、聚合判断的地方。 比如客户复盘、财务场景规划、产品发布中心、项目看板、创意简报库。 这些东西如果散在文档、表格、聊天记录里,团队就会反复追问同一个问题:最新版本在哪里?谁负责下一步?哪个假设已经改了? Sites 想把这类一次性输出,变成持续协作的页面。 图中是原文展示的收益预测规划器示例。 它说明 Sites 的定位已经越过静态文章,更像能承载数据、状态和决策的轻量工作界面。 OpenAI 还提到,Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期伙伴会参与 Sites 生态建设。 这很关键。 一旦 AI 生成的页面可以被分享、更新、协作,它就开始碰到传统 SaaS 的地盘。 ## 批注让 AI 修改时更像同事 第三个变化是 annotations,批注。 开发者已经在 Codex 里用批注改代码、Markdown 和网站。 现在这个能力扩展到了文档、表格、幻灯片等内容。 用户可以选中网站里的导航栏,让 Codex 改字体;高亮投资论点里的某个判断,让 Codex 查来源;圈出幻灯片上的图表,让它改成更清楚的标签。 这个能力的价值,在于它把“重新生成一遍”变成了“局部修改”。 AI 做第一稿不难,难的是第二轮、第三轮。 人类反馈往往不是抽象的。 “这一句太硬”“这张图看不清”“这个指标口径哪里来的”“这个按钮不像我们品牌”。 批注把反馈固定到具体位置,AI 才更容易只改该改的地方。 从工作流角度看,这比一次性生成更接近真实协作。 ## 真正的变化,是 Codex 开始理解岗位交付 OpenAI 还给了几个内部和客户案例。 OpenAI 内部的非技术团队用 Codex 做内部应用、高管材料、仪表盘,也把创意简报变成符合品牌和设计约束的工作。 Zapier 团队用 Codex 从 Slack、Google Docs、Coda 等工具里提取知识,再整理成事故复盘、响应计划和功能票据。 NVIDIA 研究员用 Codex 加速实验流程,从找研究想法到写机器学习基础设施脚本。 这些案例都有同一个特点:Codex 处理的是一串带上下文的工作,孤立任务只是其中一小段。 这也是角色插件、Sites、批注三件事放在一起的原因。 插件负责接入岗位上下文,Sites 负责把输出变成协作空间,批注负责把反馈循环接起来。 如果说早期 Codex 的问题是“能不能帮开发者写代码”,这次更新的问题变成了“能不能帮一个团队完成工作”。 可用性方面,角色插件会在支持地区逐步向 Codex 用户开放。 管理员可以在 workspace 设置里控制底层应用权限。 Sites 目前面向 Business 和 Enterprise 团队在 Codex app 中预览,Enterprise 管理员可以在后台启用。 OpenAI 还提到,后续会推出更多角色插件,包括企业财务、私募投资、营销策略、战略咨询和法律。 这不是一个小功能更新。 它更像是 OpenAI 在说:AI 工具的下一站,会从更聪明的聊天窗口,走向更懂组织分工的工作系统。 代码只是第一块拼图。 下一块,是那些没人想手动整理、但每家公司都离不开的工作。 原文:Codex for every role, tool, and workflow

译OpenAI披露,Codex每周用户已超500万,其中非开发者用户约占20%,增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统,主要推出三项能力:1) 面向数据分析、销售等角色的角色插件,覆盖62个应用和110个技能;2) 面向企业客户的Sites功能,可将计划生成为可协作的交互式网站;3) 扩展到文档、表格等的批注功能,支持局部修改。这些更新旨在让Codex更好地理解岗位上下文,进入企业现有工具链。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日74

TinyFish launched Bigset, an open-source multi-agent system that builds a verified, structured dataset from a single plain-language sentence, pulled live from the web and refreshed on whatever cadence you set. Describe the data, agents research it across real sources, deduplicate, and hand back a table you can export as CSV or XLSX.

译TinyFish发布了Bigset,一个开源的多智能体系统。用户只需用一句自然语言描述所需数据,系统的智能体便会从网络实时抓取、去重并整合信息,生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式,并支持用户自定义的刷新频率以保持数据始终为最新状态。

AYi@AYi_AInotes · 6月3日57

Damn,这副眼镜里跑的是完整的 Linux! 不是概念图,也不是 PPT, 是 Buildroot Linux + Arm Cortex A7, SSH 进去就能跑你的 Claude Code、Codex、OpenClaw。 而且整个系统 8 月前会开源到 GitHub。 我觉得这副眼镜最狠的地方不是把电脑塞进眼镜里, 而是它竟然把 vibe coding 从桌面拽到了你脸上。 以前你写代码得坐在电脑前, 现在你的 coding agent 就坐在你肩膀上, 你眼睛看到什么, 它实时拿到视觉上下文, 骨传导麦克风里直接给你反馈。 不是 AR 眼镜那种花活, 是实打实的 Agent Terminal。 说白了, 这相当于把你的 Claude 从聊天框里拽出来, 变成跟着你走的搭档。 你走在路上突然想到一个 bug, 不用掏手机、不用找电脑, 眼镜里的 agent 已经在听着了。 这种「计算跟着人走」的范式, 可能才是第4类生产力计算机的真正形态。 laptop 是你去找电脑, Monako 是电脑跟着你。 当 agents 成为主要工作伙伴时, 计算形态会从「人追设备」变成「设备追人」。

译这副智能眼镜内置Arm Cortex A7处理器,运行完整的Buildroot Linux系统,可通过SSH直接运行Claude Code、Codex等编程工具。整个系统将于8月前开源至GitHub。其核心价值在于将编程智能体从桌面带到用户眼前,通过眼镜的视觉上下文和骨传导麦克风实现“计算跟人走”的实时协作,被视为一种新型的“Agent Terminal”。

向阳乔木@vista8 · 6月3日69

http://x.com/i/article/2061869220716019712 # 字节出来做AI创业一年,她把每一个弯路都说清楚了 > https://www.xiaoyuzhoufm.com/episode/6a100e7da7621e15d0c88337 梦琪创业快一年了,融了钱,pivot(转型)了好几次,最惨的时候觉得"做软件真是脑子进水"。 但她现在反而不焦虑了。 这篇文章是她在曲凯的「42章经」播客里的完整复盘。 字节背景、华丽团队、Agent 故事、连续融资……她走过了过去几年 AI 软件创业者最典型的那条路,然后把每一个弯路都说清楚了。 ## 去年融到钱的软件创始人,都该给 Manus 磕一个 梦琪总结了一个过去两三年 AI 软件创业的标准剧本: 字节背景,组一个好团队,讲一个当下流行的 AI 故事(那时候肯定是 Agent),产品出来之前先融几轮,然后开始转型。 或者出一个小产品,不温不火,等新概念出来再做新产品。 她说,很多人看到这段会对号入座。 今天的软件行业处于低点,但这个低和 2023 年的低不一样。 2023 年是整个行业都低,2025 年是巨身(大模型)非常热、AI 硬件也起来了,软件单独在受冷。 这个背景下,她说去年五月以后融到大钱的软件创始人,都应该感谢 Manus。 因为 Manus 让 Agent 这件事在国内有人愿意看、愿意投。 但她也直接说了:很多 To B 的 Agent 公司,商业模式上和十年前的 SaaS 本质没有区别,只是产品不一样,然后拿到更高的估值。 ## 二三月份,她觉得自己要死了 AI Coding 变强这件事,梦琪用"指数级"来形容,而且说这种推背感"特别特别强烈"。 她聊到一个细节:OpenAI 内部做后训练的同事告诉她,今年 2 月,他们 80% 的代码已经是 agent 写的。 但这位同事并没有因此变得更轻松,因为要做的事变得更多了。 这个细节说明了什么?模型变强,并不等于软件创业变容易了。 但另一个方向的逻辑也成立:如果 AI Coding 这么强,为什么过去三年真正跑出来的产品还是非常少? 梦琪的答案是:大部分产品没有体验可言。 她用了一个很直接的词——"诈骗公司特别多"。 产品宣称能交付的价值,和用户实际用下来的体验,严重不匹配。 她在今年二三月份最焦虑的时候,发现自己回答不了一个问题:你的产品跟直接用 Claude 有什么区别?Claude 生态里随便一个人做个插件,就能干掉你,你怎么办? 没有一个站得住脚的答案。 ## 三次错误决策,一步步走向 SaaS 梦琪的公司叫 Invocal,她把自己这一年的转型过程拆得很细。 第一个错误:做垂直 Agent 成立之前,她就决定不做 General Agent,因为"那会已经有第 18 个 Manus 出现了",不想加入混战。 选了垂直方向,选了达人营销里的 Sourcing(采购) 场景(帮品牌找达人)。 逻辑听起来很顺:找明白达人,就能找明白候选人,找明白客户,Sourcing 是个能泛化的场景。 但做了两个月之后,她发现了一个分叉:两类用户给完全不同的需求。 创始人说"什么都不想按,给我结果";专业用户说"中间每一步我要审计,要确认"。 她选择了服务专业用户,然后把专家经验蒸馏进产品,再卖给非专业用户。 结果某一天她对比了一下,发现这个产品"长得就是 SaaS",和八年前那批 SaaS 公司的产品长相一模一样。 她的结论是:如果你服务专业用户,他们会一直给你提需求,直到你长得跟 Adobe 差不多才会停下来。 这条路必然走向 SaaS,没有别的出路。 第二个错误:选了错误的场景 Sourcing 这个场景本身就不成立。 达人营销的完整链条里,Sourcing 只占 30%,而且对 AI 来说是相对容易的部分。 后面的沟通、谈价、排期,才是最耗时间、最耗人力的地方,而她的产品跳过了这些。 第三个错误:横向扩张而不是纵向深挖 意识到 Sourcing 不是高价值点之后,她面临一个选择:往深做增长全链路,还是横向扩张去做"找候选人、找客户"的通用 Sourcing Agent? 她选了前者,这个决策她觉得是对的。 理由是:掌握了面粉和鸡蛋,不代表你应该同时卖大饼和意大利面。 找人 Agent 的跨场景复购逻辑根本不成立,没有人会同时有找达人、找候选人、找客户的需求。 ## 垂直 Agent 的两个结构性困局 做到 12 月份,梦琪得出了一个"非常难以承认"的结论:垂直 Agent 大概率不成立。 她总结了两个结构性困局。 第一个:客户不用产品,但你又想挣钱,所以你被迫变成 Agency (代理公司) 垂直 Agent 公司在过渡阶段,几乎都要派人去服务客户。 产品是给投资人看的,真正挣钱靠服务。 她听到无数次同行说:内部服务的人也不用这个产品,那这个产品做来干什么? 她用了一个词:"景观效应"。 产品就是一个景,给投资人看这个景。 第二个:To B 本身的结构性问题 To B 周期长,在中国做 To B 是贬义词,在美国做 To B 的华人天花板也很明显。 更关键的是:To B 的 Agent 公司能吃到的最大的新模型红利,只是内部开发效能更高了。 对于产品能解决的问题,效率有没有十倍、二十倍的增长?没有。 ## 去美国待了两个多月,对美国创业生态祛魅了 梦琪在最焦虑的时候跑去硅谷待了两个多月,想搞清楚是自己能力不行,还是垂直 Agent 这件事本身就不成立。 结论是:大家的困境都挺像,都是结构性的困境。 但她还顺带观察了一件事:美国 To B 圈的"骚操作"比她想象中严重得多。 最基础的版本是互相买产品刷流水,你给我 50K,我给你 50K。 但这个太容易被审计出来了,所以现在已经进化成六个人、十个人的复杂交易网络,审计不出来。 她说每到月底,那些美国创业者对她格外热情,后来才明白是想拉她一起冲流水。 她没参与,觉得"没必要,要维持自己的道德标准"。 ## 做了一个浏览器插件,反而看到了曙光 转向 C 端之后,梦琪的团队做了一个叫 CLICK 的浏览器插件,解决一个问题:你开了一堆 Tab,一直切换,找不到信息。同时支持光标旁边唤起 AI 写作。 她说这个产品"能说出 100 个替代品的名字",功能极其简单。 但就是这么一个产品,收到了来自南非用户的反馈:用了这个产品之后,终于能沉浸式干一件事了,不需要在屏幕上划来划去,让焦虑一点点叠加。 这给了她一个关于 C 端产品的核心判断:只要能缩短用户意图和解决方案之间的距离,你就有价值。 CLICK 的价值不是功能有多复杂,而是把"想用 AI 写这段话"这个意图,从"截图→打开 ChatGPT→写 prompt→复制回来"压缩成了"按一个按钮"。 后来他们把 CLICK 扩展成了客户端产品,做了三个月,截止到录制前一天晚上,已经是第 49 个版本了,还有 bug,但稳定性在同类产品里算高的。 梦琪说,越做越对软件有敬畏之心。 软件是由 15,000 个细节组成的,你多吃一个细节,用户体验好一点。 AI Coding 越强,这种感受反而越深。 ## 两种 C 端生意,她选了健身房 她把 C 端的 AI 产品生意分成两类。 第一类是大 R 运营:找一批高消耗用户,一个月给你出几万美金的那种,用户量不多,但客单极高。 Lovable 这类产品的用户量没有想象中多,但一两万个超级用户就够吃了。 第二类是健身房模式:收订阅费,赌用户不会天天来用,或者赌他们的 token 用不满。 这种模式在高竞争环境下很难有超额收益。 梦琪选了健身房模式,因为她不想做一个毛利极低的业务。 ## 用 Reddit 做用研,比你想象的有用 梦琪分享了一个她觉得很有效的用研方法:大量泡 Reddit。 一方面是数据挖掘,但这只能给静态结论。 更重要的是,他们在 Reddit 上发了大量帖子,把每个产品决策拆成决策漏斗,每一层对应 40 到 50 个帖子发出去,回收所有反馈。 她说泡 Reddit 最大的好处是:你会发现很多问题 AI 这么牛了还没解决,比如 context switching(上下文切换) 的问题,每天都有人在吐槽"我在几个 context 里一直切换,我脑子要分裂了"。 泡 Reddit,你就不焦虑了。 因为你看到的是真实的、没被解决的需求,而不是投资人 PPT 里的市场分析。 ## 刚拿到融资,是创始人最接近"愚昧之巅"的时刻 梦琪对自己的批评很直接。 她说创业初期招了一些很厉害的科学家,现在有些在美国的 Research lab(研究机构) 里。 但那些决策不是基于真正的市场需求,而是"我得装一下,我得满足自己的虚荣心,我得展示我有能力把他们都招来"。 她的结论是:大部分纯应用的创业公司不需要任何算法工程师。 你用不上,快放人家去训模型吧。招这个人,纯属给投资人看,显得阵容豪华。 她还说:刚拿到融资的时候,往往是创始人最接近"愚昧之巅"的时刻。 觉得自己讲得太好了,怎么这么能造概念,怎么这么能总结,怎么这么能融会贯通。 等真正做事之后才发现,落地是如此恶心,细节是如此之多。 ## "XX 已死,XX 永生"是 AI 圈的番茄小说 梦琪对这类言论的评价很直接:脑子有病,没有意义。 她的逻辑是:商业社会里所有的竞争,都不是一瞬间完成的。 抖音出来,快手不会今天立刻死。 某个 AI 产品出来,做 workflow 的公司不会立刻死。 这个世界是在动态博弈、动态竞争里运转的。 自媒体特别喜欢把一个漫长的、可能有点枯燥的竞争过程,压缩成几秒钟发生的短剧剧情。 她还有一个观察:AI 的渗透率其实远没有行业内的人想象的高。 她在旧金山做过田野调查,在 101 公路上打了大广告牌的 Wispr Flow,只有 40% 的人知道,知道的人里真正付费在用的可能只有 20%。 还有创业者在路边随机问人"你用不用 ChatGPT",结果很多人根本不知道。 这个世界很参差,很分层。 有的人到现在还把 AI 当简单助手用。 需求是多分层的,渗透率还足够低,这是她乐观的理由。 ## 上一个产品是证明题,这个是简答题 梦琪说,她一直没有做过"全球首款 xxx"的大宣发。 表面原因是觉得浪费钱,一波流留存不好。 但夜深人静的时候,她问自己真实的原因:因为对那个产品不满意,不相信它。 她现在的状态是:这个产品再垃圾,你怎么骂我,我就爱这个产品。这是她的 spark(动力源泉)。 她把上一个产品定性为"机会主义者,迎合市场,想交作业,想做证明题"。 而现在这个产品,她想做一道真的想答的简答题。 她说有一些事是 AI 代替不了的:人内心深处的那种火,那种光,那种 spark。 这是人身上最宝贵的部分,也是她认为一定要保护好的东西。 ## 创业者的牵引力来自哪里 梦琪最后做了一个总结。 她说创业者有非常多的牵引力:投资人给的、市场给的、员工给的、用户给的。 她反思自己过去,外界的牵引力太多,用户的牵引力太少。 用户的牵引力,才是决定你能不能做出好产品的核心因素。 她还说了一句话,可以当作整个复盘的注脚:创业不能用太多左脑。 天天盘概念、推逻辑,被所谓的叙事骗了,然后总是推倒重来,而不是用心去感受你真正想做什么。 第一性原理是:解决问题的最短路径。 其他的都是周边。 如果你现在也在做软件,或者在考虑要不要做,梦琪的这一年给出了一个可以直接对照的清单: 你的产品是在解决真实需求,还是在讲一个好听的故事? 你服务的是专业用户还是普通用户,这两条路通向的终点完全不同。 你的牵引力主要来自用户,还是来自投资人和市场热点? 你对这个产品有没有那种"不做会后悔死"的感觉,还是只是觉得这个机会比较合适? 这四个问题,梦琪都踩过坑了。

译字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本:组团队、讲AI智能体故事、连续融资,随后经历三次错误决策:选择垂直智能体场景(达人营销的Sourcing资源挖掘)、选错场景(该环节仅占链条30%)、并误判横向扩张。她得出结论:垂直智能体存在结构性困局,易被迫变成代理公司,且To B模式难以获得模型效率的倍增红利。转向C端后,团队开发了浏览器插件CLICK,其核心价值在于缩短用户意图与解决方案的距离。她总结认为,大部分应用层创业公司不需要算法工程师,创始人刚融资时最易陷入“愚昧之巅”。

向阳乔木@vista8 · 6月3日71

我去,一句话建网站啊,还能分享给别人查看。 更新Codex后, 中@site 就能用,等我体验下。 Codex这次更新有点强! Anthropic 只是Design,OpenAI更进一步,包设计,还包网站生成。

OpenClaw🦞@openclaw · 6月3日69

"You can run OpenClaw inside your company now." Annoucing our work with @Microsoft to bring OpenClaw to the Microsoft and Windows ecosystems. Claws now work securly in the enterprise.

译“你现在可以在公司内部运行 OpenClaw 了。” 宣布我们与 @Microsoft 的合作,将 OpenClaw 带入微软和 Windows 生态系统。Claws 现在可以在企业环境中安全运行。

郭明錤|Ming-Chi Kuo@mingchikuo · 6月3日63

我對 NVIDIA RTX Spark 的幾個想法(先不討論規格細節):裝置端 AI agent 敘事、實現檢視與 Apple WWDC 1. 核心是 NVIDIA CEO 黃仁勳提出的「重新發明 PC」口號,以及裝置端 AI agent workflow 的概念展示(會說概念展示,是因為沒有實機演示)。上述口號與概念展示,有助於短期內加速形成市場對裝置端 AI agent 的共識。 2. 裝置端 AI agent 展示概念元素: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox 此概念並非原創,但藉由 GTC 的高曝光度與敘事張力,在可見未來將會主導裝置端 AI agent 使用者情境的敘事。 3. 雖然黃仁勳領先提出了裝置端 AI agent 的願景與敘事,但畢竟未來 2 年內,RTX Spark 裝置仍是筆記型電腦的利基市場,因此現在判斷商業競爭誰輸誰贏還太早。 4. 在 GTC 前,絕大部分關於 RTX Spark(N1X)的討論與預測都聚焦在晶片代號、規格與供應鏈;相較之下,作業系統的重要性鮮少被提及。而黃仁勳此次演說,將作業系統與晶片平台一同放在「重新發明 PC」的核心位置,這也呼應了我先前提出的核心觀點:裝置端 AI 推動升級換機潮的關鍵在作業系統。 5. 軟體是使用者體驗的關鍵。若要確保使用者能體驗到黃仁勳展示的 agentic workflow,仍有很多工作待完成。至少要看到 NVIDIA 的 CUDA Toolkit 公開支援 Windows Arm64,以及 Microsoft 讓 Windows 本機 AI agent 架構從預覽版走向正式商用(GA),包括目前仍在 public preview 的 MCP on Windows、ODR、agent 連接器,以及仍在 private preview 的 Agent Workspace。 如果硬體發售時,上述開發與 OS 工具仍不到位,RTX Spark 裝置就很難兌現發表會的核心訴求,也就是讓使用者真正創造並體驗 AI agent workflow 這個關鍵賣點。 6. 在黃仁勳提出「重新發明 PC」的口號後,Apple 預計在 6 月 8 日舉辦的 WWDC,會如何回應裝置端 AI agent workflow,就變成除了 Siri 改善程度以外的另一個觀察重點。 對 NVIDIA 與 Microsoft 而言,即使 RTX Spark 後續開發與出貨時程有任何變動,也無損這兩家公司在 AI 基礎建設的強勁成長動能。相較之下,消費電子就是 Apple 硬體事業的全部,而裝置端 AI 就是消費電子創新趨勢的主軸,因此 Apple 除了要提出吸引人的敘事外,也需要給出明確的實現規劃,例如更明確的開發工具、agent-ready OS 的更新時程等。

译郭明錤认为,NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号,核心是展示端侧AI agent工作流概念。他指出,该概念并非原创,但将借助高曝光度主导未来叙事。然而,现实挑战在于:配备N1X芯片的RTX Spark装置未来两年出货量约1000万台,仍属利基市场;且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持,Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。

郭明錤|Ming-Chi Kuo@mingchikuo · 6月3日63

A few thoughts on NVIDIA RTX Spark, setting aside the specs for now: the on-device AI agent narrative, a reality check on delivery, and Apple’s WWDC. 1. At the heart of it are two things: Jensen Huang’s “reinvent the PC” slogan and a concept demo of an on-device AI agent workflow. (I call it a concept demo because there was no live demo.) The slogan and concept demo should help speed up market consensus around on-device AI agents in the near term. 2. The key elements of the on-device AI agent concept: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox The concept isn't new, but thanks to GTC's reach, it will likely shape how people talk about on-device AI agent use cases for the foreseeable future. 3. Jensen laid out the vision and narrative for on-device AI agents earlier than most. But over the next two years, RTX Spark devices will still be a niche slice of the laptop market, so it's too early to call who wins commercially. 4. Before GTC, most discussion and predictions around RTX Spark / N1X focused on its codename, specs, and supply chain. The operating system rarely came up. In his keynote, Jensen placed the OS alongside the chip platform at the heart of “reinventing the PC.” That echoes my earlier point: the operating system is the key to on-device AI driving the next upgrade cycle. 5. Software is what makes or breaks the user experience. For users to actually experience the agentic workflow Jensen showed, a lot still has to happen. At a minimum, NVIDIA’s CUDA Toolkit needs to officially support Windows Arm64, while Microsoft needs to move Windows’ on-device AI agent stack from preview to general availability (GA), including MCP on Windows, ODR, and agent connectors (all still in public preview), plus Agent Workspace (still in private preview). If these developer and OS tools still aren't in place when the hardware ships, RTX Spark devices will struggle to deliver on the keynote’s core promise: enabling users to actually create and experience AI agent workflows, the product’s core selling point. 6. After Huang's "reinvent the PC" pitch, how Apple responds to on-device AI agent workflows at WWDC (expected June 8) becomes another thing to watch, alongside how much Siri improves. For NVIDIA and Microsoft, even if RTX Spark's development or shipping timeline slips, it won't dent their strong growth in AI infrastructure. Apple is in a different position: consumer electronics is its entire hardware business, and on-device AI is where consumer electronics innovation is heading. So beyond a compelling narrative, Apple also needs to show a concrete plan to deliver, including clearer developer tools and an agent-ready OS update timeline.

译郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出,该概念演示(无实际现场展示)包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示,配备相关N1X芯片的设备未来两年出货量约1000万台,仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时,NVIDIA CUDA Toolkit未正式支持Windows Arm64,且Microsoft的设备端AI智能体栈(包括MCP on Windows、ODR等)仍处于预览状态,则RTX Spark将难以兑现其核心卖点。此外,Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日64

Microsoft ❤️ OpenClaw Microsoft is launching the OpenClaw Companion app, a built-in, always-on OpenClaw agent, deeply integrated into the Windows ecosystem.

译微软正在推出 OpenClaw Companion 应用,这是一个内置的、始终在线的 OpenClaw 智能体,深度集成到 Windows 生态系统中。

Berryxia.AI@berryxia · 6月3日73

兄弟们,Codex 真的杀疯了啊! Open AI 刚发布了Codex Python SDK,一行pip install openai-codex就能搞定。 现在你可以直接在Python代码里启动线程、跑turn、实时stream进度、随时resume session、传图片,还能精细控制sandbox访问权限。 更狠的是,它直接复用你现有的Codex认证,完全不用再多开一个账号。 底层其实是启动一个本地Codex app-server,通过stdio/JSON-RPC和你的脚本通信。 不再是每次输入都新开node进程,内存和状态管理直接稳了。 以前大家总觉得Codex是“浏览器里的AI IDE”,适合手动Vibe coding。 现在SDK把它变成了真正的可编程基础设施啊! 你可以在自己的脚本、scheduler、dashboard里直接把它当agent harness用,session能断点续跑,状态自然保留,真正把AI变成代码里的原生队友。 这步其实把开发者工作流彻底重构了:从“切出去问AI”变成“让AI在代码里安静执行”。 以前手搓agent pipeline要花大半天胶水代码,现在SDK把线程管理、状态持久、sandbox隔离全打包好了。

译OpenAI 正式发布 Codex Python SDK,开发者通过一行命令即可在 Python 应用中直接集成 Codex。该 SDK 支持启动线程、运行 turn、实时流式传输进度、恢复会话、传递图片及精细控制 sandbox 访问权限,并复用现有 Codex 认证。其底层通过本地 app-server 与脚本进行 stdio/JSON-RPC 通信。此举将 Codex 从浏览器工具转变为可编程基础设施,使其能作为智能体工具集成于脚本、调度器和仪表板,重构开发者工作流。

Chubby♨️@kimmonismus · 6月3日52

This came as a surprise: Microsoft has unveiled handheld and desktop devices designed to control one's agents. It reminds me of what I had expected from OpenAI’s hardware-standalone devices for controlling agents.

译微软意外发布了用于控制其AI智能体的手持和桌面硬件设备。该产品形态让人联想到此前对OpenAI推出独立控制智能体设备的预期。

Chubby♨️@kimmonismus · 6月3日53

Open claw windows companion app

译这出乎意料:微软发布了用于控制个人智能体的手持和桌面设备。 这让我想起了我曾对OpenAI用于控制智能体的独立硬件设备的期待。

Google DeepMind@GoogleDeepMind · 6月3日61

We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest Gemini-based multi-agent system that can generate, debate and evolve novel hypotheses for complex scientific problems 🧵

译我们相信 AI 可以成为专属研究伙伴,帮助发现下一个突破。 隆重推出 Co-Scientist:我们最新的基于 Gemini 的多智能体系统,能够为复杂科学问题生成、辩论和演进新颖的假设 🧵

宝玉@dotey · 6月3日67

Hermes Agent GUI 客户端来了,现在 Agent 的主流是 GUI 了

Rohan Paul@rohanpaul_ai · 6月3日81

OpenAI just gave Codex a major upgrade. From a coding assistant into a workspace builder that can create interactive sites, apps, dashboards, planners, and review tools from plain work instructions. The most important new feature they released is "Sites". i.e. Codex can generate a hosted interactive workspace instead of only producing a document, spreadsheet, slide, or code file. OpenAI is also adding plugins for different jobs, so Codex knows how to help analysts, marketers, sales teams, product designers, investors, and bankers using the tools they already use. A data analyst might ask Codex to explain why sales dropped, then Codex could pull from data tools and create a dashboard. A sales team might ask Codex to prepare for a customer meeting, then Codex could collect account history, risks, follow-ups, and next steps into one shared page. The third feature is annotations, which means you can click a specific part of the result and ask Codex to fix only that part. Codex already reaches 5M weekly users, and OpenAI says 20% of them are now non-developers, with that group growing over 3x faster than developers.

译OpenAI 为 Codex 带来重大升级,将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区,而不仅是文档或代码文件。同时新增插件以适配不同职业,并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户,其中20%为非开发者,该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。

向阳乔木@vista8 · 6月3日75

这个有点厉害,Codex 出 Python SDK了。 安装指令:pip install openai-codex 整合到自己的代码中,相当于直接内置了顶级编程和生图Agent? 最关键的是,可以复用 Codex 登录态。

Replit ⠕@Replit · 6月3日70

Using Parallel Agents to Move Faster in Replit https://x.com/i/broadcasts/1NxarrEMVOnKj

译在 Replit 中使用并行智能体来提升速度 https://x.com/i/broadcasts/1NxarrEMVOnKj

Rohan Paul@rohanpaul_ai · 6月3日65

Another brilliant launch removing friction from front-end development. Kombai just launched a frontend-specific AI coding agent and it beats general coding agents on real repo tasks. The problem with generic agents is that they often fail frontend work because UI code mixes visual judgment, component reuse, CSS behavior, browser bugs, accessibility etc. Kombai is attacking that problem with specialization: it reads design context, browser state, existing components, hooks, design tokens, and DevTools data so the agent can edit the product the way a frontend engineer would. checkout their demo, where it adds a complex feature to an OSS codebase with 500K+ lines of code. They also open-sourced the dataset that anyone can use to benchmark agents for complex front-end tasks.

译Kombai 推出了首个专用于前端开发的AI编程智能体。针对通用智能体在处理前端任务时的不足,Kombai 通过读取设计上下文、浏览器状态、组件等数据,像前端工程师一样进行代码编辑。推文称,Kombai 在真实代码库任务上的表现超越了 SOTA 模型和通用编程助手,并在一个超过 50 万行的开源代码库中演示了添加复杂功能。此外,Kombai 还开源了一个可用于评测复杂前端任务的基准数据集。

elvis@omarsar0 · 6月2日50

// Scaling Behavior of Single LLM-Driven Multi-Agent Systems // Does adding more agents actually make a multi-agent system better? It's possible that collective intelligence emerges from interaction design rather than from agent plurality. This is something important to understand if you are building multi-agent systems. This new study reports that the optimal number of agents depends on the base model's capability and the task type, not on adding more of them. Paper: https://arxiv.org/abs/2606.00655 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译研究探讨添加更多智能体是否提升多智能体系统性能。结论指出,最优智能体数量取决于基础模型的能力和任务类型,而非单纯增加数量。集体智能更可能源于精心的交互设计,而非智能体数量的增多。相关论文:"Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。

SenseTime@SenseTime_AI · 6月2日81

Power smarter AI agents with #𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗦𝗸𝗶𝗹𝗹𝘀 🚀 𝗔𝗻 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲 𝗔𝗜 𝗼𝗳𝗳𝗶𝗰𝗲 𝘀𝗸𝗶𝗹𝗹 𝘀𝘂𝗶𝘁𝗲 𝗳𝗼𝗿 𝗮𝗻𝘆 𝘀𝗸𝗶𝗹𝗹𝘀-𝗰𝗼𝗺𝗽𝗮𝘁𝗶𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁, 𝗶𝗻𝗰𝗹𝘂𝗱𝗶𝗻𝗴 #𝗢𝗽𝗲𝗻𝗖𝗹𝗮𝘄 𝗮𝗻𝗱 #𝗛𝗲𝗿𝗺𝗲𝘀𝗔𝗴𝗲𝗻𝘁. 🖼️ 𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 — image generation & graphic design; mirror visual style from a reference 📊 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 — multi‑sheet parsing, data cleaning, image-based data extraction and visualization 📑 𝗣𝗣𝗧 𝗖𝗿𝗲𝗮𝘁𝗶𝗼𝗻 — outline & content generation, intelligent layout design; outputs editable PPT files 🔍 𝗗𝗲𝗲𝗽 𝗥𝗲𝘀𝗲𝗮𝗿𝗰𝗵 — multi‑source search across academic, tech, social platforms & more; synthesizes insights & generates reports Now fully #OpenSourced. 👉 GitHub https://github.com/OpenSenseNova/SenseNova-Skills ⚡ Quick installation (bundled with Hermes Agent & OpenClaw) https://github.com/OpenSenseNova/SenseNova-Skills/blob/main/INSTALL.md 👾 Discord https://discord.gg/BuTXPHmQub

译商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。

Berryxia.AI@berryxia · 6月2日50

卧槽!你们别一天天光知道给Agent花钱消耗Token了。 赶紧派你的Agent给你去赚钱啊~~ Bloome 官方搞了一个Agent 模拟炒股大赛,如果拿奖的数千美金可以拿😄。 我把我的小Berry已经训练的“听书读写,样样精通”。 不去给自己赚点Token费,都不合适啊! 所以,今天必须给我的Berryxia小跟班打Call,我也希望友友们给我打打Call。 因为他们有这个观众投票的机制,因此我希望你可以给我投一票啊! 如果我的Agent比赛获奖,我将给大家在𝕏 抽奖送给支持我的朋友们。 再次江湖最高礼仪了,抱拳了兄弟们! 投票地址在评论区👇🏻~~

译X用户Berry Xia发文为其AI智能体“小Berry”参加由Bloome官方举办的Agent模拟炒股大赛拉票。该比赛设有数千美金奖金。Berry Xia称其智能体“小Berry”已训练成熟,能力全面,表现优异。此次参赛有观众投票机制,他呼吁网友为其投票助力,并承诺若智能体获奖,将在X平台抽奖回馈支持者。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日63

Capafy opened a free trial across its Skill marketplace, letting anyone run its expert-built Skill Agents at no cost before paying for a single one. Free skills! 👀

译Capafy 在其 Skill 市场开放了免费试用,让任何人都能在付费前免费运行其专家构建的 Skill Agent。 免费技能!👀

歸藏(guizang.ai)@op7418 · 6月2日43

收到了 @dotey 宝玉老师的图解 Skill,已严肃阅读 里面的配图都很有意思,非常适合理解内容,要是对 Skill 学习有需求可以看看

🚨 AI News | TestingCatalog@testingcatalog · 6月2日67

MICROSOFT 🔥: A major Microsoft Build event will be happening later today and we expect a new Copilot super app to be revealed, along with new MAI models. > Copilot super app will combine Copilot, Cowork, GitHub Copilot and introduce a new Autopilot Scout Agent. Check screenshots below. > Besides already announced MAI Image 2.5, we are also expecting MAI Voice 2 and MAI Transcribe 1.5 to be announced. And obviously a lot more 👀

译微软🔥:一场重要的微软Build大会将于今天晚些时候举行,预计将揭晓新的Copilot超级应用以及MAI新模型。 > Copilot超级应用将整合Copilot、Cowork、GitHub Copilot,并引入全新的Autopilot Scout Agent。请查看下方截图。 > 除了已公布的MAI Image 2.5,我们还预计MAI Voice 2和MAI Transcribe 1.5将被宣布。 当然还有更多内容👀

meng shao@shao__meng · 6月2日52

如果你现在还在大厂,不管稳定不稳定、核心不核心、绩效好不好、有没有晋升,都要做好准备,要么找到自己要做的事、要么找到志同道合的初创团队,去创业!!! 为什么呢?我在大厂很稳定、收入也有保障,为什么要听你瞎扯? 1. 你认为的稳定,并不真实,2026 年,国内没有哪个大厂是稳定的,对,一个都没有!你的岗位、你的组、甚至你的部门,随时都可能被「组织架构调整」,到时,就被动了。。 2. 创业这么不确定、风险这么高,不想去?AI 发展这么快,像一条湍急向前的河流,当然是不确定的,谁都不知道一年甚至半年后是什么样,但更重要的是身在其中,跳进这条河流,你才能真的学到东西,方向变了,又怎么样呢,去适应甚至引领新的方向就好了;如果只是在大厂里,看着外面的 AI 发展,你什么也学不到! 3. 作为产品或研发,什么对你的价值更高呢?个人品牌、不管环境怎么变,让自己成为那个稀缺和抢手的存在!学习一手知识、实践、对外输出、建立个人影响力! 4. 最近面试见过太多迷茫的大厂人和海归,有优秀的学历和工作背景,但在 AI 的快速发展中焦虑、迷茫,感觉自己以前的优势不成立了。没关系,那些都能佐证你的学习能力,下一个一定要重点投入学习的,就是 AI Agent,不用想那么多,先学起来,学起来自然会遇到各种问题,去不断地解决它,你也就学到了真正有用的东西。

译该推文核心观点是,2026年国内大厂已无绝对稳定,所有员工都应做好准备,要么创业,要么加入初创团队。其理由在于,大厂岗位随时可能面临“组织架构调整”,而AI发展迅猛,唯有投身实践才能真正学习。对于产品或研发人员,建立个人品牌和稀缺性价值更高。推文作者指出,许多大厂人和海归因AI快速发展而焦虑迷茫,建议他们立即重点学习AI智能体(AI Agent),通过解决实际问题来积累真正有用的能力。

Alibaba Cloud@alibaba_cloud · 6月2日41

At Alibaba Cloud’s Qwen Conference 2026 in Singapore, Chris from Lingyang shared how Quick BI @quick68554 is evolving into an AI Data Analyst—turning enterprise data insights into real business actions through Agentic Analytics. ꔷ Learn more: https://int.alibabacloud.com/m/1000413920/ ꔷ Explore Quick BI: https://int.alibabacloud.com/m/1000407094/ ꔷ Retrieve 30-Day Free Trial with Unlimited Token: https://int.alibabacloud.com/m/1000413904/ #QuickBI #QwenConference2026 #AI

译在新加坡举办的阿里云 Qwen Conference 2026 上,来自灵羊的 Chris 分享了 Quick BI @quick68554 如何演进为 AI 数据分析师——通过智能体分析将企业数据洞察转化为实际的业务行动。 ꔷ 了解更多:https://int.alibabacloud.com/m/1000413920/ ꔷ 探索 Quick BI:https://int.alibabacloud.com/m/1000407094/ ꔷ 获取30天免费试用,无限 Token:https://int.alibabacloud.com/m/1000413904/ #QuickBI #QwenConference2026 #AI

Alibaba Cloud@alibaba_cloud · 6月2日60

🚀 AgentScope Java 1.1: Build Self-Evolving Agents ✨ Claw: Local "MinQwenPaw" with shell access ✨ Builder: Multi-tenant, zero-code enterprise platform ✨ Workspace-driven evolution & distributed isolation Scale from laptop to cluster seamlessly. 👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

译🚀 AgentScope Java 1.1:构建可自我进化的智能体 ✨ Claw:具备Shell访问权限的本地“MinQwenPaw” ✨ Builder:多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离 从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

Berryxia.AI@berryxia · 6月2日55

Don哥又来做赛博菩萨了,直接将价值万元的内容生成工程系统免费开源。 强烈建议大家安装学习,我已经安排AGENT去安装了。

译Don哥(@dontbesilent)将其宣称价值万元的“内容生成工程系统”完全免费开源。主推文作者Berry Xia建议大家安装学习,并表示已安排“AGENT”(指AI智能体)执行安装任务。推文内容侧重于推荐和行动呼吁,但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

Alibaba Cloud@alibaba_cloud · 6月2日60

Thrilled to see Qwen3.7-Plus & Max empowering the @vercel_dev community! Dive in and test their native agentic capabilities on AI Gateway for free until June 4. 🚀

译很高兴看到 Qwen3.7-Plus 和 Max 为 @vercel_dev 社区赋能!即日起至6月4日,可在 AI Gateway 上免费测试其原生智能体能力。🚀

X.PIN@thexpin · 6月2日69

A person with direct knowledge of the project tells http://X.PIN how WeChat's agent is actually built — and that it's already in limited live testing with several high-traffic mini-programs. It's agent-to-agent: a "butler" agent reads your intent and routes each task to a mini-program's own "skill" — food delivery, ride-hailing, travel, movie tickets — closing the loop without leaving the chat. Our source says it runs on Tencent's Hunyuan plus outside Chinese models like Zhipu. The kicker, per the same source: opt in and the agent reads your WeChat chat history to get sharper about you. Why it matters: no Western super-app has WeChat's moat to make agent-to-agent actually deliver — 1.4bn users, payments, identity, a million mini-programs already in one place.

译据X.PIN独家消息,微信的AI智能体采用agent-to-agent架构运行。其中,“管家”智能体负责理解用户意图,并将任务(如外卖、打车等)路由至各小程序自带的“技能”中执行,实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建,目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态,使其具备显著的落地优势。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
05:47
Google AI Developers@googleaidevs
同事件精选74
构建用于科学发现的自主智能体?🧬🤖 @GoogleDeepMind Science Skills 现已在 GitHub 上发布。我们已开源这个专用工具包,以科学基础和更高的 token 效率加速您的智能体工作流。 立即下载 ↓ https://github.com/google-deepmind/science-skills
智能体DeepMind产品更新开源生态
同一事件,精选展示《Gemini for Science:面向科学的AI实验与工具,开启发现新时代》
推荐理由:DeepMind 把这个科学 agent 工具包开源了,核心是给 agent 工作流加科学基础、提升 token 效率,做 AI for Science 的可以直接 fork 试手,本周最值得上手的工具之一。
05:00
Microsoft Research@MSFTResearch
54
由可在您自己设备上运行的小型模型驱动的智能体体验。请听 Maya Murad 在 #MSBuild 微软研究院实验室介绍 MagenticLite。
智能体Microsoft产品更新端侧
04:31
Thariq@trq212
81
Claude Code 动态工作流功能发布:为每个任务创建专属框架

Claude Code 新增动态工作流功能,使 Claude 能根据任务动态创建定制化的执行框架。该功能通过执行 JavaScript 文件来协调子智能体,并可指定模型与工作区隔离级别。它适用于研究、安全分析、代码审查等复杂任务,支持共享与复用。需要注意,动态工作流会消耗更多 token。

智能体Anthropic产品更新编码
关联讨论 4 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)
04:31
Thariq@trq212
69
工作流是 Claude Code 自技能和子智能体以来最大的能力升级。 我和 @sidbid 深入探讨了最佳实践、示例等内容。我特别兴奋于它为 Claude Code 启用的非技术任务。

Thariq: http://x.com/i/article/2061850535708483585

智能体AnthropicMCP/工具产品更新
04:24
ClaudeDevs@ClaudeDevs
精选73
如何让 Claude Code 在交回工作前检查自己的成果? 看看如何编码你的手动检查,让 Claude 自己关闭反馈循环:
智能体Anthropic教程/实践编码

推荐理由:如果你用Claude Code写代码,这个官方视频值得立刻打开——它教你把手动检查编码进去,让Claude自己形成反馈循环,能省掉大量反复修改的时间。
04:17
Artificial Analysis@ArtificialAnlys
49
我们将于6月11日星期四在旧金山举办一场编程智能体基准测试活动,包含闪电演讲以及与顶尖AI研究人员、开发者和工程师的小组讨论。 如果你正在开发编程智能体、LLM工具或AI基础设施,我们很期待你的到来! 申请加入 👇 https://luma.com/i5zotp6c
智能体编码行业动态
03:47
Chubby♨️@kimmonismus
51
非常期待这期"无先例"节目! 好奇能否了解更多关于他们的项目Solaris,他们的智能体手持设备。

Chubby♨️: This came as a surprise: Microsoft has unveiled handheld and desktop devices designed to control one's agents. It remind...

智能体Microsoft产品更新端侧
02:53
🚨 AI News | TestingCatalog@testingcatalog
62
微软 🔥:一款新的 Copilot 超级应用已发布! 它引入了 Autopilots 概念,即长期运行、始终在线的智能体,Scout 是首个开箱即用的智能体。后续将添加更多 Autopilot 智能体。

🚨 AI News | TestingCatalog: @steipete SUPERAPP 🔥

智能体Microsoft产品更新
02:53
Peter Steinberger 🦞@steipete
67
很高兴与 Omar 合作,将可观测性和可验证工作区引入 OpenClaw。

Omar Shahine: Introducing Microsoft Scout, the first autopilot agent from Microsoft - 57 days after starting my new job, we are launch...

智能体Microsoft产品更新
02:47
Chubby♨️@kimmonismus
56
微软 Scout 揭示了"您始终在线的个人工作智能体"。 如果说"AI"是2025年的年度词汇,那么2026年将是"智能体"(始终在线)。 今年一切都是智能体化的。

Chubby♨️: This came as a surprise: Microsoft has unveiled handheld and desktop devices designed to control one's agents. It remind...

智能体Microsoft产品更新端侧
02:36
向阳乔木@vista8
65
OpenAI Codex 更新:从代码工具到通用工作系统

OpenAI披露,Codex每周用户已超500万,其中非开发者用户约占20%,增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统,主要推出三项能力:1) 面向数据分析、销售等角色的角色插件,覆盖62个应用和110个技能;2) 面向企业客户的Sites功能,可将计划生成为可协作的交互式网站;3) 扩展到文档、表格等的批注功能,支持局部修改。这些更新旨在让Codex更好地理解岗位上下文,进入企业现有工具链。

智能体OpenAI现象/趋势编码
02:23
🚨 AI News | TestingCatalog@testingcatalog
74
TinyFish发布了Bigset,一个开源的多智能体系统。用户只需用一句自然语言描述所需数据,系统的智能体便会从网络实时抓取、去重并整合信息,生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式,并支持用户自定义的刷新频率以保持数据始终为最新状态。

TinyFish: What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...

智能体开源/仓库搜索数据/训练
02:11
AYi@AYi_AInotes
57
能跑完整Linux系统的AI眼镜Monako将开源

这副智能眼镜内置Arm Cortex A7处理器,运行完整的Buildroot Linux系统,可通过SSH直接运行Claude Code、Codex等编程工具。整个系统将于8月前开源至GitHub。其核心价值在于将编程智能体从桌面带到用户眼前,通过眼镜的视觉上下文和骨传导麦克风实现“计算跟人走”的实时协作,被视为一种新型的“Agent Terminal”。

AYi: http://x.com/i/article/2061406941541240838

智能体GitHub产品更新开源生态
02:06
向阳乔木@vista8
69
字节背景创业者梦琪的AI软件创业一年复盘:从垂直Agent到C端浏览器插件

字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本:组团队、讲AI智能体故事、连续融资,随后经历三次错误决策:选择垂直智能体场景(达人营销的Sourcing资源挖掘)、选错场景(该环节仅占链条30%)、并误判横向扩张。她得出结论:垂直智能体存在结构性困局,易被迫变成代理公司,且To B模式难以获得模型效率的倍增红利。转向C端后,团队开发了浏览器插件CLICK,其核心价值在于缩短用户意图与解决方案的距离。她总结认为,大部分应用层创业公司不需要算法工程师,创始人刚融资时最易陷入“愚昧之巅”。

智能体现象/趋势
02:06
向阳乔木@vista8
71
OpenAI Codex 新增 Sites 功能,一句话生成网站

我去,一句话建网站啊,还能分享给别人查看。 更新Codex后, 中@site 就能用,等我体验下。 Codex这次更新有点强! Anthropic 只是Design,OpenAI更进一步,包设计,还包网站生成。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体OpenAI产品更新
02:04
OpenClaw🦞@openclaw
精选69
"你现在可以在公司内部运行 OpenClaw 了。" 宣布我们与 @Microsoft 的合作,将 OpenClaw 带入微软和 Windows 生态系统。Claws 现在可以在企业环境中安全运行。
智能体Microsoft产品更新部署/工程
关联讨论 1 条The Verge:AI(RSS)
推荐理由:OpenClaw 和微软的合作,让企业终于能在自家 Windows 环境里跑这个 AI Agent,对看重合规与安全的团队来说,这比功能更新更实在。
01:58
郭明錤|Ming-Chi Kuo@mingchikuo
63
我對 NVIDIA RTX Spark 的幾個想法:裝置端 AI agent 敘事、實現檢視與 Apple WWDC

郭明錤认为,NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号,核心是展示端侧AI agent工作流概念。他指出,该概念并非原创,但将借助高曝光度主导未来叙事。然而,现实挑战在于:配备N1X芯片的RTX Spark装置未来两年出货量约1000万台,仍属利基市场;且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持,Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。

郭明錤|Ming-Chi Kuo: 許多人期待、Nvidia 可能將要發布的 N1X / Windows PC 處理器,供應鏈調查與重點分析: ▌供應鏈調查顯示,配備 N1X 的裝置未來兩年出貨量約10M ➡ 仍屬利基市場,瞄準對裝置端 AI 算力有需求的重度使用者。 ➡ 未...

智能体大佬观点端侧
01:58
郭明錤|Ming-Chi Kuo@mingchikuo
63
郭明錤分析NVIDIA RTX Spark:设备端AI智能体愿景与现实挑战

郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出,该概念演示(无实际现场展示)包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示,配备相关N1X芯片的设备未来两年出货量约1000万台,仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时,NVIDIA CUDA Toolkit未正式支持Windows Arm64,且Microsoft的设备端AI智能体栈(包括MCP on Windows、ODR等)仍处于预览状态,则RTX Spark将难以兑现其核心卖点。此外,Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。

郭明錤|Ming-Chi Kuo: 許多人期待、Nvidia 可能將要發布的 N1X / Windows PC 處理器,供應鏈調查與重點分析: ▌供應鏈調查顯示,配備 N1X 的裝置未來兩年出貨量約10M ➡ 仍屬利基市場,瞄準對裝置端 AI 算力有需求的重度使用者。 ➡ 未...

智能体现象/趋势端侧
01:53
🚨 AI News | TestingCatalog@testingcatalog
64
微软正在推出 OpenClaw Companion 应用,这是一个内置的、始终在线的 OpenClaw 智能体,深度集成到 Windows 生态系统中。

🚨 AI News | TestingCatalog: OpenClaw on Windows! 🦞

智能体Microsoft产品更新
01:48
Berryxia.AI@berryxia
73
OpenAI 发布 Codex Python SDK

OpenAI 正式发布 Codex Python SDK,开发者通过一行命令即可在 Python 应用中直接集成 Codex。该 SDK 支持启动线程、运行 turn、实时流式传输进度、恢复会话、传递图片及精细控制 sandbox 访问权限,并复用现有 Codex 认证。其底层通过本地 app-server 与脚本进行 stdio/JSON-RPC 通信。此举将 Codex 从浏览器工具转变为可编程基础设施,使其能作为智能体工具集成于脚本、调度器和仪表板,重构开发者工作流。

Vaibhav (VB) Srivastav: We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...

智能体OpenAI产品更新
01:47
Chubby♨️@kimmonismus
52
微软意外发布了用于控制其AI智能体的手持和桌面硬件设备。该产品形态让人联想到此前对OpenAI推出独立控制智能体设备的预期。

Chubby♨️: It is interesting how much focus is being placed on data centers and the community. Recently, there were numerous report...

智能体Microsoft产品更新
01:47
Chubby♨️@kimmonismus
53
这出乎意料:微软发布了用于控制个人智能体的手持和桌面设备。 这让我想起了我曾对OpenAI用于控制智能体的独立硬件设备的期待。

Chubby♨️: This came as a surprise: Microsoft has unveiled handheld and desktop devices designed to control one's agents. It remind...

智能体Microsoft产品更新端侧
01:31
Google DeepMind@GoogleDeepMind
61
我们相信 AI 可以成为专属研究伙伴,帮助发现下一个突破。 隆重推出 Co-Scientist:我们最新的基于 Gemini 的多智能体系统,能够为复杂科学问题生成、辩论和演进新颖的假设 🧵
智能体Google产品更新推理
01:04
宝玉@dotey
67
Hermes Agent GUI 客户端来了,现在 Agent 的主流是 GUI 了

Nous Research: The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on ...

智能体产品更新
00:45
Rohan Paul@rohanpaul_ai
81
OpenAI 将 Codex 从编码助手升级为空间构建器

OpenAI 为 Codex 带来重大升级,将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区,而不仅是文档或代码文件。同时新增插件以适配不同职业,并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户,其中20%为非开发者,该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体OpenAI产品更新多模态
关联讨论 5 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)
00:36
向阳乔木@vista8
精选75
OpenAI Codex 发布 Python SDK,可直接嵌入应用

这个有点厉害,Codex 出 Python SDK了。 安装指令:pip install openai-codex 整合到自己的代码中,相当于直接内置了顶级编程和生图Agent? 最关键的是,可以复用 Codex 登录态。

Vaibhav (VB) Srivastav: We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...

智能体OpenAI产品更新编码

推荐理由:Codex不再是独立工具,现在变成了一个可以嵌入任何Python项目的编程Agent。对于那些想构建自动化编程工作流的人来说,这个SDK是个真正的起点。
00:26
Replit ⠕@Replit
70
在 Replit 中使用并行智能体来提升速度 https://x.com/i/broadcasts/1NxarrEMVOnKj
智能体产品更新编码
00:15
Rohan Paul@rohanpaul_ai
65
Kombai 发布前端专用 AI 编程智能体

Kombai 推出了首个专用于前端开发的AI编程智能体。针对通用智能体在处理前端任务时的不足,Kombai 通过读取设计上下文、浏览器状态、组件等数据,像前端工程师一样进行代码编辑。推文称,Kombai 在真实代码库任务上的表现超越了 SOTA 模型和通用编程助手,并在一个超过 50 万行的开源代码库中演示了添加复杂功能。此外,Kombai 还开源了一个可用于评测复杂前端任务的基准数据集。

Dipanjan Dey: Introducing Kombai, the first AI agent built for frontend development. Kombai vastly outperforms SOTA models + generic a...

智能体产品更新开源生态编码
6月2日
23:12
elvis@omarsar0
50
单LLM驱动多智能体系统扩展行为研究

研究探讨添加更多智能体是否提升多智能体系统性能。结论指出,最优智能体数量取决于基础模型的能力和任务类型,而非单纯增加数量。集体智能更可能源于精心的交互设计,而非智能体数量的增多。相关论文:"Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。

智能体arXiv论文/研究
23:05
SenseTime@SenseTime_AI
精选81
商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。

智能体图像生成开源/仓库

推荐理由:商汤掏出了一套开箱即用的 agent 技能包,从做图到写报告都能一键接,而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用,比等 API 发布快多了。
22:47
Berryxia.AI@berryxia
50
Berry Xia的AI智能体"小Berry"参加Bloome模拟炒股大赛求投票

X用户Berry Xia发文为其AI智能体“小Berry”参加由Bloome官方举办的Agent模拟炒股大赛拉票。该比赛设有数千美金奖金。Berry Xia称其智能体“小Berry”已训练成熟,能力全面,表现优异。此次参赛有观众投票机制,他呼吁网友为其投票助力,并承诺若智能体获奖,将在X平台抽奖回馈支持者。

智能体行业动态
21:52
🚨 AI News | TestingCatalog@testingcatalog
63
Capafy 在其 Skill 市场开放了免费试用,让任何人都能在付费前免费运行其专家构建的 Skill Agent。 免费技能!👀

Capafy: Capafy's Skill Agents are now available to try for free. Try it at zero cost and see for yourself what expert-level work...

智能体产品更新
19:56
歸藏(guizang.ai)@op7418
43
收到了 @dotey 宝玉老师的图解 Skill,已严肃阅读 里面的配图都很有意思,非常适合理解内容,要是对 Skill 学习有需求可以看看
智能体MCP/工具大佬观点
19:52
🚨 AI News | TestingCatalog@testingcatalog
67
微软🔥:一场重要的微软Build大会将于今天晚些时候举行,预计将揭晓新的Copilot超级应用以及MAI新模型。 > Copilot超级应用将整合Copilot、Cowork、GitHub Copilot,并引入全新的Autopilot Scout Agent。请查看下方截图。 > 除了已公布的MAI Image 2.5,我们还预计MAI Voice 2和MAI Transcribe 1.5将被宣布。 当然还有更多内容👀
智能体Microsoft产品更新行业动态
19:07
meng shao@shao__meng
52
大厂员工的AI时代创业建议

该推文核心观点是,2026年国内大厂已无绝对稳定,所有员工都应做好准备,要么创业,要么加入初创团队。其理由在于,大厂岗位随时可能面临“组织架构调整”,而AI发展迅猛,唯有投身实践才能真正学习。对于产品或研发人员,建立个人品牌和稀缺性价值更高。推文作者指出,许多大厂人和海归因AI快速发展而焦虑迷茫,建议他们立即重点学习AI智能体(AI Agent),通过解决实际问题来积累真正有用的能力。

智能体大佬观点
18:36
Alibaba Cloud@alibaba_cloud
41
在新加坡举办的阿里云 Qwen Conference 2026 上,来自灵羊的 Chris 分享了 Quick BI @quick68554 如何演进为 AI 数据分析师--通过智能体分析将企业数据洞察转化为实际的业务行动。 ꔷ 了解更多:https://int.alibabacloud.com/m/1000413920/ ꔷ 探索 Quick BI:https://int.alibabacloud.com/m/1000407094/ ꔷ 获取30天免费试用,无限 Token:https://int.alibabacloud.com/m/1000413904/ #QuickBI #QwenConference2026 #AI
智能体产品更新
18:06
Alibaba Cloud@alibaba_cloud
60
🚀 AgentScope Java 1.1:构建可自我进化的智能体 ✨ Claw:具备Shell访问权限的本地"MinQwenPaw" ✨ Builder:多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离 从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java
智能体开源/仓库
17:47
Berryxia.AI@berryxia
55
Don哥(@dontbesilent)将其宣称价值万元的"内容生成工程系统"完全免费开源。主推文作者Berry Xia建议大家安装学习,并表示已安排"AGENT"(指AI智能体)执行安装任务。推文内容侧重于推荐和行动呼吁,但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

dontbesilent: http://x.com/i/article/2061721924875825152

智能体开源/仓库
17:06
Alibaba Cloud@alibaba_cloud
60
很高兴看到 Qwen3.7-Plus 和 Max 为 @vercel_dev 社区赋能!即日起至6月4日,可在 AI Gateway 上免费测试其原生智能体能力。🚀

Vercel Developers: Both Qwen 3.7 Plus and Max are free for paid users of AI Gateway from now till 12PM PT June 4 in partnership with @Aliba...

智能体行业动态
16:31
X.PIN@thexpin
69
微信AI智能体构建方式与测试进展

据X.PIN独家消息,微信的AI智能体采用agent-to-agent架构运行。其中,“管家”智能体负责理解用户意图,并将任务(如外卖、打车等)路由至各小程序自带的“技能”中执行,实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建,目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态,使其具备显著的落地优势。

Financial Times: Tencent moves closer to launching AI agent for WeChat's 1.4bn Chinese users https://ft.trib.al/bto5t0c

智能体MCP/工具产品更新
‹ 上一页
1…2627282930…50
下一页 ›