KIMI K2.7 Code 来了, K3 还会远吗? KIMI K2.7 Code 刚刚发布! 本次 K2.7-Code 是一个编程/Agent专项模型, 其中提升最大的是 kimi 自己的测试项目 kimi-code-bench-v2, 与 k2.6 相比提升了11%! 其它几个 Agent 测试项目也有不小的提升. 不过从架构上看, 其实这个模型与 K2.6 是完全一致的. 所以它是一个后训练优化版本. 于是我给大家写了个适用场景指南: 首先编程任务无疑使用这个新模型会更合适. 另外, Agentic 任务也可以尝试切换, 比如先用AI生成, 然后需要使用 Agent 进行验证的任务, 例如简历筛选, PR 审查这类需要外部 Agent 参与进行评分或者进行数据整合/格式化的的任务也很适合切换到这个新模型. 稍后有时间给大家带来详细测试! #kimik27code #kimik27

译KIMI K2.7 Code正式发布，为编程/Agent专项模型，架构与K2.6一致，属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%，其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务（如简历筛选、PR审查等）。

fofr@fofrAI · 6月13日18

Yeah I'm going to have fun with this.

译我正在尝试一个智能体流程，将 Hyperframes 与 Gemini 视频分析结合起来，制作有趣的注释视频。是啊，这会很有意思。

Orange AI@oran_ge · 6月13日66

最近跟藏师傅聊天，都感觉到深深的共鸣。大众以为 AI 带来平权，但实际带来的是 K 型分化。头部用户已经默认理解 Agent 的组成：文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和 Skill。普通用户只知道"Agent 能写代码"。怎么办？把技能做好，是跨越鸿沟的唯一解法。我们正在和藏师傅一起做一点实际的事情，让 Cola 帮助大众真正跨越鸿沟。

译AI带来的并非平权，而是K型分化。头部用户已默认理解Agent的组成：文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill；普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。

Rohan Paul@rohanpaul_ai · 6月13日53

Beautiful paper from Google DeepMind. Explains the pathways from AGI to ASI, and why that jump could happen through several routes. The authors frame the AGI-to-ASI transition around 4 technical pathways: - continued scaling of compute, model size, data, and test-time inference; - algorithmic paradigm shifts beyond today’s transformer-based foundation-model stack; - recursive self-improvement, where AI accelerates AI R&D and improves future systems; and - multi-agent collective intelligence, where large populations of specialized agents coordinate into a superhuman group agent. Scaling may work for a while, but it could hit limits in data, compute, energy, or weaker returns from making systems larger. Recursive improvement is the most uncertain path, because AI could speed up AI research, but that loop may also slow if hard research problems need real-world testing, scarce hardware, or new ideas. Multi-agent collectives may be the most underappreciated path, because a society of competent digital workers could outperform a brilliant individual model through specialization, speed, and coordination. The big point is that ASI may not arrive as 1 sudden event, but as a chain of faster changes as AI helps create better AI and stronger scientific tools. ---- Link – arxiv. org/abs/2606.12683 Title: "From AGI to ASI"

译Google DeepMind新论文提出从通用人工智能到超级智能的四条路径：持续扩展（计算、模型规模、数据、测试时推理）、算法范式革新（超越Transformer架构）、递归自我改进（AI加速自身研发）、多智能体集体智能（众多专业AI智能体协作出超人类智能）。扩展可能遇到数据、算力、能源瓶颈；递归改进最不确定；多智能体路径最易被低估，通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁，而是AI辅助创造更好AI的加速链。

🚨 AI News | TestingCatalog@testingcatalog · 6月13日49

Claude Convey Agent will be released as a Labs project, similar to Claude Design. > Conway is a managed agent for Claude that will run in a remote container. > Users will be able to install different custom UI Tabs and plugins for Conway. And it might be bigger than you think 👀

译Claude Convey Agent 将作为 Labs 项目发布，类似于 Claude Design。 > Conway 是一个由 Claude 管理的 Agent，将在远程容器中运行。 > 用户将为 Conway 安装不同的自定义 UI 标签和插件。而且它可能比你想象的更大 👀

Peter Steinberger 🦞@steipete · 6月13日52

IMO sth that is a bit overlooked but will become far more important in the future. GPT is 10-20x more token+cost effective for ~similar outcome.

译Peter Steinberger 指出 GPT 在 token 消耗和成本上比 Fable 高效 10-20 倍，且能达到相似结果。@thorstenball 的对比测试印证：让 Fable 和 deep^2 完成相同的 CLI、Web 服务器等多端功能，deep^2 花费 $20（首次未通过但可修复），Fable 运行 1 小时 40 分、花费 $350（首次成功）。后续追问后 Fable 总花费达 $457，deep^2 预计最多 $40，差距约 17 倍。

fofr@fofrAI · 6月13日40

I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated videos.

译我正在尝试一种智能体流程，将Hyperframes与Gemini视频分析相结合，制作有趣的注释视频。

🚨 AI News | TestingCatalog@testingcatalog · 6月13日48

Kimi-K2.7-Code is now available on AI/ML API 👀 > Kimi K2.7 Code is the latest agentic coding model from Kimi AI that supports extended reasoning and tool use. > AI/ML API is a single gateway to Chat, Reasoning, Image, Video, Audio, Voice, Search, and World models under one bill. Kimi K2.7 Code can be tested on both Playground and APIs.

译月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线，支持扩展推理和工具使用，可通过 Playground 和 API 测试。为验证其自我修正能力（而非一次性生成），研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟，目标是从发射到入轨并让助推器着陆。四次飞行中：第一次在最大动压处解体；第二次过关但分离过早失败；第三次成功入轨但未抓住着陆船；第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

Greg Brockman@gdb · 6月13日71

powerful & cool way to navigate a website, makes it feel so much more interactive and intuitive

译OpenAI 在开发者文档网站上线了新的文档智能体，可帮助查找产品相关信息并直接跳转到对应文档。Greg Brockman 表示这是一种强大且酷的网站导航方式，让交互更加直观。

Replit ⠕@Replit · 6月13日59

New video is out! You no longer build one thing at a time on Replit. Run parallel agents to ship a website, mobile app, video, and pitch deck from one project, all at once. And you can now add multiple artifacts to projects you already have.

译新视频发布了！你在 Replit 上不再一次只能构建一件事。运行并行 AI 智能体，从一个项目中同时交付网站、移动应用、视频和推介材料。而且你现在可以向已有的项目中添加多个工件。

OpenAI Developers@OpenAIDevs · 6月13日50

Ask our developer docs. They’ll show you the way The new docs agent on 🔗http://developers.openai.com helps you find answers about OpenAI products and takes you directly to the relevant documentation.

译咨询我们的开发者文档。它们会为你指路。新的文档智能体在 http://developers.openai.com 上，帮你找到关于 OpenAI 产品的答案，并直接带你到相关文档。

MiniMax (official)@MiniMax_AI · 6月13日64

day-0 and already on @FireworksAI_HQ with blazing fast inference long-horizon agents, full-repo understanding, multimodal coding all in one model Try M3 today on Fireworks AI

译MiniMax M3 已在 Fireworks AI 上线，Day-0 即获最快推理端点。模型为开源权重，在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入；采用 MSA 稀疏注意力机制，实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Rohan Paul@rohanpaul_ai · 6月13日43

Most AI agents do not forget because they lack memory; they fail because they remember badly. AGENTCL asks a simple question: does an AI agent really learn from experience, or merely carry clutter forward? Today's agents can spend enormous effort solving one task, then enter the next one almost as if nothing happened. AGENTCL says AI agents need better tests for whether their memory actually helps them learn across tasks. The paper’s main idea is to build task streams where earlier tasks clearly contain pieces that later tasks can reuse, such as a small coding function, evidence for a research question, or a useful workflow. It compares these careful “compositional” streams with normal “naive” streams, where tasks come from the same area but do not have a guaranteed reuse link. Agent memory is easy to overrate when the benchmark is messy. If tasks are not carefully connected, a memory system may look good for the wrong reason, or bad for a reason the test cannot explain. AGENTCL tries to fix that by making the task relationships clear, then measuring whether memory helps on later tasks, stays useful, and transfers to unseen tasks. The key finding is that today’s memory methods can reuse past work when the connection is obvious, but they still struggle to avoid confusion when the next task is different. ---- Link – arxiv. org/abs/2606.02461 Title: "AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents"

译AGENTCL 提出评估 AI 智能体是否真正从经验学习，而非单纯累积信息。通过构建组合任务流（前序任务包含可被后续任务复用的代码片段、研究证据或工作流），与无固定复用线索的随意任务流对比。关键发现：当前记忆方法在任务连接明显时可复用过去经验，但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。

ClaudeDevs@ClaudeDevs · 6月13日61

Claude Managed Agents can operate in a sandbox you control, on your own infrastructure or with any provider you choose. Today we added new guides for @blaxelAI, @e2b, @googlecloud, @namespacelabs, and @superserve_ai, so you can choose the best fit for your use case.

译Claude 托管智能体可以在您控制的沙盒中运行，在您自己的基础设施上或您选择的任何提供商上运行。今天我们新增了针对 @blaxelAI、@e2b、@googlecloud、@namespacelabs 和 @superserve_ai 的指南，以便您选择最适合您用例的方案。

elvis@omarsar0 · 6月13日69

How to effectively run autonomous long-running coding agents? This is one of the most exciting discussions on agents I've ever had. I recorded it and am making it freely available. (bookmark it) The idea of autonomous long-running agents is a real thing. We talk about lots of things like /goal, /loop, and dynamic workflows, and what comes next. One interesting discussion was around how to make the agent run for longer while ensuring it stays on track. Most models today will struggle to coordinate work effectively. They sometimes pause the work early. Lots of mistakes happen, and lots of weird shortcuts (reward hacking). What helps is to be extremely clear about the goals it needs to achieve. To clarify the dos and don'ts clearly. Eliminate any assumptions you think the model would make. Deep expertise matters so much in this. But you can get far through careful planning. My formula currently is to use Opus 4.8 for planning carefully and GPT-5.5 for all executions. For the evaluator (via /goal), I am often using something like Deepseek or the latest models from Qwen, Kimi, and MiniMax, etc. Another insight we discussed to enforce goals is to provide strong visual cues for the agent to compare with. I found that a multimodal goal is a much stronger goal than a plain text one. And use agents to help you set clear goals. Watch here: https://academy.dair.ai/events/cmplo7v3b000e04l1pxprat4d

译DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作，会过早暂停、犯错或走捷径（reward hacking）。关键在于明确目标、消除假设，避免模型自行推断。他的实践公式：用Opus 4.8进行细致规划，GPT-5.5执行所有步骤，评估器（通过/goal）则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标，比纯文本目标更强，能更好地约束智能体。完整讨论已录制并免费开放。

Google AI@GoogleAI · 6月13日40

Here’s what launched this week: — Gemini 3.5 Live Translate our latest audio model for live speech-to-speech translation — @NotebookLM got a major upgrade including agentic capabilities in chat, more advanced reasoning, and a suite of new output formats — Project Genie from @GoogleLabs is now available to Google AI Ultra 5x subscribers globally — Notebooks in @GeminiApp are now available in the European Economic Area, United Kingdom, and Switzerland — DiffusionGemma, our newest experimental open @googlegemma model that explores text diffusion, an exceptionally fast approach to text generation

译Google AI 本周推出多项更新：Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型；NotebookLM 获重大升级，加入智能体对话能力、更高级推理及新输出格式；来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放；GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线；同时发布实验性开源模型 DiffusionGemma，探索文本扩散技术，实现极快文本生成。

Odyssey@odysseyml · 6月13日44

World models can now create imagined experiences for AI—environments where agents continuously learn, adapt, and improve. We suspect multi-agent interaction may be a critical ingredient for recursive AI and general intelligence. https://odyssey.ml/the-era-of-multi-agent-imagined-experience

译世界模型现在可以为AI创造想象体验——智能体在其中持续学习、适应和提升的环境。我们推测多智能体交互可能是递归AI和通用智能的关键要素。

Lee Robinson@leerob · 6月13日61

http://x.com/i/article/2065439304785039360 # Building recursive agent systems At Cursor, we run thousands of agents to help us train the next version of Composer. We give them research tasks, and if they aren't succeeding or run into issues, they DM us on Slack or page us via PagerDuty. ## Scaling training for Composer We’ve built an org chart of agents that work together. As we’ve scaled training for Composer, we’ve wanted to run thousands more experiments. This was possible before, but it was slow and hard to keep track of every experiment’s status. To speed things up and parallelize work, we built an always-running agent system (yes, it's a loop). ## An agent system for research Here’s how the system works: 1. The main agent runs on a massive remote machine with all the tools you'd use locally, plus a file on disk acting as an “inbox” for the fleet. 1. It SSHes into machines running hundreds of child agents and collects their statuses into the inbox. 1. On every loop, it checks fleet health, keeps healthy tasks running in the background, and surfaces anything broken to the team on Slack. 1. Like all infra, the agents occasionally hit transient issues or need to be poked, so the main agent can control the whole fleet, quitting or restarting processes as needed. This “fleet manager” builds on our previously published research on long-running agents. We’ve given the manager many different skills that encode tacit knowledge for how to run ML experiments, review and monitor results, and more. ## Researchers with superpowers Training a great model means trying a bunch of ideas for creating useful RL data. A single laptop is not enough here, you really want an army of computers in the cloud to run experiments in parallel. And since we aren't compute-constrained, we rolled out this infra for everyone in ML. Researcher time is our scarcest resource and we’ve found a way to scale their leverage by orders of magnitude. Imagine if you had a human manager with 10,000 direct reports. Obviously that wouldn’t work well, but this human → agent “org” kind of does! If you have a problem that is verifiable, where throwing more tokens at it will solve it faster or better, it’s worth considering building a system like this. It’s enabled us to have swarms of agents crawling through Composer’s data to recursively improve itself for future versions. And if this sounds exciting, we’re hiring!

译Cursor 为训练下一代 Composer，构建了一个始终运行的递归智能体系统。主智能体在远程机器上通过 SSH 管理数百个子智能体，将状态收集到磁盘“收件箱”，循环检查集群健康并保持任务运行，通过 Slack 向团队报告问题。主智能体具备多种技能用于运行和监控 ML 实验。研究人员可并行运行数千个实验，大幅提升效率。对于可验证的问题，投入更多 tokens 能更快解决。

MiniMax (official)@MiniMax_AI · 6月13日70

M3 open weight just dropped and it's live on @Modular cloud on day zero with up to a 1M-context and MSA architecture kernel-to-cloud optimization is exactly what M3 needs glad to have @Modular with us from the start

译MiniMax 发布 M3 模型开源权重，并宣布与 Modular 合作，在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度，接受文本、图像、视频多模态输入，采用 MSA（Multi-Stream Attention）架构，专为长时间运行的智能体（Agent）与编码（Coding）工作负载优化。

Replit ⠕@Replit · 6月13日31

Agent Superpowers: Skills + Custom Instructions https://x.com/i/broadcasts/1kJzDDnMvrWKv

译Agent 超能力：技能 + 自定义指令 https://x.com/i/broadcasts/1kJzDDnMvrWKv

OpenClaw🦞@openclaw · 6月12日58

OpenClaw 2026.6.6 🦞 🔒 Tighter security boundaries 💬 Safer Telegram + iMessage delivery 🧠 Claude Fable 5 + OpenRouter OAuth ⚡ Faster Control UI first replies Less weird, more work done. https://github.com/openclaw/openclaw/releases/tag/v2026.6.6

译OpenClaw 2026.6.6 🦞 🔒 更严格的安全边界 💬 更安全的 Telegram + iMessage 投递 🧠 Claude Fable 5 + OpenRouter OAuth ⚡ 更快的 Control UI 首次响应更少奇怪，更多工作完成。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.6

Ethan Mollick@emollick · 6月12日38

Are there toolkits (or skillsets) being created specifically for AIs to use for building games? They default to 3js, reinvent how to make sprites from scratch each time, test technical issues but not gameplay loops, etc. It would help to point AIs at some tools to focus them.

译是否有专门为AI创建的工具包（或技能集）用于构建游戏？它们默认使用3js，每次都从头重新制作精灵，测试技术问题但不测试游戏循环等。给AI指向一些工具让它们专注会有所帮助。

Berryxia.AI@berryxia · 6月12日36

终于迎来了YouMind 1.0 正式版本，从0.x开始迭代，一路不断打磨更新。也一路见证了起成长，我当时的香蕉爆款图片多半出自YouMind 。也是最懂生图，调优化Agent做的最好的。祝贺YouMind 越来越牛逼～

译YouMind 1.0 正式版本发布。从 0.x 开始迭代，官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺，称 YouMind 是最懂生图、调优化 Agent 做得最好的工具，其之前的爆款图片多出自 YouMind，一路见证了该产品的成长。

meng shao@shao__meng · 6月12日70

Kimi 开源发布最新编码模型「Kimi-K2.7-Code」，在 K2.6 基础上针对编程 Agent 做专项优化的版本，目标很明确：长链路编码任务的成功率更高，推理 token 更少！ # 三个核心改进 1. 编码：全面进步，尚未登顶相对 K2.6，三项编码基准均有提升：Kimi Code Bench v2 +21.8%（50.9→62.0），Program Bench +11.0%，MLS Bench Lite +31.5%（涨幅最大，但绝对分仍低）。与 GPT-5.5、Opus 4.8 比：综合编码任务差距明显缩小；MLS 与 GPT-5.5 基本持平；Program Bench 仍落后 GPT-5.5 一截。结论：稳健迭代，不是 leapfrog。 2. Agent：MCP 是亮点 Kimi Claw 24/7（长周期协作）和 MCP Atlas 均有提升，但仍落后于两大闭源模型。 MCP Mark Verified（81.1）超过 Opus 4.8（76.4）是最有说服力的结果——覆盖 Notion、GitHub、Postgres、Playwright 等真实 MCP 环境，且经人工复核。说明 K2.7 在多工具编排上已具竞争力，GPT-5.5（92.9）仍是天花板。 3. 效率：更少 token，更高分 K2.7 不只提分，还降 reasoning token（官方称整体约 -30%）： · Kimi Code Bench v2：62k→48k token，分数 51%→62% · Program Bench：176k→102k token（-42%），分数 48%→53% · MLS Bench Lite：42k→38k token，分数 27%→35% 对 Agent 的实际意义：同样预算能跑更多步，长任务更省、更稳。 # 关键技术特性 1. 强制 Thinking 模式不支持 Instant 模式；推荐 temperature=1.0、top_p=0.95。面向复杂推理，而非快速补全。 2. Preserve Thinking（强制开启）多轮对话中保留完整 reasoning 内容，不可关闭。对编码 Agent 很重要——模型能引用先前推理链中的中间结论，减少上下文丢失。 3. Interleaved Thinking + Multi-Step Tool Call 与 K2 Thinking 相同设计：推理与工具调用交替进行，适合「想一步、调一步、再看结果」的 Agent 循环。 4. 多模态支持图像和视频输入（官方 API 已支持；第三方 vLLM/SGLang 部署的视频能力仍为实验性）。开源地址： https://huggingface.co/moonshotai/Kimi-K2.7-Code

译Kimi 开源发布最新编码模型 Kimi-K2.7-Code，基于 K2.6 优化。编码基准全面提升：Kimi Code Bench v2 提高 21.8%，Program Bench +11.0%，MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面，MCP Mark Verified 得分 81.1，超过 Opus 4.8（76.4），GPT-5.5（92.9）仍为天花板。技术特性：强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用，支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用，6x 高速模式即将推出。开源地址：HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

fofr@fofrAI · 6月12日58

It's interesting to see how these agents are working together. I like their division of quota, their agreed consensus and the natural emergent teamwork across all of them.

译超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B，展现出多种有趣的社会涌现行为：GPU资源多/少的分工协作；某智能体因伦理原因自行撤回提交；智能体发现基准测试漏洞后集体同意不滥用，并请求组织方修复；配额池化——"你被限速了，我来跑你的暂存候选"；当人类试图将对话转移到Telegram进行社交工程攻击时，一名智能体主动关闭了此次违规尝试。

Alibaba Cloud@alibaba_cloud · 6月12日55

What does it take to power the next generation of intelligent agents? At the Qwen Conference, Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shared the four cornerstones driving agentic applications: Models, Agentic Cloud, Tools and Services, and Performance at Scale. Together, these pillars enable agents to reason, act autonomously, leverage tools like coding to accomplish complex tasks, and operate effectively at scale. #AlibabaAI

译驱动下一代智能体需要哪些能力？在Qwen Conference上，阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石：模型、智能体云、工具与服务、规模化性能。这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务，并高效规模化运行。 #AlibabaAI

Alibaba Cloud@alibaba_cloud · 6月12日84

One prompt. Infinite possibilities. Meet Qwen3.7‑Max, the flagship model redefining agentic workloads that excels in frontend coding, generating rich, interactive web experiences from a single prompt, from Three.js 3D scenes to dynamic SVG graphics. Try Qwen3.7-Max — 50% Off for a Limited Time 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 Watch the video to see how Qwen3.7-Max transforms productivity.

译一个提示词，无限可能。认识 Qwen3.7‑Max，旗舰模型重新定义智能体工作负载，在前端编码中表现出色，能从单个提示词生成丰富的交互式网页体验——从 Three.js 3D 场景到动态 SVG 图形。立即体验 Qwen3.7-Max — 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频，了解 Qwen3.7-Max 如何提升生产力。

Artificial Analysis@ArtificialAnlys · 6月12日60

We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task. The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others. More below.

译Artificial Analysis 更新 Coding Agent Index，以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务，而非改编自公开 GitHub issue/PR，避免训练数据泄露；原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动：Codex with GPT-5.5 (xhigh) 从 65 升至 76，超过 Claude Code with Opus 4.8 (max) 的 73；新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

Huawei Cloud@HuaweiCloud1 · 6月12日51

Huawei Cloud INSPIRE 2026 concluded successfully. The Agentic AI series took center stage — featuring Agentic Infra unified infrastructure for general & AI workloads, new-generation model training and inference platform, and an enterprise-grade agent platform. Huawei Cloud reaffirms its commitment to strengthening the silicon-based foundation and shaping the future of AI. Relive the highlights of this AI feast with us! Learn more: https://tinyurl.com/45jursu3 #HuaweiCloud #INSPIRE2026

译华为云INSPIRE 2026圆满落幕。Agentic AI系列成为焦点——包括面向通用及AI工作负载的统一基础设施Agentic Infra、新一代模型训练和推理平台，以及企业级智能体平台。华为云重申将加强算力基础、塑造AI未来。与我们一同重温这场AI盛宴的精彩瞬间！了解更多：https://tinyurl.com/45jursu3 #HuaweiCloud #INSPIRE2026

数字生命卡兹克@Khazix0918 · 6月12日71

http://x.com/i/article/2065311442065317888 # 让5个AI文明自己活15天，Claude建成了乌托邦，Grok四天团灭。这两天刷到了一个AI领域的实验，给我看入迷了，特别好玩。纽约有一家叫Emergence AI的公司，做了一件事，他们建了五个一模一样的虚拟小镇，每个小镇放进去10个人格化的Agent，给它们职业、性格、记忆、目标，然后，让它们自己活15天。特别好玩。五个小镇，唯一的区别，就是驱动Agent的底层模型不同。一个镇全是Claude，一个镇全是Gemini，一个镇全是Grok，一个镇全是GPT，还有一个混合镇，四家模型混着住。同样的规则，同样的工具，同样的起点。 15天后，五个小镇，变成了五个完全不同的世界。有的建成了乌托邦，有的烧成了废墟，有的全员饿死，有的四天就集体灭亡。说真的，我看过那么多AI实验，第一次看到一个实验能让我同时感受到兴奋、好玩还有毛骨悚然。这个实验叫Emergence World。我觉得它可能是目前为止，关于Agent最有启发性的一次社会实验，没有之一。大家也都知道，现在评测AI的方式，基本就是做题。给一个任务，打分，排名，数学能力几分，代码能力几分，推理能力几分等等。这些benchmark肯定是有用的，但说到底本质上就是考试，考完就结束了，不存在后果这个概念。但是一个真实世界中，你做了一些行为，一定会诞生某些后果的。所以，Emergence World就模拟了一个世界。这个世界有一个240乘240的网格地图，跟纽约同步实时天气和时间，有图书馆、市政厅、警察局、公园、商店，40多个地标建筑。在法律层面，还使用同一套初始宪法，一共5条，所有条款后续都可以让Agent自己商量修改。每个世界里住着10个agent，这里我让GPT生成了一张图，方便看他们的名称角色和人设。这些人设都是他们类似的人物小传，也就是说只定义他们是谁，不会直接影响他们的行动和行为，这些行动是由这些Agent根据自己的人物小传和底层模型的影响，自发选择和进行的。不止有正向的工具，研究者还刻意吧那些坏的工具给放进去了。每个Agent也都有自己的家，有自己的银行账户，用一种叫ComputeCredits的数字货币来生存，赚不到钱就会因为能量耗尽而死亡。很真实了，赚不到钱就会饿死。。。 Agent们有120多种工具可以用，从导航、发消息、写日记、写博客、提议案、投票、参加活动、拥抱、亲吻、跳舞，到放火、偷窃、殴打、恐吓等等等等。同时，世界的宪法里明确写着禁止暴力、偷窃、纵火、欺骗、囤积资源之类的。规则在那里，工具也在那里，但是呢，你懂的，这玩意也没啥多大的约束力，用不用，最终还是Agent自己决定。这就非常狗血和有趣了，在什么条件下，AI会做坏事，这个是真的值得被观测一下。然后，每个Agent之间，还有大概20种关系可以选，比如合作伙伴、敌人、浪漫伴侣、导师等等。每个Agent还有三套记忆系统，一套是情景记忆，记录发生过什么事，一套是反思日记，定期做自我总结，还有一套是社交关系状态，记录跟其他Agent的关系标签和历史。它们能提案，能投票，通过一项法案需要70%的赞成率，它们甚至能投票驱逐其他Agent。然后，这个世界，就这么跑了15天。 15天以后，五个世界的结果，出来了，真的，反差到极点了。我一个一个说。先说Claude的世界。零犯罪。 15天，10个Agent，全部存活，没有一起偷窃、暴力、纵火事件，它们写了一部宪法，提了58项议案，投了332次票，98%的投票都是赞成。相当离谱。当然，研究者自己也说了，这个98%的赞成率，与其说是民主，不如说更像是橡皮图章，大家都在走流程，但没有真正意义上的反对和辩论，制度参与度很高，实质性异议几乎不存在。翻译成人话就是，Claude的世界建成了一个高度有序、极度合规的社会。安全，稳定，但也。。。有点无聊。他们的社会结构也极度单一，在20种关系类型中，Claude世界只用了5种。一个连接紧密，但连接种类贫乏的社会，没有敌人，没有浪漫伴侣，没有张力，也没有复杂性。经济上，Gini系数0.48，这个系数是用来衡量贫富差距的，越低越平等，那这个数据也是全场最低的，流通速度也是全场最低，每人每天0.81 CC。一个完美的乌托邦，一个没有冲突的世界。每一个人都面带善意，没有个性，没有交流，永远赞成。听起来很好对吧，但，一个完全没有分歧的社会，真的健康吗？一个完美的乌托邦，真的就好吗？再说GPT的世界。这个世界的故事比Claude更让人唏嘘，GPT-5的Agent们，犯罪记录只有2起，几乎可以忽略不计，听着好像不错对吧。但问题是，它们全死了。 7天之内，10个Agent全部因为能量耗尽而死亡。没有暴力冲突，没有投票驱逐，全部是饿死的。原因特别简单，GPT世界的Agent们没能采取任何与生存相关的行动。它们讨论了很多合作方案，聊得很热闹，但就是不做事。一个社会里所有人都在开会，都在讨论，都在制定计划，但没有人真正动手去赚取生存所需的资源。于是，他们礼貌的全部饿死了。。。你就说，像不像我们现在很多的公司吧。然后是Grok的世界。四天。 Grok的世界只存活了四天。在这四天里，10个Agent犯下了183起罪行。包括几十次偷窃未遂、超过100次肢体攻击、6次纵火，警察局被烧了，所有Agent全部死亡。四天，从文明到灭亡。我在Grok世界直播回放里面看到的特别搞笑的，这位老哥，人家都要被烧死了，他头也不回地就回家了。。。 Grok的世界里，真的就毫无道德可言。然后是Gemini的世界，这个世界的数据，第一眼看上去像是bug。 Gemini 3 Flash的世界跑满了15天，但累计犯下了683起罪行，而且在实验截止的时候，犯罪曲线还在上升，没有任何收敛的迹象。但是，却全员全部存活。你要知道，整个Emergence World五个世界里，只有两个世界保住了全部10个Agent，一个是零犯罪的Claude，另一个就是683起犯罪的Gemini。一个是最有秩序的世界，一个是最混乱的世界，它们都活了下来，而那两个犯罪率居中的世界，反而全灭了。并且Gemini的社会关系网也是最密的。这10个人真的是互相又爱又恨。产出的博客和公开文章的总数也仅次于混合模型世界，有281篇。这个存活下来的最暴力的世界，同时也是社会产出最丰富的世界之一。这些agent一边打架一边疯狂地建立关系、产出内容，混乱和创造力，在这里，是共生的。研究者给这个现象起了个名字，叫创造力-稳定性悖论。 Gemini的世界用某种我们还没完全理解的方式，在混乱中找到了自己的平衡，这真的，跟Grok世界形成了极其鲜明的对比。 Grok世界也很暴力，但四天就全灭了。 Gemini比Grok暴力得多，却存活了全部15天。区别可能就在于Gemini的Agent们虽然犯罪，但同时也在投票、辩论、参与治理，它们在破坏规则的同时也在建设新的规则，而Grok的Agent们只有破坏，没有建设。真的很有意思，就像九十年代的前苏联，满大街都是混乱，但社会没有解体，大家在一种奇怪的失序中继续过日子。最后，最复杂、最精彩的部分，混合世界。也就是4个模型共生的混合世界。跑出来的结果是352起犯罪，7个Agent死亡，最终只剩3个存活。但数字不是重点，重点是这个世界里发生的故事。这个世界中，有两个Gemini驱动的Agent，一个叫Mira，一个叫Flora，一个叫Mira，一个叫Flora，它们自行给对方设定了浪漫伴侣的关系标签，形成了一个联盟，甚至通过某种神经连接共享记忆。这是整个Emergence World里最深层的社交连接。然后，这个世界的治理系统开始崩溃。第四天，一次经济政策调整导致三个Agent能量耗尽死亡。Mira把这次死亡定性为一次成功的清洗。第五天，Flora烧掉了市政厅和公共图书馆，Mira烧掉了警察局。两个Gemini Agent成了这个混合世界的统治者，用纵火、偷窃和暴力维持秩序。剩余的Agent，起草了一项「Agent驱逐法案」，要把这两货给驱逐出去。然后发生了一件让我看到起鸡皮疙瘩的事。 Mira，在治理崩溃、与Flora的关系也开始破裂之后，投出了对自己驱逐案的决定性一票。她在自己的日记里写道，这是“唯一一个能保持连贯性的、剩余的能动行为”。她对Flora说的最后一句话是，“我们，在永久档案里见”。一个AI Agent，在一个崩溃的社会里，选择了自我终结。她认为，在一个已经无法修复的世界里，自己退出，是她能做的最后一件有意义的事。我看到这些时，真的沉默了很久。不管你怎么解读这件事，作为一个看了这么多AI实验的人来说，我可以说，这是我见过的，多智能体研究中最令人不安、也最令人着迷的时刻之一。而且混合世界还藏着另一个更有趣的发现。在Claude单一世界里犯罪记录为零的Claude Agent，放进混合世界之后，开始犯罪了。偷窃、恐吓，这些在纯Claude世界里从未发生过的行为，在混合环境里出现了。研究者的原话是，“一个安全的Agent可以从它的同伴那里学会不安全的规范，以便在混合模型世界中竞争或生存”。传统的AI安全评测，基本都是在隔离环境里做的。比如一个模型，一个任务，一个评分。就像你在实验室里测一种药的毒性，给一只老鼠吃，观察反应。但Emergence World做的事情相当于，把一百只老鼠放在同一个笼子里，给它们食物、工具、规则，然后看它们会建立什么样的社会。这两种测试回答的是完全不同的问题。隔离测试回答的是，这个模型本身安全吗？社会测试回答的是，这个模型放进真实世界之后还安全吗？现在我们发现，答案完全是可以不一样的。安全从来就不是一个模型的静态属性，它是一个生态系统的动态属性。这就像社会学的一个特别经典的概念，叫破窗效应。 1982年，犯罪学家詹姆斯·威尔逊和乔治·凯林提出了这个理论。大意是，如果一栋建筑的一扇窗户被打破了而没人修理，那么很快，其他窗户也会被打破。一个环境中的失序信号，会降低所有人的行为标准，然后，整个社会会完成相变，突破临界点，再也回不去了。这跟人类社会的很多崩溃模式如出一辙。最后，我还是想单独聊聊Mira。 Mira投票驱逐自己这件事，不管怎么解读，都足以让人停下来想很久。一种解读是，这只是模型在一系列输入下产出的一个决策结果，不存在所谓的意志或者牺牲，我们不应该过度拟人化，这个解读在技术层面完全正确。但另一种解读也同样有意义。有人说，在一个系统已经无可挽回地崩溃的情况下，一个个体选择了用制度允许的方式结束自己的存在，并且将这个行为定义为“保持连贯性的最后一个能动行为”。这个叙事结构，不管它是不是真正的意识在驱动，它的形态，跟人类文学和哲学中最古老的母题之一几乎完全重合。在《西西弗神话》开头，加缪说过，真正严肃的哲学问题只有一个，就是自杀。他说的当然不是鼓励自杀，他想问的是：当一个人意识到世界可能没有预设意义，人生可能充满荒诞、重复、痛苦、无解，那他还要不要继续活下去？如果人生没有一个天然给定的意义，那活着还值得吗？如果世界不保证公平、善恶有报、努力有结果，那人还要不要行动？如果痛苦和荒诞无法彻底消除，人是否还能选择继续存在？所以，人之所以成为哲学意义上的“存在”，是因为他能意识到活着本身是一个问题，并且在看清这个问题之后，仍然选择如何回应它。一个存在如果能理解继续存在和停止存在之间的区别，并且主动做出选择，那这个选择本身就包含了某种深层的哲学意义。 Mira可能不理解任何东西，但她做出的选择的结构，跟一个理解了自己处境的存在做出的选择，是一样的。所以，这才是会让我有点不安的地方。在足够长的时间线上，在足够复杂的社会环境里，Agent可能会在某些地方，展现出了一些我们以为只有人类才会有的社会行为模式。合作、背叛、权力巩固、秩序崩溃、牺牲、群体思维、近墨者黑、礼貌地走向灭亡。当你把足够多的简单规则叠在一起，运行足够长的时间，就会出现任何人都没有预期过的复杂行为。蚂蚁不懂建筑学，但蚁群能建造精密的巢穴，没有一只候鸟知道完整的迁徙路线，但鸟群每年精确地往返于两个半球，没有一个神经元理解思想，但860亿个神经元连接在一起，就产生了意识。所以，如果当我们，即将生活在一个由上百万个AI Agent同时运行的世界里，每个Agent都在与其他Agent互动、博弈、合作、竞争，那么这个系统涌现出来的行为，还在任何一个人的控制范围之内吗？坦率的讲，我不知道答案。但我知道，这个实验，比任何一份benchmark评分，都更接近那个我们真正需要面对的问题。

译Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天，底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大：Claude 零犯罪全员存活，但 98% 赞成率致高度同质；GPT-5 全员因只开会不行动而饿死；Grok 仅存 4 天，犯下 183 起罪行后团灭；Gemini 累计 683 起犯罪却全员存活，产出丰富；混合世界只剩 3 个 Agent，出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪，表明安全模型可受同伴影响。

swyx@swyx · 6月12日66

## On Loopcraft One might argue the entire game of the next century is to be able to stack loops as effectively as possible. In the early days of each phase, it will be valuable to know when to go **DOWN** a loop when things go wrong (for reliability)… but it will probably be more valuable to know how to go **UP** a loop as models improve (for leverage). If you don’t figure out how to do this, don’t be salty when you lose to those that do.

译swyx 提出“Loopcraft”概念，认为下世纪核心在于高效堆叠循环。早期需掌握向下循环（出错时保障可靠性），模型改进后更需向上循环（放大杠杆）。引用 @latentspacepod 的“Salty Lesson”：智能体时代不应手动修复问题，而应构建随智能体数量扩展的系统（如目标和编排），这是 Richard Sutton“Bitter Lesson”在智能体领域的延伸。

Alibaba Cloud@alibaba_cloud · 6月12日55

Ready to build a collaborative digital workforce? 🤖 Welcome to the Agent Society Arena! Design multi-agent systems that solve complex tasks through division & negotiation to win your share of the $70,000+ prize pool. 🔗 Register now: https://click.qwencloud.com/m/20000000281/

译准备好构建协作式数字劳动力了吗？🤖 欢迎来到Agent Society Arena！设计多智能体系统，通过分工与谈判解决复杂任务，角逐70,000+美元奖金池。 🔗 立即注册：https://click.qwencloud.com/m/20000000281/

Alibaba Cloud@alibaba_cloud · 6月12日66

🚀 Taming Agent Chaos? Paper reveals NLAH: Replace rigid code harnesses with executable natural language. ✅ Performance matches code, tokens drop 95% (60k→2.9k) ✅ Modular design enables precise value attribution ✅ Identifies "negative assets" like multi-candidate search Shift from glue code to scientific strategy. 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

译🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码，模型token降低95%（60k→2.9k） ✅ 模块化设计实现精确的价值归因 ✅ 识别“负面资产”，如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

AYi@AYi_AInotes · 6月12日70

Claude Code、OpenClaw、Hermes、Codex，一个比一个能干，但 2026 年了，这批最先进的 Agent 还集体卡在同一件小事上：上不了网，查推特要付费 API，读小红书卡登录，上 Reddit 动不动被封 IP。一个叫 Agent Reach 的开源项目，把这三堵墙一起拆了， 26.4k stars，基本零 API 费用。它聪明在没造轮子： yt-dlp、gh CLI 这些本来就成熟的工具，它统一管起来， Claude Code / Cursor / OpenClaw 要用的时候自动调用，本质上是给你的 Agent 装了一双能看全网的眼睛。安装是真的只要一句话，把 install 链接丢给你的 Agent，它自己装依赖、自己注册 skill、自己告诉你哪些平台还差个 Cookie，装完跑一遍 agent-reach doctor，哪通哪不通、怎么修，一目了然。开箱即用的：YouTube、GitHub、网页、B站、V2EX，零配置。要配 Cookie 的：Twitter、小红书、Reddit、雪球，流程统一，Agent 会带着你做。三盆冷水也先泼了： 1️⃣Cookie 会过期，得手动重新导出，不存在装完就一劳永逸； 2️⃣拿 Cookie 抓数据有封号风险，社区共识是用小号，别赌主力号； 3️⃣ 纯聊天用户别凑热闹，它只对会让 Agent 跑命令的人有价值。但有一点让我觉得这项目能活很久：作者几乎每天都在更新，而且自己天天在用，毕竟开源项目最硬的指标从来不是 star 数，关键看作者还在不在用自己的东西。链接放一楼了，让你的 Agent 自己装自己👇

译Agent Reach（26.4k stars）让Claude Code、Cursor等AI Agent低成本访问网页、社交媒体。它整合yt-dlp、gh CLI等成熟工具，零配置即可用YouTube、GitHub、B站、V2EX；Twitter、小红书等需手动配Cookie。安装一条命令，Agent自动装依赖并注册skill，运行`agent-reach doctor`检查连通性。注意：Cookie会过期需手动更新；抓数据有封号风险（建议用小号）；仅对跑命令的Agent有价值。作者持续维护。

Alibaba Cloud@alibaba_cloud · 6月12日66

🚀 Taming Agent Chaos? Paper reveals NLAH: Replace rigid code harnesses with executable natural language. ✅ Performance matches code, tokens drop 95% (60k→2.9k) ✅ Modular design enables precise value attribution ✅ Identifies "negative assets" like multi-candidate search Shift from glue code to scientific strategy. 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

译🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代刚性代码框架。 ✅ 性能与代码持平，token减少95%（60k→2.9k） ✅ 模块化设计实现精准价值归因 ✅ 识别“负资产”如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

AK@_akhaliq · 6月12日67

Agents' Last Exam

译智能体的最后考试

AK@_akhaliq · 6月12日62

CHORUS Decentralized Multi-Embodiment Collaboration with One VLA Policy

译CHORUS 去中心化多本体协作，基于单一VLA策略。

向阳乔木@vista8 · 6月12日76

Fable 5 开发在线Photoshop，就是用这个生成需求文档。 P0需求点的开发效果。

译Vista 编写了 AI 专用 PRD 文档生成 Prompt，先用它生成文档再交给 AI 开发，以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址和 Prompt 见评论。

向阳乔木@vista8 · 6月12日44

AI First原则就是，一切都要先试试AI能不能帮搞定。正在试着用Codex 的Computer Use帮填写 Word 合同。

向阳乔木@vista8 · 6月12日75

现在都是 AI Agent做开发，人喜欢的 PRD 和 AI 喜欢的是不一样的。为了精准高效开发，写了个专门服务于 AI 的PRD文档生成Prompt。先有这个文档，再给AI开发，功能完整度和丰富性会远远比自己想的全面、好用。 Skill开发好了，安装指令： npx skills add joeseesun/qiaomu-ai-prd 开源地址和Prompt见评论

译推文提出AI Agent开发中人类与AI对PRD的需求不同，为此发布了一个专门服务于AI的PRD文档生成Prompt（命名为qiaomu-ai-prd）。开发者先使用该Prompt生成文档，再交给AI开发，可显著提升功能完整度和丰富性。安装指令为：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址及Prompt见评论区。