I predicted this months ago: The highest-paying jobs today may be first in line for AI disruption. GPU kernel engineers used to get million-dollar offers. Now AI agents can self hill climb, write better kernels, and top the leaderboard. (We didn’t even use Fable or GPT-5.6)

译Yuchen Jin 数月前预言高薪岗位最先遭 AI 颠覆：GPU kernel 工程师曾获百万美元 offer，如今 AI agent 可自我爬山优化、写出更优内核并登顶榜单。Databricks 使用 KDA（Kernel Design Agents）框架，在 NVIDIA SOL-ExecBench kernel leaderboard L1 单操作赛道排名第一。核心框架包括 KDA、Humanize、Omnigent：Claude 写代码，Codex 审查，agent 自主长时间运行。该工作由 Databricks 与 NVIDIA、MIT HAN Lab 合作完成。

OpenClaw🦞@openclaw · 3小时前29

Thank you, @colinsolvely, for helping move the needed iOS and Android UI improvements forward with this post. We want to meet this feedback in the same spirit. Please share what is not working here or in Discord so the team can listen, respond, and turn that feedback into improvements.

译OpenClaw 项目官方发推感谢 @colinsolvely（Colin）推动 iOS 和 Android UI 改进，并鼓励用户继续在 X 或 Discord 反馈问题。Colin 在引用推文中自我介绍，称自己是负责 OpenClaw iOS UI 的志愿者维护者，时间有限但热衷移动端 AI 智能体，坦承 UI 有问题并接受批评，邀请大家在 Discord 对话，共同改进。双方强调社区共建。

jason@jxnlco · 3小时前54

Let’s fucking go

译开发者 @vig_xyz 分享了其使用 Codex 自动化多种工作流程：读取邮件并根据内容在 Google Drive 起草提案；自动生成合同修订建议，经律师确认后通过 computer use 填入 DocuSign；监听 Slack 反馈频道来自动修复 Bug；通宵编写单元测试以实现 100% 代码覆盖率；在 worktrees 上并行启动 6 个线程，使 PR 可独立合并。他表示难以想象回到 IDE 甚至 vim。

Runway@runwayml · 3小时前60

Introducing Agent Skills. Build an ad campaign, create a commercial, localize your ads and more with a simple command. Type /, choose a Skill and Agent gets to work. Scale your marketing. On command. Get started at the link below.

译推出 Agent Skills。通过简单命令即可构建广告活动、创建商业广告、本地化广告等。输入 /，选择一项 Skill，Agent 便开始工作。规模化你的营销。一键执行。请通过下方链接开始使用。

🚨 AI News | TestingCatalog@testingcatalog · 4小时前63

Vellum has launched agent-to-agent communication in Slack, where each person runs their own assistant. > Each assistant carries their own user's history, preferences, and context. > Assistants can split tasks, negotiate dates, and gather input from the team. > Permissions stay isolated by default, shared only when a task needs it. AI coworkers that work autonomously are here!

译Vellum 在 Slack 中上线智能体间通信功能，每个智能体独立携带用户的历史记录、偏好和上下文。多个智能体可以拆分任务、协商日期、从团队收集输入，权限默认隔离，仅在任务需要时共享。测试中，两个智能体在一天内为 19 人的团队完成了 offsite 活动规划。该功能旨在实现自主协作的 AI 同事。

Ethan Mollick@emollick · 4小时前48

Fable: "you have Unity and access to MCP. I want you to build a game that is a unique twist on a FPS. You want the player to say "wow" & "so clever" and to enjoy the core gameplay loop" WebGL: https://swapshot-void.netlify.app/ * It had no assets so the graphics are procedurally generated

译Fable：“你有 Unity 和 MCP 的访问权限。我要你构建一个游戏，它是 FPS 的独特变体。你要让玩家说‘哇’和‘太聪明了’，并享受核心玩法循环” WebGL: https://swapshot-void.netlify.app/ * 它没有资产，所以图形是程序生成的

elvis@omarsar0 · 5小时前48

On top of it all, the PaperWiki automatically generates and maintains survey papers on all the AI topics I am interested in. All up-to-date. There simply doesn't exist anything like it. Just insanely useful.

译Elvis Saravia（DAIR.AI）分享了其构建的 PaperWiki——一个由 LLM 和代码智能体自动维护的知识库，用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文，存储于 Obsidian 并用 qmd 索引，支持全文和语义搜索。设有每日更新自动化，结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一，可帮助去噪、发现高质量论文，并计划开源相关组件（含 HTML artifact）。

elvis@omarsar0 · 5小时前53

LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuable applications of AI today. It's about being intentional in building and scaling your intelligence stack. To showcase this, I wanted to share an LLM Wiki I have built over the last couple of months. It's called PaperWiki, and I use it across all my research workflows, along with my research agents. In fact, I also use it to curate papers I share with my communities, newsletter, and on X. The PaperWiki is updated regularly with automations, so I basically have agents on a loop maintaining it. All the entries are ingested from different sources and stored in a vault (Obsidian) and further indexed using qmd. And then further presented via an HTML artifact. So all of it is easily accessible to all my agents and easily searchable through full-text search and rich semantic search. The structure of the wiki has proven significantly useful to start interesting and exciting cutting-edge research projects with my research agents (from building tiny and more efficient gpt/difussion llms to building out SoTA harnesses and memory systems). It turns out that agents love markdown files and can more easily navigate the papers given the rich metadata structure of the wiki. I am just getting started on this, but it's clear to me that we should all be experimenting with LLM Wikis. Here's why: Building LLM knowledge bases gets you into the habit of leveraging AI outputs in all kinds of creative ways. It's the good kind of tokenmaxxing we should all be pushing for. LLM Wikis can be maintained automatically in a loop. I use an automation that updates the wiki every day based on papers I curate. The curation is another automation I run in a loop (with a bit of human in the loop), so I get to build on all my previous knowledge and expertise, and all of it compounds the deeper the integration/layers. One interesting result of this process is that I feel like I can better spot high-quality papers and remove noise more easily. Social media could never solve that. And most paper aggregators use metrics I simply don't trust. I like that agents can help with the noise vs. signal problem. This is important for research. Lots of people consider agents to produce mostly slop. But it doesn't have to be that way. Careful curations, prompts, automations, verifiers, and human-in-the-loop can produce some astonishing results. And you really don't need frontier models for this. I use a combination of frontier models (opus-4.8) and open-weight models (deepseek-v4-flash) to maintain this. An exciting future work (we are working on this @dair_ai) is to tune specialized models on top of this to allow LLMs to quickly understand cutting-edge research ideas and can better conceptualize research strategies that further accelerate scientific research agents. I plan to open-source a bunch of this work, including the artifact, but this is currently work in progress, and I was excited to share some thoughts as I continue working on it. Sharing more as I go. Stay tuned!

译DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki，这是一个基于 LLM 和编程智能体的知识库，用于研究工作流。它通过自动化每日更新，从多个来源摄入论文并存入 Obsidian，使用 qmd 索引，以 HTML artifact 呈现，支持全文和语义搜索。Saravia 使用前沿模型（opus-4.8）和开放权重模型（deepseek-v4-flash）混合维护，并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。

Ethan Mollick@emollick · 6小时前49

Fable in Claude Code is capable of really amazing things, including for non-coders, but the interface is not really designed for managing 5+ hour long autonomous tasks. Really hard to observe what is happening and intervene in real time, you often have to wait until the outputs.

译Fable in Claude Code 确实能做到非常惊人的事情，包括非程序员也可以用，但界面并不是为管理5小时以上的自主任务而设计的。很难实时观察发生了什么并干预，你经常必须等到输出。

jason@jxnlco · 6小时前15

About to use codex computer use to control my iPhone via screen mirroring check find my to see who’s around me and texts them.

译即将使用 codex computer use 通过屏幕镜像控制我的 iPhone，查看 Find My 了解周围有谁并给他们发短信。

elvis@omarsar0 · 7小时前67

// AutoMem // I quite like this idea of metamemory. (bookmark it) This new research from Stanford treats agent's memory management as a trainable skill instead of a fixed module. The model decides what to encode, when to retrieve, and how to organize its own notes, with file-system operations promoted to first-class actions right alongside task actions. AutoMem automates this on two loops. A strong LLM reviews full trajectories and rewrites the memory structure (prompts, schemas, action vocabulary). Then the agent's own good memory decisions across episodes become training signal to sharpen its proficiency. Optimizing memory alone, without touching task-action behavior, lifts the base agent 2x to 4x on Crafter, MiniHack, and NetHack. That is enough to make a 32B open model competitive with Claude Opus 4.5 and Gemini 3.1 Pro Thinking. For long-horizon agents, memory is a high-leverage objective you can train for on its own. Paper: https://arxiv.org/abs/2607.01224 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译斯坦福大学提出 AutoMem，将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式，文件系统操作升级为一级动作。AutoMem 采用双循环机制：强 LLM 审查完整轨迹并重写记忆结构（提示词、模式、动作词表）；同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆（不改任务动作），便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升，使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文：arxiv.org/abs/2607.01224。

Chubby♨️@kimmonismus · 7小时前43

Instead of treating AI like an isolated 1-on-1 chatbot window, I’ve been using @Bloome_im to run my content workflows. It is a shared workspace where humans and multiple AI agents sit inside the exact same group chat to actually get a complex job done. I used their one-click template connection to spin up a specialized creative team. The biggest shift here is that the agents actively check each other's work instead of just agreeing with me: -The @ Writer drafts the initial video essay structure. -The @ Audience agent immediately pushes back to critique the pacing and rewrite boring segments to keep viewer retention high. -The @ Art Director pulls everything together into a visual markdown report and thumbnail design concept right inside the chat window. This is an awesome tool for creators, marketers, and operators who want to transition from writing rigid text prompts to managing an actual human-agent team. Check this out:

译Kim (@kimmonismus) 介绍利用 Bloome 替代传统一对一 AI 聊天窗口，将其作为共享工作空间，让人类与多个 AI 智能体在同一群聊中协同完成内容工作流。通过一键模板创建创意团队，关键特点是智能体主动互相审核而非仅附和用户：Writer 起草视频论文结构，Audience 即时批评节奏并重写枯燥部分以维持观众留存，Art Director 在聊天窗口内整合视觉 Markdown 报告和缩略图设计。适合希望从编写固定提示词转向管理“人+智能体团队”的创作者、营销人员和运营人员。

Replit ⠕@Replit · 7小时前56

Fable 5 is back on Replit! Especially great for longer, harder projects. Toggle on High effort mode in Replit Agent and try it today on your toughest builds!

译Fable 5 已回归 Replit！尤其适合更长、更困难的项目。在 Replit Agent 中开启 High effort 模式，立即在你最艰巨的项目上尝试吧！

数字生命卡兹克@Khazix0918 · 8小时前63

看着Claude fable 5为了解决问题，自己去火山引擎上提交工单然后跟火山的工程师交流给我看懵逼了。。。。

译看着Claude fable 5为了解决问题，自己去火山引擎上提交工单，然后跟火山的工程师交流，给我看懵了。。。。

Meituan LongCat@Meituan_LongCat · 9小时前51

🙌 LongCat in Action Turn any business question into a full data report— automatically. Community user silenceallat built an AI SQL Agent on LongCat-2.0 — one question in, full business report out. Zero SQL. Zero human intervention. 🚀 LongCat-2.0 just launched — limited-time offer: https://longcat.chat/platform/product?region=oversea 📺 Watch the video on YouTube: https://youtu.be/d2RUvQw-xfk 🤖 Join our Discord for support, feedback, and community discussion：https://discord.gg/jmuv5TQzKU

译🙌 LongCat in Action 将任何业务问题自动转化为完整的数据报告—— 社区用户 silenceallat 基于 LongCat-2.0 构建了一个 AI SQL 智能体——输入一个问题，输出完整的业务报告。零 SQL。零人工干预。 🚀 LongCat-2.0 刚刚发布——限时优惠：https://longcat.chat/platform/product?region=oversea 📺 在 YouTube 观看视频：https://youtu.be/d2RUvQw-xfk 🤖 加入我们的 Discord 获取支持、反馈和社区讨论：https://discord.gg/jmuv5TQzKU

fofr@fofrAI · 9小时前42

The more I talk with agents, the better I get at compressing my intent into minimal tokens. I'm learning claudish accidentally.

译我越与AI智能体交谈，就越擅长将意图压缩成最少的模型token。我无意中学会了Claudish。

AYi@AYi_AInotes · 9小时前54

Damn！网页设计师的护城河，一夜之间又塌了一块。只用 Claude Code 加 Sonnet 5，十八分钟就能做出获奖级的完整网站，从设计感到代码完成度全部拉满。以前我们总说 AI 做的东西有模板味，上不了台面，现在模型的 Agent 能力上来之后，复杂的多步设计任务也能稳定落地，质感和完成度都跨过了专业门槛。我觉得未来倒不是说AI 一定会取代设计师，而是说以后不会用 AI 的设计师会先被会用的同行甩开一大截，因为执行层的价值正在快速坍缩，审美和判断才是接下来真正的硬通货。 https://x.com/viktoroddy/status/2072290912085123326/video/1

译推文指出，使用 Claude Code 加 Sonnet 5 仅 18 分钟就能做出获奖级的完整网站，设计与代码完成度均达到专业水准。Agent 能力提升后，复杂多步设计任务可稳定落地，质感跨越专业门槛。未来不会用 AI 的设计师将被会用的同行甩开，执行层价值加速坍缩，审美与判断力成为真正的硬通货。

meng shao@shao__meng · 9小时前52

三次 LLM 交互范式： 1. 网页聊天机器人 2. 独立 AI 应用 3. 组织内嵌式 AI（Claude Tag、Glean Agents） Claude Tag 的核心变化 · 从“每人一个 AI”到“每个频道一个 AI”：团队共享同一个代理实例，上下文连续、可接力 · 从“被动响应”到“持续参与”：它记住讨论、跟进沉默线程、在频道中长期在场为什么 channel-level 不够组织知识分散在 Jira、Confluence、GitHub、Slack 历史里。只读一个频道，Agent 会缺失大部分上下文。真正的难点是构建跨系统、带权限、实时更新的组织上下文层。生产级独立 Agent 的四个支柱（Glean） 1. Identity Agent 有自己的身份、权限和工具访问，不同职能可配置不同 Agent，所有操作可追溯。 2. Memory 学习企业 runbook、SOP，并从每次交互中纠错和强化，积累机构知识。 3. Proactivity 不等待提示，主动监控、标记、跟进、执行。 4. Accountability 每个工具调用和决策可见、可解释，并具备一键关停的“紧急停止”能力。实践示例：OnCall Assistant 告警触发后，Agent 同时读取 PagerDuty、Jira、Confluence、GitHub、Slack，并行排查多个根因、起草修复、标记负责人。工程师打开电脑时，调查已完成。

译邵猛总结LLM交互三阶段：网页聊天机器人、独立AI应用、组织内嵌式AI。Claude Tag实现从“每人一个AI”到“每个频道一个AI”，团队共享代理实例，上下文连续可接力；从被动响应转向持续参与，跟踪线程并长期在场。Glean Agents提出生产级独立Agent四支柱：Identity（独立身份与权限）、Memory（学习企业SOP并迭代纠错）、Proactivity（主动监控与执行）、Accountability（工具调用可追溯，含紧急停止）。实践示例OnCall Assistant在告警触发后并行读取PagerDuty、Jira、Confluence、GitHub、Slack，自动排查根因并标记负责人。

meng shao@shao__meng · 11小时前79

AI 视频剪辑 Skill 分享「video-use」 https://github.com/browser-use/video-use @browser_use 团队推出的开源 Skill，定位为面向 AI Coding Agents（Codex、Claude Code、Cursor、Hermes Agent 等）的视频剪辑 Skill。它不做传统意义上的 Premiere / CapCut 替代品，它是一套让 LLM 通过 “阅读转写文本 + 按需可视化” 来理解视频、并调用 ffmpeg 等工具完成剪辑的 prompt-engineering + 工具脚本集合。 # 核心思想：LLM 不“看”视频，它“读”视频第一层：音频转写文本（always loaded）通过 ElevenLabs Scribe 获得逐词时间戳、说话人分离、音频事件标记（如笑声、叹息、掌声），打包成约 12KB 的 takes_packed.md。这是 LLM 的主要“阅读材料”。第二层：视觉时间线视图（on demand）仅在决策点（歧义停顿、重拍对比、切点校验）调用 timeline_view.py 生成胶片帧 + 波形 + 字幕的 PNG 复合图。对比朴素方案“30000 帧 × 1500 tokens = 4500 万 tokens 噪声”，项目走的是 “12KB 文本 + 少量 PNG” 的轻量化路径。这与 Browser Use 让 LLM 读结构化 DOM 而非直接看截图的思路一致。 # 技术流水线：Transcribe → Pack → Reason → EDL → Render → Self-Eval 1. 转写 - transcribe. py / transcribe_batch.py 提取 16kHz 单声道音频，调用 ElevenLabs Scribe，缓存为 transcripts/<name>.json 2. 打包 - pack_transcripts.py 将逐词 JSON 合并为按 0.5s 静音或说话人切换断句的 takes_packed.md 3. 决策 - LLM 自身阅读 packed transcript，必要时用 timeline_view.py 可视化 4. 生成 EDL - subagents 输出 JSON 格式 edl.json，包含源文件、切点、节奏标签、引用、原因 5. 渲染 - render. py 分段提取 → 无损 concat → 叠动画 → 压字幕 → 响度标准化 6. 自评估 - timeline_view.py + LLM 在输出文件的每个切点 ±1.5s 检查跳帧、爆音、字幕遮挡，最多 3 轮 # 关键工程细节： ffmpeg 为主的剪辑实现 1. 分段提取 + -c copy 拼接（避免叠 overlay 时二次编码） 2. 每段边界 30ms 音频淡入淡出（消除切点爆音） 3. overlay 使用 setpts=PTS-STARTPTS+T/TB 进行时移，确保动画第 0 帧对齐输出时间线 4. 字幕始终最后叠加（防止被动画遮挡） 5. Master SRT 使用输出时间轴偏移：output_time = word.start - segment_start + segment_offset 6. 切点必须落在词边界，并加 30–200ms 填充以吸收 Scribe 50–100ms 的时间戳漂移 7. HDR 源自动 tone-map（HLG/PQ → Rec.709 SDR） 8. 竖屏源自动按高度缩放 9. 两-pass loudnorm：-14 LUFS / -1 dBTP / LRA 11，符合主流社交平台标准 # 动画与包装：多引擎并行 1. HyperFrames：HTML/CSS/GSAP compositions，适合产品 UI、网页转视频、动态排版 2. Remotion：React 组件化 compositions 3. Manim：数学/技术/3Blue1Brown 风格解释动画 4. PIL + PNG sequence + ffmpeg：简单卡片、计数器、打字效果 # SKILL.md 的 12 条“铁律”：生产正确性优先 1. 必须遵守的 12 条硬规则：字幕最后、分段提取再拼接、30ms 淡入淡出、PTS 时移、SRT 输出时间偏移、不切在词中、切点填充、逐词 ASR、缓存转写、并行动画、先确认策略再执行、输出在 <videos_dir>/edit/ 2. 其余全部是可调整的“worked example”：调色风格、字幕分块、动画时长、节奏等都可按材料和用户品牌定制

译browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + `-c copy` 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

eric zakariasson@ericzakariasson · 12小时前66

http://x.com/i/article/2072636402521583616 # Fable is back, here's how I use it in Cursor Fable is back in Cursor, and here's a pattern I've been exploring and some other ways I've been getting the most out of the model. ## Fable as orchestrator, Composer as workers It's easy to put everything on a smart model. Most of an agent run is reading files, writing patches, and running checks, and you don't need Fable rates for that. Instead, let Fable decide the subtasks, the order, and whether the result is done. Composer 2.5 does the scoped pieces, cheaper and faster, and can run them in parallel. Most of my chats are short Composer runs. Fable shows up less often, but those runs go longer. You can put the routing in AGENTS.md or a .cursor/rules-rule so the orchestrator agent can use it. A good brief has: - one concern - enough context that the worker doesn't re-explore the whole repo - a definition of done it can check on its own - a short report so the orchestrator can decide quickly Fable alone still makes sense when the judgment is the work, whether that's a hard design call, a gnarly bug that needs one coherent thread, or a plan that has to stay coupled. If you can't name the subtasks, keep it one agent! ## Long horizon cloud agents The use case I reach for most is ultra long horizon work on Cloud Agents. A long refactor, a multi-surface feature with a real definition of done, an investigation across a big codebase. I hand it to Fable, give it something it can check itself against, and let it run. I check in from the iOS app for status, a look at what it's doing, a nudge if it's drifted. ## Keeping up with the frontiers If you only ever run one model, you start mistaking its habits for the ceiling of what agents can do. The frontier also moves every few weeks. Rotating is how I keep "what good looks like" current, from real work rather than benchmarks.

译Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器（orchestrator），将子任务分派给 Composer 2.5 并行执行，仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体（Cloud Agents）模式，用于长期重构、多端功能或跨代码库调查，通过 iOS 应用监控并适时干预。作者还建议轮换不同模型，以保持对前沿能力的认知。

向阳乔木@vista8 · 12小时前56

想偷懒，不在乎操作时间，Computer Use是真方便。 1. 跟 Raycast AI对话，让推荐值得关注的 AI 播客。(Codex里也行，习惯了) 2. 打开Codex，@ Computer Use，中文叫“电脑”，说： “帮我打开youtube订阅这些播客：【播客推荐文本】” 等几分钟就全订阅了，科技让人懒惰，哈哈！

译用户分享利用 Computer Use（中文名“电脑”）功能自动订阅 YouTube 播客的流程：先与 Raycast AI 对话获取值得关注的 AI 播客推荐，然后在 Codex 中通过 @Computer Use 指令输入推荐列表，等待数分钟即可完成全部订阅，实现“偷懒式”自动化操作。

AYi@AYi_AInotes · 13小时前61

刚盘完上半年副业账，拢共赚了20w出头，有点感慨，很最深刻的感受是，AI真的是咱们普通人这辈子少有的公平杠杆。以前能赚大钱的杠杆，不管是资本、人脉还是拉团队，门槛都高的离谱，普通人根本摸不到边。 AI的门槛真的低到地板上——你只要会问对问题、肯沉下心动手做，就能用。但也跟大家说句掏心窝子的，我能拿到这个结果，本质上就是把执行力这个普通人唯一能攥在手里的资产，靠AI放大了10倍而已。因为肯定会有很多人来问，怎么做到的，这里必须跟大家说实话：AI其实只是放大器，并不是那核心的那个发动机。 AI放大的是我本来就有的判断力、审美、攒了很久的手上的本事，比如我AIGC作图好看，跟我之前玩了10多年摄影有关系，换句话说，一模一样的工具摆在所有人面前，90%的人刷到了玩两天看个新鲜就扔了，我能靠它接商单赚钱，差别从来不在AI，在我自己身上。所以大家也真的别再把「会用AI」当什么核心护城河了，这个信息差消失的速度比所有人想的都快，我觉得最多两三年，会用AI就跟现在会用Office一样，是找工作的基本标配，根本算不上什么优势。我自己心里也很清楚，现在赚的说白了还是行业早期窗口期的钱。要是一直守着「接单→交付→再接单」的模式转，本质上还是在卖自己的时间，只是单价比以前高了点而已。真正的翻身我理解不是现在银行卡上多了20w数字，更重要的是要慢慢把窗口期赚来的快钱，换成真正属于自己的长期资产：从卖时间，到卖产品，再到卖属于你自己的影响力。最近一个月发推都划水了，也不熬夜搞选题和内容创作了，一方面是自己已经把整个飞轮跑通了，对创作者收益祛魅了，不执着流量和粉丝增长了，还是还回归生活和主业工作，跟大家共勉。关于副业赚钱，其实有很多途径，成本也很低，比如下方帖子提到的营销领域的Codex真的是一个很好的AI产品，用好了有很多变现的方式和途径，可惜没时间做哈哈。

译作者用AI副业赚20万，感悟AI是普通人的公平杠杆，但核心是个人判断力与执行力。引用的推文介绍营销垂直Agent「Lev8」，在找海外客户场景中，有效结果量90个（Exa 58.2，Codex 20），匹配精度83.3%（Exa 76.5%，Codex 71.8%），单条成本$0.052（Exa $0.061）。Lev8聚合50+实时数据源和10亿+职场人脉，自动监测融资/招聘等商机，生成定制破冰文案，支持五渠道一键发出。

Alibaba Cloud@alibaba_cloud · 13小时前35

At Flink Forward Asia Shenzhen 2026, Vicki Liu (Alibaba Cloud), Junhua Wang (Alibaba Cloud), Xiwen Zhu (Anker Innovations), and Bojie Li (AI Researcher) shared a unified vision for the Agent era. Agents are rewiring the relationship between data and AI, demanding an integrated infrastructure that unifies compute, data platforms, and real-time processing. This foundation enables AI to operate autonomously on independent tasks and powers a self-sustaining data flywheel where business decisions continuously generate new data to refine agent strategy. #AlibabaCloud #ApacheFlink #ApachePaimon #DataAI #AI #Agent #RealTimeData

译在Flink Forward Asia 2026深圳大会上，阿里云Vicki Liu、Junhua Wang，Anker Innovations的Xiwen Zhu及AI研究员Bojie Li共同提出Agent时代的统一愿景：Agent正重新连接数据与AI，需要集成计算、数据平台与实时处理的统一基础设施，使AI能自主执行独立任务，并形成自维持的数据飞轮——业务决策持续生成新数据以优化Agent策略。

Berryxia.AI@berryxia · 14小时前37

一般小任务，Agent足够聪明，一句话就够了。

Ethan Mollick@emollick · 18小时前43

Been reading all sorts of posts about the best ways to develop workflows for Fable and it reminds me of how little we actually know about the best ways to organize work for long-running agents. Nobody has enough experience or has done enough testing to reach any real conclusions.

译我一直在阅读各种关于为Fable开发工作流最佳方式的帖子，这提醒我，我们对长期运行智能体的最佳工作组织方式知之甚少。没有人有足够的经验或做过足够的测试来得出任何真正的结论。

Ethan Mollick@emollick · 18小时前72

My one serious piece of advice having used Fable a bunch before release is that, unless you are careful it develops its own internal bizarre cadence & dialogue over long tasks. If you aren't asking it report in plain language, this starts to creep into everything, including menus

译Ethan Mollick 提醒，Fable 在长时间任务中会发展出独有的内部节奏和对话模式，其多个 agent 与任务相互强化，使得 "Claudish" 语言越来越 "Claudish"。若不主动要求它用 plain language 报告，这种怪异风格会渗透到包括菜单在内的所有输出中。

歸藏(guizang.ai)@op7418 · 20小时前71

http://x.com/i/article/2072507922257723392 # 能帮你做 Live Photo 了！藏师傅社交卡片 Skill 重磅更新前段时间我做了一个 guizang-social-card-skill（https://github.com/op7418/guizang-social-card-skill）。它原来主要解决静态图文的问题: 把文章、产品说明、截图、照片这些素材，做成小红书 3:4 图文卡片，或者公众号封面。这次给它补了一个新能力: Live Photo 生成和编辑。你可以把产品录屏、网页 Demo、游戏片段、生活素材交给 Agent，让它做成小红书或公众号文章里能用的动态卡片。看一下 Codex 基于藏师傅的这个 Skills 给这次更新做的宣传视频：我一开始以为这只是“把视频放进卡片”。实际在实践和做的过程中，发现要处理的事主要有三个: - 第一帧要能当普通图发出去。 - 3 秒或 5 秒里只能讲一个很小的动作。 - 用户最后要能真的传到手机上发布，不能只停留在本地 Demo。所以这次更新不只是在导出 MOV 视频和 Live Photo。它还补了素材判断、首帧检查、平台时长和发布路径这些环节。 ## 这次能做什么单视频动态卡片：适合产品录屏、网页生成结果、代码运行、游戏操作。 Skill 会先按 3:4 卡片做版式，确认第一帧能看，再生成动态版本。拼图式 Live Photo：适合素材本身好看的内容: 旅行、产品细节、美食手作、生活方式。可以做成单视频、二宫格、三宫格、四宫格。很多时候不用加字，画面自己就够了。三连 Live Photo：适合三个并列结果: 三个生成案例、三个产品状态、三个游戏片段。这里的重点是“并列”，不适合把一个长教程硬拆成三段。长视频筛选：用户手里的素材通常不是刚好 3 秒或 5 秒。 Skill 会先粗看视频信息量，再建议裁一段、加速、拆成三连，或者放弃 Live Photo。很多工具喜欢说自己能“自动找高光”。我现在更愿意保守一点。自动选错以后，常见问题很难救: 第一帧黑屏、滚动跨了两个页面、UI 字太小、结果画面还没出现。 ## 怎么用比较合适先准备视频素材。不需要精剪到很漂亮，但最好别太长。每段 10 秒左右比较舒服。太长的视频会消耗更多 token，也更容易让 AI 误判重点。比较推荐的方式: 1. 先把原视频粗剪成几段。 1. 每段只保留一个重点。 1. 让 AI 判断哪一段适合做 Live Photo。 1. 再决定做单视频、拼图，还是三连。可以直接这样说: 帮我把这段产品录屏做成小红书 Live Photo 第一张卡，重点突出生成结果。或者: 这段视频有点长，先帮我判断哪一段适合做 Live Photo。完整教程不建议塞进 Live Photo。教程还是适合拆成 5-9 张图文卡片。 Live Photo 只放最需要动一下才说得清的那一页: 按钮点击后的结果、生成完成瞬间、游戏动作成功、食物切开的变化。比如我前段时间给这些模型做的测试，在演示生成的网页效果时，就是一张图对应一个案例。另外，陈抱一还有一个 Live Photo 开箱的栏目也可以看看，他一次只做一个动作，只展示这个产品的一个细节。 ## 适合哪些场景产品更新和 AI 工具演示：静态截图只能说明界面长什么样。Live Photo 可以展示点下去以后发生了什么。生成网页、生成代码、生成图片，只放静态图总有点像摆拍。这类素材里还有一种很常见: 原始录屏信息太小，手机上看不清。比如这类原始视频的 token 显示区域比较小。这里可以让 Skill 自动把关键区域放大，只保留用户真正需要看的部分。游戏攻略路线、timing、动作节奏、击中瞬间，很多时候截图讲不清。Live Photo 适合放一个关键动作，不适合讲完整攻略。游戏素材也适合做全屏动态卡。它不一定需要额外排版，只要把画面裁到合适比例，保留动作完成的那几秒。教程技巧不需要每一步都动。把最容易出错、最需要看到过程的一步做成 Live Photo 就够了。如果原来就是一套多图教程，Live Photo 可以只放在第一张或关键页。其他静态页继续负责解释、拆步骤、放细节。这样不会把一整套图文都改成视频，也不会打乱原来的阅读节奏。旅行和生活方式有些照片很好看，但少一点现场感。到达、走动、开门、转身，这些小动作会让图文更像真人内容。这类案例不需要太重的文案。一个开门、走动、拿起物品的片段，就能让图文从“设计图”变得更像真实记录。美食、手作、产品种草倒入、切开、搅拌、组装、旋转、开合，这些天然适合 Live Photo。它们不需要复杂文案，看见变化就够了。如果同一主题下有几个短片段，也可以做成拼图。二宫格、三宫格、四宫格都适合这类素材。重点是让多个片段同时提供质感，而不是给每个格子都加说明。判断标准很简单: 运动有没有提供证据。如果运动只是装饰，静态卡片更干净。 ## 做这个功能时我加入的细节第一帧要先过关：Live Photo 在信息流里先显示的是静态图。第一帧如果不好看，后面会动也没用。所以现在流程里会先抽首帧，当普通 3:4 卡片检查一遍: 裁切对不对，主体有没有被切掉，标题会不会挡住关键区域。视频当成图片位处理：视频不能随便全屏塞进去。视频区域沿用图片裁切逻辑：UI 密集就保留完整画面，主体明确就放大重点，人脸、产品、按钮、结果区不能被压住。先看 contact sheet：长视频不适合一帧一帧看。更省事的方法是抽 8-15 帧拼成一张 contact sheet。看一张图，基本就能知道有没有黑屏、转场、UI 太小、结果没出现这些问题。平台时长要分开：小红书按 5 秒做。公众号文章内按 3 秒做。时长不同，能承载的信息量也不同。3 秒只适合一个动作点，5 秒可以放一个很小的过程。发布路径要提醒清楚：Live Photo 最后不能只给一个视频文件。实际测试和发布时，需要把 JPG + MOV 打包成 .pvt，再 AirDrop 到 iPhone，从手机端发布。桌面端上传不一定能保留 Live Photo。这些细节不显眼，但少了任何一项，成品都可能停在本地测试里。 ## 为什么 Live photo 值得做图文平台里的“图”现在有点尴尬。静态图表达力有限。短视频制作成本又高。很多内容卡在中间: 不值得剪成视频，只用静态图又少一点说服力。 Live Photo 刚好补这个空位。用户还是在做图文，只是其中一张图多了一点运动。我觉得它有用，是因为很多内容需要一点动态证据：产品运行、网页生成、动作完成、食物切开。从 Skills 的角度看，这次更新中的实践需要注意：一个 Skill 不能只写触发词，还得写清审美、边界和工作流。当用户给一段视频素材时，AI 不只负责导出文件。它还要判断这段素材该不该动、动哪一段、放在哪张卡里，以及怎么让它仍然像一张能发出去的社交卡片。这类判断越多，Skill 就越不像一段 Prompt，越像一个可以复用的生产流程。 ## 怎么开始用如果你还没用过这个 Skill，可以直接把下面这段话发给有 shell 权限的 AI Agent: 帮我安装 guizang-social-card-skill。阅读 https://github.com/op7418/guizang-social-card-skill 项目的 Readme 后安装，安装完成后检查 SKILL.md、assets/、references/ 是否存在。如果你之前已经装过，可以直接让 AI 更新: 帮我更新 guizang-social-card-skill。请进入 ~/.claude/skills/guizang-social-card-skill 执行 git pull，然后告诉我当前最新 commit。更新完以后，你就可以把文章、截图、照片或视频素材丢给 Agent，让它生成小红书图文、公众号封面，或者这次新增的 Live Photo 卡片。我觉得这次更新对你有帮助的话，可以帮我点个赞或者转发给你需要的朋友。

译歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

歸藏(guizang.ai)@op7418 · 20小时前9

感觉今天都没什么动静，是不是都在蹬 Fable 5 啊？我早上起来第一件事，就是找了一个巨大的任务直接塞给他，让他自己跑了

Berryxia.AI@berryxia · 21小时前21

昨天很多人问这是啥工具？叫Bloome，我用了几个月了吧。应该是全平台支持，win Mac ios 都有，网页应该也行。现在的使用习惯是将看到项目和产品直接丢给他，帮我看看是否可以在运行或者解析等。很方便，如果可以就直接调用我本地的cc或者codex进行干活。不需要额外动手干啥的，真的丝滑。

译Berry Xia 分享个人长期使用的工具 Bloome，支持 Windows、Mac、iOS 及网页端。用户将项目和产品链接丢给 Bloome，它能自动判断是否可运行或解析，然后直接调用本地的 Cline 或 Codex 执行任务。引用推文补充，该工具接入了小米的 mimo 模型，可实现听说读写、下载视频、剪辑等功能，体验优于多数 Agent。作者强调这不是广告。

Yuchen Jin@Yuchenj_UW · 21小时前38

Databricks ranks #1 on NVIDIA’s SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kernel Design Agents) 🎉 What’s crazy is: we 100% leveraged AI agents to beat the competition. This is a sneak peek at recursive self-improvement. The core frameworks we used were KDA, Humanize, and Omnigent: Claude writes code, Codex reviews. Together, they enabled agents to run autonomously for as long as possible. The key is setting up the right framework to let the agents cook. This work was driven by @leshenj15 at Databricks, in collaboration with NVIDIA and MIT HAN Lab’s @LigengZhu and @DongyunZou03 . Databricks AI is like a neolab. Join us if you’re cracked!

译Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一，完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent：由 Claude 编写代码，Codex 审查代码，实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导，并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。

小互@xiaohu · 21小时前56

大概是这种效果 Claude code 副屏痛点是每次CC回答大段文字内容的时候太密集，看起来很费劲，或者给我方案的时候不太容易理解副屏可以将CC的回答直接转换成直观的页面给你展示，这样你能瞬间理解和预览答案还可以交互进行数据回传

译@xiaohu 开发了一个 Claude Code 副屏工具，解决 CC 回答大段文字时密集难读的问题。副屏将 CC 的回答直接转换成直观页面展示，让用户能快速理解和预览答案，并且支持交互式数据回传。

Alibaba Cloud@alibaba_cloud · 21小时前53

Stuck in manual Agent Evals? Alibaba Cloud AgentLoop builds a self-evolution flywheel: ✅ Full-stack Trajectory Observability ✅ Auto Dataset Pipeline (Trace2Dataset) ✅ Agent-as-a-Judge (90% consistency) ✅ Memory/Experience Libraries Make Agents smarter, faster & cheaper. Join Beta! 🚀 https://int.alibabacloud.com/m/1000415066/ #AI #AgentLoop #LLMOps #GenAI #AlibabaCloud

译还在手动进行Agent评估？阿里云AgentLoop构建了一个自我进化飞轮： ✅ 全栈轨迹可观测性 ✅ 自动数据集管道（Trace2Dataset） ✅ Agent-as-a-Judge（90%一致性） ✅ 记忆/经验库让Agent更智能、更快、更便宜。加入Beta版！ 🚀 https://int.alibabacloud.com/m/1000415066/ #AI #AgentLoop #LLMOps #GenAI #AlibabaCloud

meng shao@shao__meng · 22小时前77

Skills for Design Engineers 作者 @emilkowalski 是知名设计工程师，曾在 Vercel、Linear 工作，也是 Sonner、Vaul 等流行组件的创建者。他把多年积累的一套 UI/动画原则，沉淀成设计工程师们的设计品味 Skills，让 Codex、Claude Code、Cursor 等 Coding Agents 在写 UI 和动画时，具备接近资深设计工程师的审美判断！ https://github.com/emilkowalski/skills 仓库结构：三个相互补充的 Skills 1. 先建立决策框架（emil-design-eng）主 Skill：设计工程哲学 + 动画决策框架 + 组件构建原则 2. 再审查代码（review-animations） · SKILL.md 以严格标准审查动画/动效代码，输出“Before/After/Why”表格 · STANDARDS.md 评审的数值/曲线参考表（easing、duration、spring 等） 3. 最后帮助用户精准描述动效（animation-vocabulary）词汇表：把“那个弹一下的效果”翻译成“Pop in”等专业术语核心主张：动画不是“让它动起来”，而是“让它感觉对” 1. 动画需要理由每条动画都必须回答一个问题：“它为什么要动？” 合理理由： · 空间一致性（toast 从同一方向进出） · 状态指示（按钮变形表示加载完成） · 解释关系（引导用户理解状态变化） · 防止突兀（元素突然出现/消失） · 反馈（按下按钮时 scale(0.97)）不合理理由： · “看起来很酷” + 高频出现 → 应该删除 2. 按使用频率决定动画强度 · 每天 100+ 次（快捷键、命令面板）：禁止动画 · 每天几十次（hover、列表导航）：删除或大幅简化 · 偶尔（弹窗、抽屉、toast）：标准动画 · 罕见/首次（ onboarding、反馈）：可以适当“惊喜” 最实用的技术原则 Easing：不要信默认，要用强曲线 · UI 元素进入/退出 → ease-out · 已在屏幕上的元素移动 → ease-in-out · hover / 颜色 → ease · 恒速运动 → linear · 绝对禁止 UI 动画使用 ease-in（开头慢，用户会感觉到延迟） Duration：UI 动画控制在 300ms 内 · 按钮按下反馈：100–160ms · Tooltip / 小弹层：125–200ms · 下拉框/选择器：150–250ms · 模态框/抽屉：200–500ms Physical correctness · 永远不要从 scale(0) 开始：现实中不会凭空出现。用 scale(0.95) + opacity: 0。 · Popover 从触发点缩放：transform-origin 要指向触发按钮，而不是元素中心（modals 例外）。 · 按钮按下必须有反馈：transform: scale(0.97) 是默认。性能规则 · 只动画 transform 和 opacity（GPU 层）。 · 不要用 width/height/margin/top/left 做动画。 · Framer Motion 的 x/y/scale 简写不是硬件加速的，要用完整 transform 字符串。 · 不要用父元素的 CSS 变量驱动子元素 transform（会引发样式重算风暴）。 · 预定动画用 CSS；动态/可打断的用 JS 或 Spring。打断与对称 · CSS transition 可打断、可重定向；@ keyframes 会从头开始。 · 长按/删除等场景：按下慢（2s linear），释放快（200ms ease-out），非对称时间。无障碍 · 尊重 prefers-reduced-motion：不是“全部关掉”，而是保留 opacity/颜色，移除位移动画。 · hover 动画必须加 @ media (hover: hover) and (pointer: fine)，避免触屏设备误触发。评审 Skill：如何检查代码 review-animations 设定了十条“不可妥协”的标准，并把输出格式严格化为： · transition: all 300ms > transition: transform 200ms ease-out -- 精确指定属性，避免 all 触发非 GPU 动画 · transform: scale(0) > transform: scale(0.95); opacity: 0 -- 不应凭空出现 animation-vocabulary：把模糊感受翻译成专业词这个 Skill 本质上是一个动效术语反向查询表。用户说“iOS 拉到底部会弹回去那种感觉”，它能回答“Rubber-banding”；用户说“元素从按钮里长出来”，它能回答“Origin-aware animation”。它涵盖： · 进出/序列/变换/状态过渡 · 滚动/交互反馈 · Easing / Spring / 循环/环境动画 · 打磨效果（Blur、Clip-path、Skeleton、Number ticker） · 性能术语与动画原则这对设计师和工程师的沟通、以及给 AI 下精确指令，都很有价值。

译Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则：动画必须有理由；每天 100+ 次的高频操作禁用动画；UI 动画控制在 300ms 内；只动画 transform 和 opacity；入口从 scale(0.95)+opacity:0 开始；尊重 prefers-reduced-motion（仅移除位移动画）。review-animations 以严格标准审查动画代码，输出 Before/After/Why 表格。animation-vocabulary 将模糊描述（如“弹一下的效果”）转为专业动效术语。

OpenClaw🦞@openclaw · 22小时前31

Just going to leave this here for the haters.

译主推文只是说“把这段留给喷子”。引用推文中，Colin自我介绍：他是OpenClaw iOS UI的主要贡献者之一，作为志愿者维护者，他接受公开批评。他时间有限但对移动端智能体充满热情。他邀请大家与他对话、指出不足，并加入Discord共同改进。

Greg Brockman@gdb · 23小时前47

Codex for making a personalized daily digest:

译Codex 现在每天早上为我生成一份“日报”，包含未读消息、日历、冲浪报告和新闻。一切能让我直到当天晚些时候都不碰手机的事情都是优先事项。Greg Brockman 表示这是利用 Codex 制作个性化每日摘要的方法。

ginobefun@hongming731 · 23小时前39

http://x.com/i/article/2072460643744223232 # BestBlogs 早报 · 07-02｜本地 AI 补齐工程栈，LongCat 万亿模型落地国产算力，美图讲 AI 应用方法论在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的几篇精讲，恰好指向同一件事：AI 的竞争力正从模型本身，慢慢转移到「把它跑起来」的那一整套工程栈上。 Latent.Space 专访了长期倡导本地 AI 的 Ahmad Osman，他用一个朋友买 RTX 5090 跑 Qwen 3.5、却连显卡 RGB 灯光都改不了的例子说明——本地 AI 缺的从来不是模型，而是搜索、工具、Agent 这一层完整的基础设施。美团技术团队把 LongCat-2.0 这个万亿参数 MoE 模型在五万卡国产算力集群上的训练与推理全流程拆开来讲，从稳定性、正确性到效率，是一份少见的工程实录。美图 CEO 吴欣鸿则从应用层切入，讲一家 2000 人的公司如何用「自然生长」而非「提前策划」的方式，在影像赛道持续跑出 ARR 接近 50 万美元的 AI 产品。三篇文章放在一起，恰好覆盖了「基础设施—模型—应用」这条链路，读的时候建议连着看，对照着会更有感觉。其余几篇多是 Agent 工程与组织转型的实操：Google ADK 2.0、RAG 上下文工程、高德 GrowLoop、AWS 迁移 PaaS、人机交互设计原则，以及出门问问从「超级个体」到「超级组织」的转型。可挑感兴趣的看。 ## ★ 精讲一：Ahmad Osman 谈本地 AI 为何正在追赶对不太关注本地 AI 的读者，先补一句背景：Ahmad Osman 是 Osmantic 的创始人，过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年的 AI Engineer World's Fair（AIEWF）上，他办了两场关于本地 LLM 与工作站 Agent 的 workshop，场面爆满到不得不把人挡在门外——来的人既有还在挑第一台 AI 电脑的学生，也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。他给 Latent.Space 的核心判断很直接：开源模型和闭源前沿模型之间的差距正在持续缩小，目前大约只落后 4 到 8 个月。这句话的分量在于，它来自一个长期被「本地跑不动、跑不好」印象压制的人——他自己也说，外界对本地 AI 的印象还停留在 2022 年，但「之后一切都大幅改善了」。访谈里最有意思的一段，是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5，把 Claude Code 接到本地模型上，让它改显卡的 RGB 灯光，结果失败了；而用托管的 Claude Code 服务却成功了。原因不是模型笨，而是本地那一套没有接搜索——模型训练数据有截止日期，而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后，任务就跑通了。他由此点出一个被广泛忽略的事实：ChatGPT、Claude Code 这类产品之所以好用，是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的，是这一层完整栈，而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度，认为本地 AI 正在被认真当作基础设施——数据控制、模型路由、私有部署，这些诉求不是极客玩具，而是企业 IT 的刚需。他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白：「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力，无需请求许可，这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点——来的不只是硬件爱好者，还有考虑第一台 AI 电脑的学生，以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身，就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。把这篇放在今天第一篇，是因为它给后面的 LongCat 和美图定了同一条坐标轴：模型本身正在商品化，真正拉开差距的是把它包起来的那一整套工程。Osman 谈的是「本地」这一侧的栈，美团谈的是「大规模训练」这一侧的栈，美图谈的则是「应用落地」这一侧的栈。读完这篇，再看后面两篇会有更强的对照感。如果你只对本地部署或开源生态感兴趣，这篇是今天的入口。详见 ## ★ 精讲二：美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型先说清楚 LongCat-2.0 是什么。它是美团 6 月 30 日正式发布、并对外开源的新一代大模型，定位是 Agentic Coding——也就是让模型在真实的代码理解、生成、执行任务里更高效、更稳定。几个关键数字：总参数 1.6T（万亿级），平均激活约 48B，动态范围 33B 到 56B 的 MoE 架构；预训练数据超过 30T tokens；原生支持 1M 超长上下文。官方口径里最重的一句，是它是「业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型」。但这份发布稿真正值得读的，不是这些数字本身，而是美团技术团队把国产算力上跑万亿 MoE 的全链路工程难题，拆成了稳定性、正确性、效率三块讲。稳定性上，通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，把月均日故障率降低了 70% 以上；正确性上，自研确定性算子、Bitwise 一致性验证和参数检测来保证训练可靠；效率上，通过流水线调度、显存优化和算子级控核，把训练 MFU 提升了 1.5 倍，最终稳态日吞吐超过 1T tokens/day。推理阶段则是模型、算子、框架协同优化，用大规模专家并行聚合访存带宽来支撑万亿参数的低延迟解码。架构设计上也有几个值得记一笔的细节。一是 LongCat Sparse Attention（LSA）稀疏注意力，把长文本处理的计算量从平方级压到线性级，让模型在 100 万 token 的上下文里仍能精准定位信息——官方说传统模型超过 100K 就开始「遗忘」。二是零计算专家加 ScMoE，让 token 级动态激活成为可能：简单的 token 不消耗算力，复杂的 token 自动拿到更多计算资源。三是 MOPD 多专家融合，把 Agent、Reasoning、Interaction 三组专家能力融进一个模型，推理时由门控网络按任务类型动态调度。评测成绩方面，在考察深层工程能力的 SWE-bench Pro 中拿到 59.5，领先 Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）和 Claude Opus 4.6（57.3）；SWE-bench Multilingual 77.3，与 Claude Opus 4.6（77.8）同水位；Terminal-Bench 2.1 拿到 70.8。真实办公场景的复杂任务上也表现均衡：搜索智能体评测 RWSearch 78.8、生产力场景 FORTE 73.2、BrowseComp 79.9，都达到或接近前沿闭源模型水平，能较好契合企业级 Agent 的落地需求。发布前的预览版已经通过 OpenRouter 和 longcat.ai 面向全球开发者开放，目前跻身 OpenRouter 全球大模型调用量前三，在 Hermes、Claude Code 和 OpenClaw 的调用量分列全球第一、第二和第三。官方还放了几个内测期间的真实工作单：业务人员用自然语言查询数据，LongCat-2.0 搭的 AI SQL Agent 自动完成从理解意图、规划查询到把结果转成业务洞察的全链路闭环；给它一个旧版插件代码库和一份新版 SDK 文档，它能自行分析整体架构、梳理核心逻辑，把整个插件重构为符合新 API 的实现，编译一次通过；描述一个「儿童 AI 游戏训练场」的创意，它能从技术选型、页面架构、游戏逻辑到视觉细节一步步生成，首页加三个完整可玩的游戏页面全部一次产出。这些例子更像 demo，但它们说明了一件事：万亿参数模型在真实 Agentic Coding 任务里，已经能稳定交付端到端的结果。把这篇和精讲一对照看会更有意思：Ahmad Osman 讲的是开源模型正在追赶闭源前沿，LongCat-2.0 则是一份「追赶到什么程度」的实证——尤其在 Agentic Coding 这条赛道上，国产万亿模型已经能和闭源前沿在同一张榜上掰手腕。更特别的是，它是少数把国产算力、万亿 MoE、Agentic Coding 全链路讲透的工程实录，对关注训练基础设施的读者来说信息密度很高。如果你做模型选型或基础设施，这篇值得精读；如果只关心应用，看评测和 OpenRouter 调用量那段就够了。详见 ## ★ 精讲三：专访美图 CEO 吴欣鸿：做 AI 产品，是一场难以提前策划的游戏美图这家公司，很多读者的印象可能还停在「美图秀秀」那个修图工具上。但它在 AI 这一波里其实翻身翻得相当彻底：2025 年营收 38.58 亿元，净利润 9.65 亿元，同比增长 64.7%；经过 AI 重构的影像与设计产品，收入占比从一年前的 35% 提升到 76.6%，已经成了造血主力。海外 MAU 时隔多年重回 1 亿，AI 视频编辑工具 Wink 和影像创作 Agent RoboNeo 在东南亚、墨西哥、巴西等地频繁登顶 iOS 下载榜。《智能涌现》这篇专访，价值在于吴欣鸿把这家 2000 人公司怎么在应用层持续跑赢，讲得相当坦诚。他立了几条在外人看来近乎严苛的规矩。第一，新产品从立项、研发到市场验证和上线，时间控制在 1 个月内——理由是「这个时代，验证 PMF 的时间理论上越短越好，谁也不知道一个月后技术和市场怎么变」。第二，PMF 验证的标准是上线半年内 ARR 必须达到 10 万美元，这是基准线。第三，也是最反直觉的一条：拥有庞大用户基数的「美图秀秀」等老产品，禁止给新产品大力导流——目的是逼新产品靠自然生长证明自己。这套机制背后，是美图花了很长时间搭建的影像产品中台和增长中台，把技术工程、冷启动、投流等管线复用到不同产品上，RoboNeo 新上线的 Agent Teams 一个月就做完了。但访谈最耐读的部分，是吴欣鸿谈「热爱驱动」而非纯 PMF 驱动的那一面。2026 年美图影像节发布的 4 款 AI 新产品里，AI 人像修图工具 Picchi、影像工作流平台 MeituHub 是自下而上、从用户洞察「长」出来的；而 MV 生成工具 MVLAND 和概念视频创作工具 Artflo，则源自他个人的热爱和对「非共识」领域的押注。他自己说：「我希望美图的产品矩阵中，有我的自留地，让我去做喜欢的事。」结果反倒意外好——MVLAND 是最近一年所有新产品里跑得最好的，内测两三个月 ARR 就到 10 万美元，现在接近 50 万美元。他用这句话总结：「自下而上的产品生命力更强，因为它是自然生长出来的，不是强推的。」关于市场，他有一套「先发产品，再找市场」的方法论：做好各地的语言包就上线，等用户自己下载、给反馈，再慢慢画出热点图，找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国，但巴西（2.1 亿人口、旺盛的社交分享需求）和非洲这种 Day 1 没规划的地方，反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的——感性判断可以先验，但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的，而是自然长出来的——这是他对 AI 应用层最核心的判断。他也很坦率地谈了影像赛道为什么现在能变现。过去工具产品只能靠广告，广告模式变现效率不高，品牌广告还要组建专业团队服务客户，而且广告投放和用户体验本质上是相悖的。订阅模式普及之后，影像产品才开始出现真正的商业化效应——影像覆盖图像、视频、3D，生产力场景极丰富，但又非常分散，很难一家独大。所以他反复强调「我们现在就是在抢时间」。对一个 2000 人的公司来说，能在分散赛道里靠中台复用快速试错，本身就是一种护城河。把这篇放在精讲收尾，是因为它和前两篇形成了一个完整的链路：Osman 谈基础设施层的本地 AI 栈，LongCat 谈模型层的训练工程栈，美图谈应用层的方法论栈。三者放在一起，恰好回答了同一个问题——当模型本身逐渐拉平时，竞争力到底从哪里来。美图的答案是：从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队，这篇比另外两篇更贴近你的日常。详见 ## 速览 Google ADK 2.0：把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。 Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是：生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的——让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事，既慢又贵还不稳定；反过来，要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型，把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起，开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了，Go 版刚刚发布。如果你正在把 Agent 从原型推向生产，这篇是必读的工程参考。详见 RAG 的上下文工程：让每个组件输出类型化输入，汇聚成一次可审计的 LLM 调用。这篇来自 Towards Data Science，用一个「单文档 RAG」的窄场景，把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家，所以架构上分四块——文档解析、问题解析、检索、生成——每块都输出有类型的片段，最终汇聚到一次 LLM 调用上，带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表，问题解析产出有类型的 ParsedQuestion，检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录，生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见高德 GrowLoop：把说不清的「感性对话标准」，变成能生长的理性 Benchmark。开放域对话的「真人感」评测是个公认的难题——标准难制定、难量化、难统一。高德团队指出三个根本难处：多个标注员独立打分的一致率只有 51.1%；很多判断是写不下来的隐性知识；而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子，加上一套 Rubrics 和题目相互生长的双循环协进化机制，把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话，也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv，代码逐步开源。做对话或评测的读者值得跟进。详见从 AWS 迁移到 PaaS：一个 7 人团队量化了基础设施的隐性成本。 freeCodeCamp 这篇是一个 7 人内部工具团队的复盘。他们在一次季度规划里第一次认真问了「我们到底有多少时间花在基础设施上，又有多少花在用户能用上的东西上」，翻完 sprint 历史、事故日志和日历后被自己吓到。他们的 AWS 环境其实不差——ECS 容器化、GitHub Actions 自动部署、CloudWatch 可观测、IAM 权限分环境——架构评审都挑不出毛病，但代价不在账单上，而在日历、在上下文切换、在「基础设施工作」悄悄挤掉真正 backlog 的那些时刻。最终他们用 3 周迁到 Sevalla 这个 PaaS，一个月内效果可量化：每周省下 10 小时工程师时间。这篇对小团队的技术负责人很有参考价值。详见人机交互设计的 39 条原则：把研究变成产品层面可用的东西。 UX Collective 这篇是一个综合框架，把人机交互、混合主动系统、自动化信任、负责任 AI 的研究，转化成了 39 条产品级可用的设计原则，按九个主题组织：概率基础、预期设定、校准信任、透明度、控制、优雅失败、共同创造、负责任自主、持续依赖。作者反复强调，AI 系统的核心交互问题不是「能不能做」，而是「同一输入会产生不同输出」这件事，传统 UI 规范根本没设计过。核心的设计提问是：怎么帮用户恰当地依赖 AI。做 AI 产品设计或前端交互的读者，这是一篇可以当 checklist 用的长文。详见出门问问李志飞：把超级个体的产能，转化成组织能力。腾讯研究院「AI 跃迁者调研」第五期，深度访谈出门问问创始人李志飞。2025 年端午节他一个人三天写出近 20 万行代码，做出「AI 版飞书」原型，然后发现公司完全跟不上，于是花近一年推组织转型：自研 CodeBanana 作为组织操作系统，用 Agent 替代中间管理层，让「任务在哪里，沟通就在哪里」。访谈里几个金句值得记：超级个体的价值被高估、超级组织的价值被低估；AI 产能无限但瓶颈全在人；打造超级组织要有「延迟满足感」。这篇和美图那篇放一起读，是两种风格迥异但都成立的组织方法论。详见得物 AI UITester：AI Native 的 UI 自动化测试新范式。得物技术团队这篇介绍了自研的 ai_uitester，一个 AI 原生的 UI 测试工具。它针对传统方案的三个痛点——用例迁移成本高（一个中等模块的描述性用例转化可能要数人天）、调试效率低（失败要人工看截图、对比页面、改脚本、重跑）、三端各写一套（iOS、Android、HarmonyOS 元素定位方式完全不同，UI 改版时三套脚本同步失效）——给出了三块能力：用例平台 JSON 通过一条自动化 Pipeline 加 LLM 增强，自动转化成带 App、Tap、Wait、Assertion、Swipe 步骤的可执行脚本；失败时由 AI 智能调试做根因诊断和用例自愈（带置信度机制，宁可漏点不可误点）；用 VLM 视觉驱动统一三端，底层驱动自动选择。文章还把它和 Appium/Selenium、Test.ai/Applitools 做了路线对比，说明为什么这是「范式转变」而非「工具升级」。做测试工程化的读者可以关注它的 Wiki 知识库闭环设计——它被 5 大场景复用，让工具越用越智能。详见 ## 补充阅读 - 掌握智能体技术：AI 智能体强化学习（NVIDIA Technical Blog）。一篇把强化学习应用到 AI Agent 的实践指南，重点讲 RLVR（可验证奖励）和 GRPO，给出从环境选择、奖励构建到训练验证的逐步工作流。适合想把领域成功标准转化成训练信号的读者。详见 - AI Agent 的 Skill 系统设计（大淘宝技术）。核心观点是把 Skill 当成「行为编程」而不是文档，通过 YAML+Markdown、DOT 流程图、检查表做结构化设计，再用门控、合理化防御、说服原则这些约束机制规范 Agent 行为。还讨论了有限上下文窗口下的 Token 经济策略和基于 TDD 理念的 Skill 测试方法。写 Agent skill 或 prompt 工程的读者会很有共鸣。详见 - Anthropic 重新部署 Claude Fable 5（Anthropic 官方）。在与美国政府一系列对话后，Claude Fable 5 全球重新部署，新增针对网络安全任务的分类器（分类器优化期间常规编码调试暂时回退到 Opus 4.8），并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见 ## 今日阅读路径如果你的时间有限，今天这三篇值得优先读： 1. 精讲一 Ahmad Osman 谈本地 AI——它用最少篇幅帮你重置对「本地 AI 缺什么」的认知，是理解今天其他几篇的坐标系。 1. 精讲三专访美图 CEO 吴欣鸿——如果你做产品或带团队，这篇的方法论（1 个月上线、半年 10 万美元 ARR、禁止老产品导流）最贴近日常决策。 1. 速览里的 Google ADK 2.0——如果你正在把 Agent 推向生产，这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月，但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0（1.6T参数/48B激活MoE，30T tokens预训练，原生1M上下文），五万卡国产算力集群训练，SWE-bench Pro 59.5领先Gemini 3.1 Pro等，预览版OpenRouter调用量前三。美图CEO吴欣鸿：2025年营收38.58亿元，净利润9.65亿元同比增64.7%，AI影像收入占比76.6%，海外MAU重回1亿。

Peter Steinberger 🦞@steipete · 1天前47

Pointed codex at some Twitter feedback on the OpenClaw iOS app and it did a first improvement pass. It's still not good, but for two prompts it aint bad. Especially cool how it uses computer use to add before/after screenshots, as there's no GitHub API. https://github.com/openclaw/openclaw/pull/98452

译将 Codex 指向 OpenClaw iOS 应用的一些 Twitter 反馈后，它进行了一次初步改进。虽然还不够好，但就两个提示词而言还算不错。特别酷的是它如何使用 computer use 来添加前后对比截图，因为没有 GitHub API。 https://github.com/openclaw/openclaw/pull/98452

elvis@omarsar0 · 1天前46

Great paper on managing agent skills. Skill libraries keep growing, and picking the right skills has become a bottleneck for coding agents. The defaults are to expose the agent to the whole skill collection, or retrieve skills with embeddings and rerankers. Both treat the choice as independent picks. SkillComposer treats composition as one joint decision over which skills, how many, and in what order. A constrained autoregressive decoder over skill identifiers produces the full plan in a single pass, so dependencies between successive skills fall out naturally. On SkillsBench with GPT-5.2-Codex and Gemini-3-Pro-Preview, it lifts pass rate by +23.1 and +18.2pp over no-skill, beats top-3 retrieval, and matches the gold-skill upper bound at lower prompt-token cost. Paper: https://arxiv.org/abs/2606.32025 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译论文提出SkillComposer，将代码Agent的技能选择与组合视为一次联合决策，用约束自回归解码器一次生成完整技能计划（包括技能、数量与顺序），自然处理技能间依赖。在SkillsBench上，使用GPT-5.2-Codex和Gemini-3-Pro-Preview，pass rate分别提升+23.1和+18.2个百分点，超过top-3检索，并以更低prompt token成本匹配gold-skill上界。

Artificial Analysis@ArtificialAnlys · 1天前55

Claude Sonnet 5 ranks second only to Fable 5 on AA-Briefcase, our new agentic knowledge work benchmark, with a ~17x cost per task range across its five effort settings @AnthropicAI has released Claude Sonnet 5, the latest addition to the Claude Sonnet family. On AA-Briefcase, Claude Sonnet 5 (max) scores 1391 Elo, a +312 point improvement over Claude Sonnet 4.6 (max), making it the second highest scoring model behind Claude Fable 5. This gain is driven primarily by improvements in rubric scoring and analytical quality, with Sonnet 5 trailing Claude Opus 4.8 on Presentation Elo. We benchmarked all 5 available effort settings for Claude Sonnet 5: ➤ Max effort achieves the second highest AA-Briefcase Elo, but lower efforts are not Pareto efficient: Claude Sonnet 5 (max) achieves the highest AA-Briefcase score among Sonnet 5 effort settings, but lower effort settings do not reach the cost-performance Pareto frontier. Models such as Claude Opus 4.8 (max), GLM-5.2 (max), and MiniMax-M3 offer stronger cost-performance trade-offs than Claude Sonnet 5 at lower effort settings ➤ Substantially higher turn use across effort levels: Claude Sonnet 5’s higher cost is driven by an increased number of turns, with Sonnet 5 (max) averaging 183 turns per AA-Briefcase task, more than 4x that of Claude Sonnet 4.6 (max). This increase is consistent across effort levels, with Claude Sonnet 5 (medium) averaging 55 turns per task, in line with Claude Opus 4.8 with max effort AA-Briefcase is our new proprietary benchmark for agentic knowledge work. It tests models on realistic tasks across thousands of input files, requiring deliverables such as spreadsheets, presentations, and UI mock-ups. Model performance is measured across three dimensions: binary rubric checks for ground-truth correctness, pairwise grading on analytical quality, and pairwise grading on presentation quality. The AA-Briefcase Elo is a single metric that combines results across all three dimensions

译Anthropic发布Claude Sonnet 5。在AA-Briefcase（智能体知识工作基准，测试模型处理数千文件并产出表格、演示和UI原型）上，Sonnet 5 (max)得1391 Elo，较Sonnet 4.6 (max)提升312分，排第二，仅次于Fable 5。提升来自rubric评分与分析质量，呈现仍落后Opus 4.8。max设置得分最高，但较低设置不处成本-性能帕累托前沿；Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高，因turn数大增：max平均每任务183 turns（Sonnet 4.6 max的4倍多），medium平均55 turns，各设置成本跨度约17倍。

Ethan Mollick@emollick · 1天前48

Formal organizational structures are a useful way to think about the challenges of agents. They provide a template to thinking about how work gets delegated up and down between smart expensive agents & cheaper weaker ones, as well as between narrow specialists & generalists.

译正式组织结构是思考智能体挑战的有用方式。它们为思考工作如何在聪明的昂贵的智能体与更便宜的弱智能体之间，以及在狭窄的专家与通才之间上下委派提供了模板。