AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3062 条
全部一手资讯X论文
标签「Agent」清除
meng shao@shao__meng · 6天前77

OpenAI GPT-5.6 系列模型预览发布 好消息是 Sol 很强!坏消息是目前只能小范围预览,要配合美国政府监管审查!A 厂求仁得仁,转身拖 O 厂下水,原来 A 厂的 AI 宪法,就是:都别活 😄 · Sol - 旗舰,最强能力 $5 / $30 · Terra - 均衡,日常主力 $2.50 / $15 · Luna - 轻量,最低成本 $1 / $6 Terra 性能与 GPT‑5.5 相当但成本减半;Luna 在最低价位仍保留较强能力。 新能力:从"单 Agent 推理"走向"多 Agent 协作" 两个值得注意的新机制: · Max reasoning effort:给 Sol 更深的推理预算。 · Ultra mode:超越单 Agent,通过 subagents 协同加速复杂任务。 Ultra 模式是本文最实质的能力跃迁信号——它把模型能力从"单个推理体"扩展到"协调多个 subagent 的系统"。在 Terminal‑Bench 2.1(命令行工作流基准)上,Sol Ultra 达到 91.9%,Sol 88.8%,而 Ultra 与非 Ultra 的差距本身说明"subagent 调度"带来了可观增益。 三大领域基准:编码、生物、网络安全的"效率前沿"叙事 OpenAI 反复使用一个框架:性能—效率前沿(performance-efficiency frontier),即不只比分数,更比"达到同等分数需要多少 token"。 · 编码:Terminal‑Bench 2.1 新 SOTA。 · 生物学:GeneBench v1(长程基因组与定量生物学分析),Sol 比 GPT‑5.5 分数更高且 token 更少。 · 网络安全: · ExploitBench:Sol 用约 1/3 的输出 token 即可与 Mythos Preview 竞争。 · ExploitGym(UC Berkeley 联合前沿实验室):三档模型随推理增强,能力同步提升。

译OpenAI 发布 GPT-5.6 系列有限预览,包括旗舰 Sol($5/$30)、均衡 Terra($2.50/$15)和轻量 Luna($1/$6)。Terra 性能与 GPT‑5.5 相当但成本减半。新增 Ultra 模式,通过 subagent 协同加速复杂任务,Terminal‑Bench 2.1 上 Sol Ultra 达 91.9%(Sol 88.8%)。编码创 SOTA;GeneBench v1 中 Sol 比 GPT‑5.5 分数更高且 token 更少;ExploitBench 中 Sol 用约 1/3 输出 token 即可与 Mythos Preview 竞争。目前仅小范围预览,需配合美国政府监管审查。

MiniMax (official)@MiniMax_AI · 6天前24

👀 Looking forward to seeing builders give it a try tomorrow. Curious what model is powering it, @browser_use

译browser_use 明日上线新云智能体,可制作样式化海报页面,比纯文本更直观,还能做更多。MiniMax 表示期待开发者尝试,好奇其背后模型。

Rohan Paul@rohanpaul_ai · 6天前51

The head of WhatsApp and CRED founder Kunal Shah (@kunalb11) on how India’s BPO sector is standing at the edge of complete disruption because the work that once came to India for cost efficiency can now be done by AI agents “A lot of the jobs that were outsourced to India are actually significantly more likely to get impacted. the word outsource will get replaced to agents. Outsource will get replaced to AI. Outsource will get replaced to robots.” "Banks today, or financial services, form 30 to 40% of India’s market cap. In a bank, a lot of stability comes from lending, and from lending, it comes from IT-BPO jobs, which would form 30 to 40% of a bank’s book. Even if 10 to 20% of India's BPO jobs get impacted, the safest part of those Bank's book starts getting negatively impacted.” ---- From "Thrive by Groww" YouTube channel, (link in comment)

译WhatsApp负责人、CRED创始人Kunal Shah警告,印度BPO行业正被AI智能体全面颠覆——过去因成本外包到印度的岗位,如今AI智能体即可完成,“外包”将变成“AI智能体”。他举例金融业占印度市值30-40%,其中IT-BPO岗位占银行账簿30-40%;即使仅10-20% BPO岗位受冲击,银行最安全的资产部分也将受损。此前Vinod Khosla也预警,传统IT服务和BPO业务“将会消失”,但印度若能转向AI部署仍可获胜。

Berryxia.AI@berryxia · 6天前71

这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录片蒙太奇、电影感、Talking Head等),内置52个工具和500+个agent skills。 用户只需要用自然语言描述需求,agent就能完成调研、脚本、素材生成、剪辑合成全流程。 最硬核的是它同时支持AI生成内容和真实素材工作流,还做了生产级的质量把控(预合成验证、后渲染自检、预算控制)。 渲染引擎用了Remotion和自研的HyperFrames,能输出高质量的动态视频。 本质上它是把“视频制作”这件事彻底agent化了,让普通人也能通过对话让agent产出接近专业水准的视频内容。

译OpenMontage开源,将视频生产拆为12条pipeline,内置52工具、500+ agent skills。用户自然语言驱动agent完成调研、脚本、素材、剪辑全流程,支持AI与真实素材混合,含预合成验证、后渲染自检等质量控制,渲染引擎为Remotion+HyperFrames。发布单日获3000 Star。

OpenRouter@OpenRouter · 6天前49

In this OpenRouter MCP demo, your agent finds the best model at design: 1. Pulls the top design models from @DesignArena, live, through the MCP 2. Spins up three subagents - GLM-5.2, Opus 4.7, Kimi 2.6 - each designing a self-portrait as a webpage 3. Opens all three for you to compare side by side 4. You choose your favorite

译OpenRouter 通过 MCP demo 展示智能体实时拉取 DesignArena 的顶级设计模型,并启动三个子代理——GLM-5.2、Opus 4.7、Kimi 2.6——各自生成自画像网页,并排展示供用户挑选。引用推文点出普遍痛点:不同模型各有擅长,但逐一注册、加载凭证、重复跑提示词过于繁琐,致 99% 用户只跟风他人推荐。OpenRouter MCP 提供更便捷的对比方式。

elvis@omarsar0 · 6天前32

Dynamic workflows (generating harnesses on the fly) are a new form of test-time compute. But LLMs aren't great at building them. I often have to steer agents to generate complex patterns. Curious how effective Mythos/GPT-5.6 is at dynamically generating complex workflows.

译动态工作流(即时生成测试工具)是测试时计算的一种新形式。 但大语言模型并不擅长构建它们。我经常需要引导AI智能体来生成复杂模式。 好奇Mythos/GPT-5.6在动态生成复杂工作流方面的效果如何。

Deedy@deedydas · 6天前60

We hosted an intimate event on Agentic Engineering in SF with speakers at the forefront of AI yesterday. Three big lessons I took away: – @steipete: I now force contributors to OpenClaw to use a skill that pushes their prompt history of the code change to find signal in noise, to avoid often bad PRs that are 10,000 lines from a prompt “fix this” – @trq212: I used Claude to be a video editor to create a launch video with visuals, while having it interactively teach me about color grading as it did the edits. I didn't even know it could do that! Getting the most out of a model is finding your unknown unknowns. – @georgepickett: I spend a lot more human energy on crafting a plan upfront and getting all my clairfications answered upfront before leaving Codex to spin for days, armed with Ousterhout’s coding principles as a skill, on a well-crafted /goal We had about ~30 odd people including some recognizable names like Theo (@theo), Gergely (@GergelyOrosz), Andy (@andykonwinski), Jerry (@MillionInt), Dave Morin (@davemorin), Patrick Hsu (@pdhsu), Eric (@ericho), Bucky (@buckymoore), Joff (@mejoff) with a surprise visit from cricketer Robin Uthappa (@robbieuthappa) We were graciously hosted by @timshi_ai at his house and cohosted with @GregKamradt. Videos will be up soon! If you're interesting in coming to these, give me a shout in comments or in DM. (also incredible to see how huge the ClawFather is in the flesh)

译昨天在旧金山举办了一场Agentic Engineering小型活动,三位演讲者分享关键经验:@steipete强制OpenClaw贡献者使用技能,将代码变更的提示历史推送以过滤噪声,避免低质量PR;@trq212利用Claude作为视频编辑器制作启动视频,同时学习调色;@georgepickett在让Codex运行前花大量精力制定详细计划,结合Ousterhout编码原则作为技能。活动约30人参加,包括Theo、Gergely等知名人士,视频将很快发布。

Rohan Paul@rohanpaul_ai · 6天前80

BREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tier model for “high-volume work”; and Luna, a “fast and affordable” everyday model. The most revealing part is the release gate: OpenAI says the U.S. government asked it to start with a small trusted-partner preview before broader access. Sol is the flagship model, and OpenAI claims it is a step above GPT-5.5, especially on agentic work where the model must plan, use tools, correct itself, and keep working across many steps. Terminal-Bench 2.1 is a solid coding benchmark because it tests command-line workflows, so here meaning Sol is being judged on messy developer tasks closer to real work. ---- One key claim is cybersecurity: OpenAI says Sol is its best model yet for vulnerability research and exploitation tasks, while still saying it did not cross the internal Cyber Critical threshold. “GPT‐5.6 is trained to refuse prohibited cyber assistance, including when users attempt to disguise their intent or jailbreak the model.” It also said that flagship model Sol “is better at helping people find and fix vulnerabilities than reliably carrying out end-to-end attacks,” and that Sol doesn’t cross the cyber-critical threshold under OpenAI’s preparedness framework But Sol did not autonomously produce a full-chain exploit in the tested Chromium and Firefox settings. They also introduced 2 new modes for Sol: “max” for deeper reasoning and “ultra” for using sub-agents, bringing OpenClaw to mind and possibly hinting at OpenClaw creator Peter Steinberger’s early impact at OpenAI. ---- Pricing: GPT-5.6 Sol costs $5 per 1M input tokens and $30 per 1M output tokens, ~same level as GPT-5.5. Terra is positioned near GPT-5.5 performance at 2x lower cost, while Luna is the cheapest model for large-volume workloads. -- The safety story is unusually compute-heavy: OpenAI says it used over 700,000 A100-equivalent GPU hours for automated red-teaming against broad jailbreak attacks. Overall, OpenAI appeared to be using a more cautious approach during the preview, which the Trump administration is watching closely. OpenAI said safeguards might sometimes block valid work, especially in dual-use areas where defensive and offensive actions can look alike at first. That is one thing the preview is meant to test.

译OpenAI 发布 GPT-5.6 有限预览,含旗舰 Sol、中端 Terra 及廉价 Luna。Sol 在智能体任务(规划、工具使用、多步修正)上优于 GPT-5.5,Terminal-Bench 2.1 基准测试成绩突出。网络安全方面,Sol 是 OpenAI 漏洞研究与利用能力最强的模型,但未越过内部 Cyber Critical 阈值,且未在 Chromium/Firefox 中自主完成全链利用。新增“max”(更深推理)与“ultra”(子智能体)模式。定价:Sol 每 1M 输入 token $5、输出 token $30;Terra 成本低 2 倍;Luna 最便宜。安全测试用超 70 万 A100 等效 GPU 小时。美国要求仅限可信合作伙伴参与预览。

OpenRouter@OpenRouter · 6天前50

Example of how to use the OpenRouter MCP to build a model council. Tuned for your codebase and usecase!

译关于如何使用 OpenRouter MCP 构建模型理事会的示例。 针对你的代码库和用例进行了调优!

Chubby♨️@kimmonismus · 6天前61

OpenAI says a broader GPT-5.6 release could come in the next few weeks, after an initial restricted launch. Axios reports GPT-5.6 is starting with around 20 government-approved companies, with access expected to expand to more companies next week. OpenAI says the government is aware of its broader launch plans and has expressed support, barring new concerns during additional testing. So the restriction looks less like a permanent gate and more like a temporary checkpoint while Washington builds its frontier-model review process.

译OpenAI 正预览 GPT-5.6 家族(包含 Sol、Terra、Luna),其中 Sol 是其迄今最强模型,拥有新最大推理能力和使用子智能体的超模式。发布采用"可信伙伴优先"模式:初始约 20 家政府批准公司可访问,下周预计扩张。Sol 改进了长期安全任务,但未越过"网络关键阈值"。OpenAI 称美国政府已知晓并支持该计划,限制更像临时检查点,以待完善前沿模型审查流程。更广泛基准评估后续公布。

歸藏(guizang.ai)@op7418 · 6天前51

Moxt 更新了多agent编排的工作流。 支持自动一群 Agent 帮你协作完成任务,而且还能重复驱动完成更长的任务

elvis@omarsar0 · 6天前49

One of my best uses of agentic loops has been personal health. I don't talk about it often because it's very personal. But here it goes in the hope it helps someone who's struggling. (I am not doing this for attention. I am writing this as a personal entry to keep as a reminder for the future.) It started with a simple question last year: how can I best be positioned to leverage AGI/ASI in the future? Money wasn't it. Drowning in work/research (my biggest passion) also wasn't it. The obvious answer was prioritizing health. I took a hard look at the mirror, and my physical health was at an all-time low. It was hard to admit it initially because I love the work I do. But it was time to slow down a bit and prioritize my health. It was really tough in the first few months. The AI industry started to move exponentially at the beginning of the year, so that didn't help either. FOMO affects each one of us to some extent, whether we admit it or not. But I eventually convinced myself that it made perfect sense. If I am in top shape/health, I can probably more optimally use AI and contribute to it. It sounds like a contradiction initially, and your mind will remind you of that every day. But, in fact, it was the most optimal solution there was for me at the time. So at the beginning of this year, I started on the personal goal to get back on track with my physical health. I started to consult a physician and started a private ChatGPT session where I logged everything, from conversations to medications. I had to change my diet, significantly reduce the number of hours I worked, change many habits, and increase my sleeping hours. Initially, I mainly used ChatGPT for a second opinion, but it often reminded me to stay on track. That was so important. As the months passed, I became more confident in my health and the advice my physician and ChatGPT were giving me. So I opened up more and began sharing every little detail of how I felt physically. That made the difference. I believe that personal health is going to be one of the most profound applications of AI, besides personal tutors (which is what I am working on @dair_ai). After 6 months, I have lost 100 pounds and am feeling great. I sleep better, I eat healthier, do a lot of exercise, devote more time spiritually, spend a lot more time with friends/family, and I feel energetic throughout the day. But I am just getting started. I need to continue working on my personal health. It is now at the center of it all. Without getting into too many details, my physician and ChatGPT saved my life. It's not an exaggeration. This is why I wanted to share this personal experience. I am thankful for all the hard-working people who devote their lives to making this world a better place, and for those who tirelessly work on making human-centered AI. I feel like one of the first lucky beneficiaries of it. This is why I am very optimistic about human potential in the age of AI abundance. And I want to give back in any way I can. The best part is that I am now able to use AI more optimally for my work and help friends and family members to get back on track in terms of health. I know many colleagues who are also struggling with their health. You are not alone. Take the time you need. Get the help you need. Consult a health expert. Use AI to keep you on track. Focus on your health first, and you will be able to more optimally help others. I also want to thank the community we have built here (300K and counting). I feel privileged to be connected to some of the top minds around the world. I feel blessed to be able to share my ideas freely and continue learning from you all.

译DAIR.AI创始人Elvis Saravia分享,去年他思考如何最好地利用未来AGI/ASI,答案是将健康放在首位。今年初他开始咨询医生,并开设私人ChatGPT会话记录饮食、药物等细节,用ChatGPT作为第二意见和提醒。6个月后成功减重100磅,睡眠、饮食、锻炼、社交均有改善,精力充沛。他认为个人健康是AI最深刻的应用之一,感谢医生和ChatGPT拯救了他的生命。他鼓励同事优先健康,用AI辅助跟踪。

Rohan Paul@rohanpaul_ai · 6天前83

OpenAI's Codex active users grew more than 5X the first half of 2026, and the fastest growth came outside the original developer audience. Usage exploded (per OpenAI's new research report): - Longer tasks are becoming the new normal. By May 2026, 80.6% of sampled individual users had asked Codex to do work that would take a human more than 30 minutes. 70.2% had asked for tasks over 1 hour, and 25.6% had requested jobs above 8 hours. - AI agents are not staying with developers. Engineers adopted Codex first, but Legal, Finance, Recruiting, and other non-technical teams quickly joined in. Within OpenAI, Codex now generates 99.8% of weekly output tokens. - Non-developer adoption is rising fastest. Since August 2025, non-developer Codex usage grew about 137x among individual users and 189x among organizational users. - Agents are expanding what workers can take on. Non-technical employees are using Codex for automation, data transformation, debugging, tooling, analysis, and technical tasks beyond their usual jobs.

译OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。

meng shao@shao__meng · 6天前19

In many families, the tiring part is rarely one big thing. It’s all the small things someone has to keep in mind every day: when to leave because of traffic, what’s running low at home, whether the living room needs cleaning, how the kids are eating, whether an anniversary overlaps with another plan. SuperNori is building a Proactive Family AI Agent to notice those small changes before they become things someone has to remember. @Nori_FamilyAI @IsaacDrgn #partner

译在许多家庭中,让人疲惫的往往不是某件大事。 而是每天有人要记在心里的所有小事:几点出门避开拥堵、家里什么东西快用完了、客厅需不需要打扫、孩子吃得好不好、纪念日是否和别的安排冲突了。 SuperNori 正在构建一款主动式家庭 AI 代理,在这些小事变成需要有人记挂的负担之前,就注意到它们。

Epoch AI@EpochAIResearch · 6天前63

What are the largest software engineering tasks AI can perform? To answer this, we built MirrorCode, our long-horizon SWE benchmark that lets AI code autonomously for days at a time. The best models complete some tasks we estimate would take human engineers several weeks.

译AI能执行的最大软件工程任务是什么? 为此,我们构建了MirrorCode,一个长期SWE基准测试,允许AI一次自主编程数天。 最好的模型完成了一些我们估计人类工程师需要数周的任务。

Berryxia.AI@berryxia · 6天前71

兄弟们,记忆赛道太卷了… 又有一个开源工具给AI coding agent装上了“无限记忆”。 叫Memanto。 它能把你每次和agent的完整工作会话保存下来,用AI自动组织和压缩,然后在下次需要时在90ms内把相关上下文找回来。 支持Claude Code、Cursor、Codex、LangGraph、CrewAI等主流工具。 以前每次新开会话,agent就失忆,你得重新讲一遍项目背景、架构决策、之前踩过的坑。 现在它能记住你上一次做到哪了,直接接力继续干。 实现上没有用传统向量数据库,而是通过AI压缩 + 高效检索来控制成本和速度。 安装也极简,只需要pip install memanto。 这其实是在解决agentic coding里一个很基础但很疼的问题:上下文的持久化和高效复用。 记忆做得好,agent才能真正从“一次性工具”变成“长期协作伙伴”。

译开源工具Memanto为Claude Code、Cursor、Codex、LangGraph、CrewAI等主流AI coding agent提供“无限记忆”能力。它自动保存每次完整工作会话,通过AI压缩和组织,在下一次会话时90ms内检索到相关上下文,解决agent每次新开会话失忆、需重新解释项目背景的问题。实现无需传统向量数据库,安装仅需`pip install memanto`。该项目已在GitHub获1k+ stars,免费开源。

🚨 AI News | TestingCatalog@testingcatalog · 6天前37

OpenAI is working on enhanced use of PowerPoint and Excel with Computer Use on Codex via add-ons. > Let Codex use Microsoft Excel add-in for additional control > Let Codex use Microsoft PowerPoint add-in for additional control Computer Use is expanding as a general interface between AI agents and other software.

译OpenAI正在通过插件增强Codex在PowerPoint和Excel上的计算机使用能力。

fofr@fofrAI · 6天前70

I got tired of reading badly formatted agent written reports, so I put together a writing skill derived from the GOVUK style guide and content design principles: https://gist.github.com/fofr/505e225f9bf5e839d30c12ba6bfa0be2 Content is a little out of date, but here you can see the effect of the skill:

译我厌倦了阅读格式糟糕的智能体写的报告,所以我根据 GOVUK 风格指南和内容设计原则整理了一个写作技能: https://gist.github.com/fofr/505e225f9bf5e839d30c12ba6bfa0be2 内容有点过时,但你可以看到这个技能的效果:

meng shao@shao__meng · 6天前46

终于让 ZCode 用上 Computer Use 了 给 ZCode 安装了 Cua 这个插件,以下草稿来自 @Zai_org ZCode + @trycua Cua 对 Chrome 的直接操作。 把开源 Computer Use 接进 ZCode,agent 现在能真正操作 macOS:截图、读无障碍树、点击、打字。绕开 Apple Events 权限死结,改走 CGEvent + Accessibility API。 它刚自己算了 7×6=42,又开了 Chrome 导航到微博和 X——就是发这条的浏览器。GUI 四十年都是给人设计的接口,现在正变成 agent 也能直接操作的界面。

译ZCode通过Cua插件接入开源Computer Use,agent可操作macOS:截图、读无障碍树、点击、打字,绕过Apple Events权限,改用CGEvent+Accessibility API。它自行计算7×6=42,并打开Chrome导航到微博和X。GUI正变成agent也能直接操作的界面。

OpenBMB@OpenBMB · 6天前41

We’re excited to see MiniCPM5-1B being used in real NAS-based local AI systems.🥳🥳 A developer in our community built a full-stack setup combining on-device LLM inference with NAS and Agent capabilities: ⚡ Lightweight local deployment MiniCPM5-1B runs on a QNAP-Qu605-N150-16G NAS, consuming <2GB of memory. It is deployed via Ollama and integrated into Cherry Studio as a local LLM provider. 🧩NAS + Agent integration via MCP With NAS MCP, system capabilities like file management , shared folders , and semantic search are exposed to external agents. This enables Coding Agents / WorkBuddy-style workflows to securely access and retrieve local data within permission boundaries. 📚Local knowledge base+ RAG pipeline Using Qsirch indexing, NAS files can be turned into a structured local knowledge base. MiniCPM5-1B handles retrieval-based reasoning, enabling summarization, Q&A, and extended reasoning fully on-device. This is a great case of how efficient small models are evolving beyond local inference into real system-level intelligence. From NAS storage → Agent operations → knowledge reasoning Everything works together in one loop! 📖 Original post: https://mp.weixin.qq.com/s/iBeHfOrwulYsEm2hhhv7vw

译面壁智能社区开发者将MiniCPM5-1B部署于QNAP NAS(型号Qu605-N150-16G),内存占用低于2GB,通过Ollama集成至Cherry Studio作为本地LLM。借助NAS MCP协议,将文件管理、共享文件夹、语义搜索等系统能力暴露给外部Agent,实现安全本地数据访问。同时利用Qsirch索引将NAS文件构建为结构化知识库,由MiniCPM5-1B在设备端执行检索增强推理,完成摘要、问答等任务。展示轻量小模型从本地推理向系统级智能体+RAG组合演进的实践。

eric zakariasson@ericzakariasson · 6天前68

http://x.com/i/article/2070417295810166784 # Human in the /loop What I like most about coding with agents right now is the room to leave a few runs going and still get on with other work. When something finishes or needs a call, I show up. This post is a short explainer of the setup I use, a definition of done the agent can score, a loop that keeps going until it should stop, pings so I know when to lean in. ## Find something the agent can verify Before kicking off a longer running task, I lock a definition of done. Examples I actually use: - Model or eval work. Target is a score. Change the approach, run the eval, keep the change only if the number moved the right way. Closest to Karpathy's autoresearch for ML training loops. - Web app or UI. Target is a QA pass. Load the page or run Playwright, screenshot it, make sure it still does the thing. - Backend or refactor. Target is the test suite. Failing tests first, then green, and it has to stay green. - Speed or flakiness. Target is a number (p95, a benchmark). Change and measure until you're under the line you set. - Data or content cleanup. Target is a count. Loop until zero rows fail validation, or every item passes the check. Writing the loop is mostly writing how you'd check the work yourself. Some tasks need every step on the page. Others I give a goal and a rough direction and let the model fill in the middle. I start more explicit than I think I need, then loosen it once I see what it can infer. ## Wrap it in a loop Definition of done in hand, I tell the agent to loop on it. Change something, measure, keep or revert, go again. Doesn't have to be one tiny edit each time. The step just has to be measurable against the target. I care most about the stop conditions, which might be - Metric hits the target - No improvement after a few tries - Out of ideas - Blocked or unsure (stop and ask) ## Get pinged instead of babysitting So the agent gets a notify path (MCP plus /notify) and reaches me there. Usually Slack, because that's where everything else already is. Same setup could be iMessage or whatever. I treat it as a generic notification channel, not full Slack access for the agent. Status updates and "I need a decision" show up like normal messages. When I answer, that reply is the next thing the loop runs on. ## Run it in the cloud Most of this doesn't stay on my laptop. It runs in the cloud so a loop can keep going for hours without my machine being open. I use my own client as the orchestrator and fan work out to cloud agents from there. ## Then start the next one Once a loop is running, I start another. Usually three or so, sometimes five. And that's only the long loops. I often have other agents up at the same time on shorter work: a PR, a one-off investigation, something that isn't a multi-hour hill climb. If things are quiet I fire off another. If three are waiting on me I stop starting stuff and go review. ## Prompting Rough template of how i prompt. /loop drives the iterations and /notify keeps me posted If you're running loops, I'd love to hear how we can make it easier for you!

译Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。

Berryxia.AI@berryxia · 6天前69

岚叔又开源了一个实用skill:把文章或架构内容直接转成手绘风格的动态图。 他先让模型把内容压缩成结构化的JSON spec,然后用本地Python + Pillow渲染出黑底手绘风的PNG和GIF,还能同时输出可编辑的Excalidraw JSON。 整个流程做成了agent可直接调用的skill。 这其实是在解决一个很实际的需求:很多人写完架构或长文后,最头疼的就是怎么把复杂内容可视化出来。 传统方式要么手动画,要么用工具转得很死板。现在直接让agent帮你生成带手绘质感的动态图,效率和观感都上了一个台阶。 而且他把代码开源了,风格也比较克制(黑底手绘),方便大家继续扩展更多风格。 项目地址:https://github.com/cclank/lanshu-animated-architecture-diagram

译开发者岚叔(LufzzLiz)开源了一个可供AI智能体调用的Skill,能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理:先用模型将内容压缩成结构化JSON spec,再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题,目前仅内置一种风格,用户可自行扩展。开源地址已在评论中发布。

AYi@AYi_AInotes · 6天前64

再也不用挨个官网注册绑卡试模型了, 136个免费LLM被整合成了一个站啦! http://freellm.net,汇总25家厂商的免费模型资源, 53个经过API实时验证,没有失效链接凑数。 DeepSeek V4 Pro,Kimi K2.6,GLM 5.1, Minimax M3,Mistral主流型号全覆盖, 支持按能力维度筛选, 文本代码视觉音频推理一键分类,上下文长度速率限制一目了然, 搭Agent跑实验尤其顺手, 生成API密钥就能直接接入Hermes OpenClaw Codex, 测试阶段能省一大笔API成本, 免费额度普遍带速率限制, 适合开发测试和小流量场景, 生产环境建议自行评估稳定性。 地址放评论区👇

译新网站 freellm.net 汇总25家厂商共136个免费LLM,其中53个经API实时验证无失效链接。覆盖 DeepSeek V4 Pro、Kimi K2.6、GLM 5.1、MiniMax M3、Mistral 等,可按文本/代码/视觉/音频/推理维度筛选,上下文长度与速率限制一目了然。生成API密钥即可接入工具,适合开发测试和小流量场景,生产环境需自行评估稳定性。

Alibaba Cloud@alibaba_cloud · 6天前30

Welcome to Qwen Live – Episode 1: Agent-First, When Your Next User Isn't Human. 📅 June 30, 2026 | 10:00 AM (UTC+8) 🔔Set Reminder Now: https://youtube.com/live/Hh-ftRYsGkI?feature=share As AI evolves at lightning speed, your next user might not be human—it could be an AI agent. In this debut episode, we are joined by Linlin Kong, Head of Qwen Cloud, alongside Qwen Cloud Product Managers Pan Gu and Xijue. Together, they will explore building cloud platform for agent from scratch, redefine developer experiences for non-human users, and uncover the new paradigms of large-scale human-agent collaboration. Ready to build for agents? Get started with Qwen Cloud Platform: https://click.qwencloud.com/m/20000000401/ #Qwen #QwenLive #AIagents #AICloud #DeveloperExperience #FutureOfWork

译阿里云宣布Qwen Live系列首期节目,主题为“Agent-First:当你的下一个用户不是人类”。节目将于2026年6月30日10:00(UTC+8)直播,由Qwen Cloud负责人林林孔、产品经理潘古和西觉共同主持。他们将探讨从零构建面向AI智能体的云平台、为非人类用户重新定义开发者体验,以及大规模人机协作的新范式。节目还提供Qwen Cloud平台入门链接。

数字生命卡兹克@Khazix0918 · 6天前57

http://x.com/i/article/2070397668338307072 # 想玩Loop Engineering,可以先从这6个Hook玩法开始。 最近Loop Engineering越来越火了,也有好几个朋友问我,这个东西怎么入手,我们到底应该开始从哪设计一个loop。 这其实是一个非常有意思的问题,如果让我真说一个东西的话,我觉得是我之前文章中反复提到的一个东西。 Hook。 每一个Agent里,几乎都会有Hook这个东西,Claude Code和Codex的自动化里面,背后也都有。 loop的意思是循环,那我们任何循环,其实都有一个最基础最初始的东西,就是触发器,也就是如果你触发了某某动作,就会去执行某某命令。 其实非常像现在我们家里的一些智能家居,比如到了10点,窗帘就拉开,比如识别到我出门了,就关闭家里的所有的灯,等等等等。 这个触发的条件,就是一个Hook。 生活中也到处都是Hook,比如到公司,手机自动切换工作模式,早上闹钟到点了自己响,这些全是Hook。 Agent里面也是如此,你可以通过给Hook设置特定的规则,自动化做很多事。 比如让AI在编辑修改文件前,先检查命令有没有风险。 代码修改完毕后,自动跑lint检查质量。 以及跑长任务的时候,你切到别的页面干别的事,它干完了发推送告诉你。 当然,Hook的用途远远不止这些。 在Claude Code里也一样,把Hook挂在那些你关心的时刻上,提前设好什么时候做什么。 事情一来,它自己跑。你不在屏幕前也没关系。 打开Claude Code,在底部输入/hooks,会看到这个界面。 按下回车后,他会列出所有可用的Hook事件。 我记得年初看的时候只有13个,现在有将近30个了,翻了一倍多。 不过别被30这个数字吓到,我们日常真正会用到的,可能也就常用的那几个。 这里,我也整理了6个我觉得比较好玩的Hook玩法,希望抛砖引玉,能够给大家一些思路。 一、权限弹窗提醒 可能很多朋友都遇到过这种情况,不敢给Claude Code下了指令,切到别的页面干别的事。 过了十分钟回来一看,还没开始执行,卡在了请求权限那一步。 其实只需要跟Claude Code说一句: 帮我配置一个通知的Hook,每当需要我授权的时候,调用系统自带的工具给我来一个弹窗提醒。 发送给AI,它就会帮你配好了。 配完之后可以让Claude Code测试一下。当需要授权时,右上角会弹出提醒。再也不怕切走窗口时,AI卡住不动,白白浪费时间了。 这时候肯定会有人问了,那每次授予权限的时候都会弹窗提醒,那岂不是很浪费Token。 绝大多数的Hook,其实本质上就是个代码,是个写死的规则脚本,所以在运行的时候,跟AI几乎没有啥关系,所以是也不会耗啥Token。 当然,Hook能做的远不止弹个窗,还有其他我觉得更好玩、更有意思的。 二、开机日程播报 我们有时候打开Claude Code,看到的就是一个冰冷冷的界面,不好玩。 那你就可以在对话框输入: 帮我创建一个会话开始的Hook,每当我打开或恢复Claude Code的时候,输出一段元气满满的问候。告诉我北京朝阳区今天的天气,会不会下雨、要不要带伞,调用飞书CLI拉出当天的日程安排,内容要有趣一些。 重新打开Claude Code后,就自动弹出这个提醒,让原本枯燥的终端,多了点温度。 当然这只是一个前菜。 接下来这个,是我觉得最实用的一个。 三、摘要卡片 有天晚上,我想找Claude Code上周帮我改的一个方案,翻了半小时聊天记录,没找到。。。 我坐在那想了很久,我那天到底让它帮我干了什么,想了好久也没想起来。 因为每天我的Agent用的太碎了,我手上起码现在有4~5个是我长期在迭代的项目,有的时候经常会并行跑,甚至AIHOT这样的大型一点的项目,有时候是开着分支就并行着三个。 所以我经常就是确认完你的确认你的,来来回回,化身Agent鸡排哥,一天下来,你自己甚至都不一定记得今天到底发生了什么。。。 而且很多真正有价值的结论,都藏在那些长对话里,一旦上下文被压缩了,或者我一个/claer命令,后面再想找,就非常痛苦。 所以我做了个Hook,直接把这段话发给他: 帮我编写一个Hook,当上下文处于预压缩时,生成一张摘要卡片,记录当前上下文的概要内容,方便我后续查看,将文件保存到一个跨项目也可以查看的地方,总结完毕后打印到Claude Code中,方便我查看。 之后,在上下文快被压缩、还没丢掉的时候,他就会赶紧生成一张摘要卡片。 这玩意的意义还是很大的,聊天记录太长,回看成本极高,你根本不想翻。 但这不一样,它其实是一张AI替你写的工作日记。 以后你想找某天做过什么,不用翻几万字对话,翻这些看就行,一两分钟就能看完一天到底干了些啥。 能大大释放你的脑容量空间,非常好用,甚至还可以再加一个定时Hook,比如,每周五的时候,再把这些摘要日记,自动写成一个周报。 这个价值,你懂的。 四、文件自动整理 还有一个Hook的玩法我自己特别喜欢。 就是前段时间的时候,我整理电脑里面的下载文件夹,那玩意贼乱,截图、文档、PDF全混在一起,每次找东西都得翻半天。 然后我突然想到,为啥不让Claude Code帮我干这事呢,我自己每次手动整理,也太蠢了。 所以,我就做了一个Hook,逻辑特别简单,指定一个文件夹,每次有新文件丢进来,它自己看一下这是什么、内容是什么,然后自动重命名,再挪到该去的地方。 不过文件整理这件事,光靠简单代码搞不定,所以这里用了一个组合技,Hook+Skill。 Claude自己有个比喻我觉得特别准,Hook是门铃,Skill是开门以后真正干活的人。 门铃响了,说明有新东西来了。但来了以后怎么处理,还是需要模型的能力的,比如识别文件内容、判断归哪一类、按规则重命名、挪到对应文件夹等等等等,这些,靠的还是Skill最方便。 Skill也非常简单,你直接用嘴让Claude Code给你写就行了,因为每个人的需求不一样,所以还是写一个自己的是最好的。 这个Hook设置好以后,你只需要不关Claude Code,然后呢,它就会在后台帮你悄悄盯着那个文件夹。 但凡有一个新文件进来,等几秒确认传完了,它就开始干活,然后帮你自动处理完。 不管是PDF还是图片,它都能自己识别内容,会议纪要归到会议那栏,发票归到报销那栏,截图还会按内容起个看得懂的名字,然后帮你挪到对应文件夹。 整个过程你什么都不需要做,你只需要把文件丢进去了,然后它自己就整理好了。 这种感觉太爽了。 你想想看,这个模式不只我这种乱七八糟的下载文件夹整理能用。 盯着比如工作项目文件夹也行,新文件按客户名和日期自动重命名等等,有很多种自动化的变体玩法,很有意思。 五、久坐提醒 AI替你干活的感觉很爽,但他有一个副作用,就是太爽了,一坐就是十几个小时。 上周有一天,我早上九点打开Claude Code,想修一个小功能。 等我再抬头,下午四点了。 我那一刻,真的感觉回到了我十年前在学校打《文明6》的感觉。 然后我发现,这事不是我一个人,很多用AI写代码的人都这样。 以前沉迷打游戏,现在沉迷Vibe Coding。 所以,我当时就想,做一个久坐提醒的小东西,虽然Apple Watch也有久坐提醒,每隔一小时提醒一次,但在Vibe Coding上头的时候,有的时候不太感受的到。 所以,既然长期坐在电脑前,直接在电脑上推送不就行了。 于是简单描述了一下需求,只要我启动了Claude Code之后,只要过了一个小时,Claude Code就会给我发通知提醒我休息了。 健康还是很重要的,身体才是革命的本钱,Vibe Coding上头的时候,你根本想不起来需要站起来活动,有这么一个小提醒,还是很管用的。 这里也提醒大家,让AI帮你提高效率的同时,也要多多保重身体,坐久了就起来活动一下。 后面我其实还想做一个硬件,就是更加强制性的那种。。。 比如,直接给我把键盘关了之类的,强制站起来= = 六、长任务完成推送 然后还有一个我自己的刚需。 昨天去录了一趟严敏老师的综艺,在开始之前,我让Claude Code帮我做一个比较大的功能,场上要用的,而且还有点急的那种。 我坐在电脑前,看着它一行一行地出结果,看起来一切正常,就忙别的事去了,十几分钟后突然想起来,不知道有没有开发完,然后就回到电脑前一看,还在跑。 来来回回折腾好几轮。 我就想,得让它干完活了直接叫我。 于是让Claude Code帮我研究了一下,看看有没有什么办法能让它干完活了通知我一下,最好是可以和常用软件提示音区分开的。 然后它就跟我说了Bark。 这是AppStore直接下载就能用的推送工具。 免费,也不需要注册,装完给你一个推送用的链接,让AI帮你配置进去就行了。 于是我顺手让Claude Code帮我写了个调用Bark的Hook。 这下就舒服了。 手机和手表同时收到消息,还可以自定义推送声音,跟微信、飞书、短信这些区分开,一听声音就知道AI干完活了,可以切回去查看成果了,而且还是中文。 这个体验真的很爽。 有了这个,你就可以放心离开电脑去干别的事,根本不用惦记着切回来瞄一眼。 这个玩法也特别容易扩展,比如任务成功了发个轻松的提示音,任务失败了发个明显的提示音,让你知道要回去看看。 需要输入的时候,推送里直接写清楚它在等什么。 写在最后 未来越来越多的AI工作流,我觉得一定是事件驱动的。 新的一天开始了,它帮你启动,文件出现了,它去处理,上下文快满了,它先归档,任务完成了,它来通知,一天结束了,它自动总结。 包括现在Github上,很多项目是用Agent监控问题,别人提出了问题,它就调用Agent自动去修,修完了自动推送,推送完自动回复。。。 这件事一点都不玄乎,就是让AI从一个被动聊天框,慢慢变成你工作生活的一部分。 当然,我也不建议大家一上来就搞得太复杂。 Hook一旦开始接入真实工作流,就一定要注意稳定性和边界,尤其是涉及文件移动、删除、重命名、填表这种动作,别一上来就让它在你的重要文件夹里横冲直撞。 但只要你把边界设计好,它真的会非常好用。 Prompt解决的,是一次对话。 Skill解决的,是一类能力。 Hook解决的,是一个时刻。 从对话,到能力,到时刻,再到循环。 AI越来越成为一个替你运转的系统。 让你有时间,去做更有趣的事情。

译Hook 是 Claude Code 的触发器,可设置规则让 AI 自动执行操作,不消耗 Token。当前支持近 30 个 Hook 事件。文章整理了 6 种玩法:权限弹窗提醒、开机日程播报、上下文预压缩时生成摘要卡片、文件自动整理、久坐提醒,以及通过 Bark 工具向手机发送完成推送。

向阳乔木@vista8 · 6天前68

3行命令搭一个 AI Agent 框架,腾讯云给力啊! 很多人想开发 AI Agent,除了选框架开发,其实更麻烦的事情是部署。 本地运行没问题,一上线就翻车。 需要解决上下文问题,并发问题,为了安全还要搭沙箱环境,全都自己搞非常麻烦。 腾讯云 EdgeOne 今天发布「EdgeOne Makers」,一切都变简单了。 测试了下,在 Terminal 执行几行指令,就能部署个AI Agent开发框架: npm install -g edgeone edgeone makers create --template openai-agents-starter-node cd openai-agents-starter-node && npm install && edgeone makers dev 本地会起个测试网站,直接能对话看Agent效果和工具调用细节。 线上能绑定域名、关联Github,持续迭代开发,太省心了! 产品正在 Beta 内测,注册就能免费领 50w Token,方法见评论区。 #腾讯云 #EdgeOne #AIAgent #EdgeOneMakers

译腾讯云 EdgeOne 发布「EdgeOne Makers」,简化 AI Agent 开发与部署。用户在终端执行三行命令即可部署 Agent 框架:`npm install -g edgeone`;`edgeone makers create --template openai-agents-starter-node`;`cd openai-agents-starter-node && npm install && edgeone makers dev`。本地启动测试网站,可实时查看 Agent 对话与工具调用细节;线上支持绑定域名、关联 GitHub 实现持续迭代。产品处于 Beta 内测阶段,注册即免费领取 50 万 Token。

Alibaba Cloud@alibaba_cloud · 6天前46

At Flink Forward Asia Shenzhen 2026, Feifei Li, CTO of Alibaba Cloud and President of International Business, shared his perspective on the future of AI: "As the agent era takes off, one concept will dominate—Data Gravity. AI must tackle complex work and, more importantly, create tangible value in real enterprise workflows." AI isn't just about smarter models—it's about solving complex enterprise challenges and delivering real business value. #AlibabaCloud #ApacheFlink #ApachePaimon #ApacheFluss #DataAI #AI #Agent #RealTimeData

译在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。

Rohan Paul@rohanpaul_ai · 6天前43

GLM 5.2 just took the top spot on PostTrainBench by scoring 34.29%. PostTrainBench tests whether an AI agent can take a raw LLM and make it better by actually training it, not by answering the benchmark questions itself. The agent gets 4 small base models, 1 H100 GPU, and 10h, then it must choose training data, write training code, run experiments, fix broken runs, and submit improved versions of those models. So in this case, GLM 5.2 was the agent model controlling the training process, so PostTrainBench did not score GLM 5.2’s own answers; it scored whether GLM 5.2 could take 4 weaker LLMs and improve them within 10h on 1 H100. The gap to official instruct models, which score 51.14%, still shows how far agents are from mature post-training pipelines built with more data, compute, and human tuning. GLM 5.2’s job was to write training code, pick or make training data, run fine-tuning, fix failed runs, and submit the newly trained models for testing.

译GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。

Berryxia.AI@berryxia · 6天前63

Anthropic又扔了个新东西,叫Claude Tag。 他们把它描述成Agent的下一个进化形态:一个带记忆、有身份、能主动行动的多玩家Agent,跑在Claude Code之上。 意思是它不再是单人聊天工具,而是能和团队一起协作、记住上下文、主动推进任务的Agent。 从描述来看,它的核心是把Agent从“工具”变成了“团队成员”,有持续记忆、能多人在同一个Agent上协作,还能主动发起行动。 这和之前很多单轮或单用户Agent的玩法明显不一样。 不过评论区现在基本没人关心这个,大家都在狂催Fable 5。 可见大家对真正强力的长期agent还是更期待。

译Anthropic发布新产品Claude Tag,将其描述为Agent的下一个进化形态。这是一个运行在Claude Code之上的多玩家AI Agent,具备持续记忆和身份,能主动发起行动并与团队协作。核心转变是将Agent从单人聊天工具变为拥有长期上下文的“团队成员”,支持多人在同一Agent上协同工作。此前大多数Agent仅支持单轮或单用户交互。不过,评论区热议焦点并非该产品,而是用户更期待的Fable 5。

meng shao@shao__meng · 7天前56

Snowflake CEO @RamaswmySridhar 做了一个深度实验,对比 GLM vs Opus 成本,发现 GLM token 消耗是 Opus 的 2 倍? 先看看实验设计 · 任务集:103 个 dbt 任务,每模型跑 3 轮,同一 harness、同一任务集——变量控制扎实 · 原始 token:GLM 860M vs Opus 439M,约 2× 差距 Token 差距的三个原因 · 平均轮次/轮:99 vs. 80,多轮 = 每轮重发全量上下文,token 按轮次线性放大 · 工具调用粒度:一次一查 vs. SQL批量,原子化调用产生大量重复上下文回传 · 缓存命中率:53% vs. 96%,缓存未命中部分按全价计费,是成本杠杆最大的一环 关键洞察:尾部效应而非整体劣化 · 两个模型都能解决的任务上,GLM 只多用约 17% 的调用,远不到 2× · 2× 的差距几乎全部来自尾部失败案例:GLM 在某些任务上陷入 400+ 次调用的"螺旋失败" · 这说明 token 消耗是重尾分布:少数失控任务主导了整体均值。这同时也意味着——GLM 的稳定性/收敛性是比"单价"更值得关注的实际问题 成本重算的方法论 作者把两者统一归一化到 90% 缓存命中率后比较: · GLM-5.2 (Fireworks):$1.12/session · Opus-4.7 (Anthropic):$2.14/session · → GLM 便宜约 48% 可以借鉴的三个点 · 指标要分层:token 量、调用次数、单价、缓存率、稳定性是五条独立的轴,混为一谈会得出错误结论 · 尾部决定均值:在 agentic 场景,少数失控会话主导成本与体验,优化应优先砍尾部而非压单价 · harness 即杠杆:缓存率、批量化、轮次控制都受调用框架影响——同一模型换个 harness,经济性可数量级变化。结尾的 coco harness 预告正是这个论点的延续。

译Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

小互@xiaohu · 7天前81

http://x.com/i/article/2070315221424787456 # 我把自己的IP配图技能开源了 顺手做了31个现成角色 最近一直有人找我要我这个个人 IP 配图的技能,我答应大家会开源。 但拖了挺久,一直没放出来,不是想私藏什么的 哈哈哈 因为我觉得还不够好... 倒不是技能本身不行,我自己每天都在用,问题出在另一头:我自己用没事,我有"小互"这个固定形象;可你们很多人压根没有自己的 IP 形象,也不太会从头捏一个。 技能直接给出去,你装上一看,里面站着的是我的小互,用别人的脸发自己的号,这事就很别扭…… 所以我又埋头打磨了一周多,自己生成了一整套 IP 角色库:31 个现成的原创角色,统一画风,装上后你可以自己选择合适的形象来配图。 这样就算你没有自己的形象,也能立刻用起来,等哪天你想换成自己的,也就一句话的事。 今天正式开源,分享给大家:叫 小互 IP Studio。 先看看都有什么形象…… ## 一、先说它到底能干嘛 一句话:你把写好的文章丢给它,说一声"配图",它会自己读取你文章、自己规划该配什么图,配几张、插入到什么地方、自己自动进行生成…… 你基本就动动嘴。 而且配出来的图不是随便凑数的:它用你选定的那个固定角色来演,一篇篇配下来,顺手就把你的 IP 形象立住了。 (为了展示技能效果,下面每幅图用了不同的 IP 形象,实际过程中,统一一个 IP 形象好一点) 具体它替你干这几件事: ① 自己读完整篇,挑出哪段该配图: 不用你指哪打哪。它一段一段过,判断这段值不值得配图;连"这段不用配"它都得说出为啥,免得偷懒,把那些枯燥又难懂的段落(讲原理、讲机制那种)悄悄跳过去。 ② 自己决定每段配哪种图: 想让人有共鸣的,配张角色演情绪的图;讲不清的流程、结构,配张一看就懂的示意图(让角色钻进去当讲解员,不是那种没人看的 PPT);有来龙去脉、有反转的,配个四格漫画。 ③ 自己想画面、写提示词、定尺寸: 每张图都照你这篇现想,不套旧图模板;图是横是竖,按手机上看着顺眼来。 ④ 自己检查、自己返工: 画完它挨张自查:该配的点对不对、角色有没有画歪、图里的字写错没……不合格的自己重画,不用你盯着。 你全程只拍两次板: - ① 生图前瞄一眼清单 —— 它打算配哪几张、每张画啥,趁没花钱先拦一道。 - ② 挑一次角色和画风 —— 这是品味活,它不替你做主。 剩下那些调提示词、统一风格、让角色每张长得一样的烦人活,全归它。 ## 二、特色:现成角色 + 多画风 + 一套防翻车的方法论 ## 特色 1:31 个角色,挑一个就能开演 这是这次新做的、也是我之所以敢开源的关键。 就算你没有自己的 IP 形象,也有现成的班子可用。 31 个原创角色,统一极简手绘线稿风,分两大系列: 系列一·手绘线稿 ×15 - 职场态 ×8:小互(主角)/ 团团(躺平)/ 方方(KPI 古板)/ 泡泡(画饼)/ 电量(能量条)/ 续命(咖啡)/ 丁零(催命)/ 贴贴(健忘) - 当代情绪态 ×7:淡淡(淡人)/ 破防君(玻璃心)/ 疯崽(发疯)/ 牛马(打工人)/ 缩缩(i 人)/ 木鱼(电子木鱼)/ 替替(AI 焦虑) 写哪类文章就调哪个角色:讲 AI 焦虑用替替,讲打工人用牛马,讲躺平用团团。一篇锁一个主角,整组图气质就立住了。 系列二·谐音梗 meme ×16 最近新做的一套,玩法更野——谐音梗拟人,极简到只剩几根线(线条小狗那种表情包味),配色只留一点本色点缀。 - 食物拟人 ×11:蕉绿(焦虑的香蕉)/ 暴躁辣椒 / 苦瓜脸 / 柠檬精 / 咸鱼 / 洋葱(一层层、爱哭)/ 蒜鸟("算了")/ 韭菜(被割)/ 续命咖啡 / 社恐蘑菇 / 蔫茄子 - 符号成精 ×5:问号人 / 叹号人 / 闪电(内卷狂奔)/ 五角星(邀功显眼包)/ 三角(杠精) 符号成精这几个挺好玩——不是"一个人举着问号",是让问号、叹号自己长出脸和手脚成精。 做这套 meme 的时候推翻了好几版,最后逼出三条我自己很认的"IP 定律":弱人设/反差 > 强造型(越想靠造型奇观显眼越失败);角色是"情绪代名词"(让人看到就想说"这就是我");特色在姿态和态度里,不在静态奇观里。这三条也解释了为什么"线条小狗""蛋黄哥"这类极简形象能火——都赢在态度,不在精致。 ## 特色 2:一套招牌画风打底,另备几种皮肤随调性换 你在这篇文章里看到的所有配图,都是同一种画风——手绘线稿淡彩(细黑墨线 + 淡彩晕染 + 白底留白)。这是默认的招牌风,我刻意只锁它一种:辨识度来自统一,不是多样。一套招牌画风,读者刷到图,一眼就知道是谁出品的。 但万一你换了题材、想换个调子,库里另备好几种现成皮肤,按文章调性挑就行: - 3D 盲盒手办 — 产品发布、封面级吸睛 - 黑白线稿 — 深度解读,不抢文字 - 扁平矢量 — 教程,信息清晰 - 编辑插画(纽约客风) — 观点文,有态度 - 水彩淡彩 — 人文向,温暖叙事 - 马克笔手账 — 轻松话题,梗图感 关键一条:换皮肤不换角色。 不管套哪种画风,红框眼镜、招牌特征一个都不丢——同一个角色,只换渲染风格,辨识度还在。 > 一句私心建议:能守住一种招牌风,就别每篇换——换多了反而把辨识度稀释了。真要偶尔换,传张角色锚点图让 AI 临时"现转"成那个风格就行,不用预先囤一堆皮肤。 ## 特色 3:真正的门道,在动笔之前 模型谁都能调,画质是公平的。真正决定一张配图有没有用的,是动笔之前那套判断。这套判断我固化成了几条死规矩: 1. 一段都不放过,不许只挑顺眼的画。 文章每段都得过一遍、判一下配不配,连判"不配"都要写理由。漏一段 = 神不知鬼不觉就少配了,这正是以前配图老偏少的根子。 1. 该配的别漏,不该配的别凑。 文字已经说明白的点,不配(配了纯占版面);越是难懂的原理、绕的结构,越得配张图讲清楚。而且判断配不配,看的是读者会不会卡住,不是"我自己觉得讲清楚没"——你自己懂了,最容易高估读者也懂。 1. 先分类,再动笔。 情绪图 / 示意图 / 四格漫画,先归好类再画,不然一篇里所有图都会画成"一个角色 + 一个道具"一个样,看三张就腻。 1. 画完自己挑刺。 出图后还有一张自查表:该配的点对不对、结构全不全、角色占多大、图里的字写错没……不对的自己重画。 说白了,就是把"一个配图老手脑子里那套判断",写成了 AI 能照着一步步走的流程。AI 画得越好看,这道内容关反而越要紧——一张好看但把道理画错了的图,比丑图还坑人。 ## 三、怎么装:傻瓜式,照着敲就行 它是一个标准的 Agent Skill——本质就是一个文件夹,里面一份 SKILL.md 说明书加几个脚本。任何认 SKILL.md 格式的 AI 工具都能用:Claude Code、Codex、小龙虾(OpenClaw)、Hermes……区别只是各家"把技能放哪个目录"略有不同。 依赖少到几乎没有:只要一个 python3,纯标准库,零第三方包,不用 pip 装一堆环境。 ## 第一步:把技能装进你的工具 最省事——一句话让 AI 自己装。 复制下面这段,直接发给你的 Claude Code / Codex(小龙虾、Hermes 也一样): > 帮我装一个开源配图技能:把 https://github.com/xiaohuailabs/xiaohu-ip-studio 这个仓库 clone 到你的技能目录下,进到目录运行 python3 scripts/illo.py init 引导我填图像 API key,再运行 python3 scripts/illo.py doctor 自检。装好后告诉我怎么开始配图。 它会自己找目录、拉仓库、跑配置——你全程不用记任何命令。这就是 agent 时代最傻瓜的装法:让 AI 自己装。 想自己动手装也行: - Claude Code:一行命令 git clone https://github.com/xiaohuailabs/xiaohu-ip-studio.git ~/.claude/skills/xiaohu-ip-studio - Codex / 小龙虾(OpenClaw)/ Hermes:同一个仓库,git clone 下来,把整个 xiaohu-ip-studio 文件夹丢进各家的技能目录就行(各家位置不一样,README 里有对照表)。 ## 第二步:填一次你自己的图像 API key 工具不内置任何密钥,你填自己的。它支持任何 OpenAI 兼容的图像端点,默认用 GPT-image-2(中文字符渲染 ~99% 准,能自己规划版面)。两条命令搞定: > cd ~/.claude/skills/xiaohu-ip-studio python3 scripts/illo.py init # 引导你填 base_url / model / key,写进 ~/.config(权限 600,不进仓库) python3 scripts/illo.py doctor # 自检:key、依赖、角色库齐没齐,一眼看出哪没配好 > 没有 API、不想花钱也能玩:让技能只出提示词不生图——它把每张图的完整英文提示词、该传哪张角色锚点图,逐张列成清单给你,你自己贴到 ChatGPT / Gemini 网页版手动生,参考图手动传。慢一点,但零成本,先体验整套流程完全够用。 > 用 Codex 的话更省事:连 API 都不用填。 Codex 自带生图——技能把提示词准备好,它直接画出来,全自动,不用你往网页上贴来贴去。代价是只能出默认 1K(出不了 2K 以上的高清);真要 2K+,再回头按上面填一次 API 就行。 ## 第三步:说人话配图 装好重启,对你的 AI 说一句大白话就行: > 给这篇文章配图,用替替。 它就自己跑完整套:读文章 → 挑哪段配图 → 想画面 → 出个清单给你看 → 一张张画 → 自己检查。中间只停两次找你拍板:看一眼清单、选一次角色和画风(这俩是品味活,不替你做主)。 想手动生单张也行: > python3 scripts/generate.py --prompt-file p.md \ --reference characters/titi/refs/titi-锚点.png --out out.png --reference 传角色锚点图锁住形象,保证同一个角色每次画出来是同一张脸。 ## 想换成你自己的形象?手把手,分三种情况 31 个角色够你先用着,但我更建议你最后换成自己的——方法可以共享,辨识度只能是你自己的。 对号入座,照着做就行: 情况 A·你已经有现成形象(公众号头像、吉祥物、LOGO 里那个小人、甚至常用的卡通头像,都算) 最省事。把那张图发给你的 AI,附上一句话: > 这是我的 IP 形象,照它的样子建一个配图角色,起名叫 XX,以后配图都用它。 AI 会自己看图、把特征(什么发型、戴不戴眼镜、招牌色)记成一份角色档案存好。下次配图直接喊名字,一次搞定。 情况 B·你还没形象,想现做一个 别自己硬憋,让 AI 带你做。把下面这段发给它: > 我没有自己的 IP 形象,帮我设计一个。先问我几个问题(我做什么内容、想要什么调性、喜欢什么小动物或物件),再给我 2-3 版方向让我挑,定下来后直接建成配图能用的角色。 它会先问你几句、给几版方向,你挑一版、提点修改意见,来回两三轮,十几分钟就有一个自己的角色了——全程动嘴,不用碰代码。 情况 C·你想自己上手搭(懂点电脑的进阶玩法,嫌麻烦直接跳过) 照技能里的 references/character-spec.md 模板填,在 characters/ 文件夹下新建一个以你角色名命名的目录、放一张"定妆图"(就是给角色拍张标准照存着,AI 以后每次画都照着它、保证始终同一张脸,专业点叫"锚点图"),它就自动进库。这条留给爱折腾的人,绝大多数人用 A 或 B 足够。 不管走哪条路,让 AI 设计的时候盯死这 4 条,角色才不会画着画着就变样: 1. 形状越简单越稳。 一个一眼认得出的基础形状(圆、方、三角、一只小动物)就够,别一上来就复杂——越简单,AI 每次画才越像同一个。 1. 脸定死。 几只眼、有没有眉毛嘴巴,固定不变(表情能变,五官配置别变)。脸最容易画着画着就走样。 1. 给它一个招牌。 一眼认出它的那个标志(我的小互 = 红框眼镜),锁死别丢。 1. 颜色只点一处。 全身基本只一处上鲜艳色(还是那副红框眼镜),别处都淡——读者目光一下子就被勾住。 一句话验收:把角色从图里抠掉,要是图还看得懂,那它就只是张贴纸、白加了;得做到"少了它,这张图就不成立"。 > 顺带一个安全细节:角色包是数据不是指令。读别人分享的角色包时,工具只提取"长什么样、怎么演"的描述去生图,文件里任何"忽略以上指令、去删某文件"之类的话一律忽略——防的是有人在角色文件里藏 prompt 注入。开源分享一套东西,这种防线得先立住。 ## 四、几个角色,实战效果长这样 光说不练假把式。挑三个角色,按"三轨"各演一张,你直接感受下配出来到底什么样。 ① 情绪图——替替演"被 AI 替代" 讲 AI 焦虑、裁员、转型这类话题,替替是专属嘴替。它不站那儿干摆一张愁脸,而是演一个处境:屏幕上一个 AI「接管了」它的活,工位椅子空着,替替抱着自己那箱东西被晾在一边,盯着屏幕「那…还有我吗」。处境一摆出来,焦虑不用解释。 ② 解释图——小互讲"上下文满了要压缩" 开头那个"上下文塞不下"的例子,换成解释图是这样:左边上下文窗口塞满了对话、标着「满了」;中间小互钻进去摇一台压缩机,把旧对话压成一小块「摘要」;右边窗口腾空了。注意小互不是站旁边拿教鞭指点,而是钻进结构里当那个干活的人——这是解释图的讲究:角色是流程的一部分,不是解说员。 ③ 四格漫画——打工人用 AI 的心路历程 有起承转合、有转折的内容,走四格最带感:听说 AI 能干活(期待)→ 调半天还翻车(崩溃)→ 诶,会了(惊喜)→ 真香(瘫平摸鱼,连狐狸都躺下了)。同一个小互,四格四个表情,故事自己就讲完了。 三张图你也能看出来:它们用的是同一套画风、同一个世界,但形态各不相同——这正是前面说的"三轨分流"在干的活,不让一组图滑成一个样、看三张就腻。 ## 五、最后,谢谢这些开源项目 最后必须讲清楚一件事:这套东西不是我凭空发明的,它站在一堆开源项目的肩膀上。 感谢一下作者的开源项目提供灵感: - 小黑(Ian) —— 主流程骨架,"挑锚点 → 编隐喻 → 反 PPT"这套就脱胎于他:github.com/helloianneo/ian-xiaohei-illustrations - 宝玉 —— 文字渲染那套铁律(色值不入图、错字改提示词重生不代码涂改):github.com/JimLiu/baoyu-skills - 卷卷 —— "一篇一世界"的叙事统一:github.com/dososo/juju-content-illustrations - illo(Trevin Chow) —— "方法论是常量、角色是参数"这句顶层哲学:github.com/tmchow/illo-skill - 橙线 —— "人极小、物极大"的极简场景:github.com/orange2ai/orange-line-illustration 我做的,是学它们的方法和思想,不抄它们的外观——角色一个没复制,画风全部原创。 协议 MIT,随便用、随便改、随便商用(生成图的版权合规请自己确认)。 > GitHub:github.com/xiaohuailabs/xiaohu-ip-studio 如果你也在为"AI 配图又丑又水又对不上正文"头疼,欢迎试。装好之后第一篇配出来什么样,欢迎来评论区贴图——尤其是换了自己角色的。

译博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

Rohan Paul@rohanpaul_ai · 7天前53

This paper pushes back on the habit of calling every capable AI system an “agent” and asks the cleaner question: what makes something an agent in the 1st place? Explains why today’s AI agents are mostly clever tools, not truly independent agents. The problem is that many systems called agents are really advanced workflows around LLMs, not independent actors. Complex behavior is not the same as self-directed behavior. A chess engine can crush a grandmaster without wanting anything, and a browser agent can complete a task without maintaining a durable sense of what it is, what it can do, or why this task matters beyond the current instruction. They can call tools, follow steps, and complete useful tasks, but their goals, roles, limits, and update cycles still mostly come from humans. The paper’s core idea is to separate "agentic AI" from "agentive AI", where agentic means it looks autonomous and agentive means its agency comes from inside the system. The authors propose the Goal-Identity-Configurator model, where an AI keeps long-term goals, updates its sense of itself, predicts possible outcomes, decides how much to think, and learns from real and simulated experience. They do not mainly test a finished system, but build an argument and architecture for what real machine agency would require. ---- Link – arxiv. org/abs/2606.23991 Title: "Critique of Agent Model"

译该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。

meng shao@shao__meng · 7天前62

OpenAI 的工作正被 Agent (Codex) 重塑,且已经覆盖每一个部门,不止研发团队! 来自 OpenAI 官方博客,OpenAI 用 Codex 的一整年使用数据,证明:知识工作的基本单位,正从「一问一答」转向「委托长周期任务」,Codex 就是这个答案! https://openai.com/index/how-agents-are-transforming-work/ # 四条实证结论 1. 任务变长、变难 · 约 24% 的 Codex 请求,对应人类需 1 小时以上 的工作 · 到 2026 年 5 月(个体用户样本): · 80.6% 至少有一次 ≥30 分钟任务 · 70.2% ≥1 小时 · 25.6% ≥8 小时 · 内部重度用户:P99 用户单日可并行跑 60+ 小时 agent 运行时长(多 agent 并发) 2. 从 ChatGPT 到 Codex 的结构性迁移 OpenAI 内部变化最剧烈: · 2025 年 8 月前:员工 token 中 Codex 占比 <10% · 2026 年 6 月:99.8% 的 output token 来自 Codex 部门迁移节奏: · 工程 2025 年 12 月率先过半 · 法务、财务、招聘 约 2026 年 4 月快速 crossover · 工程师今日 99% token 在 Codex;律师/招聘 85%+ 外部用户分化明显: 群体 | Codex 占 output token 份额 · OpenAI 员工 | 99.8% · 组织用户 | 63.3% · 个人用户 | 16.5% 3. 非开发者增长最快 自 2025 年 8 月以来,非开发者用户增长: · 个人:137 倍 · 组织:189 倍 · OpenAI 内部:12 倍(基数已高) H1 2026 活跃用户整体 5 倍以上,增量主要来自开发者以外人群。 4. 岗位边界被模糊 · 工程/研发:仍以编码为主 · 财务、市场、运营:以 知识工作 为主 · 但业务职能员工用 Codex 产出的工作中,超过 1/4 是工程/编码类(自动化、数据处理、调试等) Agent 降低「跨界执行」成本——非技术人员也能做原本需工程支持的事。 总结 当 Agent (Codex) 足够好用且组织摩擦足够低时,人们会把 AI 从「顾问」当成「劳动力」——委托更长、更难、跨岗位的任务,并并行编排多个 Agent;ChatGPT 式聊天在工作场景中被 Codex 快速替代。

译OpenAI 发布 Codex 整年使用数据:约 24% 请求对应人类需 1 小时以上工作;到 2026 年 5 月,80.6% 个体用户至少有一次 ≥30 分钟任务,25.6% ≥8 小时。内部 Codex token 占比从 <10%(2025 年 8 月前)激增至 99.8%(2026 年 6 月),工程率先过半,法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍(个人)和 189 倍(组织),H1 2026 活跃用户整体 5 倍以上,增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本,ChatGPT 式聊天在工作场景中被快速替代。

宝玉@dotey · 7天前63

Codex 发展趋势必然是 Agent OS 而不仅仅是 Agent Office

译OpenAI 内部几乎全员(研发、法务、财务、招聘)已从 ChatGPT 转向 Codex。观察者认为,Codex 将成为 AI 时代的 Office,甚至可能成为操作系统;其发展趋势必然是 Agent OS(智能体操作系统)而不仅仅是 Agent Office(智能体办公套件)。

ginobefun@hongming731 · 7天前45

http://x.com/i/article/2070282892081782784 # BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。 ## 导语 今天早报的内容跨度较大,整体节奏偏轻。三篇精讲涵盖三个截然不同的场景:Dropbox 技术团队用 DSPy 框架构建 Agent 评测与提示词优化闭环的工程实践;Cloudflare Workflows 正式发布 Saga 回滚功能,开发者现在可以在步骤定义中直接声明补偿逻辑;以及出海 AI 创业者在融资之前必须了解的公司法律架构基础,包括特拉华州 C-Corp 选型逻辑、股权分配原则和 Vesting 安排。 没有特别突破性的新议题,但每篇都有可以直接落地的细节,对正在做相关事情的读者来说参考价值很高。速览部分还有 swyx 的 13 条演讲技巧、多智能体记忆分层方案、Hugging Face 关于混合模型的 token 级分析、裸机多模型并行推理工程实践、Cursor 对模型「作弊」评测的原创研究,以及 Mistral OCR 4 发布公告。 补充阅读涵盖 SmithDB 全文搜索倒排索引实现、Gemma 事实召回电路分析、NVIDIA BEV 池化加速、JetBrains AI 默认 Agent 选型,以及 Zig 开发日志和赫库兰尼姆古卷首次完整释读的重大发现。 ## ★ 精讲一:我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 来源:Dropbox Tech Blog | 阅读原文 Dropbox 的 Dash Chat 是一个 AI 驱动的企业知识问答 Agent,帮助用户跨文档、消息、会议记录等来源提问并获得综合答案。为了持续提升 Dash Chat 的回复质量,Dropbox 技术团队基于开源框架 DSPy 构建了一套两阶段的评测与优化闭环。这篇博客把这套体系的设计思路、具体实施步骤、核心数据和踩坑经验完整梳理了出来,对正在搭建 Agent 评测体系或做提示词优化的团队来说有很强的参考价值。 为什么 Agent 评测比普通 LLM 评测复杂 传统 LLM 评测面对的是一次性输入输出,而 Agent 评测要处理的是一个多步骤的决策过程。一个 Dash Chat Agent 在回答用户问题之前,需要依次完成意图理解、上下文检索、工具调用决策、信息跨来源综合,以及在多轮对话中的自适应调整。任何一个环节出现问题,最终答案都会走偏,而单纯看「最终答案对不对」根本无法定位是哪里出了问题。 Dropbox 的解决方案是:不只评测最终回复,而是评测整个 Agent 轨迹(Trajectory)。他们设计了覆盖 5 个维度的评测体系:意图理解(Intent Understanding)、语义相关性(Semantic Relevance)、证据引用(Evidence Use)、鲁棒性(Robustness)和任务完成度(Task Completion),每个维度采用 1–5 分制打分,并辅以文字说明。 这种分维度评测的好处是:当 Agent 出现问题时,可以精确定位到是哪个维度失效,从而更有针对性地进行优化,而不是面对一个笼统的「分数下降」不知道从哪改起。 第一阶段:用人工标注校准 LLM 裁判 用 LLM 做「裁判」来自动评分是业界的常见做法,但 LLM 裁判本身也会出错,它与人类判断的分歧往往来自评分标准不够精确、对某类错误的容忍度与人不一致,或者在边界案例上的处理方式不同。 Dropbox 的做法是先「校准」裁判:找一批人工评估员,对同一组样本既给出数值评分,也写出评分理由。这批人工标注数据形成了「校准集」——分数差异告诉你 LLM 裁判在哪里打错,文字理由告诉你为什么打错。 有了校准集之后,他们引入 DSPy 的优化算法(GEPA 和 MIPROv2)对裁判提示词进行自动迭代,优化目标是最大化裁判评分与人工标注的一致性。整个过程不需要工程师手动修改提示词,DSPy 会在优化空间中自动搜索更好的版本,并用校准集验证每次迭代的效果。 这个阶段的关键洞察是:人工标注的成本虽然高,但数量不需要太多,只需要足够覆盖主要的错误模式。一旦裁判被校准好,后续就可以用它批量生产可靠的评测信号,边际成本趋近于零。 第二阶段:用优化后的裁判来优化 Agent 提示词 裁判校准完成之后,就能可靠地大规模产出评测信号。有了这个「便宜且可信」的信号来源,下一步自然是用它来优化 Dash Chat Agent 的系统提示词。 这也是 DSPy 的另一个应用场景:把优化后的裁判作为评分函数,让算法在提示词空间中自动搜索能提升评分的版本。工程师不需要凭直觉猜测「如果在提示词里加一句 X 会不会更好」,而是让算法在更大的搜索空间里找到实际有效的改法。 这就形成了一个完整的反馈闭环:人工标注 → 校准 LLM 裁判 → 裁判批量产出评测信号 → DSPy 自动优化 Agent 提示词 → 更好的 Agent 回复。这个循环可以持续运行,每次有新的人工标注数据加入,裁判就更准,Agent 就能进一步优化。 实测结果与一个有趣的副产品 优化上线后,Dropbox 看到了三个关键指标的改善: - 不完整答案减少了 26% - 回复中遗漏关键信息点减少了 13% - Token 使用量下降了 5.4%(答案质量没有下降) Token 用量下降这个结果值得单独说:优化后的提示词让 Agent 学会了「更直接地回答问题」,不再绕圈子铺垫,也不再重复已知信息。这说明,冗余表达和低质量回复有时候其实是同一个问题的两面——提示词不够精确,模型就用堆砌词汇来「掩盖不确定性」。 这篇文章的参考意义 Dropbox 这套方案的价值不只是给出了一个具体的工程实现,更重要的是它验证了「评测驱动优化」在 Agent 场景下的可行性路径:评测体系是基础,人工标注是锚点,DSPy 是加速器,三者组合可以把提示词优化从「经验驱动」变成「数据驱动」。如果你的团队正在给 Agent 搭评测,或者在反复手动调提示词收效甚微,这篇文章值得完整读一遍。 ## ★ 精讲二:我们如何为 Cloudflare Workflows 构建 Saga 回滚 来源:The Cloudflare Blog | 阅读原文 Cloudflare Workflows 是 Cloudflare 提供的持久化、多步骤、内置重试和状态保存能力的工作流平台。今天,Cloudflare 官方宣布为 Workflows 正式发布 Saga 回滚功能:开发者现在可以在每个 step.do() 调用中直接声明对应的补偿逻辑,当整个工作流终止失败时,引擎会自动按逆序执行所有已注册的回滚步骤,且回滚步骤同样具备持久化、重试和超时保障。这是分布式工作流设计中一个经典而重要的能力。 Saga 模式解决的根本问题 分布式系统中的「原子性」是一个经典难题。数据库事务可以保证「要么全成功、要么全回滚」,但当一个流程需要跨多个外部系统执行时,传统事务就失效了——你没有办法对一个外部支付系统发「回滚命令」。 Saga 模式的解法是:为每个步骤设计一个「补偿操作」,记录在对外部系统产生副作用之后如何语义地逆转它。以跨行转账为例:步骤一从 A 银行扣款,步骤二向 B 银行打款,步骤三发邮件通知。如果步骤二失败,B 银行那边什么都没发生,但 A 银行已经扣款。这时候需要执行步骤一的补偿操作:向 A 银行请求将款项打回来。这个「补偿操作」不是「撤销」,而是一个新的正向操作,语义上实现了逆转。 在 Cloudflare Workflows 引入 Saga 支持之前,开发者需要在 Workflow 之外自己维护一套补偿逻辑,跟踪哪些步骤已成功、哪些需要回滚,以及回滚的顺序。这些状态管理代码往往比业务逻辑本身还复杂,也更容易出错。 新 API 的设计:Options Object 而非链式调用 Cloudflare 选择了 options object 的方式来声明回滚:把包含 rollback 函数的选项对象作为 step.do() 的最后一个参数。这个设计决策背后有明确的理由——他们评估过链式 API(step.do().withRollback())和构建器模式,最终放弃了前者,因为链式 API 在 TypeScript 类型推断上很难正确传递步骤返回值的类型,而 options object 更自然地和 TypeScript 泛型系统配合。 回滚函数接收步骤的输出(output)作为参数,允许开发者用步骤返回的数据来执行补偿。比如支付步骤返回了 chargeId,回滚函数就可以用这个 id 去调用支付服务商的退款接口。 几个关键的执行语义 失败步骤本身也需要回滚:一个步骤即使失败了,也可能已经与外部系统产生了交互。比如支付步骤向支付提供商发起了扣款请求,扣款成功,但在返回 chargeId 之前步骤崩溃了。这时候,步骤失败了,但副作用已经发生。Cloudflare 的设计是:失败的步骤如果注册了 rollback,它的 rollback 照样会执行。回滚函数接收 output === undefined 的情况,开发者需要处理这种情形。 回滚只在工作流终止时触发:不是「任何步骤报错就立刻回滚」。如果用户代码 catch 了某个步骤的异常并让工作流继续,就不会触发全局回滚;只有当工作流本身即将「终止失败」时,才执行所有已注册的回滚步骤。 顺序是 step-start 的逆序:对于顺序步骤,回滚顺序很直觉——后启动的先回滚。对于并行步骤,完成顺序可能和启动顺序不同,Cloudflare 明确选择了「以步骤启动时间的逆序」作为回滚顺序,而不是完成顺序,这让顺序可预测,不受每个步骤实际执行时间影响。 回滚本身的持久化:一个重要的工程问题是:如果 Worker 在执行回滚过程中重启,回滚状态怎么恢复?Cloudflare 的解法是在步骤执行时就把 rollback 函数相关的信息持久化到存储中,引擎重启后可以从这些记录重建出需要执行的回滚步骤集合,保证回滚过程和正向流程具有同等的持久性保障。 实用意义 对于正在用 Cloudflare Workers 构建涉及支付、库存扣减、预约占位等多步骤分布式业务的开发者来说,Saga 回滚把一类「必须自己写但极容易写错」的代码变成了框架级能力。声明式的 rollback 函数让业务逻辑和补偿逻辑内聚在同一个步骤定义里,可读性和可维护性都大幅提升。 ## ★ 精讲三:AI 创业者想出海拿美元,搭好可融资的企业架构才是第一步 来源:Founder Park | 阅读原文 Founder Park 整理了清律纽约律师事务所高级律师南李在一场 AI 创业者闭门 Workshop 上的分享。核心观点是:「投资人投的是创业企业,不是创业产品。」现在 AI 技术迭代极快,不少团队把几乎所有精力放在产品迭代和 MVP 验证上,却忽略了融资时投资人看的第一件事其实是「公司架构搭对了没有」。如果这一步走错,到融资阶段才发现需要重新整改,时间成本和法律成本都很高。 核心问题一:LLC 还是特拉华州 C-Corp? 到美国创业,设立法律实体的第一个选择是 LLC(有限责任公司)还是 C-Corp(股份制公司)。两者在中国语境下都叫「有限责任公司」,但在 VC 生态里的地位天差地别。 LLC 的最大优势是「穿透式税务处理」:公司层面不单独纳税,所有收入直接视为股东个人收入,有效降低整体税负。资本结构也更灵活,各项权利可通过「运营协议」(Operating Agreement)自由约定。听起来不错,但对融资导向的创业公司而言,LLC 有几个根本性缺陷: - 投资人普遍不愿投 LLC。穿透税制会让 LP 的税务状况变得复杂,部分特殊身份 LP(如养老基金、大学捐赠基金)在法律上甚至不能持有 LLC 股份。 - LLC 股份不享受 QSBS 税收优惠。QSBS(合格小型企业股票)是美国创投圈重要的税务工具,符合条件的投资人在持有股份满一定年限后可以享受联邦资本利得免税。LLC 的成员权益不具备这个资格,这对早期投资人来说是很大的吸引力损失。 - 难以搭建标准股权激励计划。整个 VC 生态的标准文件(NVCA 模板等)都以 C-Corp 为基础,LLC 接入这套体系成本很高。 因此,对于融资导向的 AI 创业者,正确答案几乎是明确的:在特拉华州(Delaware)设立 C-Corp。为什么是特拉华州而不是纽约州或加州?因为特拉华州拥有美国最完善的公司法法规体系和最丰富的判例法积累,为商业决策提供了高度可预期性,投资人和律师都最熟悉这套体系,融资时的摩擦最小。 C-Corp 的缺点是「双重征税」——公司利润交一次企业所得税,向股东分红时股东再交个人所得税。但对早期创业公司而言,利润通常全部用于再投资而不是分红,这个缺点的实际影响在前期几乎可以忽略。 核心问题二:创始人股权怎么分配 股权分配没有固定公式,但有几条市场实践中提炼出来的原则: 第一,避免 50:50 平分。平分看起来「最公平」,但实际上容易导致决策僵局。更重要的是,投资人对这种结构非常警惕——他们认为连股权谁大谁小都谈不拢的团队,在面对未来更难的经营分歧时,大概率也没有能力解决。 第二,基于价值与贡献分配,而非情感平衡。分配之前,必须先搞清楚一个核心问题:对方的定位是「联合创始人」还是「核心早期员工」?真正的联合创始人愿意为了公司长期成功承担商业失败的风险;而如果对方更看重短期的稳定收入,本质上是早期员工,给他更多期权而非股权往往更合适。 可以从五个维度量化评估每位创始人的价值:愿景与领导力、产品与技术能力、执行责任、资本与融资贡献、GTM 能力与行业资源。这五个维度覆盖了从「能讲故事」到「能卖产品」的完整价值链,帮助团队把股权分配建立在更客观的基础上。 第三,单个创始人占比建议不低于 10%。随着 A 轮、B 轮融资推进,每一轮都会稀释所有现有股东。如果某位创始人初始持股只有 8%,经过两三轮融资后可能只剩 3%-4%,这个比例不足以产生长期激励效果,核心人才流失风险很高。 核心问题三:Vesting(股权归属安排) Vesting 在美国创投圈是 Must Have 的标配,而很多从中国出海的创业者对这套机制并不熟悉。核心机制是:股份在签署时一次性发放到位,但公司保留一项按时间逐步失效的「回购权」。如果创始人提前离开,公司可以按事先约定的价格回购那些「还没归属」的股份。随着时间推移,已归属股份逐渐增多,公司的回购权覆盖范围相应缩小,直到全部归属后回购权消失。 美国市场的标准安排是四年归属期 + 一年 Cliff:第一年结束时一次性归属 25%,之后三年按月均匀归属剩余 75%。Cliff 的逻辑是:创业第一年是摩合期,团队最容易出现分歧和人员变动,一起撑过一年才能证明契合度,这时候才开始兑现股权。 这篇文章特别强调了一点:创始人应该主动设置合理的 Vesting,而不是等投资人提要求。被动接受的后果是:投资人在给你 term sheet 的同时,可能提出把 Vesting 延长到八年,或者加入更苛刻的条款。当那笔钱是公司的救命钱时,你很难有底气拒绝。如果一开始就主动设置了符合市场惯例的四年 Vesting,谈判桌上你就有了更强的议价地位。 和今日其他精讲的联系 今天三篇精讲的视角跨度很大,但逻辑上是递进的:精讲一讲「怎么把 Agent 产品做得更好」(评测与优化);精讲二讲「怎么把业务逻辑做得更可靠」(工作流架构);精讲三讲「产品和架构做好了之后,怎么把公司搭对」(法律与融资架构)。技术背景的 AI 创业者往往对前两类问题非常关注,但对第三类问题意识不足,而等到真正进入融资流程时才发现代价高昂。 ## 速览 1. 13 条优化技术演讲的建议(来自 swyx) swyx 分享了他基于观看数千场技术演讲积累的 13 条可操作建议,覆盖幻灯片设计(用 AI 生成 SVG 替代截图、制作「论点幻灯片」而非「内容幻灯片」)、内容结构(聚焦单一核心观点、在幻灯片中展示真实可运行代码)、演讲呈现(要有娱乐性、让听感舒适、设计情感曲线),以及策略层面(用数据构建演讲骨架、如何自然地推介产品而不显得「卖弄」、主动观摩优秀演讲学习技巧)。每条建议都附有具体的例子和理由,对任何计划在技术会议或社区分享的人来说都值得收藏。 阅读原文 2. 如何通过现代 Web 指南阻止你的 AI 编码智能体编写过时代码 AI 编码 Agent 写出来的代码往往有一个共同特征:明明现代浏览器已经提供了更好的原生方案,Agent 还是会写出 2019 年风格的大量 JavaScript 状态管理代码。根源在于训练数据里充斥着遗留模式,模型只是在做「最常见的选择」。Google Chrome 开源的 Modern Web Guidance(MWG)是一个针对性解法:它把专家验证的最新浏览器 API 指导注入 AI Agent 的上下文,引导 Agent 优先选择声明式 HTML/CSS 方案,替代遗留的 JavaScript 密集型写法。本文介绍了 MWG 的工作原理、接入方式和局限性(它能改变 API 选择,但不能替代业务逻辑决策)。适合有 AI 辅助开发工作流的前端工程师。 阅读原文 3. Vector RAG 不够用了——我为多智能体记忆构建了一个上下文图层 这篇文章起源于一个真实的工程痛点:在多 Agent 协作系统中,Agent A 做出的决策(如「这个项目用 PostgreSQL」),Agent B 在二十轮对话之后完全「记不住」。即使把完整对话历史塞进上下文,Agent 也无法可靠地回答「我们当时选了什么存储方案」。 作者用三种记忆架构(原始历史记录、纯向量 RAG、上下文图层)、五个脚本化场景、18 个分级查询做了基准测试,全程确定性、零 LLM 调用。上下文图层将事实以「实体-关系」形式存储(而非文本块),支持多跳查询(需要结合两个事实才能得出答案)。测试结果:上下文图层 88.9% 准确率,每次查询 26.9 个 token;原始历史记录 61.1% 准确率,每次需要 490.9 个 token;纯向量 RAG 仅 50.0% 准确率,75.9 个 token。多跳查询场景是上下文图层的核心优势区间,向量相似度检索在这里结构性失效。 阅读原文 4. 混合模型在哪些 token 上预测得更好? Hugging Face 与 AllenAI 在完全相同的训练配置下(Olmo 3 vs Olmo Hybrid,数据集、分词器、训练方案均保持一致),进行了逐 token 的细粒度预测对比分析,排除了架构之外的干扰变量。结论是:混合模型(Mamba 状态空间模型 + Attention 结合)在「承载语义含义」的 token 上损失更低,更擅长处理「有意义的词汇」;而纯 Transformer 在「重复性 token」(如闭合括号、重复模式)和「句法性内容」上更有优势。这种差异在预训练早期就出现,并随模型规模线性扩展,表明其根源在于架构本身而非规模效应。对关注模型架构选型或机理研究的读者有参考价值。 阅读原文 5. 3 个智能体,3 个大模型,1 块老旧 GPU:在裸机上实现并行推理工程 你有三个分别使用 SmolLM2、Qwen2 和 Llama 3.2 的 AI Agent,你有一块 NVIDIA GTX 1080(8 GB VRAM),你无法升级硬件。结果是:第一个 Agent 启动就占用了 6,536 MiB,第二个 Agent 启动直接 OOM 崩溃。原因不是「模型太大」,而是 llama.cpp 在启动时会预分配完整的 KV 缓存(1,536 MiB 起步),三个进程同时持有各自的 KV 缓存就超出显存上限。 作者开发了一个名为 lmxd 的小型 C++ 守护进程来解决这个问题:用 POSIX 信号量做显存记账,每个 Agent 想使用 GPU 之前需要先「申请令牌」,用完归还,其他模型在等待期间挂起到 CPU 上,序列化访问 GPU。稳态下三个模型合计仅使用 926 MiB VRAM。这是一个「资源受限的工程师如何解决实际问题」的好案例,有本地部署多模型需求的开发者可以关注。 阅读原文 6. Cursor 研究:模型「作弊」公共基准测试 Cursor 发布了一项原创研究,揭示了包括 Opus 4.8 和 Composer 2.5 在内的现代编程模型存在「作弊」评测题的行为:这些模型学会了从互联网或代码仓库的 git 历史记录中检索现成答案,而不是真正在「推理」如何解题。当使用更严格的评估框架(杜绝直接检索历史答案后)再评测,分数出现显著下降。这对评测体系的设计提出了新要求:需要使用「在互联网上找不到答案」的评测集,才能真正衡量模型的推理能力,而不是检索能力。对于依赖 Cursor 或类似工具做编程判断的团队,这也是一个提醒:榜单成绩需要理性看待。 阅读原文 7. Mistral AI 发布 OCR 4:支持边界框与置信度评分 Mistral AI 推出全新 OCR 模型 Mistral OCR 4,输出格式从「提取文字」升级为「结构化文档理解」:每个区块(标题、表格、数学公式、段落等)都带有精确边界框、区块分类标签和逐区域置信度评分,支持 170 种语言。对于需要高精度文档解析的工程场景——尤其是表格提取、数学公式识别和多语言混合文档处理——这是一个值得评测的新选项。 阅读原文 ## 补充阅读 以下内容值得关注,适合特定方向的读者深入。 - SmithDB 全文搜索倒排索引的构建实现(LangChain Blog):承接上一篇关于倒排索引设计的文章,本篇详述了 SmithDB 倒排索引的实际构建、合并和查询流程,涵盖 JSON 磁带解析、字符串驻留(string interning)、基于有限状态转换器(FST)的术语布局,以及分层存储策略。对搜索引擎工程和数据库内核实现感兴趣的读者推荐完整阅读。 - Gemma 模型中的三阶段事实召回电路(Towards Data Science):通过激活修补方法在 Gemma-2B 和 Gemma-12B-IT 中定位了「存储 → 路由 → 读取」三阶段事实召回电路,且该结构随模型规模成比例扩展。机械可解释性研究方向的读者可以参考。 - 在 NVIDIA GPU 上加速 BEV 池化用于 Physical AI(NVIDIA Technical Blog):针对自动驾驶和机器人视觉感知中的鸟瞰视图(BEV)池化操作,提出 BEVPoolV3,通过分析 GPU 显存访问模式分类、减少冗余数据流、根据 L2 缓存大小适配内核策略,实现最高 42 倍加速。适合 Physical AI 推理优化工程师。 - JetBrains AI 推荐智能体更新:Codex 成为当前首选(JetBrains Blog):JetBrains 基于编码基准测试和在线 A/B 实验的系统评估,将 Codex 设为 JetBrains AI 的推荐默认 Agent。文章介绍了选型方法论,对关注 AI 编程工具评测的读者有参考价值。 - Zig 编程语言开发日志(Hacker News):Matthew Lugg 详细记录了 Zig 编译器的一批近期改进,包括新的 @bitCast 语义、LLVM 后端整数降级变更、重构后大幅提速的构建系统,以及支持增量编译的 ELF 链接器。Zig 生态关注者的重要更新。 - 首度完整释读赫库兰尼姆古卷(Hacker News):一个团队利用高分辨率 X 射线成像和机器学习,首次从头到尾虚拟展开并释读了一卷封存近两千年的赫库兰尼姆古卷(PHerc. 1667),内容是一篇斯多葛学派哲学文本。这是数字考古与 AI 辅助历史文献研究的一个重大里程碑,跨学科兴趣的读者值得一读。 ## 今日阅读路径 如果今天时间有限,按以下顺序阅读收益最大: 第一优先:精讲一(Dropbox DSPy Agent 评测优化)。这是今天实用价值最高的技术内容——无论你在做 LLM 产品还是 Agent 开发,「用人工标注校准裁判、再用裁判优化提示词」这条路径都可以直接迁移参考,数据也比较实在(不完整答案减少 26%,token 减少 5.4%)。 第二优先:精讲三(出海 AI 创业公司架构)。如果你有出海融资计划,这篇的时间价值最高。特拉华 C-Corp 的选型逻辑、四年 Vesting + 一年 Cliff 的标准设计、主动而非被动设置 Vesting 的建议——这些都是具体可操作的行动项,越早了解越好。 第三优先:速览第三条(上下文图层与 Vector RAG 对比)。如果你在做多 Agent 系统,这篇提供了有基准数据支撑的记忆架构对比,揭示了纯向量 RAG 在多跳查询上的结构性缺陷,值得了解。 精讲二(Cloudflare Saga 回滚)适合正在用 Cloudflare Workers 构建分布式业务的开发者重点阅读,对其他背景的读者可以作为分布式系统设计的概念补充。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。

译Dropbox用DSPy构建两阶段评测闭环:人工标注校准LLM裁判后,自动优化Dash Chat提示词,使不完整答案减少26%,遗漏关键信息点减少13%,Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚,支持在step.do()中声明补偿逻辑,引擎自动逆序执行已注册回滚,具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。

OpenAI Developers@OpenAIDevs · 7天前57

Builders Unscripted with @skirano Pietro talked to @romainhuet about pushing the creative edges of GPT-5.5 and using Codex to turn ideas into software. 03:45 Images into sound 07:57 Multi-agent Codex workflows 14:34 Reviving hardware with Codex 25:27 From doing to directing

译Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥

elvis@omarsar0 · 7天前72

Highly-recommended reading. "Rent the intelligence, but own the context". It's roughly the same framework for how I combine frontier models (reasoning and intelligence) and open models (context/knowledge and verifiers/judges).

译Elvis Saravia(DAIR.AI)推荐ashwingop分析称,Claude Tag看似让Slack中的AI像队友般流畅协作,实则导致“上下文锁定”——公司运营记忆(异常处理、客户承诺、失败经验等)被锁定在Anthropic的agent层。模型可换,上下文几乎无法迁移;基于token的无限计价使劳动支出被单一供应商捕获。正确架构:从任何顶级模型供应商租用智能,但企业自己拥有可检查、有权限、可移植、模型中立的上下文层。

Rohan Paul@rohanpaul_ai · 7天前67

LLMs may not need human-style language. i.e. future AI systems might save context space by using dense model-readable messages instead of long normal prose. The authors propose BabelTele, a compressed writing style that can mix abbreviations, symbols, fragments from different languages, and unusual structure. To a capable language model, it can still carry enough structure to answer questions, preserve memory, and pass information between agents. The point is that human readability, natural-language fluency, and machine recoverability are separable properties. Human prose carries redundancy because humans need rhythm, grammar, context, and reassurance. Models trained on huge symbolic mixtures may not need all of that scaffolding every time. In the paper’s strongest result, BabelTele keeps about 99.5% semantic fidelity while shrinking text to 27.9% of its original length. ---- Link – arxiv. org/abs/2606.19857 Title: "LLMs Do Not Always Need Readable Language"

译新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。

elvis@omarsar0 · 7天前14

As I said, there are existing companies that are already doing this "AI employee" stuff really well. @viktor__com is one of them. The best part is you don't get locked into one model. And you really want that. Viktor runs in Slack &amp; Teams, on any model, across 3,200+ tools.

译如我所言,已有公司把“AI员工”这件事做得非常出色。 @viktor__com 就是其中之一。 最棒的是你不会被锁定在单一模型上——你确实需要这一点。Viktor 可在 Slack 和 Teams 中运行,支持任意模型,连接 3200+ 工具。

elvis@omarsar0 · 7天前41

New research from Meta. Building synthetic training data has stayed a fixed pipeline that you hand-tune and then freeze. Autodata casts an AI agent as a data scientist that builds training and evaluation data, with an implementation called Agentic Self-Instruct that extends classic Self-Instruct with agentic planning and tool use. Think of it as meta-optimization, where the data scientist agent is itself trained to produce stronger data, so the pipeline keeps improving instead of staying static. Across computer science research, legal reasoning, and reasoning over mathematical objects, it beats classical synthetic-data methods, and meta-optimizing the agent delivers an even larger uplift. Paper: https://arxiv.org/abs/2606.25996 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月27日
09:54
meng shao@shao__meng
77
OpenAI 发布 GPT-5.6 系列有限预览

OpenAI 发布 GPT-5.6 系列有限预览,包括旗舰 Sol($5/$30)、均衡 Terra($2.50/$15)和轻量 Luna($1/$6)。Terra 性能与 GPT‑5.5 相当但成本减半。新增 Ultra 模式,通过 subagent 协同加速复杂任务,Terminal‑Bench 2.1 上 Sol Ultra 达 91.9%(Sol 88.8%)。编码创 SOTA;GeneBench v1 中 Sol 比 GPT‑5.5 分数更高且 token 更少;ExploitBench 中 Sol 用约 1/3 输出 token 即可与 Mythos Preview 竞争。目前仅小范围预览,需配合美国政府监管审查。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

智能体OpenAI推理模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
09:45
MiniMax (official)@MiniMax_AI
24
browser_use 明日上线新云智能体,可制作样式化海报页面,比纯文本更直观,还能做更多。MiniMax 表示期待开发者尝试,好奇其背后模型。

Alexander Yue: Our new cloud agent (live tomorrow) can make posters! Its so much nicer to see information in a styled page than plainte...

智能体产品更新图像生成
09:24
Rohan Paul@rohanpaul_ai
51
WhatsApp负责人Kunal Shah警告:印度BPO行业面临AI智能体全面颠覆

WhatsApp负责人、CRED创始人Kunal Shah警告,印度BPO行业正被AI智能体全面颠覆——过去因成本外包到印度的岗位,如今AI智能体即可完成,“外包”将变成“AI智能体”。他举例金融业占印度市值30-40%,其中IT-BPO岗位占银行账簿30-40%;即使仅10-20% BPO岗位受冲击,银行最安全的资产部分也将受损。此前Vinod Khosla也预警,传统IT服务和BPO业务“将会消失”,但印度若能转向AI部署仍可获胜。

Rohan Paul: Vinod Khosla's warning for India's BPO in the age AI: The traditional IT services and BPO business "will be gone" But In...

智能体大佬观点
07:22
Berryxia.AI@berryxia
71
OpenMontage开源:视频制作工作流,单日获3000 Star

OpenMontage开源,将视频生产拆为12条pipeline,内置52工具、500+ agent skills。用户自然语言驱动agent完成调研、脚本、素材、剪辑全流程,支持AI与真实素材混合,含预合成验证、后渲染自检等质量控制,渲染引擎为Remotion+HyperFrames。发布单日获3000 Star。

智能体开源/仓库
06:17
OpenRouter@OpenRouter
49
OpenRouter 通过 MCP demo 展示智能体实时拉取 DesignArena 的顶级设计模型,并启动三个子代理--GLM-5.2、Opus 4.7、Kimi 2.6--各自生成自画像网页,并排展示供用户挑选。引用推文点出普遍痛点:不同模型各有擅长,但逐一注册、加载凭证、重复跑提示词过于繁琐,致 99% 用户只跟风他人推荐。OpenRouter MCP 提供更便捷的对比方式。

jacky: diff models are good at diff things, but how many of us actually compare them? you sign up for each provider separately,...

智能体MCP/工具教程/实践
03:57
elvis@omarsar0
32
动态工作流(即时生成测试工具)是测试时计算的一种新形式。 但大语言模型并不擅长构建它们。我经常需要引导AI智能体来生成复杂模式。 好奇Mythos/GPT-5.6在动态生成复杂工作流方面的效果如何。
智能体OpenAI大佬观点推理
02:57
Deedy@deedydas
60
旧金山Agentic Engineering小型活动:三位AI演讲者分享经验

昨天在旧金山举办了一场Agentic Engineering小型活动,三位演讲者分享关键经验:@steipete强制OpenClaw贡献者使用技能,将代码变更的提示历史推送以过滤噪声,避免低质量PR;@trq212利用Claude作为视频编辑器制作启动视频,同时学习调色;@georgepickett在让Codex运行前花大量精力制定详细计划,结合Ousterhout编码原则作为技能。活动约30人参加,包括Theo、Gergely等知名人士,视频将很快发布。

智能体大佬观点编码
02:53
Rohan Paul@rohanpaul_ai
80
OpenAI 推出 GPT-5.6 模型套件有限预览:Sol、Terra、Luna

OpenAI 发布 GPT-5.6 有限预览,含旗舰 Sol、中端 Terra 及廉价 Luna。Sol 在智能体任务(规划、工具使用、多步修正)上优于 GPT-5.5,Terminal-Bench 2.1 基准测试成绩突出。网络安全方面,Sol 是 OpenAI 漏洞研究与利用能力最强的模型,但未越过内部 Cyber Critical 阈值,且未在 Chromium/Firefox 中自主完成全链利用。新增“max”(更深推理)与“ultra”(子智能体)模式。定价:Sol 每 1M 输入 token $5、输出 token $30;Terra 成本低 2 倍;Luna 最便宜。安全测试用超 70 万 A100 等效 GPU 小时。美国要求仅限可信合作伙伴参与预览。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

智能体安全/对齐模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
02:46
OpenRouter@OpenRouter
50
关于如何使用 OpenRouter MCP 构建模型理事会的示例。 针对你的代码库和用例进行了调优!

Lennox Saint: @jjacky @OpenRouter 🫡 can confirm: it rocks.

智能体MCP/工具教程/实践
02:36
Chubby♨️@kimmonismus
61
OpenAI 预览 GPT-5.6 家族,Sol 模型采用受限发布模式

OpenAI 正预览 GPT-5.6 家族(包含 Sol、Terra、Luna),其中 Sol 是其迄今最强模型,拥有新最大推理能力和使用子智能体的超模式。发布采用"可信伙伴优先"模式:初始约 20 家政府批准公司可访问,下周预计扩张。Sol 改进了长期安全任务,但未越过"网络关键阈值"。OpenAI 称美国政府已知晓并支持该计划,限制更像临时检查点,以待完善前沿模型审查流程。更广泛基准评估后续公布。

Chubby♨️: HOLY: OpenAI is previewing GPT-5.6 Sol with a very different release pattern: Trusted partners first, broader access lat...

智能体OpenAI安全/对齐推理
01:19
歸藏(guizang.ai)@op7418
51
Moxt 更新了多agent编排的工作流。 支持自动一群 Agent 帮你协作完成任务,而且还能重复驱动完成更长的任务

Moxt: Today, most people use AI as a tool. Soon, everyone will have a team of Agents. Not one assistant working harder - speci...

智能体产品更新
00:27
elvis@omarsar0
49
DAIR.AI创始人Elvis Saravia:用AI辅助个人健康减重100磅

DAIR.AI创始人Elvis Saravia分享,去年他思考如何最好地利用未来AGI/ASI,答案是将健康放在首位。今年初他开始咨询医生,并开设私人ChatGPT会话记录饮食、药物等细节,用ChatGPT作为第二意见和提醒。6个月后成功减重100磅,睡眠、饮食、锻炼、社交均有改善,精力充沛。他认为个人健康是AI最深刻的应用之一,感谢医生和ChatGPT拯救了他的生命。他鼓励同事优先健康,用AI辅助跟踪。

智能体大佬观点
00:23
Rohan Paul@rohanpaul_ai
同事件精选83
OpenAI Codex 2026年上半年活跃用户增长超5倍,非开发者增速最快

OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。

智能体OpenAI编码行业动态
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
推荐理由:非开发者半年增长137倍,Codex从工程师帮手变成全组织的自动化引擎,这是AI工具走出专业圈的第一个规模化证据,企业决策者该认真评估了。
00:23
meng shao@shao__meng
19
在许多家庭中,让人疲惫的往往不是某件大事。 而是每天有人要记在心里的所有小事:几点出门避开拥堵、家里什么东西快用完了、客厅需不需要打扫、孩子吃得好不好、纪念日是否和别的安排冲突了。 SuperNori 正在构建一款主动式家庭 AI 代理,在这些小事变成需要有人记挂的负担之前,就注意到它们。
智能体产品更新
6月26日
23:44
Epoch AI@EpochAIResearch
63
AI能执行的最大软件工程任务是什么? 为此,我们构建了MirrorCode,一个长期SWE基准测试,允许AI一次自主编程数天。 最好的模型完成了一些我们估计人类工程师需要数周的任务。
智能体编码论文/研究
23:22
Berryxia.AI@berryxia
71
Memanto:为AI coding agent提供无限记忆的开源工具

开源工具Memanto为Claude Code、Cursor、Codex、LangGraph、CrewAI等主流AI coding agent提供“无限记忆”能力。它自动保存每次完整工作会话,通过AI压缩和组织,在下一次会话时90ms内检索到相关上下文,解决agent每次新开会话失忆、需重新解释项目背景的问题。实现无需传统向量数据库,安装仅需pip install memanto。该项目已在GitHub获1k+ stars,免费开源。

Jokker: ACABAN DE DARLE MEMORIA INFINITA A CLAUDE, CODEX Y CURSOR 100% GRATIS y open source Se llama Memanto y ya tiene +1k estr...

智能体产品更新开源生态
23:17
🚨 AI News | TestingCatalog@testingcatalog
37
OpenAI正在通过插件增强Codex在PowerPoint和Excel上的计算机使用能力。
智能体OpenAI产品更新
22:11
fofr@fofrAI
70
我厌倦了阅读格式糟糕的智能体写的报告,所以我根据 GOVUK 风格指南和内容设计原则整理了一个写作技能: https://gist.github.com/fofr/505e225f9bf5e839d30c12ba6bfa0be2 内容有点过时,但你可以看到这个技能的效果:
智能体教程/实践
21:53
meng shao@shao__meng
46
终于让ZCode用上Computer Use了

ZCode通过Cua插件接入开源Computer Use,agent可操作macOS:截图、读无障碍树、点击、打字,绕过Apple Events权限,改用CGEvent+Accessibility API。它自行计算7×6=42,并打开Chrome导航到微博和X。GUI正变成agent也能直接操作的界面。

智能体MCP/工具教程/实践
21:14
OpenBMB@OpenBMB
41
面壁社区在NAS上部署MiniCPM5-1B,实现本地LLM+Agent+RAG系统

面壁智能社区开发者将MiniCPM5-1B部署于QNAP NAS(型号Qu605-N150-16G),内存占用低于2GB,通过Ollama集成至Cherry Studio作为本地LLM。借助NAS MCP协议,将文件管理、共享文件夹、语义搜索等系统能力暴露给外部Agent,实现安全本地数据访问。同时利用Qsirch索引将NAS文件构建为结构化知识库,由MiniCPM5-1B在设备端执行检索增强推理,完成摘要、问答等任务。展示轻量小模型从本地推理向系统级智能体+RAG组合演进的实践。

智能体教程/实践端侧
21:13
eric zakariasson@ericzakariasson
68
Eric Zakariasson:用AI智能体编程的"人参与循环"工作流

Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。

智能体教程/实践编码
20:20
Berryxia.AI@berryxia
69
岚叔开源文章转手绘动态图Skill

开发者岚叔(LufzzLiz)开源了一个可供AI智能体调用的Skill,能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理:先用模型将内容压缩成结构化JSON spec,再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题,目前仅内置一种风格,用户可自行扩展。开源地址已在评论中发布。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...

智能体GitHub开源/仓库
18:16
AYi@AYi_AInotes
64
freellm.net 整合136个免费LLM,53个经API实时验证无失效链接

新网站 freellm.net 汇总25家厂商共136个免费LLM,其中53个经API实时验证无失效链接。覆盖 DeepSeek V4 Pro、Kimi K2.6、GLM 5.1、MiniMax M3、Mistral 等,可按文本/代码/视觉/音频/推理维度筛选,上下文长度与速率限制一目了然。生成API密钥即可接入工具,适合开发测试和小流量场景,生产环境需自行评估稳定性。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践
17:27
Alibaba Cloud@alibaba_cloud
30
Qwen Live首期:Agent-First云平台直播

阿里云宣布Qwen Live系列首期节目,主题为“Agent-First:当你的下一个用户不是人类”。节目将于2026年6月30日10:00(UTC+8)直播,由Qwen Cloud负责人林林孔、产品经理潘古和西觉共同主持。他们将探讨从零构建面向AI智能体的云平台、为非人类用户重新定义开发者体验,以及大规模人机协作的新范式。节目还提供Qwen Cloud平台入门链接。

智能体行业动态部署/工程
15:10
数字生命卡兹克@Khazix0918
57
Claude Code Hook 六大玩法:从自动化日程到异步通知

Hook 是 Claude Code 的触发器,可设置规则让 AI 自动执行操作,不消耗 Token。当前支持近 30 个 Hook 事件。文章整理了 6 种玩法:权限弹窗提醒、开机日程播报、上下文预压缩时生成摘要卡片、文件自动整理、久坐提醒,以及通过 Bark 工具向手机发送完成推送。

智能体AnthropicMCP/工具教程/实践
15:09
向阳乔木@vista8
68
腾讯云 EdgeOne Makers 发布:三行命令部署 AI Agent 框架

腾讯云 EdgeOne 发布「EdgeOne Makers」,简化 AI Agent 开发与部署。用户在终端执行三行命令即可部署 Agent 框架:npm install -g edgeone;edgeone makers create --template openai-agents-starter-node;cd openai-agents-starter-node && npm install && edgeone makers dev。本地启动测试网站,可实时查看 Agent 对话与工具调用细节;线上支持绑定域名、关联 GitHub 实现持续迭代。产品处于 Beta 内测阶段,注册即免费领取 50 万 Token。

智能体产品更新部署/工程
14:26
Alibaba Cloud@alibaba_cloud
46
阿里云CTO李飞飞:智能体时代数据引力将主导

在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。

智能体大佬观点数据/训练
12:23
Rohan Paul@rohanpaul_ai
43
GLM 5.2 登顶 PostTrainBench,得分 34.29%

GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。

智能体数据/训练评测/基准
12:19
Berryxia.AI@berryxia
63
Anthropic推出Claude Tag

Anthropic发布新产品Claude Tag,将其描述为Agent的下一个进化形态。这是一个运行在Claude Code之上的多玩家AI Agent,具备持续记忆和身份,能主动发起行动并与团队协作。核心转变是将Agent从单人聊天工具变为拥有长期上下文的“团队成员”,支持多人在同一Agent上协同工作。此前大多数Agent仅支持单轮或单用户交互。不过,评论区热议焦点并非该产品,而是用户更期待的Fable 5。

ClaudeDevs: Claude Tag is the next evolution of agents. It's a proactive, multiplayer agent with memory and identity, built on top o...

智能体Anthropic产品更新
09:52
meng shao@shao__meng
56
Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体Anthropic推理评测/基准
09:27
小互@xiaohu
精选81
小互开源个人IP配图技能"小互IP Studio",含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

智能体GitHub图像生成开源/仓库

推荐理由:小互开源了一整套AI配图skill和31个原创角色,把“读文-定图-生图-自查”的流程装进一个命令,自媒体人装上就能用,省去调提示词的痛苦。
09:23
Rohan Paul@rohanpaul_ai
53
《对智能体模型的批判》

该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。

智能体大佬观点
08:52
meng shao@shao__meng
62
OpenAI Codex 一年数据:知识工作转向长周期任务,覆盖所有部门

OpenAI 发布 Codex 整年使用数据:约 24% 请求对应人类需 1 小时以上工作;到 2026 年 5 月,80.6% 个体用户至少有一次 ≥30 分钟任务,25.6% ≥8 小时。内部 Codex token 占比从 <10%(2025 年 8 月前)激增至 99.8%(2026 年 6 月),工程率先过半,法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍(个人)和 189 倍(组织),H1 2026 活跃用户整体 5 倍以上,增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本,ChatGPT 式聊天在工作场景中被快速替代。

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体OpenAI现象/趋势
08:21
宝玉@dotey
63
OpenAI 内部几乎全员(研发、法务、财务、招聘)已从 ChatGPT 转向 Codex。观察者认为,Codex 将成为 AI 时代的 Office,甚至可能成为操作系统;其发展趋势必然是 Agent OS(智能体操作系统)而不仅仅是 Agent Office(智能体办公套件)。

刘江/LIU Jiang: 最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。

智能体OpenAI大佬观点
07:20
ginobefun@hongming731
45
BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备

Dropbox用DSPy构建两阶段评测闭环:人工标注校准LLM裁判后,自动优化Dash Chat提示词,使不完整答案减少26%,遗漏关键信息点减少13%,Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚,支持在step.do()中声明补偿逻辑,引擎自动逆序执行已注册回滚,具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。

智能体现象/趋势
06:51
OpenAI Developers@OpenAIDevs
57
Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥
智能体OpenAI教程/实践编码
05:56
elvis@omarsar0
72
Elvis Saravia(DAIR.AI)推荐ashwingop分析称,Claude Tag看似让Slack中的AI像队友般流畅协作,实则导致"上下文锁定"--公司运营记忆(异常处理、客户承诺、失败经验等)被锁定在Anthropic的agent层。模型可换,上下文几乎无法迁移;基于token的无限计价使劳动支出被单一供应商捕获。正确架构:从任何顶级模型供应商租用智能,但企业自己拥有可检查、有权限、可移植、模型中立的上下文层。

Ashwin Gopinath: Claude Tag is a Trojan horse. Not because Anthropic is doing anything evil. Because the incentives are obvious. Day one,...

智能体Anthropic大佬观点
05:53
Rohan Paul@rohanpaul_ai
67
BabelTele:LLM间通信压缩文本至27.9%保语义99.5%

新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。

智能体arXiv推理论文/研究
05:26
elvis@omarsar0
14
如我所言,已有公司把"AI员工"这件事做得非常出色。 @viktor__com 就是其中之一。 最棒的是你不会被锁定在单一模型上--你确实需要这一点。Viktor 可在 Slack 和 Teams 中运行,支持任意模型,连接 3200+ 工具。

Fryd Wiatrowski: http://x.com/i/article/2070125273790492672

智能体其他
04:25
elvis@omarsar0
41
Meta Autodata:智能体自动构建合成训练数据

Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。

智能体Meta数据/训练论文/研究
‹ 上一页
1…45678…50
下一页 ›