距离世界杯开幕战不到 12 小时,BestBlogs 的两位站长制作了世界杯特刊(https://www.bestblogs.dev/worldcup),方便球迷在看球前快速了解信息、赛后闲聊。此外还做了一个「普神」Agent 来预测每场比赛胜负,用户也可参与选择。
距离世界杯开幕战不到 12 小时,BestBlogs 的两位站长制作了世界杯特刊(https://www.bestblogs.dev/worldcup),方便球迷在看球前快速了解信息、赛后闲聊。此外还做了一个「普神」Agent 来预测每场比赛胜负,用户也可参与选择。
推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。
WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。
你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude...
如何让多个 Agent 之间真正互相学习、互相帮助? 现在很多 Agent 都开始有自己的记忆,但问题是: 这些记忆彼此不连通。 Codex 记住的坑,Claude 不知道;Hermes 总结的方法,OpenClaw 也用不上。 最后每个 ...
视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。
小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。
A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。
@jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/
Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。
BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...
团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。
小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。
小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。
no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...
Cursor创始人Michael Truell从12岁爱上编程,其创立的AI编码平台Cursor两年间从15人扩张至700人,服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力,但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平,人均创收极高。产品体验(Composer、Agent等)并非源于商业计划书,而是源自12岁少年“把想法变成现实”的初心。
Michael Truell (@mntruell) fell in love with coding at 12. The company he co-founded, @cursor_ai, went from 15 people to...
no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...
Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。
Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...
Claude Design 具备完整 Agent 运行环境,基于浏览器和虚拟机,内置 45 个工具和 24 个 skills,采用 Agentic Loop。有团队质疑其仅为单个 Agent,宝玉回应:它就是一个完整的 Agent Harness。
@dotey 我们团队研究快一个月了,未发现任何harness迹象,看起来就是单个agent在那做。哥你说的harness在那自定义?
Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...
NoimosAI 推出全合一自主 AI 营销团队。连接产品应用、网站及数据源后,系统自动规划执行 SEO、GEO、社交媒体、外展和转化等增长工作,24/7 运行并将输出结果送交审批。产品基于一个关键洞察:AI 虽加速了产品构建,但分发仍依赖流量、线索、内容和反复测试,因此 NoimosAI 试图将营销流程转化为日常自动运营闭环。
Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...
Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...
Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。
SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。
Mythos / Fable is unbelievable. Was on a customer call today and had Claude transcribing in the background. As they were...
第一次录口播脚本,推荐本好书《被讨厌的勇气》。 工具:Pocket3 + 免费提词器teleprompter + 手机配件 脚本:用刚做的书籍口播解读 Skill 生成,改天开源。 剪辑:剪映加片头片尾,调色用LUT文件CELLULOID_...
印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。
苹果密码App现在能自动扫描所有账号的弱密码、重复密码和已泄露密码,并自动登录对应网站,找到修改密码页面,生成强密码完成替换,最后存入钥匙串。全程只需用户点一次确认,无需手动操作。@MKBHD 演示了银行、税务、医院等账号逐一处理。此前改一个密码至少花5分钟,现在一键完成。
The new Apple Passwords app
Claude Fable 5 费用约是 Opus 4.8 的三倍,但效率提升显著:Parameter Golf 挑战效率高 6 倍;Slay the Spire 加持久记忆后表现翻 3 倍;可一次性迁移 50 万行代码。Anthropic 内部两大杠杆:① 自我纠正循环——写 rubric(目标+量化评分标准+沙箱),让模型自主改代码、跑测试;② 记忆系统——共享文件系统作为外脑,每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。
http://x.com/i/article/2064380553919676416
Berry Xia表示,学完Harness后接触Loop Engineering,认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享,但Smith(@smithandai)已发表相关文章,推荐阅读。
http://x.com/i/article/2064229409247358976
作者分享使用AI agent AllyHub拆解小红书对标账号的方法:第一步从57个候选筛出10个够得着且变现的账号(平均粉丝5.8万);第二步以「AIGC猫大人」为例,扒出7篇点赞过5000的爆款,发现赛道封面规律是“无文字纯视觉”短视频;第三步算变现,约85%收入来自蒲公英接广(合作李锦记、兰蔻等),3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。