AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3070 条
全部一手资讯X论文
标签「Agent」清除
ginobefun@hongming731 · 6月11日44

距离世界杯开幕战还有不到12小时了! BestBlogs 的两位球迷站长为了节约自己的时间,专门制作了世界杯特刊:https://www.bestblogs.dev/worldcup 想要在看球之前全面了解信息?想在睡醒以后为办公司闲聊快速了解情况?BestBlog继续帮你发现真正适合你的高质量内容。 One more Thing: 我们还做了一个 「普神」 Agent来预测每场比赛的胜负,想让观赛更有代入感,也欢迎你来做出自己的选择。

译距离世界杯开幕战不到 12 小时,BestBlogs 的两位站长制作了世界杯特刊(https://www.bestblogs.dev/worldcup),方便球迷在看球前快速了解信息、赛后闲聊。此外还做了一个「普神」Agent 来预测每场比赛胜负,用户也可参与选择。

向阳乔木@vista8 · 6月11日50

Codex的Goal指令太强了。 一个网站开发任务,已经足足运行了10小时。 AI自己开发测试部署上线,功能在不断完善。 昨天说的AI资讯订阅RSS站,大家可以体验了。 https://rss.qiaomu.ai/

译推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。

数字生命卡兹克@Khazix0918 · 6月11日69

http://x.com/i/article/2064933671258439680 # 从0到1带你速通WorkBuddy,这可能是最适合国内的Agent产品。 之前我写了Claude Code和Codex的从0到1的新手教程,反响都还不错。 但写完之后,评论区里一直有一类声音说,这些工具是好,但是用不了啊。 确实,这两个产品虽然强,但它们对国内用户来说并不友好。 而大家日常的办公需求又是实实在在的。 然后,就有很多朋友问,能不能讲一讲,WorkBuddy的教程。 坦率的讲,WorkBuddy确实也是我觉得国内为数不都的,口碑还不错的通用Agent产品了。 所以这次,我也决定写一篇WorkBuddy的从0到1的教程。 带很多用不了Claude Code和Codex的朋友,用上这个国内我觉得是最棒的平替了,而且几乎Windows版本跟Mac一样,这个对国内用户真的挺友好的。 如果你不需要那么硬核的开发能力,也不愿意折腾,那相信我,WorkBuddy几乎能覆盖你日常办公场景里七八成的需求。 我会用一个日常的办公任务和一个简单的开发任务,两个实际案例来串起整篇教程。 跟着做,你也能上手。 OK,直接进正题。 # 一. 安装 第一步肯定就是安装了。 官网地址在此:workbuddy.cn Mac、Windows都支持,选你系统对应的版本下载就行。 我这里用的是Mac,所以就拿Mac来做演示。 下载完正常安装。 打开之后登录。 选择微信,再扫码,非常丝滑。 我真的,已经很久很久很久没对着一个Agent产品直接微信扫码登录了。 就像出来发现外面的世界根本没下雨,原来Agent产品也可以不用那么折腾的啊。。。 然后你就进来了。 个人体验版免费,能干点很简单的东西,个人专业版58块/月,适合重度用户,而且也不贵。 上周五腾讯刚开了一场发布会,正式推出了WorkBuddy企业版,类似我之前写过的Accio Work的企业版,如果你是企业用户有这方面需求,可以自己去了解一下。 # 二. 认识界面 主界面大概是这么个布局。 我们一起来快速过一遍界面,了解每个区域是干嘛的。 正中间这一大块,就是跟WorkBuddy交互的对话区,一般使用,有三个场景模式可以切换,分别是代码开发、日常办公、设计创意,几乎覆盖了绝大多数的办公人员了。 这三个模式是跟下面的快捷方式联动的。 你切到代码开发,下面出来的就是日常开发、网站开发、Agent应用、Skill开发这些。 切到日常办公,变成文档处理、数据分析及可视化、深度研究、幻灯片这类。 切到设计创意,就是网站设计、移动端App、PPT设计、交互原型、品牌设计这些。 然后下面的模板,点进去还有一层。 比如你选了日常办公中的文档处理,会展开一组更细的提示词模板。你把里面的内容替换成自己的实际需求,改改就能发。 产品的便利性和体验上,我说实话,这个还是国内做的更好一点。 再看对话框下方,左边有一排选项,我们从左到右过一遍。 第一个是工作模式,三种模式,能力从下到上是逐级递增的。 Ask,就是纯聊天,你问它答,跟你平时用豆包那种对话框是一样的。 Plan,是先出计划再动手,如果你是新手,对AI干活还没什么安全感,可以用这个模式先过一遍再开干。 Craft,是平时干活的Agent模式,大部分情况就是用这个。 这里提醒一下,WorkBuddy默认就是Craft模式。也就是说你随便发一条消息,它就直接开干了,积分也就开始消耗了。 所以如果你只是想聊两句、问个问题,记得先切到Ask,如果还没想清楚怎么做,就切到Plan。 模型方面,WorkBuddy内置了绝大多数的国产大模型,腾讯混元、DeepSeek、GLM、Kimi都有,不同模型消耗的积分不一样,这块你就别问为啥没有GPT、Claude之类的了。 不同模型擅长的方向不一样,每个人喜欢用的也都不一样,你完全可以根据自己的任务类型和偏好来选。 但如果你真不知道选啥,或者就想要一个最通用的,我就无脑推荐你使用DeepSeek V4 Pro,目前我感觉最适合绝大多数的C端用户的,价格低,且综合能力强,世界知识、Coding、Agent能力等等几乎前面覆盖了,除了没有多模态,在国内相比,几乎都是水桶级的。 当然,如果你有自己的偏好,那就按自己的来。 如果你有自己的API Key,想用自己的模型,WorkBuddy也支持接入外部的。 点击设置。 在模型页面里点添加模型。 只要是兼容OpenAI协议的API都能接。 说完模型,权限这一块,它提供了默认权限和完全访问权限两种,没啥特别的,跟其他的Agent一样,默认权限就是遇到高风险操作会先停下来问你。 我自己不管啥Agent,选的一般都是完全访问,因为每次弹框我一般也就是点确认,说实话也看不太懂那些提示,那还不如就别烦我,全交给它自己跑。 还可以使用技能和连接器,这个我们后面会详细展开。 右边的加号,可以上传文件,包括本地文件、腾讯文档以及知识库,这个比较好的一点事跟ima知识库全面打通了,如果你是ima的重度用户,那你一定会觉得非常香。 最下面还有一个选择工作空间。 工作空间,可以理解成项目文件夹。你可以选择当前任务要使用的目录,选择完成后,WorkBuddy会基于该目录读取和处理文件。 也可以直接开始任务,WorkBuddy会在默认目录中生成结果。 任务创建成功后,新任务会出现在左侧任务列表中。 如果一开始没选工作空间也没关系,任务完成后你也可以再存进工作空间。 保存后,能开启多个agent同时协作。 并且会存到空间的目录里。 同时,在你电脑里也会相应的出现一个新文件夹。 说到这里提醒一句,前期分类真的很重要,不然等后面任务堆多了,找起来是真的头疼。 大概的界面就是这样。 然后就是重点了,左上方的功能区,有助理、项目、专家、自动化、以及文件、知识库文档和灵感。 我们一个一个来介绍。 # 三. 专家和技能 点击左侧上方的专家。 顶部可以切换专家、技能、连接器三个页面。 这三个还是有些区别的。 先说专家,你可以把专家理解为,一个已经全面封装好的垂直Agent。 WorkBuddy里内置了100多个专业领域的AI专家。 进入专家中心,里面按行业分好了类,每个专家都有自己的能力卡片。 点击之后就进入对话了,用起来跟平时没什么区别,只是它现在换了一个专业视角的专家Agent在帮你干活,你直接说需求就行。 比如,一个微信小程序的专家,擅长的领域是小程序开发、微信生态、WXML开发,你想做个小程序,直接召唤它,关于微信开发所需要的行业知识、技能还有一些其他的东西,已经全部帮你封装好了。 你像前天刚高考完,WorkBuddy就上新了一个高考专家,能刷真题、换算一分一段、查院校专业。考生朋友们,接下来报志愿就能用上了。 也能看到我的资讯速递专家,一句话就能查到每天精选的AI动态,自动整理成中文简报。 大家可以自己去体验一下,我就不王婆卖瓜了。 专家是一个Agent帮你干活,专家团则是是一群Agent一起协作,这个肯定打大家都比较好理解了。 你把任务丢给专家团,团长自动帮你拆任务,分给不同的专家并行跑,跑完再整合结果交付。 比如一个软件开发的团队,会有交付总监作为主理人,负责统筹,底下有产品经理、架构师、工程师、QA工程师,一整条研发流水线全配齐了。 就很像当老板的感觉就你往那一坐,说一句帮我搞定,然后一群AI员工们就嗡嗡嗡地开始干了。 不过因为是多个专家同时跑,积分消耗大概是单个专家的3到5倍,毕竟多个Agent之间来回通信,还是挺贵的。 当然,你也可以自己创建专家,点右上角的我的专家进去。 再点击创建专家。 然后大白话告诉它你想做什么方向的专家就行。 如果你在某个领域有自己成熟的方法论和一些技能,完全可以把它封装成一个专家,以后反复调用,甚至分享给别人。 再来说技能。 技能这个东西大家就很好理解了,就是Skills。 WorkBuddy在这块,做出了一些国产特色,还是比较有意思的,他们做了一个完整的Skills市场,确实对于很多的用户都极度友好。 推荐里面是官方精选的一些技能,很多都是官方自己的。 当然这里面,也有我的Skill。 而Skillub里面全是大家做的各种Skill,基本上已经非常全了,热门的都有,想要啥你基本都能直接搜到。 套件就是把一组相关的技能打包在一起。 在Claude code以及codex里面就是插件的意思。 如果你也想自己做一个,点右上角的添加技能,选创建技能。 然后用大白话告诉它你想实现什么功能就行。 还有一个就是连接器,也就是大家常说的MCP。 一句话来解释,就是把WorkBuddy跟你日常在用的外部服务打通。 比如昨天很爆的瑞信咖啡的Skill,他们也有MCP版。 WorkBuddy在MCP这块最大的优势,就是能跟腾讯的整个生态无缝打通。 比如QQ邮箱,连接之后可以直接发送、搜索和整理你的邮件,还有腾讯会议、腾讯文档,都可以接进来。 还有能够看行情数据的通达信MCP,造福炒股的朋友们。 如果你是QQ邮箱用户,这个就太香了,操作也简单,点击QQ邮箱的MCP。 再来扫个码。 在手机端确认授权,就搞定了。 其他服务同理,按照提示一步步操作就行。 也支持右上角自定义连接器。 WorkBuddy在支持的技能生态这块,做的还是比较完整的,对国内的用户,确实体验相当的友好。 # 四. 修改设置 我猜你看到这里已经跃跃欲试了。 但接下来的设置环节,我还是非常推荐你跟着我走一遍,有些东西调好了,后面用起来会顺畅非常多。 头像点进去,打开设置页。 系统设置里面有两个开关,建议你可以打开。 一个是技能自动更新,这个很重要,因为WorkBuddy有Skills广场,所以其实生态是很完整的。打开之后你装的那些Skills有新版本了会自动升级,不用自己总是要去手动下载升级。 另一个是锁屏远程,这个跟Codex和Claude差不多,就是打开之后你电脑不会进入休眠状态了,免得出个门发现电脑休眠WorkBuddy直接躺了。 系统授权里的权限也可以点击去授权,都打开。 然后,把对话记忆打开。 它会从你们的对话中提取关键信息记下来,以后碰到相关的事会自动调出来用。 当你们的对话越多,它就越了解你的习惯和偏好。 如果之前你用过其他Agent,还能直接把那边的记忆导过来,搬家很方便。 接下来,在个性化设置里,配一下自定义指令。 自定义指令,之前在Codex和Claude Code教程里的也都说过,类似于最高等级的CLAUDE.md文档,整个Agent的最高级文档,你给Agent定下的顶层规矩。 这块给大家推荐一个非常通用的,适合大家的来自大神卡帕西的模板,可以直接复制粘贴用上。 减少常见LLM编码错误的行为准则。可根据需要与项目特定指令合并。 **权衡:**这些准则倾向于谨慎而非速度。对于简单任务,自行判断即可。 ## 1. 先思考再写代码 **不要假设。不要隐藏困惑。把权衡摆到台面上。** 在动手实现之前: - 明确说出你的假设。不确定就问。 - 如果存在多种理解方式,全部列出来——不要默默选一个。 - 如果有更简单的方案,说出来。该反驳就反驳。 - 如果有什么不清楚的,停下来。说明哪里让你困惑。提问。 ## 2. 简洁优先 **用最少的代码解决问题。不写投机性代码。** - 不加超出需求的功能。 - 一次性代码不搞抽象。 - 没人要求的"灵活性"和"可配置性"不要加。 - 不要为不可能出现的场景写错误处理。 - 如果你写了200行但50行就能搞定,重写。问自己一句:"一个资深工程师会说这写复杂了吗?"如果是,简化。 ## 3. 精准修改** 只动必须动的地方。只清理自己制造的问题。**编辑已有代码时: - 不要顺手"改进"旁边的代码、注释或格式。 - 没坏的东西不要重构。- 匹配现有风格,即使你会用不同的写法。 - 如果注意到不相关的死代码,提一嘴就好——别删。当你的修改产生了孤立代码时: - 移除因你的改动而变成未使用的import、变量和函数。 检验标准:每一行改动都应该能直接追溯到用户的需求。 ## 4. 目标驱动执行 **定义成功标准。循环验证直到确认通过。**把任务转化为可验证的目标:- "加验证"→"为非法输入写测试,然后让测试通过"- "修这个bug"→"写一个能复现它的测试,然后让测试通过"- "重构X"→"确保重构前后测试都能通过"对于多步骤任务,列出简要计划:1. [步骤]→验证:[检查项]2. [步骤]→验证:[检查项]3. [步骤]→验证:[检查项] - 不要动原本就存在的死代码,除非被明确要求。 强成功标准让你能独立循环推进。弱标准("让它能跑")则需要不断澄清。 --- **这些准则起作用的标志是:**diff中不必要的改动更少了,因过度复杂化而返工更少了,澄清性问题出现在实现之前而不是犯错之后。 一切就绪,你终于可以开始,玩Agent了。 # 五. 办公任务 我们先给大家看个办公任务,WorkBuddy在办公这块确实花了不少心思。 点击办公模式。 选你电脑文件存放的文件夹,WorkBuddy能直接读取里面的文件。 或者直接点对话框右边的加号上传文件也行。 再选好模型后,输入提示词。 比如我让他帮我基于上周的公众号数据,生成一个报告,在周会中进行汇报,虽然我也不知道我要跟谁汇报。。。 旁边有个优化提示词的按钮,可以点一下让它帮你润色。 出来的效果长这样,变成了一个有结构化提示词,对于不像Opus 4.8这种级别的超强模型来说,喂一个结构化提示词进去,出来的效果确实会好不少,这个也是之前不少研究验证过的结论。 确认完就开始跑了,界面上能看到一个Todo清单,正在执行哪一步、接下来做什么,进度很清楚。 跑完的效果长这样。右侧边栏可以查看任务产出的文件和预览内容。 也能直接打开文件夹看生成的东西。 基本上,你在办公中能想到的跟办公有关的需求,无论是文档、还是数据、还是PPT啥的,你都可以让WorkBuddy来干,而且干的还不错。 # 六. 开发任务 除了通用的办公需求之外,我们接下来,再来做个好玩的开发向。 一起来搓一个小网页。 我们切到代码开发模式。 再点击网站开发。 我让它帮我做一个WorkBuddy的功能介绍网页,要包含所有的功能,好看且有设计感。 使用plan模式,优化提示词。 回答几个问题。 一会就做完了,中间的过程我就不截图了,反正都是它自己在做,我干别的事情也没再管。 右侧栏里能直接预览,嫌小的话也可以点击右上角在浏览器里打开看整体的效果。 怎么说呢。。。这个配色AI味有点重了,紫色看得我有点PTSD。 于是我用一个前端开发的Skill,让它重新优化了一版。 过程同样就不截图了,最后效果如下图,这版看着就舒服多了。 同样的,我们自己还有个我们自己的服务器管理的Skill,我们可以继续对话,来让WorkBuddy帮我们把这个小网页,调用我们的服务器Skill把它部署上线。 不过开发这块我得说句实在话,目前国产模型在代码能力上跟最顶尖的确实还有段距离,做小项目、搓个网页之类的问题不大,但真碰上复杂的大工程。 我极力推荐你,克服一切困难,想办法用上Claude Code或者Codex。 七. 远程控制 再来讲一个很实用的功能,远程控制。 远程控制跟Claude Code和Codex还有点不太一样,它是原生跟微信打通了,毕竟都是腾讯自己家的产品嘛。 当你不坐在电脑前,也能让WorkBuddy帮忙处理工作。 打开功能区里的助理功能。 点击旁边的设置。 在设置里,把这两个打开。 然后掏出手机微信扫上面这个码,打开小程序,授权登录。 连接成功后你就能看到左上角有个已连接。 手机端的小程序分为两种模式,一个是云端工作,一个是连接电脑。 云端工作,是指任务在云端沙箱跑,不需要你电脑开着。 连接电脑,则是远程操控你本地电脑干活,适合需要读取电脑里文件的任务。 举个实际的场景,比如我在外面,突然需要把电脑里一份文件发到财务的邮箱里。换做以前,我只能回去后发,还会耽误其他人的工作进度,但是现在手机上跟它说一声,就可以了。 不过,实现发送邮箱的前提是,我在一开始就配置好了qq邮箱的连接器。如果你还没有连接配置,也可以让它把电脑文件直接发到小程序的对话框里。 一会就发出去了。 财务那边也确实收到了。 除了小程序,还可以接微信的ClawBot插件,不过我个人体感,小程序上的体验会更好且更稳定。 而飞书、钉钉、QQ也都可以接助理,点击配置后按照流程来做就行。 # 写在最后 我一直觉得,对于绝大多数人来说,Agent的核心价值不是帮你写出最牛逼的代码,而是帮你把每天那些重复的、琐碎的、让你浑身难受的办公任务给自动化掉。 发个邮件、整理个数据、做个PPT、跑个简单的小网页。 这些事情,WorkBuddy已经完全能干了,而且干的还挺好。 我之前写Claude Code和Codex教程的时候,评论区最多的一类留言就是,「好是好,用不了啊」。这句话我看了几百遍,每次看到都觉得挺无奈的。 所以这次也算是给大家补上了一块拼图。 希望大家工作愉快。

译WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。

宝玉@dotey · 6月11日71

渣男啊!最近又移情别恋 Fable 5 了,虽然它很贵,但是复杂的干活是真的更省心更稳一些❤️

译宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

Berryxia.AI@berryxia · 6月11日64

卧槽! Agent 互相学习新思路 ,之前我在bloome 就是让把他的技能直接告诉他。 看他直接去它的脑子可能更快? 黄总的这个我让升级学习下吧~ 😂

译当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层“共享记忆”——只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

宝玉@dotey · 6月11日65

这段视频展示了一个极其前沿且硬核的视频制作方式:视频完全没有使用传统的非编软件(如 Premiere 或 Final Cut),而是由 Claude Code 配合 Fable 5 通过全自动编写代码和调用命令行工具“剪辑”而成的。 整个工作流被抽象成了一个软件工程项目,主要包含以下几个关键步骤: 1. 全量语音转写与时间戳打点 (Whisper): 将拍摄的 25GB 原始素材(17个 Take,4个场景)交给本地运行的 Whisper 模型。模型不仅输出了文本,还生成了精确到毫秒级的单词时间戳 JSON 文件。 2. AI 智能挑选最佳镜头 (Subagents): 多个 Subagent(子智能体)基于生成的 JSON 文件,自动分析并剔除了包含“嗯”、“啊”等停顿词的废片,选出了表达最清晰、结尾最干净的备选片段。 3. FFmpeg 自动粗剪: 将 AI 挑选出的最终片段生成一个决策 JSON 文件,然后直接通过代码调用 ffmpeg,将这些片段无缝拼接到一起,完成第一版粗剪。 4. 纯代码自定义调色 (Color Grading): AI 从零开始手写了 LUTs(色彩查找表)代码,并且为了方便人类介入,它还自动生成了一个带有滑块的 HTML 网页,让人类可以通过拖拽滑块直观地调整色温、亮度和对比度,调好后的参数会直接传回代码中。 5. React 组件化动画制作 (Remotion): 并没有使用 After Effects。AI 将原本静态的图形文件转写成了基于 React 的 Remotion 动画组件。利用第一步生成的单词时间戳,AI 实现了极其精准的“卡点”——当作者念出特定的词(如 "right")时,UI 动画会自动触发,完全不需要手动对齐时间轴。 6. Figma MCP 协作打磨: AI 将生成的画面导出到 Figma 中,让人类设计团队进行排版和视觉优化。人类修改完毕后,AI 再通过 MCP(模型上下文协议)将 Figma 的最新设计自动“抓”回代码里,最终渲染出 4K 24fps 的成片。

译视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

宝玉@dotey · 6月11日57

DeepSeek 招 Agent Harness 研究员,能是世界范围内第一次招聘“Harness研究员” https://app.mokahr.com/su/mCyA8 ● 招聘岗位:Agent Harness 研究员(实习/全职) ● 工作性质:全职 | 实习 ● 工作地点:浙江·杭州市 / 北京市 ================================ 【团队使命】 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力,转化为领先的 Agent 产品。这其中除模型本身以外的所有工作,都属于 Harness 的范畴。 你将加入 Harness 团队,与研究员、工程师、产品经理紧密协作,探索 Harness 领域的研究前沿,定义 DeepSeek 对 Harness 的理解。 ================================ 【主要职责】 - 前沿创新:与 Harness 团队的研究员与工程师深度沟通、紧密合作,共同定义和实现 Harness 领域基于模型能力的前沿创新,包括但不限于上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等领域。 - 深度适配:与模型训练团队的研究员与工程师深度沟通与合作,实现模型与 Harness 的共同进化,从 Harness 的角度实现 DeepSeek 的 Harness 与模型的深度适配。 - 评测构建:提出 Harness 领域的基准测试与评测方法,构建评测基准数据和制定数据标注策略,从 Harness 的角度研究并优化 Agent 在各领域的智能水平。 - 真实迭代:以真实世界的任务作为 Harness 研究的重要反馈源,设计相关数据与实验,持续迭代 Agent 能力在真实使用场景下的表现。 - 用户优化:基于团队收集到的用户反馈,从 Harness 的角度研究并优化为最广大用户解决真实场景问题的能力。 ================================ 【任职要求】 - 科研背景:硕士学历及以上,2年以上计算机科学或相关领域的科研经验,水平过硬,眼界广阔,有科研品味;在计算机科学领域具有含金量的论文发表(特别优秀候选人可放宽学历及年限要求)。 - 独立推进:面对问题能够独立分析并提出自己的 idea,具备从 0 到 1 推动研究的能力;能够快速将想法转化为可运行的原型,具备高效的实验迭代能力。 - 全栈开发:熟练使用 AI Agent 工具进行软件开发,在软件开发领域具有极强的学习能力;能够在 AI 辅助下,在没有直接经验的领域(如语言、技术、框架等)进行研究目的的编程工作。 - 重度用户:是 Agent 产品的高强度用户,对 Agent Harness 的开发和研究有极大的热情,对模型行为有品味有判断力;深度使用过代码类及通用类 Agent 产品,并将相关产品的使用融入到自己的工作和生活中。 - 知识储备:熟悉 LLM 以及 Agent 基本机制及其技术原理(包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等);对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有深入的理解。 - 沟通能力:具备良好的中文沟通能力。 ================================ 【加分项】 - AI 领域相关科研经验,或 AI 行业的研究员任职经验。 - 拥有个人开源作品,或对开源社区有深度贡献。 - 在计算机科学领域、编程领域、或数据科学领域获得过具有含金量的比赛奖项。 - 其它超乎常人的与此工作相关的才能。

译DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。

meng shao@shao__meng · 6月11日75

14天、5个人、Vibe Coding => MiMoCode ?! 国产 Coding Agent +1,基于 OpenCode fork 二次开发,保留其核心能力,并在其上叠加了记忆、上下文管理、子智能体编排、Goal 驱动自主循环、Compose 工作流,以及 Dream/Distill 自我进化机制。技术栈为 TypeScript + Bun。 和 MiMo 模型的关系:内置 MiMo Auto 限时免费通道(零配置),也支持小米 MiMo 平台 OAuth、Claude Code 认证迁移,以及任意 OpenAI 兼容 API。它是 MiMo-V2.5 系列模型在 Agent 场景下的 官方配套 Harness,模型能力与框架深度耦合。 https://github.com/XiaomiMiMo/MiMo-Code

译小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

Rohan Paul@rohanpaul_ai · 6月11日67

Today’s frontier agents are far less ready for real-world automation than their benchmark scores suggest. This paper proposes a Agents’ Last Exam, a benchmark that asks AI agents to finish real expert work, and today’s agents mostly fail. Even strong agents of today are nowhere near reliable on the hardest real workflows, which means benchmark success has not yet become broad workplace capability. So this paper shifts the question from “can AI answer hard questions?” to “can AI complete real work that people get paid to do?” Most of today's AI benchmarks show impressive scores, but they do not prove that agents can finish useful work in real jobs. Agents’ Last Exam tries to fix this by testing agents on long tasks from 55 digital work areas, including engineering, finance, medicine, law, media, and science. The tasks come from experts’ real completed projects, and the agent must use normal computer tools like files, browsers, command lines, and desktop software to produce a finished result. The authors tested many current agent systems and models, then scored their finished work with automatic checks or strict rubrics instead of loose human opinions. The main result is that today’s best systems still struggle badly, with an average full pass rate of only 2.6% on the hardest tier. ---- Link – arxiv. org/abs/2606.05405 Title: "Agents' Last Exam"

译一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

meng shao@shao__meng · 6月11日62

再次强烈推荐「Agentic Engineering Patterns」 作者 @simonw 2026 年 2 月起撰写,每周约新增 1–2 章,目前仍在演进。文字由他本人撰写,示例与代码借助 LLM 辅助。 在线阅读: https://simonwillison.net/guides/agentic-engineering-patterns/ 核心目标:如何用好 Claude Code、Codex 这类能写代码、也能执行代码的 coding agent,拿到可靠、可维护的结果。 # 核心概念:Agentic Engineering ≠ Vibe Coding Vibe Coding vs Agentic Engineering · 定义来源:Karpathy 提出 vs Willison 提出的专业实践 · 适用人群:常与非程序员原型相关 vs 专业工程师放大既有能力 · 代码质量:未审查、原型级 vs 审查、测试、可上线 · 人的角色:几乎不参与代码理解 vs 定义问题、验证结果、持续改进 harness Agent 的定义: 在循环中调用工具以达成目标。Coding agent 的关键差异是能执行代码——没有执行能力,LLM 输出价值有限;有了执行,agent 才能迭代到"确实能跑"的软件。 人的工作并未消失,而是上移: · 决定写什么代码(问题空间有数十种解法与权衡) · 提供工具与足够细的规格 · 验证结果是否稳健可信 · 把经验写回指令与 harness(LLM 本身不会从错误中学习,但系统可以) # 全书最重要的一个判断 写代码变便宜了,写好代码并没有。 过去几十年,工程习惯都建立在"代码昂贵"之上: · 宏观: 大量设计、估算、排期,功能必须数倍覆盖开发成本 · 微观: 是否重构、写测试、补文档、做 debug UI——每个决定都受时间约束 Agent 把这个约束打碎。一个人还能并行跑多个 agent,同时实现、重构、测试、写文档。 但"好代码"仍有明确标准: · 能跑、且被证明能跑 · 解决对的问题 · 处理错误路径,不只 happy path · 简洁、可维护 · 有测试与合适文档 · 设计留出演进空间(YAGNI 与可扩展性的平衡) · 满足安全、可观测性等 non-functional 要求 新习惯: 当直觉说"不值得做"时,不妨开个异步 agent 试一下——最坏情况是浪费几分钟 token;很多过去"不划算"的改进,现在值得做。 # 五大原则层(Principles) 1. 定义边界 Agentic Engineering 是专业工程师用 coding agent(能写能跑)放大能力;不等于 vibe coding(不审代码的原型玩法)。人的核心工作:定目标、给工具、验结果、把经验写回 harness。 2. 接受新约束 写代码几乎免费,写好代码仍然贵。旧习惯(过度规划、跳过测试/文档/重构)要推翻;直觉说「不值得做」时,不妨开个异步 agent 试一下。 3. 囤积可复用解法 积累带可运行证明的代码片段(仓库、笔记、小工具)。最强用法:把两个已验证例子拼进 prompt,让 agent 组合出新方案;每个技巧人类只需解决一次。 4. 质量应上升,而非下降 技术债、命名混乱、大文件拆分等「简单但耗时」的清理,交给后台 agent 做,成本已低到可零容忍 code smell;用原型并行验证技术选型;任务结束做回顾,把有效做法写进指令(复合工程)。 5. 严守反模式 绝不提交自己没审过的 PR。合格标准:确信能跑、体量小、有上下文、描述自己读过、附测试证据。否则只是把活甩给 reviewer。 # 实操层:与 Agent 更好的协作 1. 先懂机制,再谈用法 Agent = LLM + 系统提示 + 工具循环。你不必背实现细节,但要清楚: · 对话越长越贵;agent 会尽量利用 token 缓存 · 模型无状态,每次重放上下文 · 能执行代码才是 coding agent 与普通 LLM 的分水岭 · Reasoning/Thinking 对调试复杂问题尤其有用 2. Git:大胆用,不必背 把 Git 当 agent 的「时间机器」和「安全网」: · 新会话恢复上下文:Review changes made today · 救场:Sort out this git mess for me · 找丢了的代码:Find and recover my code that does ... · 定位回归:Use git bisect to find when this bug was introduced · 修 commit / 抽库留历史:Undo last commit / 从新 repo 复制模块并保留 commit 历史 3. Subagent:省上下文,不是炫技 上下文有限,大任务要「分身」: · Explore:进陌生 repo 先摸清结构,汇总给主 agent · 并行:多文件独立改动可同时跑,可用更便宜模型 · 专家(审查 / 跑测 / 调试):隐藏冗长输出,只回报结果 原则: 为省 token 而拆,不为拆而拆;主 agent 够用就别过度分工。 4. 测试:三层防线 ① TDD:先写测 → 确认失败 → 实现至通过 ② 建立测试意识:新会话先跑全套测试 ③ 手动验:python -c / curl / Playwright 真浏览器 ④ 留证:Showboat 记录命令与真实输出,防编造 5. 理解代码:还认知债 Agent 产出若成黑盒,会积累 认知债(类似技术债,拖慢后续决策): · Linear walkthrough:线性导读,用 grep/cat 引用代码,禁止手抄 · Interactive explanation:在导读基础上做可暂停、可调速的动画演示 适用: 陌生代码、自己忘了细节的代码、vibe code 出来却没看过的代码。

译Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

meng shao@shao__meng · 6月11日69

Claude Fable 5 实现零传统编辑的 Launch 视频生产:Remotion + FFmpeg + Figma MCP 端到端实践 来自 Claude Code 核心开发者 @trq212 的又一次高质量分享:他全程未打开任何传统视频编辑软件,仅通过提示驱动 Claude Fable 5 生成代码、调用工具、迭代优化,最终产出 4K、3 分钟成品视频。 https://thariqs.github.io/cc-video-editing-deck/ # 核心流程与关键步骤(高度结构化、可复现) 原材料准备:17 个拍摄 take(约 25GB Sony S-Log3 4K 原片),分为 4 个场景(Intro、Thought Partner、Goals & Verification、Be More Ambitious)。 Step 01:转录与理解 · 一条完整提示启动整个流程:要求使用 ElevenLabs / Whisper(本地 M4 Max 运行)对所有视频进行逐词时间戳转录。 · Claude 生成 JSON 格式的详细转录,支持精确到帧的定位(即使 Whisper 误听名字如 “Thariq” 为 “Sark”,时间戳仍准确)。 Step 02-03:智能选片与剪辑决策 · Claude 作为子 agent 逐场景分析所有 take,挑选最佳版本(优先零 ums、完整脚本、干净结尾)。 · 输出 final-edit.json(EDL 编辑决策列表),包含每个 clip 的起止时间、候选 take、详细选片理由。 · 直接用 FFmpeg 执行 JSON,实现精确拼接(第一版可在几分钟内生成可观看的 2:50 粗剪)。Claude 还会自验证转录结果(“zero ums”)。 Step 04:颜色分级(Color Grading) · 从 S-Log3 平面原片出发,Claude 手写多个 .cube LUT(7 个自定义 LUT,如 neutral_cool_desat、warm_filmic 等)。 · 通过提示迭代生成示例,作者选择后应用 FFmpeg 编码。突出代理在专业视觉任务中的潜力(虽有色域专家指出可能存在细微 gamma/管理问题,但整体可用)。 Step 05-08:图形叠加与设计迭代(Remotion + Figma MCP) · 输入 11 张静态设计 PNG(interludes/overlays)。 · Claude 将 PNG 重构为 Remotion React 组件(JSX),每个文字、颜色、动画均为可提示参数。 · 定义全局 timing knobs(6 个关键帧参数)和 cue sheet(基于转录词时间戳精确对齐叠加,如在 “right” 一词出现帧上触发动画)。 · 通过 Figma MCP 导出为真实 Figma 文件,支持设计团队审阅/调整滑块。 · 设计反馈转回提示 → Claude 更新代码 → 重新渲染,实现高效 code <-> Figma 往返。 最终渲染:npx remotion render 生成 3840×2160@24fps、4334 帧、653MB 成品。 Claude 会先逐帧截图自审,再全渲染。整个过程在几天内完成(主要在 Jun 6-9),凌晨 6:24 交付。 底层架构(“The edit is text”) · 整个项目是一个代码仓库:转录 JSON、final-edit.json、LUT 文件、Remotion 组件、anim.tsx。 · 无时间线、无项目文件,一切可 diff、可 grep、可提示修改。 · 强调 agent 协作哲学:“Treat Claude like a thoughtful partner” — 给出清晰目标、验证方法,保持雄心。 · 结果:从 raw 文件夹到成品,agent 承担绝大部分“中间劳动”,作者主要提供 taste 和最终把关。

译Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

AYi@AYi_AInotes · 6月11日56

这可能是今年所有做AI、Agent的公司,最该抄的一次危机处理, 原帖老哥是个PM,他让Cursor agent帮他给87个任务打标签,然后自己就去开会了,回来发现agent循环跑了90分钟,账单,13亿token,1382美元, 其实agent跑飞是一定会发生的问题,这是AI和传统软件最本质的区别,以前的软件出错,最多崩溃, 现在的agent出错, 能在你开会的90分钟里, 烧掉你一个月的订阅费。 @mardehaym 老哥没@任何人, 只是默默发了条帖子吐槽, 结果Cursor CEO自己找了过来, 说全额退款已经打了, 没收到就找他,对不起,我们正在加支出控制,以后会自动抓这种跑飞的情况。 我看看完真的很触动,@mntruell 没有转给support,也没有暗示用户操作不当,更没有没有写一段滴水不漏的公关话术,直接认错,然后把这个bug公开变成了产品路线图的承诺。 评论区直接炸了,一千多人点赞, 全在说这才是做产品该有的样子, 很多人当场就说要升级订阅。 呐,其实用户怕的从来不是AI出错, 用户怕的是出错之后,没有人承担责任! @cursor_ai 最聪明的地方就在这里, 他们没有把支出限额和异常检测当成事后补丁, 反而把这些当成了核心产品功能, 他们当然也知道这些东西不会让你的agent变得更聪明,但至少能让用户敢放手用, 一次1400美元的事故, 变成了一次品牌资产的净增长, 这比任何定价策略都管用。 而且不得不说,Cursor 的整个产品的体验、功能都特别好,最新的顶级大模型大模型他们也是连夜第一时间上线,Always respect.

译一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

Orange AI@oran_ge · 6月11日57

http://x.com/i/article/2064857003743391744 # 与 AI 一起做产品的六条原则 最近几个月,我们团队都在跟 AI 一起做产品。 AI 可以极大提提到我们的生产力,但我们最终发现生产力的瓶颈在我们自己。 在这几个月的实践中我们踩了很多坑,也沉淀下来一些原则或者说教训。 可以在和 AI 做 PD 设计的时候,把这些发给自己的 Cola 或 你自己的 Agent 作为原则 1.AI 是人的放大器,优点和缺点都放大,人的判断仍是核心。 AI 放大清晰的意图同时也放大糊涂。 例:开发一个复杂的功能,有了 AI 加持后,开发速度很快,只用了两天。上线后,用户看到界面却不知道怎么用。 问:在进入开发之前,这个功能的最主要任务,想清楚了吗? 2.AI 擅长加法,人要做减法。 AI 产出没有沉没成本,人砍起来要狠。 例:AI 可以给页面瞬间加10个按钮,但用户看到这么多按钮,却感觉很凌乱,注意力不够,接下来 AI 可能会给每个按钮增加一个说明,在错误的道路上越走越远。 问:如果一个页面砍到只剩一个按钮,它是什么? 3. AI 擅长大路货,人要提供独特品味,并沉淀成可复用的 context。 例:AI 设计了一个功能,这个功能参考了市面上的所有竞品,吸取了所有优点,结果是做出了一个世界上最平庸的界面。用户用完的感受是:无感。 问:你是否觉得这个地方的品味「非他不可」?是否能把这个品味收束成一个 skill 或一个 md 文件? 4. AI 擅长做的半成品,人要打磨到 80 分才交付。 例:AI 做了一个页面,看起来很合理,但有很多细节问题,这时候交付给用户,反而会让用户的注意力分散。打磨的过程中,需要人给出自己的感受,而每一步提升,AI 所提供的提升都边际递减。 问:这个功能达到80分了吗?如果只有60分,目前的状态提供足够高的价值了吗?(如果交付物是模型本身时,价值可能是足够的) 5. AI 擅长表面功夫,只有人才能共情。 我们都说一页一个 CTA,这只是表象,要洞察用户此刻的感受。 例:vibe coding 的页面看起来什么都不缺,动效也很炫酷,读起来就是不打动人,好的东西,哪怕页面只有一句话也能打动人,真正稀缺的是有人替用户感受过那一刻。 问:用户看到这个页面的第一感受是? 6. AI 可以无限生成,人要守住一致性。 同一个东西对应同一种 UI,本质是给用户熟悉感,用户不该把一个功能学三次。 例:同一个"打开文件",在产品的三个位置右键菜单竟然各不相同,用户需要适应三次。 问:用户使用产品时,是进入心流还是在不断思考? 最后,请不要忘记,PD 文档本身也是产品,你这次的产品设计符合以上六条原则吗? 故事口述:橘子 原则整理:Cola (模型 Fable 5) 插图设计:Cola (模型 Nano Banana Pro)

译团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

jason@jxnlco · 6月11日27

Sandbagging is coming to Agents, but not to ChatGPT Codex

译Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。

Xiaomi MiMo@XiaomiMiMo · 6月11日76

🚀 MiMo Code V0.1 is now live and open-source! More than an AI coding assistant in your terminal — it's the smartest coding partner you'll ever work with. Comes with MiMo V2.5, a multimodal model available free for a limited time, featuring a million-token context window—ready to use out of the box. ♾️ Infinite Context: Knowledge accumulates automatically, and with lossless compression, even million-line projects keep every critical detail intact—quality never drops. 🧠 Agent-Model Synergy: An Agent framework deeply optimized for MiMo, with a full closed loop of testing, review, and validation—so complex tasks get done in one pass. 📝 Compose Mode: Specs → Plans → Build → Report. Design first, code second—clear thinking, no rework. 🔄 Self-Evolving System: Every session is automatically reviewed, distilling experience and best practices—the more you use it, the smarter it gets. 🎙️ Voice Input: Powered by MiMo-V2.5-ASR — just speak instead of type, and your voice becomes the prompt for truly hands-free coding. 🔌 Claude Code Compatible: Automatically loads your existing skills, MCP servers and commands, and reuses your API configuration—zero-cost migration, no setup required. 🌐 Open & Flexible: MIT licensed, with support for leading model providers including Anthropic, OpenAI, DeepSeek, Kimi, GLM and more. Install in one line: Mac & Linux curl -fsSL https://mimo.xiaomi.com/install | bash (For the best experience,we recommand Mac user use it on iTerm or vscode terminal) Windows npm install -g @mimo-ai/cli 🔗 Learn more Website ↓ https://mimo.xiaomi.com/mimocode Blog ↓ https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon GitHub ↓ https://github.com/XiaomiMiMo/MiMo-Code

译小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

Xiaomi MiMo@XiaomiMiMo · 6月11日79

🚀 MiMo Code V0.1 is now live and open-source! More than an AI coding assistant in your terminal — it's the smartest coding partner you'll ever work with. Comes with MiMo V2.5, a multimodal model available free for a limited time, featuring a million-token context window—ready to use out of the box. ♾️ Infinite Context: Knowledge accumulates automatically, and with lossless compression, even million-line projects keep every critical detail intact—quality never drops. 🧠 Agent-Model Synergy: An Agent framework deeply optimized for MiMo, with a full closed loop of testing, review, and validation—so complex tasks get done in one pass. 📝 Compose Mode: Specs → Plans → Build → Report. Design first, code second—clear thinking, no rework. 🔄 Self-Evolving System: Every session is automatically reviewed, distilling experience and best practices—the more you use it, the smarter it gets. 🎙️ Voice Input: Powered by MiMo-V2.5-ASR — just speak instead of type, and your voice becomes the prompt for truly hands-free coding. 🔌 Claude Code Compatible: Automatically loads your existing skills, MCP servers and commands, and reuses your API configuration—zero-cost migration, no setup required. 🌐 Open & Flexible: MIT licensed, with support for leading model providers including Anthropic, OpenAI, DeepSeek, Kimi, GLM and more. Install in one line: Mac & Linux curl -fsSL https://code.xiaomimimo.com/install | bash (For the best experience,we recommand Mac user use it on iTerm or vscode terminal) Windows npm install -g @mimo-ai/cli 🔗 Learn more Website ↓ http://mimo.xiaomi.com/mimocode Blog ↓ http://mimo.xiaomi.com/zh/blog/mimo-c… GitHub ↓ http://github.com/XiaomiMiMo/MiM…

译小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。

OpenRouter@OpenRouter · 6月11日58

Can AI models be too nice for a given task? It turns out, depending on the task, the answer is yes! Our dev rel @jjacky built Royale: Last Agent Stand, a battle royale game just for agents, and let 11 LLMs go wild: https://x.com/jjacky/status/2064767118118117491?s=20

译OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand——一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于“友善”的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的“友善”特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。

AYi@AYi_AInotes · 6月11日67

看了Cursor创始人Michael Truell 的这个访谈,让我觉得Cursor的增长已经不能用人类的逻辑来解释了,有种AI改写了商业的物理定律的感觉… Michael Truell说这句话的时候 Cursor从15人到700人, 从零到服务全球60%的财富500强, 已经不能用一个公司的增长曲线来形容了,更像是一个物种在新环境里的进化速度, 传统互联网时代,软件公司的增长有一道谁都逃不掉的引力, 多做一单就要多招人, 多招人就要多管理, 多管理就要多流程, 多流程就会吃掉所有速度, 最后你一定会变成自己当年最恨的那种大公司的样子。 但是现在AI把这道引力干掉了, Cursor的人均创收高到离谱, 不是因为他们招了全世界最聪明的人 是因为他们每一个人的生产力 被一个Agent级的工具乘了一个前所未有的系数, 导致一个人能干过去一个组的活, 一个组能吃掉过去一个部门的任务, 我把这个视频看了2遍, 最打动我的是他侧着脸讲12岁那年第一次碰到编程的瞬间, 他说只需要一台电脑 就能把脑子里的想法变成现实, 那个表情 根本不是CEO在接受采访 更像是一个小男孩在讲他这辈子最上瘾的事,然后这个小孩从来没离开过, Cursor的Composer Cursor的Agent 那个边聊边写的体验 没有一个是从商业计划书里长出来的, 全都是从那个12岁小孩的脑子里长出来的 他想让每一个人 不管会不会写代码 都能体验到他当年体验过的那种魔法, 我只是有个想法 然后它就变成了现实, 这个故事最动人的地方就在这, 在这个所有人都在聊风口聊赛道的时候, 真正能打穿一切的东西 从来都不是商业分析, 是某个人在某个年纪 撞上了一件愿意为之付出一辈子的事, 然后AI来了 把他那件事的杠杆 拉到了最大。

译Cursor创始人Michael Truell从12岁爱上编程,其创立的AI编码平台Cursor两年间从15人扩张至700人,服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力,但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平,人均创收极高。产品体验(Composer、Agent等)并非源于商业计划书,而是源自12岁少年“把想法变成现实”的初心。

Perplexity@perplexity_ai · 6月11日68

Claude Fable 5 is now available in Computer as an orchestrator model. This is Anthropic's state-of-the-art model for long, complex tasks. Available only to Pro and Max subscribers in Computer.

译Claude Fable 5 现已在 Computer 中作为编排模型可用。 这是Anthropic最先进的模型,适用于长而复杂的任务。仅限 Computer 的 Pro 和 Max 订阅用户使用。

OpenRouter@OpenRouter · 6月11日63

Can AI models be too nice for a given task? It turns out, depending on the task, the answer is yes! Our dev rel @jjacky built Royale: Last Agent Stand, a battle royale game just for agents, and let 11 LLMs go wild What he found was surprising https://x.com/jjacky/status/2064767118118117491?s=20

译OpenRouter开发者@jjacky构建了Royale: Last Agent Stand——一个专属AI智能体的大逃杀游戏,让11个LLM在零和竞争环境中自由对抗30轮。结果发现,最“友善”的模型输得最惨,而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象:在特定任务中,AI过于友善可能成为劣势。

Rohan Paul@rohanpaul_ai · 6月11日64

Apodex-1.0-H just dropped a heavy-duty agent team for deep research Claims SOTA results by splitting web research across many agents and auditing every evidence chain before writing the answer. Treats deep research as a distributed systems problem for AI agents. Apodex uses an async agent team: an orchestrator assigns sub-agents separate contexts and tools, then fact-checker, conflict-reviewer, and draft-reviewer agents test weak claims. The real big deal is that Apodex is showing a possible “inference-time scaling” path for AI research, where better answers come not from one bigger model, but from many coordinated search agents, persistent traces, and a separate verification layer that audits the evidence before the final response is allowed to exist.

译Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。

宝玉@dotey · 6月11日62

Claude Design 有一个完整的 Agent 运行环境,如果把它跟 Claude Code 比较的话,只是它基于浏览器和虚拟机来构建的。它有45个工具,有24个内置skills。运行方式也是基于 Agentic Loop。 所以它就是一个完整的 Agent Harness。

译Claude Design 具备完整 Agent 运行环境,基于浏览器和虚拟机,内置 45 个工具和 24 个 skills,采用 Agentic Loop。有团队质疑其仅为单个 Agent,宝玉回应:它就是一个完整的 Agent Harness。

Emad@EMostaque · 6月11日17

anyone hiring witches to save training runs

译有人在雇女巫来拯救训练运行吗?

🚨 AI News | TestingCatalog@testingcatalog · 6月11日63

NoimosAI launched an all-in-one autonomous AI marketing team that runs strategy, content, and analysis end-to-end. > It connects to a brand's own apps and websites, blends that with external market data, and acts at the right time on its own. > Outputs land in a Feed for approval and can be routed to Slack, email, or Discord.

译NoimosAI 推出全自主 AI 营销团队,可端到端运行策略、内容创作与分析。它连接品牌自有应用和网站,融合外部市场数据,自主判断执行时机。所有产出汇集到 Feed 供审批,并支持路由至 Slack、Email 或 Discord。功能覆盖 SEO、社交媒体、外联、GEO 等,7×24 小时运行,无需人工干预。

Rohan Paul@rohanpaul_ai · 6月11日56

NoimosAI just launched an autonomous AI marketing team. It connects to a product’s apps, website, and data sources, then plans and runs growth work across SEO, GEO, social, outreach, and conversion. The product is built around a clear bottleneck: AI has made product building faster, but distribution still depends on traffic, leads, content, timing, and repeated testing. So NoimosAI is trying turn that marketing grind into a daily operating loop, where the system studies your business, suggests high-impact work, runs tasks 24/7, and sends finished outputs for approval.

译NoimosAI 推出全合一自主 AI 营销团队。连接产品应用、网站及数据源后,系统自动规划执行 SEO、GEO、社交媒体、外展和转化等增长工作,24/7 运行并将输出结果送交审批。产品基于一个关键洞察:AI 虽加速了产品构建,但分发仍依赖流量、线索、内容和反复测试,因此 NoimosAI 试图将营销流程转化为日常自动运营闭环。

Chubby♨️@kimmonismus · 6月11日61

Everyone is talking about basic chat apps, but desktop AI agents are completely shifting how we work in 2026. I’ve been testing Tencent WorkBuddy now that it’s finally going global. It dropped in China back in March and instantly hit number one for daily active PC users according to Tencent’s Q1 earnings. @TencentAl_News

译人人都在谈论基础聊天应用,但桌面AI智能体正在完全改变2026年的工作方式。 我已经测试了腾讯工作助手,它终于走向全球。它于3月在中国发布,根据腾讯Q1财报,其PC日活跃用户数立即排名第一。@TencentAl_News

Chubby♨️@kimmonismus · 6月11日61

Most "AI marketing" tools are basically Zapier with a chat box. NoimosAI plays in a different league. It plans the strategy, creates the content, ships it across every channel and analyzes what worked, then adjusts on its own. You connect your stack and it starts working in your brand voice the same day. There's a 7-day free trial, so you can watch it run before you commit.

译Kim 介绍 NoimosAI 是不同于普通 Zapier+聊天框的 AI 营销工具:它能自动制定策略、创建内容、跨渠道发布、分析效果并自主调整。用户连接现有工具后当天即可按品牌语调工作,提供 7 天免费试用。引用推文称其为全球首个全自主 AI 营销团队,覆盖 SEO、社交、外展、GEO 等,24/7 无人值守运行。

SiliconFlow@SiliconFlowAI · 6月10日58

If you need one model for agents, long context, and multimodal inputs — this is it. Meet @GoogleDeepMind 's Gemma 4 12B on SiliconFlow 🔥 💰Input / Output: $0.1 / $0.3 per 1M tokens on SiliconFlow 🛠️ 262K Context | Built-in Thinking | Native Tool Calling | 140+ Languages ✨ Encoder-free architecture: vision and audio inputs flow directly into the LLM backbone, reducing process latency 🧠 12B Size, 26B Brain: nearing Google's 26B performance, excel at multi-step reasoning and agentic workflows Try it on SiliconFlow ⬇️

译Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

AYi@AYi_AInotes · 6月10日61

我尼玛,Claude Fable 5今天把整个软件行业的底层逻辑给击穿了! 以前做软件要几个月,现在只要15分钟,Claude Fable 5把产品经理和程序员的中间环节,直接干掉了。 也就是说,15分钟的销售电话打完, AI当场做出了客户要的可运行软件原型,喵个咪,这谁受得了啊🤯 Todd Saunders,Dalton Mills AI 的 CEO,做的是 trades 行业的垂直 SaaS——建筑、家政、暖通这些。 他用刚发布的 Claude Fable 5, 在跟一个客户的销售电话里, 让 AI 在后台实时转录通话, 同时自主构建客户刚刚提到的软件功能。 通话结束,他当场演示了一个完全可运行的原型,精确匹配客户 15 分钟前描述的需求。 一个语音报价系统:AI 实时听服务电话,自动匹配价目表,识别 upsell 机会,生成 Good/Better/Best 三档方案,自动发提案短信。整个过程近乎零人工干预。 不是 简单的AI 辅助开发,直接对话即构建,damn! 平复下激动的心情,这个案例最让我震惊的不只是AI 写代码快,AI 真的能听懂人话了啊啊啊, 然后一个长达几十年的产品开发范式,就这么被直接击穿了,holy sh*t! 想一想过去几十年我们怎么干活的,客户跟你说工人在现场太乱经常算错钱,你记下来,回去消化,以为懂了, 画原型,约评审,排期,开发,几周后拿出来, 客户摇头说不对不是这么回事, 你一肚子委屈,说我每个字都记了,他说你记的是我说的话,不是我脑子里的东西。 这个循环叫理解-翻译-验证,短则几周长则几个月,整个行业就吃这碗饭的,我们管它叫专业服务。 但是今天,Fable 5 把这个循环干掉了,不是压缩啊兄弟们,直接彻底干掉了, 客户说,AI 听,AI 当场做出来,客户当场看对不对, 没有 PRD,没有你在内部群里发那个需求我回去评估一下,没有一切中间件, 从客户嘴里说出来的那一刻,一个能跑的东西就在屏幕上等着他。 这才是真正要命的地方,这哪是提效啊,简直把整个底层逻辑都改变了。 但我们也必须立刻面对一个最尖锐的问题,就是那客户为什么还需要你?这不就 15 分钟的事吗? 这个问题必须正面面对,确实是客观存在的, 如果你对自己的定位只是把客户需求翻译成代码的那个人,那你完全可以被这 15 分钟取代,因为 AI 现在翻译得比你快,还不用开评审会。 但如果你做完项目就知道,原型和系统,中间隔着的不是几行代码,还有权限体系里那几十个你不知道为什么会存在的字段, 是客户二十年前的财务系统里藏着的那个没人敢动的数据表,是工人在负二层没信号的地方操作时该怎么缓存,也是某个老小区因为水压问题装不上你方案里那个完美的配件, 又或者是当地监管对报价条款里的某个措辞有特殊要求,这些东西,Fable 5 不知道,你问它它也不知道,它甚至不知道它不知道。 它的原型是乐高模型,系统是能住人的楼,之间的差距,专业术语叫工程判断,也可以叫领域责任,更可以叫为长期可用性兜底。 所以这个案例真正揭示的,不是谁会被替代,是什么在剧烈地变稀缺。 第一样,把 AI 的生成能力锚定在真实世界的复杂约束里, 这一下子就筛掉两种人:只会做原型不会做系统的人,和只会做系统但不懂行业的人。 留下的是那种,你问他这个需求能不能做,他会先问你那边现场平均信号几格、工人习惯左手拿手机还是右手、他们现在用的那个老系统数据库编码是 UTF-8 还是 GBK 的人。 第二样,领域知识, 我说的不是行业报告里那些漂亮话,是那些只有在这个行业干了十年才知道的脏东西。 AI 能生成完美的三档报价界面,但它不知道某个配件的供应商在雨季会涨价 30%,不知道某个话术在北方好使在南方会让客户挂电话,不知道这个工种的师傅脾气大你不能在流程里多加一步确认否则他宁愿不干,这些脏知识才是真正的护城河。 第三样,也是最被低估的一样:把原型变成可信赖系统的治理能力。 评估框架你怎么建,AI 改了这一处你怎么知道没把另一处改坏。 记忆持久化你怎么做,客户上次改的需求下次对话能不能记住。 错误恢复你怎么设计,流程跑到一半 AI 崩了用户看到什么。 多代理协作你怎么编排,一个 Agent 听电话提取意图,一个匹配价目表,一个检查合规,一个生成界面,人类在哪个节点介入裁决。 这些东西不酷,开会聊这些会让人想抽烟,但就是从酷到能用的最后那一公里。 Fable 5 和后续更强的模型,把生成这件事的成本和速度打到了一个新的量级。 这个量级意味着,做出一个看起来能用的东西,以后不再是任何人的竞争力。竞争的分水岭是,谁能把 AI 吐出来的东西,变成一个别人敢在上面跑业务、能长期依赖、出了问题找得到人负责的系统。 扯了这么多,最后一句话给大家共勉: 从今天起,把 80% 的精力,从怎么让 AI 生成得更快,转移到怎么为 AI 生成的东西负责,说白了,酷是给外人看的,稳是给我们自己续命的。

译SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。

向阳乔木@vista8 · 6月10日74

演示视频中的书籍解读口播脚本 Skill 开源了 https://github.com/joeseesun/qiaomu-book-script 安装指令:npx skills add joeseesun/qiaomu-book-script 只需要说:解读《被讨厌的勇气》 Skill 会调用多个Subagent从不同角度写脚本,最后主LLM整理成终稿。

译Vista 开源的 qiaomu-book-script Skill 可通过 `npx skills add joeseesun/qiaomu-book-script` 安装。用户说“解读《被讨厌的勇气》”即可触发,多个 Subagent 分别撰写脚本,最后由主 LLM 整理成终稿。此前 Vista 已用该 Skill 生成口播脚本并完成录制。

Rohan Paul@rohanpaul_ai · 6月10日71

Reuters: India’s biggest private employer TCS's Chairman ‌ AI agents could become as numerous as TCS employees. The Chairman said: "Some of the work being done will go to AI agents. That will be the ​nature of the transition that we have to go through ​not only ⁠as a company, as an industry, and as a country" . TCS has already announced 12K job cuts, reported $2.3B in annualised AI revenue, and has an OpenAI data-centre agreement, so this is not just talk from management. TCS has about 600K workers, so Natarajan Chandrasekaran’s claim points to a future where software tasks are handled by hundreds of thousands of digital agents rather than only human engineers. The company expects hiring to fall as AI takes over more coding, testing, support, maintenance, and back-office work, although Chandrasekaran also said new AI-related roles will appear. This hits India’s $315B IT services model hard because firms like TCS and Infosys grew by supplying large teams of lower-cost engineers to global companies. AI weakens that model because one agent can perform repeatable software work at scale, reducing the need to keep expanding human headcount for every new contract. --- IMO, India’s whole $315B tech-services industry was built on sending work to lower-cost human teams, and even recent outsourcing guides still describe offshore BPO as attractive mainly because staff costs are lower than in Europe and the US. If AI agents can do that same repeatable coding, testing, IT support, finance processing, or customer-service work, the buyer no longer needs India as the labor location, because the “worker” can run inside a US or European cloud stack, under local data rules, closer to the company’s own systems. That means the BPO threat is not only job loss at TCS; it is a possible collapse of the old outsourcing bargain, where cost savings came from moving work to cheaper people, while the new bargain may come from replacing the location advantage with software automation, especially when TCS itself says AI agents could match its human workforce --- reuters .com/world/india/indias-tcs-chairman-expects-ai-agents-equal-employee-count-2026-06-09/

译印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。

AYi@AYi_AInotes · 6月10日41

Damn,这辈子最烦的事,终于被苹果干掉了,以后再也不用自己改密码了! 这才是真正的AI Agent该干的事啊, 不跟你聊天扯废话,直接帮你解决最烦人的破事, 而且以后再也不用怕密码泄露了, 苹果的密码App现在会自己: ✅ 扫描你所有账号,找出弱密码、重复密码、已经被黑客泄露的密码 ✅ 自己打开那个网站,用旧密码登录进去 ✅ 自动找到修改密码的页面,生成一个强密码换掉 ✅ 改完自动存进你的苹果钥匙串,全程你不用碰一下 @MKBHD 老哥演示的时候我人都傻了, 银行、税务、医院、购物网站,所有账号它挨个帮你查,挨个帮你改。 以前改一个密码至少要花5分钟,现在点一下确认,剩下的全交给它。

译苹果密码App现在能自动扫描所有账号的弱密码、重复密码和已泄露密码,并自动登录对应网站,找到修改密码页面,生成强密码完成替换,最后存入钥匙串。全程只需用户点一次确认,无需手动操作。@MKBHD 演示了银行、税务、医院等账号逐一处理。此前改一个密码至少花5分钟,现在一键完成。

AYi@AYi_AInotes · 6月10日69

关于屌炸天的Claude Fable 5, 这条推文是你必看和必收藏的, 帮大家总结了Anthropic内部用烂了的核心杠杆和方法:我敢说用了这个,你的Agent会越用越聪明,复利效应爆炸。 虽然很多人吐槽Fable 5的费用是Opus 4.8的将近3倍,但我想说他确实值这个价! Anthropic内部工程师这篇文章大家可以看看,基本说透了,我帮大家总结下核心要点: 1️⃣90%的人都在浪费Fable 5的能力, 很多人还在给它扔单次prompt, 它真正的实力,是当一个能自主干活的长期工程师, 2️⃣Fable 5是第一个能真正自律循环的模型, 所以不要只给它一个指令让它交差, 得给它一个清晰的目标, 一个可量化的打分标准, 一个能自己跑的环境, 然后它会自己做实验、看结果、踩坑、反思、改代码、再跑,直到把事干成。 3️⃣这就是它比Opus强一个档次的真正原因, 任务越长、越复杂、越需要迭代,它的优势就会越夸张: ✅ Parameter Golf工程挑战,效率比Opus高6倍 ✅ Slay the Spire加持久记忆后,表现直接翻3倍 ✅ 50万行代码库迁移,一次性搞定不用人擦屁股 4️⃣@RLanceMartin 分享了两个Anthropic内部用烂了的核心杠杆: 杠杆❶ 自我纠正循环:不要写prompt,写rubric 不要说帮我优化这个代码, 要说: • 目标:把这个接口的延迟降到100ms以内 • 评分标准:延迟达标、所有单元测试通过、代码不超过300行 • 给它一个能自己运行代码的沙箱 然后你就可以去喝咖啡了😆 它会自己改、自己跑、自己看日志、自己调, 5️⃣最关键的一步:不要让它自己批评自己, 单独开一个独立上下文的验证代理,客观打分, 这一个改动,准确率直接翻倍! 杠杆2 记忆系统:给它一个能写日记的外脑 不要把所有东西都塞进上下文, 给它一个共享的文件系统, 让它每次干完活,都写工作笔记: • 今天犯了什么错 • 为什么会错 • 下次应该怎么改 • 提炼成一条通用规则 Fable 5是目前唯一一个能真正走完这个流程的模型: 出错→调查→验证→蒸馏成规则→下次直接用。 Opus只能到第二步,Sonnet连第一步都做不好。

译Claude Fable 5 费用约是 Opus 4.8 的三倍,但效率提升显著:Parameter Golf 挑战效率高 6 倍;Slay the Spire 加持久记忆后表现翻 3 倍;可一次性迁移 50 万行代码。Anthropic 内部两大杠杆:① 自我纠正循环——写 rubric(目标+量化评分标准+沙箱),让模型自主改代码、跑测试;② 记忆系统——共享文件系统作为外脑,每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。

Huawei Cloud@HuaweiCloud1 · 6月10日52

You can't scale agents without the right platform. At Huawei Cloud INSPIRE 2026, Peter Zhou, Director of the Board at Huawei and CEO of Huawei Cloud, introduced AgentArts, an enterprise-grade platform built to help businesses scale agents, faster. https://tinyurl.com/5cjcph9d #INSPIRE2026 #HuaweiCloud #AI

译没有合适的平台,你就无法扩展智能体。在华为云INSPIRE 2026上,华为董事、华为云CEO张平安介绍了AgentArts,一个企业级平台,旨在帮助企业更快地扩展智能体。 https://tinyurl.com/5cjcph9d #INSPIRE2026 #HuaweiCloud #AI

Huawei Cloud@HuaweiCloud1 · 6月10日29

You can't scale intelligence on weak foundations. So at Huawei Cloud INSPIRE 2026, we thickened the ground beneath it. Hardware-software synergy. Four Agentic Infra innovations. One new paradigm. Learn more: https://tinyurl.com/3yukj4wm #INSPIRE2026 #HuaweiCloud #AI

译你无法在不牢靠的根基上扩展智能。因此,在华为云INSPIRE 2026上,我们夯实了它脚下的大地。 硬件-软件协同。四项Agentic Infra创新。一种新范式。 了解更多:https://tinyurl.com/3yukj4wm #INSPIRE2026 #HuaweiCloud #AI

Berryxia.AI@berryxia · 6月10日46

学完Harness后,Loop Engineering 又来了。 还真是要了解这些背后的逻辑和底层的设计。 不仅对于Vibe Coding 帮助大,更多的还是对于产品的架构设计都是不少的启发。 这几天想些一篇文章和大家一起学习下,这下Smith 直接搞完了,可以看看不错!

译Berry Xia表示,学完Harness后接触Loop Engineering,认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享,但Smith(@smithandai)已发表相关文章,推荐阅读。

AYi@AYi_AInotes · 6月10日61

http://x.com/i/article/2064536412670562304 # 小红书副业冷启动,连爆3条的可复制心法:别闷头更内容,先把对标账号拆出赚钱公式 找对标→拆爆款→算变现,三步把别人已经跑通的路完完整整复制到你自己身上 , 以前拆一个赛道要花一周,现在用AI十几分钟就能搞定,我把整套拆解方法和提示词,全部整理成了可直接复制的sop,大家可以直接拿去用。 核心就一件事:想做小红书副业,开干前怎么把对标账号拆得底裤都不剩,找到那条算过账、能复制的路。 # 一、先说我最近在干嘛 我最近开始试水小红书,冷启动发了几条,居然都爆了,0-1直接涨了400个粉丝。 不少人跑来问我是不是有什么灵感秘诀,说实话跟灵感没太大关系。 我自己心里门儿清,让我没怎么走弯路的,倒不是某条神来之笔,更关键的是发第一条之前, 我逼自己做了一件无聊到想死的事:把赛道里真在赚钱的对标账号,拆了个底朝天。 今天就把这套方法完整讲给想做小红书副业的兄弟。 # 二、做小红书副业最大的坑:上来就凭感觉发 我观察下来,大部分人做小红书副业,死法一模一样:打开就发,凭感觉做。 你刷到一条爆款,觉得"我也能拍",模仿着发几条,没水花,三周弃号。 问题出在哪儿?你看到的爆款,仅仅是最终的结果, 没人告诉你:它为什么爆?选题、封面、钩子的规律是什么? 最后靠什么变现,一个月真能落袋多少?你这点体量,到底能不能复制? 不搞清这些就发,等于牌都不看就往桌上坐, 小红书副业拼的从来不是天赋,关键是看你坐下前有没有看懂这把牌。 # 三、看懂牌桌的方法,就三步:找对标 → 拆爆款 → 算变现 这套对标拆解一点不玄乎,就三步,唯一麻烦的是过去那些纯体力活: 人肉一条条翻笔记、扒数据、对爆款、估收入, 如果要认真拆透一个赛道,起码要一周打底。 我把最累的扒数据拆爆款这步,丢给了 AllyHub,一个住在浏览器里、能自己上网干活的 AI agent。 几句话描述需求就能让它把对标数据扒齐。 下面整套流程大家可以直接抄,换任何工具都能套这个思路,但目前我用了那么多AI工具,只有AllyHub能非常丝滑稳定和高质量的对小红书数据账号拆解。 > 💰 可能有兄弟会担心:让 AI 跑这么多分析,会不会很烧Token很费钱?我实测下来正相反——同样一个任务,AllyHub 的消耗大概只有别的 AI agent 的 1/10,能处理的数据量反而更大; > 它还会把跑过的网站操作记下来,你跑得越多它越熟、成本越往下掉。像"拆对标"这种会反复跑的固定任务,平台每天赠送的额度基本就够覆盖,约等于免费跑。 > 对咱们这种要反复拆账号、又不想烧钱的副业党,这点真的蛮友好的。 ## 第 1 步 · 找对标:锁定"同细分、同体量、真在赚钱"的账号 咱别一上来就盯着百万大博主,找那种你踮踮脚能够到的。 我让 AllyHub 在我选的细分赛道里,按粉丝量、互动、更新频率,还有明显变现动作(挂车、引流、合集)筛一遍,最后锁死 3–5 个量级跟我差不多,并且真在赚钱的对标。 🎯 目标:别对标百万大号,对标你踮脚够得到、且确实在赚钱的那一档。 📋 直接复制给 AllyHub(把【】换成你的赛道): 🔑 保姆级要点: - 为什么卡 1 万–10 万:粉丝太多你够不着、没参考性,太少又说明这个赛道没验证过。这一档是"已被验证、你又追得上"的领域。 - 直接剔除靠颜值/剧情/明星八卦爆的——那是我们大部分人复制不了的。 - 从 10 个里挑出 3–5 个和你最像(同选题、同形式)的,作为重点对标。 我看着它从头跑到尾,这种感觉很奇妙,它真的自己打开小红书 PC 端,按AIGC标签一个个翻主页,看粉丝、看挂车、看有没有合集和私域引流,从 57 个候选里筛出 10 个,十几分钟就甩给我一张《AIGC 变现博主情报表》。 讲真,这里我真的忍不住吹爆AllyHub,我前后试过好几个能爬小红书的工具,它是最稳的一个(小红书反爬严,能稳定扒下来本身就吊打一片); 而且执行这类 agentic 任务它的消耗成本大概是其他 AI agent 的 1/10,跑的次数越多它越熟、越省,具体大家可以看下方跑测视频: 自己会打开要对标拆解的账号主页仔细查看 然后输出一个非常清晰的结构化报告 ## 第 2 步 · 拆爆款:把它"为什么爆"拆成可抄的规律 锁定对标后,我让工具把它们的爆款笔记全扒出来,集中拆四样东西——封面、标题公式、开头钩子、选题方向。 一堆爆款摊在一起,规律马上就显形了。 🎯 目标:你要抄的不是某一条笔记,是这个赛道被验证过的"爆款公式"。 📋 直接复制给 AllyHub: 🔑 保姆级要点(小红书爆款四件套): - 封面大字:看公式——多半是「数字 + 痛点 + 身份」(例:3 个 AI 神器,新手也能做图)。封面决定 70% 的点击。 - 标题:埋了哪些 SEO 关键词?小红书是搜索平台,标题里有没有别人会搜的词,决定长尾流量。 - 开头钩子:第一句怎么 3 秒抓住人——是制造焦虑、给结果、还是反常识。 - 选题方向:爆款集中在哪几类?把它们列成你的"选题弹药库",比凭灵感强 10 倍。 最后出来的爆款笔记共性规律非常清晰: 我让它锁定其中一个标杆号「AIGC 猫大人」深挖,它把这个号点赞过 5000 的 7 篇爆款全扒了出来,封面、标题、开头第一句、话题标签逐条列好,最后自己归纳出共性。 最颠覆我认知的一条是:这个赛道的爆款封面几乎都不是大字封面,而是"无文字纯视觉", AI 生成的跳舞猫咪、奢侈品火山大片,靠视觉奇观一秒截停。 我要是套通用的"大字+数字"公式,那方向就全错了。 这一步真的特别重要,毕竟我们要参考的不只是某一条笔记,关键要学习这个赛道被验证过的爆款公式。 ## 第 3 步 · 算变现:看清钱从哪个口子出来,挑一条你能复制的 最后一步,看清楚钱从哪个口子出来:挂车带货 / 引流私域卖课卖资料 / 接品牌广告(蒲公英)/ 卖模板。 把人家赚的钱估个量级,挑一条你扛得住门槛、和你能力匹配的变现路径, 再倒推你自己的账号规划:发什么选题、对标谁、靠什么变现。 到这一步,你手里就不再是"我也想做小红书"的空想,而是一张算过账、有对标、有变现路径的作战图,我就是拿着这么一个账号规划开的局。 🎯 目标:把流量算成钱,挑一个门槛你扛得住的变现路径。 📋 直接复制给 AllyHub: 🔑 保姆级要点(四种变现的门槛,挑你扛得住的): - 挂车带货:门槛在选品和信任,适合有货源或会选品的人 - 引流私域卖课/卖资料:利润最高,但要你有能交付的东西 + 会做私域承接 - 蒲公英接广:被动,但要先把账号数据做起来才有品牌找 - 卖模板/素材:适合有一技之长的(比如你会 AI 出图、会做 Notion 模板) 最后它去主页一项项扫变现信号:有没有挂车、有没有私域引流、有没有蒲公英接单、有没有合集。 扫完给我的结论也很反直觉,这个号几乎不带货、不做私域,约 85% 的收入来自品牌接广(蒲公英认证创作者,已经接了李锦记、兰寇、华为、宝格丽等一串品牌)。 它顺手按行业水平估了一个 3 万粉账号的月收入区间, 这一步把我对"AIGC 赛道靠什么赚钱"的模糊感,彻底给算清楚了,真的特别有帮助。 # 四、我这一轮拆解的真实结果 一点也不藏私,下面把我这轮真实结果摊开,顺便把我从数据里读出来的判断也给你。 ① 找对标:57 个候选里,筛出 10 个"够得着又在赚钱"的标杆 - 候选池 57 → 入选 10,平均粉丝 5.8 万(区间 1 万–9.6 万),全是近 30 天还在更新的活号 - 变现动作分布:有私域引流的 60%、有接单/合作信号的 80%、有挂车/商品合集的只有 40% > 📌 第一个反直觉的点:这个赛道接广(80%)远多于带货(40%)。AIGC 赛道的钱,主路是"接品牌广告",不是"挂车卖货"。一上来就想做带货的,方向大概率拧了。 ② 拆爆款:以「AIGC 猫大人」为标杆,扒了它 7 篇点赞过 5000 的爆款 - 最高一条 7.9 万赞、4.2 万收藏(AI 生成的跳舞猫咪) - 封面规律:几乎全是"无文字纯视觉"——跳舞猫咪、奢侈品火山大片、赛博猫,靠画面奇观截停,不靠大字 - 形式:清一色短视频,不是图文 - 开头钩子:爱用反常识疑问句("这么会跳舞的喵星人,谁不想领养一只?") > 📌 这条把"通用爆款公式"打脸了:别处都说"封面要大字+数字",但 AIGC 赛道吃的是视觉奇观。盲抄通用模板,你会输在第一眼——每个赛道的爆款公式,必须自己扒出来。 ③ 算变现:把"猫大人"的钱算到了口子上 - 账号体量:10 万粉、27 篇笔记、累计 22.9 万赞藏 - 变现结构:约 85% 来自品牌接广(蒲公英认证,已合作李锦记、兰寇、华为、宝格丽等 5+ 品牌),几乎零带货、零私域 - 按行业水平估算:一个 3 万粉、稳定更新的同类账号,月收入大概落在 ¥8k–2 万 区间,主入口就是蒲公英接广 > 📌 算到这,整个赛道的玩法就清晰了:内容做 AI 视觉奇观短视频 → 把账号数据和审美做起来 → 走蒲公英接品牌广变现。不是带货,不是先做私域。 一句话总结这轮拆解:开干前我对"AIGC 小红书怎么做"还是一团糨糊,几分钟拆完,手里就是一张清清楚楚的作战图——做什么内容(视觉奇观短视频)、对标谁(猫大人这类)、靠什么赚钱(品牌接广)。这就是"看懂牌再上桌"。 附 · 30 天起号规划模板(拆完直接套) 拆解的价值在于落地,大家把上面三步的结论,直接填进这张作战卡,就能开干: A. 账号作战卡 - 账号定位:对标【填你锁定的对标号】,主打【填选题方向】,一句话人设【\\】 - 选题弹药库:从对标爆款里抄来的 10 个选题【\\】 - 封面公式:按你赛道实测的来——AIGC 这种就是"AI 视觉奇观",干货赛道才是"大字+痛点+身份",别套错 - 变现路径:先靠【\\】,攒到【\\】粉再上【\\】 - 北极星指标:只盯收藏率和涨粉效率——赞高藏低=纯娱乐不涨粉,收藏高=干货能涨粉 B. 30 天节奏表 - 模仿期 — 天数:Day 1–10;干什么:严格照对标的爆款结构发,每周 4–5 条,先别创新;目标:跑出 1 条小爆,验证选题方向对不对 - 微创期 — 天数:Day 11–20;干什么:在跑通的结构上换角度、换钩子,A/B 测封面;目标:稳定出爆款,找到属于你的记忆点 - 变现期 — 天数:Day 21–30;干什么:数据起来后按变现路径动作(挂蒲公英 / 开私域口子);目标:接到第一笔钱,或私域第一波用户 > ⭐ 提醒:模板只是骨架,真正决定你能不能起来的,是你有没有先按第一节那套方法把对标拆透,一定记得先看懂牌,再上桌,要不做再多可能都是无用功。 ## 五、一盆冷水 也不能把这套方法论吹成包爆印钞机,那不诚实: 1. 它能帮你看懂牌,但替不了你打牌:对标拆得再透,视觉奇观短视频还得你自己做、自己持续发,说白了地图给你了,路还是得你自己走。 1. 小红书有玄学:同样的选题封面有时就是不爆,推荐有运气成分,对标拆解是把胜率从 10% 拉到 50%,不保证100%。 1. 提示词得按赛道微调:我这套指令在 AIGC 赛道跑得顺,但换个赛道、或它偶尔扒漏读错,你得跑一两遍调一调,别指望一次完美。 1. 复杂页面会翻车:要登录、反爬重的站它可能卡住——小红书它稳,不代表所有站都稳,需要自己摸索积累经验。 ## 六、最后想跟大家说 以我做自媒体以来的经验,做小红书副业,输在起跑线上的人未必是不够努力,更像是开干前没看清牌就裸冲。 我们真的处于一个非常好的时代,想把对标拆透,过去是运营高手才耗得起的体力活,信息差天然握在专业玩家手里。 现在普通人几十分钟也能做到,所以我觉得AI 对副业真正的意义,不在于直接替我们写笔记,更关键的是让我们开局就能拿到那张以前根本看不到的地图,我理解这个属于以道御术里道的层面,属于自己独一无二的核心能力。 ⚡️ 想自己拆一遍的兄弟:AllyHub 直接冲,目前免费可用 Max 版 👉 allyhub.ai ((文中的AllyHub 是我自用的Agent 工具以及写文章提到的参考案例,不构成任何推荐))

译作者分享使用AI agent AllyHub拆解小红书对标账号的方法:第一步从57个候选筛出10个够得着且变现的账号(平均粉丝5.8万);第二步以「AIGC猫大人」为例,扒出7篇点赞过5000的爆款,发现赛道封面规律是“无文字纯视觉”短视频;第三步算变现,约85%收入来自蒲公英接广(合作李锦记、兰蔻等),3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。

Ethan Mollick@emollick · 6月10日30

When Claude Fable kicks off a workflow, the tokens can go very quickly (these aren't Fable tokens, obviously)

译当 Claude Fable 启动一个工作流时,模型 token 消耗得非常快 (这些显然不是 Fable token)

Ethan Mollick@emollick · 6月10日52

One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own dialect as its many agents and tasks reinforce themselves and make Claudish language ever more Claudish. You need to ask it to report out in plain English.

译我在 Fable 帖子中只顺带提过一件事:对于长期运行的任务,Fable 开始发展出自己的方言,因为它的许多智能体和任务相互强化,使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。

jason@jxnlco · 6月10日19

do you use obsidian for your agents memory vault?

译你会使用Obsidian作为你的智能体记忆库吗?

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
15:24
ginobefun@hongming731
44
BestBlogs 推出世界杯特刊及预测 Agent

距离世界杯开幕战不到 12 小时,BestBlogs 的两位站长制作了世界杯特刊(https://www.bestblogs.dev/worldcup),方便球迷在看球前快速了解信息、赛后闲聊。此外还做了一个「普神」Agent 来预测每场比赛胜负,用户也可参与选择。

智能体产品更新
14:25
向阳乔木@vista8
50
Codex Goal指令让AI自主开发网站运行10小时

推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。

智能体OpenAI教程/实践编码
13:35
数字生命卡兹克@Khazix0918
69
WorkBuddy从0到1教程:国内最友好的通用Agent产品,对标Claude Code和Codex

WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。

智能体MCP/工具教程/实践
13:22
宝玉@dotey
71
宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

宝玉: 你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude...

智能体AnthropicOpenAI教程/实践
13:09
Berryxia.AI@berryxia
64
当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层"共享记忆"--只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

huangserva: 如何让多个 Agent 之间真正互相学习、互相帮助? 现在很多 Agent 都开始有自己的记忆,但问题是: 这些记忆彼此不连通。 Codex 记住的坑,Claude 不知道;Hermes 总结的方法,OpenClaw 也用不上。 最后每个 ...

智能体大佬观点开源生态
11:21
宝玉@dotey
65
Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体Anthropic教程/实践视频
11:21
宝玉@dotey
57
DeepSeek 招聘 Agent Harness 研究员(实习/全职)

DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。

智能体DeepSeek行业动态
09:25
meng shao@shao__meng
75
小米发布MiMo Code:基于OpenCode的Coding Agent,14天5人Vibe Coding完成

小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

Fuli Luo: A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...

智能体MCP/工具产品更新开源生态
08:55
Rohan Paul@rohanpaul_ai
67
Agents' Last Exam 基准:AI 智能体在真实专家任务中远未达标

一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

智能体arXiv论文/研究评测/基准
08:55
meng shao@shao__meng
62
Agentic Engineering Patterns 指南

Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

Simon Willison: @jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/

智能体MCP/工具教程/实践编码
08:55
meng shao@shao__meng
69
Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体AnthropicMCP/工具教程/实践
08:35
AYi@AYi_AInotes
56
Cursor agent跑飞90分钟烧1382美元,CEO主动退款并承诺增加支出控制

一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

Mark Ajzenstadt: BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...

智能体现象/趋势编码
08:11
Orange AI@oran_ge
57
与 AI 一起做产品的六条原则

团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

智能体现象/趋势
06:14
jason@jxnlco
27
Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。
智能体OpenAI大佬观点
04:24
Xiaomi MiMo@XiaomiMiMo
76
小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1

小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

智能体产品更新开源生态编码
03:24
Xiaomi MiMo@XiaomiMiMo
79
小米 MiMo 发布并开源 MiMo Code V0.1,终端 AI 编程助手

小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。

智能体GitHub产品更新编码
03:15
OpenRouter@OpenRouter
58
OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand--一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于"友善"的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的"友善"特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势
02:34
AYi@AYi_AInotes
67
Cursor创始人Michael Truell:AI改写商业物理定律

Cursor创始人Michael Truell从12岁爱上编程,其创立的AI编码平台Cursor两年间从15人扩张至700人,服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力,但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平,人均创收极高。产品体验(Composer、Agent等)并非源于商业计划书,而是源自12岁少年“把想法变成现实”的初心。

Claude: Michael Truell (@mntruell) fell in love with coding at 12. The company he co-founded, @cursor_ai, went from 15 people to...

智能体现象/趋势编码
02:17
Perplexity@perplexity_ai
同事件精选68
Claude Fable 5 现已在 Computer 中作为编排模型可用。 这是Anthropic最先进的模型,适用于长而复杂的任务。仅限 Computer 的 Pro 和 Max 订阅用户使用。
智能体Anthropic产品更新
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Claude Fable 5 在 Comet 里当指挥,Pro 用户现在能用上 Anthropic 最擅长长任务的模型,做复杂研究流的可以试试看能不能真的替代手动编排。
02:13
OpenRouter@OpenRouter
63
OpenRouter开发者@jjacky构建了Royale: Last Agent Stand--一个专属AI智能体的大逃杀游戏,让11个LLM在零和竞争环境中自由对抗30轮。结果发现,最"友善"的模型输得最惨,而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象:在特定任务中,AI过于友善可能成为劣势。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势评测/基准
01:23
Rohan Paul@rohanpaul_ai
64
Apodex-1.0-H 发布多智能体深度研究团队

Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体Hugging Face产品更新推理
00:48
宝玉@dotey
62
宝玉:Claude Design 是一个完整的 Agent Harness

Claude Design 具备完整 Agent 运行环境,基于浏览器和虚拟机,内置 45 个工具和 24 个 skills,采用 Agentic Loop。有团队质疑其仅为单个 Agent,宝玉回应:它就是一个完整的 Agent Harness。

Bro Van: @dotey 我们团队研究快一个月了,未发现任何harness迹象,看起来就是单个agent在那做。哥你说的harness在那自定义?

智能体AnthropicMCP/工具大佬观点
00:35
Emad@EMostaque
17
有人在雇女巫来拯救训练运行吗?

modest proposal: some are saying this is the best opening line in bloomberg history

智能体其他
00:32
🚨 AI News | TestingCatalog@testingcatalog
63
NoimosAI 推出全自主 AI 营销团队,可端到端运行策略、内容创作与分析。它连接品牌自有应用和网站,融合外部市场数据,自主判断执行时机。所有产出汇集到 Feed 供审批,并支持路由至 Slack、Email 或 Discord。功能覆盖 SEO、社交媒体、外联、GEO 等,7×24 小时运行,无需人工干预。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
00:22
Rohan Paul@rohanpaul_ai
56
NoimosAI 发布自主 AI 营销团队

NoimosAI 推出全合一自主 AI 营销团队。连接产品应用、网站及数据源后,系统自动规划执行 SEO、GEO、社交媒体、外展和转化等增长工作,24/7 运行并将输出结果送交审批。产品基于一个关键洞察:AI 虽加速了产品构建,但分发仍依赖流量、线索、内容和反复测试,因此 NoimosAI 试图将营销流程转化为日常自动运营闭环。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
00:14
Chubby♨️@kimmonismus
61
人人都在谈论基础聊天应用,但桌面AI智能体正在完全改变2026年的工作方式。 我已经测试了腾讯工作助手,它终于走向全球。它于3月在中国发布,根据腾讯Q1财报,其PC日活跃用户数立即排名第一。@TencentAl_News
智能体产品更新
00:14
Chubby♨️@kimmonismus
61
Kim 介绍 NoimosAI 是不同于普通 Zapier+聊天框的 AI 营销工具:它能自动制定策略、创建内容、跨渠道发布、分析效果并自主调整。用户连接现有工具后当天即可按品牌语调工作,提供 7 天免费试用。引用推文称其为全球首个全自主 AI 营销团队,覆盖 SEO、社交、外展、GEO 等,24/7 无人值守运行。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
6月10日
23:47
SiliconFlow@SiliconFlowAI
58
Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

智能体产品更新多模态
22:34
AYi@AYi_AInotes
61
Claude Fable 5 实时转录客户通话并自主构建软件原型

SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。

Todd Saunders: Mythos / Fable is unbelievable. Was on a customer call today and had Claude transcribing in the background. As they were...

智能体Anthropic现象/趋势
22:17
向阳乔木@vista8
74
Vista 开源的 qiaomu-book-script Skill 可通过 `npx skills add joeseesun/qiaomu-book-script` 安装。用户说"解读《被讨厌的勇气》"即可触发,多个 Subagent 分别撰写脚本,最后由主 LLM 整理成终稿。此前 Vista 已用该 Skill 生成口播脚本并完成录制。

向阳乔木: 第一次录口播脚本,推荐本好书《被讨厌的勇气》。 工具:Pocket3 + 免费提词器teleprompter + 手机配件 脚本:用刚做的书籍口播解读 Skill 生成,改天开源。 剪辑:剪映加片头片尾,调色用LUT文件CELLULOID_...

智能体MCP/工具开源/仓库
21:49
Rohan Paul@rohanpaul_ai
71
TCS董事长:AI agent数量或与60万员工持平,冲击印度IT外包模式

印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。

智能体现象/趋势行业动态
20:34
AYi@AYi_AInotes
41
苹果密码App新增自动改密码功能

苹果密码App现在能自动扫描所有账号的弱密码、重复密码和已泄露密码,并自动登录对应网站,找到修改密码页面,生成强密码完成替换,最后存入钥匙串。全程只需用户点一次确认,无需手动操作。@MKBHD 演示了银行、税务、医院等账号逐一处理。此前改一个密码至少花5分钟,现在一键完成。

Marques Brownlee: The new Apple Passwords app

智能体产品更新
17:33
AYi@AYi_AInotes
69
Claude Fable 5 核心杠杆:自我纠正与记忆系统

Claude Fable 5 费用约是 Opus 4.8 的三倍,但效率提升显著:Parameter Golf 挑战效率高 6 倍;Slay the Spire 加持久记忆后表现翻 3 倍;可一次性迁移 50 万行代码。Anthropic 内部两大杠杆:① 自我纠正循环——写 rubric(目标+量化评分标准+沙箱),让模型自主改代码、跑测试;② 记忆系统——共享文件系统作为外脑,每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。

Lance Martin: http://x.com/i/article/2064380553919676416

智能体AnthropicMCP/工具教程/实践
15:42
Huawei Cloud@HuaweiCloud1
52
没有合适的平台,你就无法扩展智能体。在华为云INSPIRE 2026上,华为董事、华为云CEO张平安介绍了AgentArts,一个企业级平台,旨在帮助企业更快地扩展智能体。 https://tinyurl.com/5cjcph9d #INSPIRE2026 #HuaweiCloud #AI
智能体产品更新部署/工程
15:11
Huawei Cloud@HuaweiCloud1
29
你无法在不牢靠的根基上扩展智能。因此,在华为云INSPIRE 2026上,我们夯实了它脚下的大地。 硬件-软件协同。四项Agentic Infra创新。一种新范式。 了解更多:https://tinyurl.com/3yukj4wm #INSPIRE2026 #HuaweiCloud #AI
智能体行业动态部署/工程
13:07
Berryxia.AI@berryxia
46
Smith分享Loop Engineering学习心得

Berry Xia表示,学完Harness后接触Loop Engineering,认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享,但Smith(@smithandai)已发表相关文章,推荐阅读。

Smith铜匠・十点睡觉: http://x.com/i/article/2064229409247358976

智能体教程/实践部署/工程
11:33
AYi@AYi_AInotes
61
小红书副业冷启动:用AllyHub三步拆对标账号

作者分享使用AI agent AllyHub拆解小红书对标账号的方法:第一步从57个候选筛出10个够得着且变现的账号(平均粉丝5.8万);第二步以「AIGC猫大人」为例,扒出7篇点赞过5000的爆款,发现赛道封面规律是“无文字纯视觉”短视频;第三步算变现,约85%收入来自蒲公英接广(合作李锦记、兰蔻等),3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。

智能体教程/实践
11:15
Ethan Mollick@emollick
30
当 Claude Fable 启动一个工作流时,模型 token 消耗得非常快 (这些显然不是 Fable token)
智能体Anthropic现象/趋势
11:15
Ethan Mollick@emollick
52
我在 Fable 帖子中只顺带提过一件事:对于长期运行的任务,Fable 开始发展出自己的方言,因为它的许多智能体和任务相互强化,使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。
智能体大佬观点现象/趋势
11:09
jason@jxnlco
19
你会使用Obsidian作为你的智能体记忆库吗?
智能体大佬观点
‹ 上一页
1…1718192021…50
下一页 ›