在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。
在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。
Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型,训练用于操控其他 LLM,通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5,并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务,但暂不支持 EEA 地区。推文指出,编排式多模型系统将超越单一模型,使小型实验室和企业更易构建,并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
郭明錤爆料,Google基于TPU v9 / Humufish开发升级版芯片Triggerfish,由MediaTek独家代工。相比Humufish,Triggerfish的SRAM容量提升2-3倍,新增模拟die(用于强化学习和AI智能体协同),内存升级至HBM4E(Humufish为HBM4),强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗,Triggerfish追加订单100-200万颗,预计2027年底试产、2028年放量,单价高约30%,有望推动联发科2028年业绩增长。
A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...
Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。
codex for testing every single feature in your app:
作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。
Sakana AI 推出 Fugu Ultra,一个多智能体编排层,通过单一 OpenAI 兼容端点动态调用多个模型处理子任务。Fugu 本身是一个 LLM,被训练来自主决定是直接回答还是将子任务分发给模型池中的其他模型(包括递归调用自身),最后整合输出。在大多数基准测试中,Fugu Ultra 性能匹配 Fable 和 Mythos,提供前沿能力且规避出口管制风险。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。
Hermes Bible 将 Hermes Agent 169 页官方文档整合一体,提炼出 24 个可直接抄的真实工作流(如 Jira 到 PR 自动过渡),支持 ⌘K 即时搜索定位章节,社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。
http://x.com/i/article/2042547855865585664
kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。
many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
This "loop" automation is nuts inside of Codex. "/goal go over every single feature in this app create a user story with...
论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。
Cognite CTO Geir Engdahl接受专访指出,工业AI失败的根源并非模型层,而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活,因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入,强调工作演示与可信系统之间存在巨大鸿沟。他预测,到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。
Ethan Mollick指出,Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计,只重最终代码,而多数知识工作的过程(研究、探索、原型分支等)与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作,用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节,是突破编程领域、扩展到其他知识工作的关键障碍。
Nah kalau lo pakai Devin, bisa akses GLM 5.2 gratis dan unlimited🤯 cuma konteksnya maksimal 200 ribu, kalau pakai yg ve...
开发者整理出一套Agentic Engineering Workflow,覆盖任务拆解、工具调用、记忆管理到错误恢复全流程,让AI像工程师一样自主规划、写代码、调试和交付,而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度,以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通,强调工程方法比模型能力更重要。
目前看到关于 "Agentic Engineering Workflow"的最完整的介绍👇 花了一个小时完整看完了,完全可以做成一个付费教程。 内容涵盖了tmux,agent记忆,skills,语音输入,长任务执行,并行worktree管...
Claude Code 设置/effort 为ultracode,然后翻译英文文章,你就会收获一个自动的多智能体流水线翻译流程: 先让 3 位风格各异的译者各出一稿 → 双语编辑对照原文评审挑出最佳译法 → 综合成定稿 → 最后逐句校对纠错...
AI Native组织由人、Agent、上下文三层构成。人退守两端:战略/品味/判断与沟通/评审,AI吃掉中间执行。Agent自治需Clear Goal、Skills、Tools、Context四要素,并通过Skill Chain串联多个skill对抗幻觉。上下文层是护城河,五阶段循环:Capture→Curate→Store→Execute→Experience→回流。两个Live Demo验证:提案微站3-4分钟生成个性化页面,已带来数百万美元收入;10分钟产品闭环实现语音口述到高保真原型。创业方向是将三层系统打包服务,聚焦行业/职能/公司规模。
作为新成立的部门,DeepSeek Harness 组的目标远大、工作繁重,仍然非常缺人。我每天都在面试,以及各种地方张贴小广告......一共有三种职位: Harness 研究员(实习全职均可):https://app.mokahr.co...
OpenAI Codex 新增 Record & Replay 功能,用户可通过“演示一次工作流”创建可复用的 AI Skill。底层将 Skill 作为结构化上下文,回放时具备适应性,能调用当前环境中的工具完成任务。流程分两阶段:录制时 Codex 分析操作并自动起草 Skill(含使用时机、输入、步骤、验证);回放时用户提供新参数,Codex 自动执行。官方总结了五条高质量录制原则:短而完整、提前声明变量、真实但脱敏、补录隐性规则、及时停止。该功能与 Plugin 形成互补:适合个人快速 Skill 化,而非团队级分发。
CREAO is hiring 这是一艘刚刚开始提速的新船。 我们正身处AI时代的乱纪元。组织形态和财富分配方式都在被重塑。接下来最大的机会,会属于那些敢在秩序尚未形成时下场,用产品和结果定义新生态的人。 前不久,CREAO刚完成了3000...
兄弟们,喜大普奔哈哈! DeepSeek-V4-Flash 免费到6月28号,直接冲啊! 284B MoE,1M上下文,编码和Agent能力都不错,直接可以用起来,截止日期到6月28号。 链接:https://www.openmodel.ai
DeepSeek-V4-Flash is FREE until June 28! OpenModel Limited-Time Event: → Input: $0.00 / M → Output: $0.00 / M Powerful 2...
ClickUp Brain AI 新增自主创建 agent 的能力:当检测到适合委派的任务时,Brain 会提议构建一个专用 agent,预配置好触发器、规则和范围。agent 接管重复性工作后,原来主流程可继续推进。例如,用户只需让 Brain 一次性分流新上报的 bug,它就能提议一个常驻 agent,持续监控新报告、分配严重性、标记重复并自动归档任务。
BestBlogs周刊第100期特刊回顾两年AI发展,核心洞察:答案变便宜,判断变贵。模型层:DeepSeek-V3(6700亿参数、每次激活370亿、训练成本约557万美元)和R1(纯强化学习推理开源)将效率与开源变成新范式。AI编程层:Codex案例中模型7小时迭代200轮测试仅改动500行代码,验证成为新瓶颈;Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器,人从写代码退到判断、验证和为结果负责的位置。
李飞飞与David Roger提出“哑铃效应”:文本智能成本趋零,劳动力向顶尖1%专家和高能动性通才两极坍缩,中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token,Claude Code重度用户月花15万美元;五月迅速退烧——Amazon关闭排行榜,Uber烧光2026年全年预算,微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍,70%耗于探索与修复;写代码效率增180%,但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。
李飞飞提出“哑铃效应”,未来劳动力两极分化:顶尖工匠与高能动性通才。Tokenmaxxing 揭示,Agentic coding 真实成本是普通问答千倍,七成消耗在试错;写代码效率提升180%,但发布上线增量仅30%。Claude Code 详解八种上下文注入机制,引出 Dynamic Workflows。Microsoft 披露 AutoJack 攻击,浏览型AI Agent 被诱骗利用 MCP WebSocket 在 AutoGen Studio 主机实现代码执行。Vercel 推出 Agent Stack,集成 AI SDK、Gateway、Workflow SDK 等构建生产级 Agent。
http://x.com/i/article/2068480429980876800
Greg 列出当下最有价值的六项技能:搭建管理 agent 并运行本地 AI 模型、懂渠道的营销、全能机器人、短内容策展、能出产品又能分发的 builder-distributor、线下社区建设。主推文指出 AI 抹平单一工具门槛,纯写提示词或代码贬值,真正拉开差距的是打通 builder 与 distributor 全链路。具体解读:本地部署保留应急控制权;内容策展是稀缺筛选力;管理 agent 需监控重试。建议三件事:迁核心工作流到本地并搭观测面板;精准分发产品给 20 个潜在用户;线下聊天获真实反馈。
The most valuable skill sets on the planet right now: 1. people who can set up agents properly, manage them, and run loc...
现在 Codex 能将代码线程从笔记本无缝 handoff 到远程服务器,再随时接回。过程自动打包 Git 状态、未提交变更、分支、工作树等全部上下文,无需手动 sync 或重建环境。该功能消除了本地开发与远程重型计算之间的摩擦,让 agent 自动管理状态流动,用户可根据需要自由切换场景。
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo:四个 CCTV 实时画面,模型观察近期帧窗口,判断活动是否正常,仅在识别到真实事件时调用 raise_alert(reason, severity)。模型持续将场景分类为“常规/无紧急”,只在高速公路出现警车蓝灯时触发警报,推理为“警车蓝灯亮起,可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。
Built a vision-agent security monitoring demo with MiniCPM-V 4.6. @OpenBMB Four CCTV style feeds run on a live clock. Mi...
面壁智能OpenBMB感谢@aijoey用MiniCPM5-1B构建后端智能体集群。128个并发智能体在DGX Spark上运行,通过vLLM连续批处理提供服务,每个智能体独立处理发票审核、退款路由、合规检查等8种业务队列。系统在1.48秒内跨智能体流式传输6604个chunks。该案例表明,1B模型的价值在于同时做出大量有用业务决策——用一群小型廉价worker并行清理队列。
Built a back-office agent swarm demo with MiniCPM5-1B. 128 concurrent agents on DGX Spark, served through vLLM continuou...
LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》,基于 LangChain / LangGraph 生态,讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”:Runtime(LangGraph)、Framework(LangChain)、Harness(Deep Agents)。技术内核为上下文工程,通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇,覆盖虚拟文件系统(六大工具)、任务规划、子 Agent 委派(异步并行)及 Skills 复用(可在 Claude Code、Cursor 等 30+ 工具中通用)。
A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...
LandingAI Agentic Document Extraction(ADE)现支持在 Parse 或 Parse Jobs 调用中传入 password 参数,同一请求完成解密、解析及结构化输出。该功能要求启用 Zero Data Retention(ZDR)模式,文档仅在内存处理,不持久化,适用于 HIPAA/PHI/PII 合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。集成成本低:单一可选参数,非加密文件不受影响;缺密码返回 422 错误。密码经 HTTPS 传输,ZDR 下服务端不持久化,建议配合最小权限 API Key 与审计日志。REST API 及 Python/TypeScript 库均可用。
Parse password-protected documents! Agentic Document Extraction (ADE) accepts a password parameter directly in the Parse...