微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。
关联讨论 1 条公众号:数字生命卡兹克微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。
关联讨论 1 条公众号:数字生命卡兹克TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。
Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...
DeepSeek V4 Flash 登陆 OpenModel 平台,开启限时免费活动。该模型为 284B MoE 架构,支持 1M 超长上下文,编码与智能体能力突出。活动期间输入输出均为 $0.00/M,无任何调用门槛。平台其他模型同步享受 20%–80% 折扣。免费窗口期至 6 月 28 日截止。
DeepSeek-V4-Flash is FREE until June 28! OpenModel Limited-Time Event: → Input: $0.00 / M → Output: $0.00 / M Powerful 2...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
谷歌云与诺基亚宣布扩展合作,将谷歌 Gemini 模型整合至 Nokia Assurance Center 网络软件套件。双方基于 Gemini 开发了六个专项 AI 智能体:路由智能体(核心编排)、事件分类智能体(告警分析与历史比对)、KPI 选择器智能体(解读性能指标)、异常推理智能体(判断数据偏差是否为故障)、动作推理智能体(匹配自动化操作目录)及仪表板智能体(自然语言生成可视化)。目标是为电信运营商降低运营成本、快速定位网络故障,推动网络运维向全自动化“自驾”模式演进。官方将于 6 月 23 日至 25 日在哥本哈根 DTW Ignite 大会现场演示上述智能体。
亿咖通科技控股在纳斯达克宣布签署最终收购协议,以18亿元人民币(约2.66亿美元)收购Flyme软件业务,包括Flyme Auto智能座舱操作系统和跨终端Flyme OS。交易通过收购星纪魅族专项拆分的湖北骐光科技完成,亿咖通将获得对应知识产权、研发团队和量产项目体系。Flyme已于2026年实现盈利。亿咖通将持续支持Flyme迭代,重点推进AI Agent版本研发。年内魅族现有手机将迎大规模系统升级,全新Flyme Auto 3.0车载系统也将正式发布。
在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。
日本 AI 初创公司 Sakana AI 发布 Fugu,一个能动态协调多个大语言模型的系统。Fugu 本身也是一个语言模型,可从可替换的智能体池中调用其他 LLM(含自身副本),通过单一 OpenAI 兼容 API 提供服务。Fugu 有基础版和 Fugu Ultra 变体。Sakana 公布的基准测试显示,Fugu Ultra 在编码、推理、科学和智能体评测中与 Anthropic Fable 5 和 Mythos Preview 表现相当。Fugu 旨在降低对单一 AI 供应商的依赖,模型池可完全替换。约 500 名 Beta 用户在长流程任务中测试,Fugu Ultra 的 bug 捕获量远超 GPT 5.5。两个变体现在已通过 API 上线。
Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型,训练用于操控其他 LLM,通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5,并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务,但暂不支持 EEA 地区。推文指出,编排式多模型系统将超越单一模型,使小型实验室和企业更易构建,并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Fugu 和 Fugu Ultra 提供订阅和按量付费两种计划。订阅三档:Standard 月费 $20,Pro 月费 $100(10 倍用量),Max 月费 $200(20 倍)。按量付费按 token 计费,不叠加多 agent 费用。Fugu Ultra(fugu-ultra-20260615)每 1M token 定价:输入 $5、输出 $30、缓存输入 $0.50;上下文超过 272K token 时升至 $10 / $45 / $1.00。所有计划均包含两者访问权限。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
郭明錤爆料,Google基于TPU v9 / Humufish开发升级版芯片Triggerfish,由MediaTek独家代工。相比Humufish,Triggerfish的SRAM容量提升2-3倍,新增模拟die(用于强化学习和AI智能体协同),内存升级至HBM4E(Humufish为HBM4),强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗,Triggerfish追加订单100-200万颗,预计2027年底试产、2028年放量,单价高约30%,有望推动联发科2028年业绩增长。
A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...
Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。
codex for testing every single feature in your app:
作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。
Sakana AI 推出 Fugu Ultra,一个多智能体编排层,通过单一 OpenAI 兼容端点动态调用多个模型处理子任务。Fugu 本身是一个 LLM,被训练来自主决定是直接回答还是将子任务分发给模型池中的其他模型(包括递归调用自身),最后整合输出。在大多数基准测试中,Fugu Ultra 性能匹配 Fable 和 Mythos,提供前沿能力且规避出口管制风险。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。
Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。
Hermes Bible 将 Hermes Agent 169 页官方文档整合一体,提炼出 24 个可直接抄的真实工作流(如 Jira 到 PR 自动过渡),支持 ⌘K 即时搜索定位章节,社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。
http://x.com/i/article/2042547855865585664
kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。
many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...
程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。
该研究引入一项匹配执行层基准测试(440个桌面任务、18个应用、12个工作流类别),对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比,两者接受相同目标、状态和最终状态验证器,但仅限使用模态原生操作。最强GUI智能体全通过率59.1%,高于最强原始技能CLI智能体的48.2%;经验证器引导的技能增强后,CLI成功率升至69.3%,表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈:GUI受限于长时程工作流中的可靠接地交互,CLI受限于技能接口的覆盖率和可扩展性。
研究揭示标准LLM智能体依赖上下文窗口保持计划信息,而非将其内化为持久状态。在Llama-3.1-70B上,计划信号写入一步后从0.453骤降4.1倍,HotpotQA下降12.4倍。推理模型(DeepSeek-R1-Distill-Llama-70B)的思维链痕迹会重新推导计划,严格剥离后恢复样本内+163%、样本外+153%信号,非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748,R1专用分类器达1.000。压力测试中,丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。
本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。
论文基于笛卡尔独立思想奠基与科幻自主存在体描绘,从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力(含社交互动)内生的agentive系统。提出Goal-Identity-Configurator(GIC)通用架构,融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习,并讨论agentive系统在人类监督下的可审计性、可控性与安全性。
AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。
大语言模型默认无状态,构建智能体需借助记忆机制。七种记忆类型包括:工作记忆(上下文窗口内临时存储提示词、消息、工具输出)、语义记忆(长期存储用户偏好、事实)、情节记忆(记录过去事件与任务结果用于经验学习)、程序记忆(存储技能、工作流与行为规则)、外部/检索记忆(通过向量数据库在推理时拉取信息,即RAG)、参数记忆(嵌入模型权重中的世界知识与推理模式)、前瞻记忆(记忆未来意图与计划目标)。每种记忆对应不同时间尺度与实现方式,组合使用可构建更强的自主智能体系统。
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
Cloudflare 推出临时账户功能,无需注册即可通过 npx wrangler deploy --temporary 部署 Workers 项目,临时项目存活 60 分钟。该功能虽标称为 AI 智能体设计,但普通用户同样适用。作者使用 GPT-5.5 xhigh 在 Codex Desktop 中构建了测试应用,验证了部署与运行流程,并展示了项目认领页面。
This "loop" automation is nuts inside of Codex. "/goal go over every single feature in this app create a user story with...
论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。
Cognite CTO Geir Engdahl接受专访指出,工业AI失败的根源并非模型层,而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活,因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入,强调工作演示与可信系统之间存在巨大鸿沟。他预测,到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。
Ethan Mollick指出,Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计,只重最终代码,而多数知识工作的过程(研究、探索、原型分支等)与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作,用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节,是突破编程领域、扩展到其他知识工作的关键障碍。
Nah kalau lo pakai Devin, bisa akses GLM 5.2 gratis dan unlimited🤯 cuma konteksnya maksimal 200 ribu, kalau pakai yg ve...
开发者整理出一套Agentic Engineering Workflow,覆盖任务拆解、工具调用、记忆管理到错误恢复全流程,让AI像工程师一样自主规划、写代码、调试和交付,而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度,以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通,强调工程方法比模型能力更重要。
目前看到关于 "Agentic Engineering Workflow"的最完整的介绍👇 花了一个小时完整看完了,完全可以做成一个付费教程。 内容涵盖了tmux,agent记忆,skills,语音输入,长任务执行,并行worktree管...
Claude Code 设置/effort 为ultracode,然后翻译英文文章,你就会收获一个自动的多智能体流水线翻译流程: 先让 3 位风格各异的译者各出一稿 → 双语编辑对照原文评审挑出最佳译法 → 综合成定稿 → 最后逐句校对纠错...
iOS 27 开发者测试版上线多项基于 Apple Intelligence 的实用 AI 功能。账单分摊:拍照识别收据,通过 Apple Cash 分账。密码更新:AI 自动识别弱密码并代理登录网站升级。Messages 一键建议:根据对话内容提示添加提醒、分享照片、添加日历事件。通话时提取邮件中的确认码。支持自然语言添加或修改日历事件。Shortcuts 应用可通过描述自动化任务。这些功能将在今年秋季正式发布。