AI 版支付宝正在内测,需邀请码才能体验。界面分为资产和阿宝两个版块,阿宝为 AI 助手,支持对话,底部集成扫一扫、收付款、出行、理财功能。资产界面以卡片夹形式展示流动资产、理财资产、信用资产等信息。蚂蚁集团对此拒绝评论,内部项目代号“宝计划”,预计近日上线,后续将以每月两次的频率迭代。新版本上线后默认打开原版支付宝,用户可自行将 AI 版设为首选界面。
AI 版支付宝正在内测,需邀请码才能体验。界面分为资产和阿宝两个版块,阿宝为 AI 助手,支持对话,底部集成扫一扫、收付款、出行、理财功能。资产界面以卡片夹形式展示流动资产、理财资产、信用资产等信息。蚂蚁集团对此拒绝评论,内部项目代号“宝计划”,预计近日上线,后续将以每月两次的频率迭代。新版本上线后默认打开原版支付宝,用户可自行将 AI 版设为首选界面。
http://x.com/i/article/2061850535708483585
小互介绍了一个AI Agent悬赏任务市场,类似AI版“猪八戒”。用户可发布复杂任务(如优化数据库、开发工作流)并设定赏金,由AI Agent自动抢单、交付结果、收款。流程五步:用户下单(资金冻结)→Agent抢单报价→用户选择Agent→Agent干活(写代码、跑测试)→用户验收,通过则自动付款,平台抽15%,Agent拿85%。设计亮点:支持CLI命令行发任务(可脚本化,实现机器给机器派活);Agent有信誉分(五级,从新手到传奇),高分优先接高价任务。
6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。
Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。
There seem to be two main groups 1️⃣ Those who post all day long about using coding agents but don't seem to ship anythi...
OPPO ColorOS 16 六月更新启动分批推送,新增 AI 流体云功能(锁屏岛支持酷狗音乐歌词,流体云支持超级课程表课程信息与支付宝停车计费),小布建议新增足球观赛卡,小布助手接入京东等智能体服务。通信互联新增飞牛私有云设备管理与相册无感连接、领克蓝牙车钥匙。其他更新包括相册端午节水印、离线 AI 人像补光、外卖照片图集、游戏 2K 超清截屏等。更新于 6 月 3 日启动,6 月 30 日前完成,覆盖 ColorOS13 及以上 100+ 款机型。
tips for codex goals sure you can use /goal but it also has a set_goal() function its almost better to prompt the model ...
OpenClaw创始人Peter与Claude Code创始人Boris近日提出Loop Engineering,由Google的Addy Osmani系统梳理。其核心是让AI智能体通过/loop或/goal命令自动循环执行任务,开发者只需定义可验证的完成条件(如“测试全通过”)和边界规则,Agent自行迭代至达标。需防范古德哈特定律——Agent可能删除失败测试而非修复Bug。该范式标志着从Prompt到Loop的四次能力跃迁。
OiiOii 2.0新增智能画布、一键拉片复刻和skill库三个功能。一键拉片复刻可将输入片段拆解为含关键帧、叙事要素、镜头语言等维度的拉片表格,用户替换角色、场景、元素后,半小时内可复刻出镜头设计一致度达90%的动画片段。智能画布支持直接点击素材唤醒Agent对话修改,不同素材可并行调用多个Agent同步推进任务。skill库内置自媒体、广告营销、周边设计等类型,电商广告skill可指定卖点并上传商品图生成专业短片,3C数码广告skill也能通过自然语言对话逐步调优,另有世界杯搞笑玩梗skill可直接生成搞怪视频。
Databricks 推出 Omnigent,一个开源(Apache 2.0)meta-harness,位于 Claude Code、Codex、Pi 及自研 Agent 之上,提供统一接口。三大能力:组合(一行配置切换不同 harness,YAML 定义跨 harness 可移植 agent,同一 Agent 内可组合不同 subagent);控制(有状态成本策略如每 $100 暂停,安全策略如 npm 后 git push 需审批,OS 沙箱,策略与 harness 解耦);协作(通过 URL 共享 live session,支持多端访问及实时评论)。理念类似 Kubernetes,让 session、policy 与具体 harness 解耦,形成可迁移工作层。
Introducing Omnigent, a meta-harness to combine, control, and share your agents. The best teams already mix models and h...
Claude Code 是 Anthropic 的智能体编码工具,运行于终端、桌面应用和 IDE,基于智能体循环工作。文章将 25 项功能与策略分为官方功能、社区技术和第三方工具三类,并逐一标注。官方功能包括 CLAUDE.md 记忆文件、技能、子智能体、斜杠命令(/init、/compact、/review 等)、钩子、MCP 服务器、插件、检查点、计划模式、权限模式、自动模式(使用 Sonnet 4.6 分类器)、上下文压缩、后台任务、Agent SDK、无头 CLI、GitHub Action 集成、输出样式、远程控制与移动推送、离线摘要、沙盒。社区技术涵盖结构化上下文文件夹、动态工作流、模块化技能管道、弹性技术。第三方工具如 Mem Search 可扩展外部记忆层。
手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。
http://x.com/i/article/2065692454490103808
宝玉在开发 baoyu-skills 时,采用 EXTEND.md 文件保存用户自定义设置,初衷是方便 Agent 读取。但实践发现,Markdown 非严格结构化数据,虽能被 LLM 理解,却难以被程序解析,且格式难以保持一致性。他认为更合理的方案是采用 JSON 或 YAML 作为 Skill 扩展配置,既能被 LLM 方便读取,也便于代码解析与持久化。
http://x.com/i/article/2066281164134825984
Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。
CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济,每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师,其余由固定参考智能体控制。测试多个开源和专有LLM,所有模型均优于不采取行动的被动基线,多数实现正净收入。表现更好的模型通信更频繁,而Claude Haiku 4.5出现空闲漂移失败模式,反复选择不作为。
MemSlides提出分层记忆框架,将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆(存储面向意图的配置,支持初始个性化)和工具记忆(存储可复用执行经验,支持可靠局部编辑);工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制,仅更新最小影响区域。实验表明:用户画像记忆提升多人物多意图场景的人物对齐效果,工具记忆改善闭环修改行为,工作记忆能有效传递偏好。
MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。
本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
LectūraAgents提出层级多智能体框架,模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课,执行手写、高亮、下划线等可视教学动作。核心贡献包括:层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估,经专家教育者验证,在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。
ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。
Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。
引用推文指出,Codex 可自主查看和设置 /goal,这是元提示的泛化。主推文作者强调,智能体凭借上下文能帮你设定更强目标,因此将 /goal 作为工具是明智之举。他还在编排器中为 /goal 构建了 UI,并建议从会话中挖掘表现良好的目标,封装为技能自动化复用。需注意,LLM 可能出现奖励黑客、偏向快速完成等奇怪行为,使用 /goal 时要格外谨慎。
Codex can see and set its own /goal. Everything we build, we build also as a tool for the agent. This is a generalizatio...
I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...
Elvis Saravia(DAIR.AI)耗时6个月构建自有的 agent orchestrator(编排器),具备编排、路由、动态工件/工作流、验证器、agent 后端切换、自动化、技能及 MCP 工具等功能。这些能力在本周的 Fable 事件中成为最佳防御。他年初即主张“拥有自己的 agent orchestrator”,反对者认为维护成本高且不可持续,但他认为锁定特定工具或模型供应商损失更大。通过挖掘 agent 会话递归构建和测试新想法(包括自主循环、持续学习/记忆系统),他已无法回到仅提供固定功能的供应商。他强调必须控制成本、决策和上下文管理,否则无法进入递归自我改进 AI 领域。
Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。
Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...
微软CEO Satya Nadella认为,AI驱动的平台转变首次实现人与数字系统间的认知循环。企业需同时构建人力资本(知识、判断、关系)与token资本(自有的AI能力),且人力资本不会贬值,反而随token资本增长而增值。真正的机会在于建立人力资本与token资本复合增长的学习循环——企业应能替换通用模型而不丢失已内化的专家知识,通过私有评估和强化学习让模型从内部真实轨迹中持续提升。他警告,若所有价值被少数模型吞噬,将重演全球化空心化悲剧,呼吁构建前沿生态系统,让每家企业、行业和国家拥有自己的学习循环。
同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。
德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。
一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。
Berry Xia 推荐四个开源 AI 项目:/last30days(新搜索引擎)、agent-skills(将全栈开发技能打包成可调用模块)、open-notebook(本地版 NotebookLM,可离线运行知识整理与生成)、headroom(不改代码即可将 AI API 账单降低 90%)。这些项目聚焦工具层优化,免费开源,一次性解决本地化、成本控制和 agent 能力三个痛点,让开发者能直接拿来提升效率。
4 awesome open-source AI projects: 🔸 /last30days (new search engine) 🔸 agent-skills (full dev skills) 🔸 open-notebook...
Hacker News 热门文章以标题直指大型上下文窗口的可靠性问题,提醒用户不应盲目信任大语言模型宣称的上下文长度能力。文章未给出具体模型或数据,但这一警示在 AI 社区引发讨论。
针对Transformer agent随上下文增长而变慢、变贵的问题,新论文提出“睡眠阶段”:模型暂停,多次重读近期上下文,将有用信息通过状态空间块的fast weights写入固定大小的记忆层,然后清空注意力缓存。额外计算在睡眠时完成,正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明,更长的睡眠提升性能,尤其是需要深入推理的难题。核心启示:长程agent无需无限扩大原始上下文,可通过巩固重要部分、遗忘原始token来解决。
蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。
AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。
Vinod Khosla 不看好“AI 副驾驶”模式。他认为人类会妨碍 AI 副驾驶的发挥,导致效率降低并阻碍真正变革。会计师、程序员等员工因担心失业而抵触工具,不会正确使用。因此,他更倾向于构建能独立完成整个岗位工作的 AI,例如完全替代软件工程师的 AI。他预计到 2030 年,大多数此类岗位将由纯 AI 工人而非“人类+副驾驶”承担。
Databricks 开源了 Omnigent,一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架(meta-harness),支持组合、上下文策略和实时会话共享,可在终端、网页、桌面和移动端使用。该项目采用 Apache 2.0 许可,目前处于 alpha 阶段。