http://x.com/i/article/2069421203073490944
http://x.com/i/article/2069421203073490944
全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...
字节跳动发布 Doubao-Seed-2.1-pro 模型。作者分享自我迭代 Agent 技巧:用两个 Agent(打工+评审),打工 Agent 完成任务后,评审 Agent 输出结构化评分(JSON)并说明优劣;打工 Agent 根据评分修改,评审 Agent 再次打分,仅当新得分高于上次才合并修改。此方法基于 AI 反馈的强化学习雏形,类似吴恩达 Agentic Workflow 中的 Reflection 原则。最终利用 Seed-2.1 的强多模态与自我迭代能力,实现“上传城市相册即可建模整个城市”的 demo。
EverOS 1.0.0是一款开源、本地优先的记忆操作系统,专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件(唯一可信来源),配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤,无需Docker或向量数据库集群。官方基准:LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取(PDF/图片/网页URL),任务可自我演化成可复用Skill,计划加入Knowledge Wiki和Reflection。用户通过CLI(everos init/server start)约30分钟上手。
日本团队 Sakana AI 推出 Fugu(Fugu Ultra),一个仅 0.6B 参数的多智能体编排系统,通过统一 API 调用。它不是单体大模型,而是 AI“项目经理”:简单任务自处理,复杂任务自动拆分,从全球模型池选择模型分配思考、执行、验证角色,多轮协作输出答案。编排策略由训练生成,而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT,性能匹敌 Fable 和 Mythos,绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具,开启编排层赛道。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Today, the Interactions API is now generally available as our primary interface for Gemini models and agents. Built base...
作者抢先体验了微信AI助手“小微”。小微基于腾讯自研中文大模型WeLM,部分响应由DeepSeek处理。用户手动激活后,可设置日程、发消息、打电话、生成歌单、启动小程序,并能唤醒美团外卖和京东购物,但转账、红包等最终支付需手动确认。隐私方面:聊天信息仅当前会话读取,不保存、不用于训练,上下文记忆可手动关闭。微信拥有超10亿用户,而腾讯在大模型领域落后于字节和阿里,因此微信成为其最重要的AI落地窗口。支付宝也已在测试具备车辆预约和外卖配送能力的AI智能体。
豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。
http://x.com/i/article/2068926393719685120
OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。
Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。
Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...
We're excited to announce that all Coinbase payments APIs are now agentic-enabled out of the box. Companies like @OpenRo...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
/goal is live on Grok Build. We use a team of agents: - implementors - skeptics - code reviewers - planners and a mix of...
GLM-5.2(max)在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo,排名第三,仅次于 Claude Fable 5(1783)和 Claude Opus 4.8(1615),与 GPT-5.5(xhigh,1509)持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物,领先开源权重模型(下一名 MiniMax-M3 仅 1408),并超过 Google Gemini 3.5 Flash(1357)、Qwen 3.7 Max(1289)等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。
GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from ...
Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。
Introducing GLM 5.2 for autoresearch GLM 5.2 is the first open weights model we've tried on our autoresearch pipeline th...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。
http://x.com/i/article/2069077093036576768
Google Interactions API 现已正式可用(GA),通过统一 /interactions 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 antigravity-preview-05-2026 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 background=True 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。
Delos Workers 突破传统 AI 智能体每次任务后重置上下文的限制,为每个智能体保留持久身份和记忆,独立拥有邮箱、电话和 Slack 句柄,能在任务间传递上下文,从而成为组织架构中可直接寻址的成员。引用 @pierre_dlgr 称其为“无限 AI 员工”,数天内实现 100 万美元 ARR,旨在取代邮件回复、CRM 更新等流程化知识工作。
Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...
Delos发布Workers,将AI智能体转化为拥有专属邮箱、电话、Slack、Teams、电脑、记忆及公司训练的“数字员工”。每个Worker针对单一企业训练,学习其常规、工具、词汇、权限和交接模式。核心是持久身份与长期记忆,使同事可像联络人类同事一样找到它,并信任其记住过往决策与客户上下文。引用推文透露上线数天内已实现100万美元ARR,指出大多数知识工作本不该存在——大量工作仅为流程(回复邮件、跟进、更新CRM等),而Workers能像人类队友一样跨组织执行任务,软件与劳动力界限消失。
Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...
很多人都在说 Agent 是未来的操作系统。但问题是,你让谁来当操作系统?看openai现在的骚操作就有点这个意思。 这就引出一个问题,现在的巨无霸们谁具备打造超级 Agent 的机会? 1)做个聪明的 Agent OS 不难,难的是你能真...
Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,用户仅需调用单个模型 API。其 Fugu Ultra 版本在工程、科学、推理等硬核基准上性能匹敌 Fable 和 Mythos。系统内部自主拆解任务、挑选最优模型、递归调用自身或其他智能体、验证结果并合成答案,用户无需关心底层编排。关键优势在于动态编排全球各类模型,天然避开单一供应商的出口管制风险,将多智能体从复杂工程变为开箱即用的产品形态。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Sakana AI 是 2023 年成立于东京的 AI 公司,由前 Google Brain 的 David Ha(CEO)、Transformer 论文共同作者 Llion Jones(CTO)及前日本外交官 Ren Ito(主席)联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险,被视为将多智能体从复杂工程变为开箱即用的产品形态。
这个是小日子搞的嘛?Fugu? 今天被刷屏了很多次! Sakana直接发布了一个能匹配Fable和Mythos性能的多智能体编排系统,而且还是通过单个API调用。 地址:https://sakana.ai/fugu 他们推出的Sakana ...
关联讨论 1 条MarkTechPost(RSS)卡兹克获得微信Agent“小微”灰度内测资格。小微主入口在微信首页左上角,另有多个子入口(聊天加号菜单、公众号/视频号更多菜单)。主入口支持给好友发消息(需确认卡片)、发红包(需确认金额和收款人),不支持群聊和读取聊天记录。子入口支持读取聊天记录并给群聊发消息。小微可建立日程提醒、设置待办、读取朋友圈总结、配合公众号和视频号问答、读取收藏(仅限自己创建的笔记)。最核心的是内置“小工具”功能,用户可用AI直接创建小程序(暂无法发布)。同时支持调用第三方小程序。
GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...
该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。
TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。
Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...
DeepSeek V4 Flash 登陆 OpenModel 平台,开启限时免费活动。该模型为 284B MoE 架构,支持 1M 超长上下文,编码与智能体能力突出。活动期间输入输出均为 $0.00/M,无任何调用门槛。平台其他模型同步享受 20%–80% 折扣。免费窗口期至 6 月 28 日截止。
DeepSeek-V4-Flash is FREE until June 28! OpenModel Limited-Time Event: → Input: $0.00 / M → Output: $0.00 / M Powerful 2...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...