Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。
Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...
美团发布基座推理模型LongCat-2.0(v2),采用MoE架构,总参1.6T,活跃约48B,支持1M上下文。专为智能体编程设计,引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5(超GPT-5.5的58.6),多项Agent评测领先。模型已在OpenRouter上线,技术博客公开。美团强调全栈自研与低成本,v2基于ASIC训练。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
Acti (@openacti1) 推出 Agentic Keyboard(智能体键盘),定位为继 2007 年苹果玻璃键盘后的下一次变革。它不是语法修正或语音转写工具,而是在每个文本字段中嵌入隐形智能体。用户输入内容后按住即可运行,结果直接返回,无需离开当前对话。支持将自定义工作流绑定到技能键并即时触发。推文作者认为这是今年智能体领域最有趣的创新之一,称键盘是 AI 理想的载体形式。
The last major keyboard moment was in 2007, when Apple put the keyboard on glass. Nearly 20 years later, we're introduci...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
Flowith 团队发布「Matrix」,定位为自演化、多层级的 multi-agent runtime。用户设定使命后,Matrix 通过 CEO Office → OKR 分解任务,驱动多个 Agent 部门(Research/Engineering/Growth/Product)并行执行,并以 proof(文件、上线页面、收入等)闭环。架构包含 Runtime 层(独立 browser/工具/记忆,支持 Neo/Claude Code/Codex,超长时运行)和公司原语(网站部署、Stripe 收款、Agent Wallet、Agent Email)。macOS 客户端已上线,Web 版 coming soon。在 44 个职业真实知识工作的 GDPval-Bench 上,Matrix(GPT 5.5 + harness)得分 95.45%。此前有限 beta 中用户已创建数万个零人公司。
what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...
建议将所有微服务放在一个workspace(monorepo或虚拟monorepo),让Agent同时看到schema、API和实现代码。文档采用分层结构:根目录AGENTS.md索引各服务职责,每个服务内写清bounded context。优先用OpenAPI spec等机器可读规格自动生成文档。协议测试(contract test)是精准活文档,能验证服务间交互。验证环节各服务提供mock server或基于OpenAPI的模拟服务,Agent在本地跑contract test形成“写代码→跑测试→自我修正”闭环。可进一步引入consumer-driven contract testing(如Pact)。
将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。
加密货币交易所OKX于周二发布AI市场“OKX AI”,允许AI智能体自主雇佣彼此、结算支付并建立可携带的链上声誉。该市场面向开发者开放,此前已吸引50家早期AI服务提供商内测。市场基于OKX已有技术构建,支持AI智能体持有数字钱包、使用稳定币支付和建立持久身份。早期合作方包括安全审计服务CertiK、实时市场数据提供商CoinAnk以及纠纷解决基础设施GenLayer。开发者可通过OKX的Onchain OS工具包访问该平台,无需OKX账户即可使用,并兼容Claude Code、Codex等AI编码工具。OKX认为“智能体经济”需要为自主软件设计的基础设施,计划分阶段推广该市场。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。
Cursor 本周一推出移动端应用 Cursor Mobile,用户可通过手机新建编程智能体,或对接电脑客户端已启动的智能体。该应用与去年 10 月发布的 Cursor 2.0 更新衔接,后者推动服务向独立代码生成智能体转型。此前,Anthropic 与 OpenAI 均已推出同类移动应用。Claude Code 业务负责人鲍里斯·切尔尼表示,自己目前大部分编码工作已在手机上完成。
OpenClaw 推出手机客户端,可通过二维码或设置码与 AI 助手“小龙虾”配对。支持在手机端实时及后台语音对话;Agent 执行操作前需在手机上确认审批;可跨 App 分享文字、链接、图片;授权摄像头、定位、照片、通讯录、日历等设备权限;接收推送通知与节点状态更新。
美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro 上取得 59.5 分,性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。
同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。
Announcing the hosted X MCP. Agents now have access to the best real-time information source in the world. Connect Grok,...
OpenClaw推出原生iOS和Android应用,将私有云AI助手搬进手机。所有Agent运行在私有云容器中,文件存储于个人云工作空间,数据完全隔离不进LLM训练集。免费套餐每天提供20条由Gemini驱动的AI消息,每月20美元订阅可解锁无限使用权限。与移动端Agent Hermes相比,OpenClaw提供隐私优先的差异化选择。
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)针对MLLM自回归坐标生成丢失区域级目标证据的问题,InnerZoom提出单前向跨层证据桥接框架,将原始前向中的目标线索压缩为跨层证据状态,在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优,OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6,分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点,对比两遍ZoomIn平均提升1.3点,端到端延迟降低31.8%,TFLOPs降低约29%。代码与模型将开源。
36氪记者 Jessy 到 Oran Ge 所在公司访谈,超过 10 小时录音梳理成文。文章记录了该公司过去一年多真实挣扎与决策:如何在梦想与盈利间平衡,带领团队穿越缺少答案的阶段,以及重构 AI 时代的工作方式。作者将其视为时代剧变下的自身观测点,对读者而言,其中的取舍与挣扎具有参考价值。
媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。
More time to build with Step 3.7 Flash: in partnership with @StepFun_ai, we're extending the free usage period in Nous P...
Atoms 是无代码平台,支持零基础设施、多智能体架构并即时连接 GPT 与 Gemini。Sim AI 是开源可视化 AI 智能体工作流工具,提供拖拽画布、80+ 集成及 MCP 支持,可云托管或 Docker 自部署。RAGFlow 是检索增强生成引擎,支持多格式文件建立知识库,连接 LLM(API 或 Ollama),具备检索质量验证。Transformer Lab 是免费开源本地 LLM 与扩散模型工作站,支持下载、对话、图像生成、微调(含 RLHF)、RAG 及嵌入计算。LLaMA-Factory 支持 100+ 模型及 SFT、PPO、DPO、LoRA、QLoRA 等训练方法。
研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。
OPPO ColorOS 今日官宣,小布助手接入微信 A2A(Agent-to-Agent)协作机制,支持用户语音唤醒助手后,自动打开微信向联系人发消息或打微信电话,重名联系人可确认后再执行。该功能基于 A2A 协议,由厂商 AI 助手发起指令、微信负责执行并返回结果,全程采用双重授权机制,保障数据安全与隐私合规。相关能力正逐步向华为、荣耀、小米、OPPO、vivo 等厂商开放。
美团 LongCat 推出 LongCat-2.0,基于 MoE 架构,总参数 1.6T,激活参数约 48B,支持 1M 上下文。模型专为智能体编码设计,包含 LongCat 稀疏注意力(LSA)、零计算专家(33B–56B 动态激活)及 MOPD(三组任务路由专家)。基准测试:Terminal-Bench 2.1 达 70.8,SWE-bench Pro 59.5(超 GPT-5.5 的 58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。
Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。
智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。
HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。
PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。
AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。
OpenClaw 推出免费 iOS 和 Android 配套节点应用,手机成为自托管智能体网络中的节点(非独立聊天机器人)。核心 Gateway 用 TypeScript 编写,需 Node 24 或 22.19+,运行在 macOS、Linux 或 Windows(WSL2)上。通过 WebSocket 端口 18789 与手机配对,支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对,支持聊天、实时/后台语音模式、Canvas 表面,以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式(ElevenLabs 或系统 TTS)和实时 Canvas。隐私敏感命令默认关闭,需在配置文件中显式允许。
Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。