Kimi 利用 Agent Swarm 系统并行协调300个子智能体,分析战术、球员状态、伤病、赛程、天气、赔率等因素,预测2026年美加墨世界杯全部104场比赛,并发布每轮赛前预测和赛后回顾。模型层融合了 Elo/FIFA 强度、Poisson 进球分布、xG/xT 指标、蒙特卡洛模拟等方法。预测结果显示西班牙和法国为头号热门,但德国夺冠概率可能被市场低估:模型基线估计约11.0%,校准估计约11.3%,而部分市场隐含概率仅约7.4%,正向偏差约+3.6个百分点。该判断基于多分析链交叉验证,可能源于对德国近两届小组出局的近因偏差以及纳格尔斯曼高位压迫体系与穆西亚拉/维尔茨新创造轴的复苏信号。
Google Colab CLI and Skills are out. Full Colab runtimes from your terminal. - GPU/TPU provisioning (colab --gpu A100) -...
硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。
Sources: Anthropic is planning to release a public version of Mythos tomorrow - Will have substantial guardrails and not...
MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。
推友推出AI Agent浏览器Aye,基于Chromium模拟真人操作。支持一句话操作,如拉黑X、回小红书、转写文章到知乎;可录制自定义Skill定时执行,完成繁琐网页操作。
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。
一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
Today, we are launching GMI Agent Box. A complete infrastructure stack for production-ready AI agents: native Docker, fl...
洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...
Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。
Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents ...
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...
Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。
New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...
论文提出 AdaCoM,一个独立的 LLM,在智能体每步操作前编辑其工作上下文。它可重写、合并、剪枝或保留任务历史,使主智能体保持冻结,无需重新训练或暴露权重。与简单摘要不同,AdaCoM 学习不同智能体需要不同类型上下文——强智能体保留更多原始历史,弱智能体需更短更清晰的笔记。在 web search 和 deep research 任务上测试,平均提升 39%。
Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
一篇新论文从自主性、效率和工人移交任务的范围三个维度,分析AI智能体如何重塑知识工作。研究指出,当前人们使用智能体的主要障碍并非模型质量,而是几乎没有人接受过如何以这种方式工作的培训。
Cursor 招聘设计工程师了,非常令人心动,但我还犹豫着不能行动; 我在字节工作了8年,一直游走在动效设计师和设计工程师之间。最近我的团队(豆包手机团队)也在招聘设计工程师,但是我们需要的方向更多要有一些对 Android 平台的了解,和...
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
OpenAI Developers 五月发布多项更新:Codex 用户突破 500 万;新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools;⌘+⌘ 快捷键截图直达 Codex;Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2,用于语音智能体、实时翻译与转录,并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
新论文构建 CL-BENCH 基准,评估 AI 智能体在编程、数据库、预测、无线电信号、扑克、疾病研究 6 个领域中的持续学习能力。每个任务隐藏可随时间习得的模式,考察智能体能否超越预训练知识。测试前沿 LLM 系统采用全上下文记忆、草稿笔记、检索记忆、剧本式记忆及编码智能体设置,结果发现当前记忆密集型 AI 智能体并未可靠优于简单保留完整对话上下文。Claude Sonnet 4.6 使用普通上下文取得最佳总体分数。论文指出智能体仍需更好方法记住有用经验、遗忘过时信息并适应环境变化。
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
微信发布《开发者接入微信 AI 生态的指引》,引导小程序开发者接入微信 AI,让 AI 控制小程序。宝玉对此评论称,微信试图通过让 AI 操作小程序来维持自身超级入口地位,但未来年轻人不会主动打开微信,而是直接向自己的 Agent(如"帮我总结群聊"或"给妈妈发消息")发出指令。承担超级入口职责的很可能不是微信 AI。
微信终于要加 AI Agent 能力了? 微信发布了《开发者接入微信 AI 生态的指引》这篇文章,引导小程序开发者接入微信 AI 生态,让微信的 AI 控制小程序。 感觉这个可能是未来微信 AI 上一个非常重要的功能