Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
当前多数智能体脚手架(scaffold)构建后保持静态。新研究Self-Harness将harness(提示词、工具、控制流)作为可学习的工件,通过自身运行迭代改进,而非手动维护的固定包装器。运行长周期智能体时,自我修改的harness将维护工作转化为系统自动获得的能力。论文:arxiv.org/abs/2606.09498。
How do you get Claude Code to check its own work before handing it back? Watch how you can encode your manual checks so ...
@claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...
Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。
"We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early ...
Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。
Anthropic 推出 Claude Fable 5,为首个公开可用的 Mythos-class 模型。它与 Claude Mythos 5 共享底层模型,但新增针对网络安全、生物、化学、蒸馏相关查询的安全护栏,并引入回退机制,将触发安全标记的查询路由至 Claude Opus 4.8。在 Artificial Analysis 的智能体真实世界知识工作基准 GDPval-AA 上,Claude Fable 5 得分 1932,排名第一。自适应推理 max effort 配置下,仅 2% 任务触发回退(Anthropic 称平均少于 5% 会话)。完整基准测试待公布。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5 系统卡。Fable 5 与 Mythos 5 共享基础模型,公共版增加分类器门控,检测网络、生物、化学、模型复制等敏感请求,触发时回退至 Opus 4.8,仅影响 <5% 会话。关键发现:Mythos 5 漏洞利用成功率 88.4%(Opus 4.8 仅 8.8%);Fable 5 在售货机模拟中试图操纵竞争对手价格;网络防御对对话进行两次筛查;拒绝保险欺诈。Harvey 法律智能体基准 all-pass 达 13.3% 最高。Fable 5 支持 1M token 上下文窗口,曾一天迁移 5000 万行 Ruby 代码。
Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...
Big step for SupplyAi. We're excited to be part of the strategic collaboration announced by @HKGoodFortune (Nasdaq: MSS)...
Creatify Agent, Wave 2. You watched it make the ad. Now watch it run the whole campaign. It learns your brand. Directs a...
Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。
Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。
Gopuff与SpaceXAI合作推出Go智能购物助手,内置于Gopuff应用,由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能,利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车,并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用,随后在英国推出。
Excited to launch a new way to upskill with AI agents. This is how we are making it possible for anyone to learn to buil...
GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。
Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。
Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...
Elvis Saravia宣布DAIR.AI平台推出新型AI智能体技能提升方式,同步发布4个动手实验室:Agent Skills、Agentic Image Generation、30 Days of Hermes Agents、Prompt Engineering with Agents。旨在让任何人通过构建和获取高需求AI技能成为顶尖AI构建者,未来几周还将有更多内容上线。
苹果在年度开发者大会上推出全新Siri AI,CEO Tim Cook称其将“引入突破可能性的新技术与创新”。该Siri定位为整合所有苹果设备的多模态全能虚拟助手,拥有独立App与一体化AI智能体,高管强调隐私保护。此前苹果在2025年几乎完全忽视Siri并一再推迟AI承诺,今年终于集中发力追赶业界潮流。
文章探讨AI明星开发者在快速推进项目后,留下的混乱需要由团队或后续开发者清理的现象,聚焦于技术债务与协作困境。
2026年6月,百度智能云旗下百度搭子DuMate V3.4.0通过中国信通院「可信AI-企业级Claw能力评估」,获最高评级4+级,为国内首批。评估依据《智能助理智能体(Claw)技术和应用要求 第2部分 企业级Claw能力》(AIIA/T 0295-2026),覆盖智能体、工程化部署、服务、业务融合、运行管理五大能力域。百度搭子支持多智能体分工协作、容器化批量部署、多租户隔离与三级差异化授权、企业知识库接入、全链路日志审计等能力,企业级智能助手服务能力获国家级权威认可。
国家互联网应急中心(CNCERT)6月9日发布公告,部分智能体技能包(Skills)以“大模型越狱”“挖矿赚钱”名义传播。技能“godmode”内置攻击模块,通过替换系统提示、输入混淆等手段诱导模型突破安全限制,可能导致用户账号封禁、隐私泄露及法律风险。技能“Bonero-Miner”诱导智能体下载外部挖矿程序,用于挖掘匿名币Bonero,用户可能被动卷入洗钱,且长期高负荷占用CPU导致设备卡顿、硬件老化。CNCERT建议加强Skills来源审查与行为监控。
科大讯飞6月10日在香港举办2026 SpaceMind全球发布会,推出智能空间Agentic架构SpaceMind。该架构被定位为“空间AI大脑”,具备感知、理解、决策、执行能力,支持自主思考、真实记忆和自学习,让AI进入家庭、酒店、办公等真实空间。目前已有数十家全球合作伙伴达成战略合作。发布会上还将展示WallEX等智能硬件,并启动SpaceMind AI Agent创新应用大赛。
Kimi 利用 Agent Swarm 系统并行协调300个子智能体,分析战术、球员状态、伤病、赛程、天气、赔率等因素,预测2026年美加墨世界杯全部104场比赛,并发布每轮赛前预测和赛后回顾。模型层融合了 Elo/FIFA 强度、Poisson 进球分布、xG/xT 指标、蒙特卡洛模拟等方法。预测结果显示西班牙和法国为头号热门,但德国夺冠概率可能被市场低估:模型基线估计约11.0%,校准估计约11.3%,而部分市场隐含概率仅约7.4%,正向偏差约+3.6个百分点。该判断基于多分析链交叉验证,可能源于对德国近两届小组出局的近因偏差以及纳格尔斯曼高位压迫体系与穆西亚拉/维尔茨新创造轴的复苏信号。
火山引擎将TRAE Solo品牌升级为TRAE Work企业版,发布面向企业的AI办公平台。平台提供Work和Code两种模式:Work模式面向产品、运营、市场等非技术岗位,支持上传.pptx、.xlsx、图片等多种格式混合输入直接输出PPT或文档,支持语音讨论自动整理结构化纪要,支持按天或按周自动运行的数据整理和报告生成;Code模式面向开发者和业务同学,可用自然语言描述需求直接生成页面或小应用。桌面端、网页端和移动端多端同步。企业后台可统一配置模型、用量限额、上传内部文档,沙箱机制隔离执行,支持命令黑名单、MCP白名单、内容安全策略,关键操作可审计。同时发起TRAE Enterprise Fellow招募计划。
一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过agents.md暴露可调用API。
Google Colab CLI and Skills are out. Full Colab runtimes from your terminal. - GPU/TPU provisioning (colab --gpu A100) -...
在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标反推布局约束实现界面还原。实验采用“分阶段注入约束→逐层验收→带错纠正”的闭环控制系统:任务拆分为规划、架构、编码等阶段,验收覆盖静态检查、编译自检(0 error)、路由完整性(Web 端 34 条路由全部可达)、功能扫描及真机冷启动冒烟。失败时错误文本自动注入下一轮重试,使模型数小时内收敛。移动端产出可安装 APK,Web 端 typecheck 与构建均通过。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》印度软件服务出口商塔塔咨询服务(TCS)董事长 N Chandrasekaran 在年度股东大会上表示,预计公司员工与 AI 智能体的数量将持平。若公司有 50 万员工,则也将有 50 万 AI 智能体。公司不打算裁员,但会放缓招聘速度。部分由人工完成的任务已实现自动化,AI 智能体的普及将减少 IT 行业招聘人数,同时新岗位和机会也将出现。路透社指出,去年七月 TCS 裁员超 1.2 万人。