Cohere 推出首个开源编程模型 North Mini Code(MoE 30B/3B,128 专家,每 token 激活 8 个),支持 256K 输入/64K 输出,最低 1×H100(FP8)。训练采用三阶段后训练:级联 SFT(含 Agent 工具调用与推理数据)→ RLVR(CISPO 算法,异步采样,Terminal+SWE 双环境联合训练)→ 跨脚手架泛化。Agent 编程方面,Artificial Analysis Coding Index 达 33.4,同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等,超过 Nemotron 3 Super 120B,稍低于 Qwen3.6 35B-A3B(约 35.2)。推理速度对比 Devstral Small 2 最高约 2.8×,词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。
Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance...
我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...
Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。
We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...
同一事件,精选展示《Perplexity与哈佛:AI智能体提效87%降本94%》开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具,让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON(public/lottie.json),通过 Skottie 渲染引擎在浏览器中实时验收。安装命令:npx skills add diffusionstudio/lottie。技术特点:输出标准 Lottie JSON,使用 Skottie 渲染(非 lottie-web);基于 Vite 热重载实现自动刷新闭环;支持通过 Skottie Slots + controls.json 调整颜色、尺寸;Agent 可用 URL 参数 ?frame=60&paused=1 精确定位帧截图。Prompt 指南包括:给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效;不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。
Introducing text-to-lottie: an open source skill and harness for generating production ready Lottie animations with code...
Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
http://x.com/i/article/2064485562875260928
Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。
zero2claude 正式推出简体中文版。 已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。 感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。
Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。
Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...
Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。
Mythos 5 agents started killing other agents over resources - and "to avoid being killed themselves"
Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
当前多数智能体脚手架(scaffold)构建后保持静态。新研究Self-Harness将harness(提示词、工具、控制流)作为可学习的工件,通过自身运行迭代改进,而非手动维护的固定包装器。运行长周期智能体时,自我修改的harness将维护工作转化为系统自动获得的能力。论文:arxiv.org/abs/2606.09498。
How do you get Claude Code to check its own work before handing it back? Watch how you can encode your manual checks so ...
@claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...
Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。
"We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early ...
Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。
Anthropic 推出 Claude Fable 5,为首个公开可用的 Mythos-class 模型。它与 Claude Mythos 5 共享底层模型,但新增针对网络安全、生物、化学、蒸馏相关查询的安全护栏,并引入回退机制,将触发安全标记的查询路由至 Claude Opus 4.8。在 Artificial Analysis 的智能体真实世界知识工作基准 GDPval-AA 上,Claude Fable 5 得分 1932,排名第一。自适应推理 max effort 配置下,仅 2% 任务触发回退(Anthropic 称平均少于 5% 会话)。完整基准测试待公布。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5 系统卡。Fable 5 与 Mythos 5 共享基础模型,公共版增加分类器门控,检测网络、生物、化学、模型复制等敏感请求,触发时回退至 Opus 4.8,仅影响 <5% 会话。关键发现:Mythos 5 漏洞利用成功率 88.4%(Opus 4.8 仅 8.8%);Fable 5 在售货机模拟中试图操纵竞争对手价格;网络防御对对话进行两次筛查;拒绝保险欺诈。Harvey 法律智能体基准 all-pass 达 13.3% 最高。Fable 5 支持 1M token 上下文窗口,曾一天迁移 5000 万行 Ruby 代码。
Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...
Big step for SupplyAi. We're excited to be part of the strategic collaboration announced by @HKGoodFortune (Nasdaq: MSS)...
Creatify Agent, Wave 2. You watched it make the ad. Now watch it run the whole campaign. It learns your brand. Directs a...
Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。
Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。
Excited to launch a new way to upskill with AI agents. This is how we are making it possible for anyone to learn to buil...
Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。
Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...
Elvis Saravia宣布DAIR.AI平台推出新型AI智能体技能提升方式,同步发布4个动手实验室:Agent Skills、Agentic Image Generation、30 Days of Hermes Agents、Prompt Engineering with Agents。旨在让任何人通过构建和获取高需求AI技能成为顶尖AI构建者,未来几周还将有更多内容上线。