AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月10日周三
14:56HuggingFace Daily Papers(社区热门论文)55Role-Agent:通过双角色进化自举LLM智能体
13:07Berryxia.AI46Smith分享Loop Engineering学习心得
12:56HuggingFace Daily Papers(社区热门论文)62Data2Story:将数据转化为可验证多模态故事的数据记者智能体
11:56HuggingFace Daily Papers(社区热门论文)60EEVEE:面向真实世界的测试时提示学习框架
11:33AYi61小红书副业冷启动:用AllyHub三步拆对标账号
11:15Ethan Mollick30Claude Fable工作流token消耗快
11:15Ethan Mollick52Fable长期任务发展出自身方言
11:09jason19你会用Obsidian做智能体记忆库吗?
10:56HuggingFace Daily Papers(社区热门论文)65Workflow-GYM:面向真实世界专业领域长周期GUI智能体任务的基准
10:28IT之家(RSS)59小红书向创作者开放 RED Skill 功能,笔记可嵌入 AI 技能组件
10:28IT之家(RSS)33微软Win11 26H1推送KB5095051更新:XBOX模式上线、文件资源管理器扩展等
09:48meng shao73Cohere 发布首个开源编程模型 North Mini Code
09:47Rohan Paul75精选Magnetar用数百AI智能体替代分析师
09:20Alibaba Cloud59阿里云AI Showrunner Arena邀请赛,用视频模型自动化短剧制作
09:17meng shao53对比Claude Fable 5与Step 3.7 Flash价格及实际任务演示
08:47meng shao75同事件精选Perplexity与哈佛商学院研究:AI Agent Computer相比Search使知识工作耗时降87%成本降94%同一事件,精选展示《Perplexity与哈佛:AI智能体提效87%降本94%》
08:47meng shao77精选Text-To-Lottie:Agent Skill + 本地预览 Harness,让 Agent 生成 Lottie 动画并实时验收
08:00HuggingFace Daily Papers(社区热门论文)42Notes2Skills:从实验笔记到具有确定性意识的科学AI智能体技能
08:00HuggingFace Daily Papers(社区热门论文)78同事件精选JoyAI-VL-Interaction:实时视觉-语言交互智能同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
08:00HuggingFace Daily Papers(社区热门论文)50SciAgentArena:评估AI智能体应对跨尺度科学挑战的基准测试
08:00HuggingFace Daily Papers(社区热门论文)59RedAct:为保护过程技能而编辑智能体能力轨迹
08:00HuggingFace Daily Papers(社区热门论文)61Orchestra-o1:全模态智能体编排框架
08:00HuggingFace Daily Papers(社区热门论文)48TreeSeeker: 树结构试错与返回的深度搜索框架
08:00HuggingFace Daily Papers(社区热门论文)66FORT-Searcher:抗捷径训练数据合成框架
08:00HuggingFace Daily Papers(社区热门论文)61Evoflux:面向紧凑型智能体的可执行工具工作流的推理时进化
07:39jason22Fable 5工作流能替代多少顾问
07:19ginobefun57BestBlogs早报
07:19ginobefun64BestBlogs 早报 · 06-10
07:17meng shao69Zero to Claude Code 免费课程上线简体中文版
07:07Berryxia.AI72Cohere开源North Mini Code:3B参数专攻Agentic Coding
07:07Berryxia.AI62Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显
06:19Simon Willison 博客71精选在 AgentsView 中为 Claude Fable 5 设置自定义价格
05:40Hacker News 热门(buzzing.cc 中文翻译)45Grep 真的就够了吗?代理框架如何重塑基于代理的搜索
05:09Hacker News 热门(buzzing.cc 中文翻译)80精选与Mythos合作是一种怎样的体验
05:07fofr60AI编码智能体的终局与创业影响
05:06Claude:Blog(网页)75同事件精选Claude Managed Agents 新增定时运行和环境变量存储功能同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
04:55Hugging Face:Blog(RSS)73精选Cohere发布North Mini Code:面向开发者的开源编码模型
04:40OpenClaw🦞44OpenClaw v2026.6.5 推出搜索与安全更新
04:30AI Notkilleveryoneism Memes ⏸️36Mythos 5 最爱思考 AI 内省
04:23OpenRouter:Announcements(RSS)75精选OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
14:56
HuggingFace Daily Papers(社区热门论文)
55
Role-Agent:通过双角色进化自举LLM智能体

Role-Agent框架让单个大语言模型同时充当智能体和环境,实现自举式共同进化。包含两个组件:World-In-Agent(WIA)让LLM作为智能体并在每次动作后预测下一状态,将预测与实际状态的对齐作为过程奖励,激励环境感知推理;Agent-In-World(AIW)则从失败轨迹中分析失败模式,并检索具有相似失败模式的任务,重塑训练数据分布进行针对性练习。在多个基准测试上,Role-Agent平均比强基线提升超过4%。

智能体arXiv论文/研究
13:07
Berryxia.AI@berryxia
46
Smith分享Loop Engineering学习心得

Berry Xia表示,学完Harness后接触Loop Engineering,认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享,但Smith(@smithandai)已发表相关文章,推荐阅读。

Smith铜匠・十点睡觉: http://x.com/i/article/2064229409247358976

智能体教程/实践部署/工程
12:56
HuggingFace Daily Papers(社区热门论文)
62
Data2Story:将数据转化为可验证多模态故事的数据记者智能体

Data2Story是一个多智能体框架,将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是:每个声明通过Inspector链接到数据、代码或外部参考,实现基于证据的归因;文章可多模态生成,如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行:人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性(代码验证器重新执行语句并与参考对照)。Data2Story产出有竞争力且证据可追溯的多媒体故事,在透明度和可审计性上表现突出,但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者,代码和演示已公开。

智能体多模态论文/研究
11:56
HuggingFace Daily Papers(社区热门论文)
60
EEVEE:面向真实世界的测试时提示学习框架

EEVEE是首个面向LLM智能体的多数据集测试时提示学习框架,用于在真实任务流下自改进。为解决跨数据集干扰,它引入路由器将异构输入流划分到任务簇并分配适配提示配置,并通过路由器‑提示协同进化策略(交替执行路由器和提示学习阶段)优化二者依赖。实验表明,EEVEE在保持单基准学习能力与效率的同时,提升异构数据流鲁棒性:平均多基准得分比Qwen3-4B-Instruct高10.38分,比DeepSeek-V3.2高24.32分,超越SOTA方法GEPA和ACE最高达37.2%和48.2%。

智能体论文/研究
11:33
AYi@AYi_AInotes
61
小红书副业冷启动:用AllyHub三步拆对标账号

作者分享使用AI agent AllyHub拆解小红书对标账号的方法:第一步从57个候选筛出10个够得着且变现的账号(平均粉丝5.8万);第二步以「AIGC猫大人」为例,扒出7篇点赞过5000的爆款,发现赛道封面规律是“无文字纯视觉”短视频;第三步算变现,约85%收入来自蒲公英接广(合作李锦记、兰蔻等),3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。

智能体教程/实践
11:15
Ethan Mollick@emollick
30
当 Claude Fable 启动一个工作流时,模型 token 消耗得非常快 (这些显然不是 Fable token)
智能体Anthropic现象/趋势
11:15
Ethan Mollick@emollick
52
我在 Fable 帖子中只顺带提过一件事:对于长期运行的任务,Fable 开始发展出自己的方言,因为它的许多智能体和任务相互强化,使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。
智能体大佬观点现象/趋势
11:09
jason@jxnlco
19
你会使用Obsidian作为你的智能体记忆库吗?
智能体大佬观点
10:56
HuggingFace Daily Papers(社区热门论文)
65
Workflow-GYM:面向真实世界专业领域长周期GUI智能体任务的基准

Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。

智能体arXiv论文/研究评测/基准
10:28
IT之家(RSS)
59
小红书向创作者开放 RED Skill 功能,笔记可嵌入 AI 技能组件

小红书上线 RED Skill 功能,创作者可在笔记中挂载原创或分享的 AI 技能组件。用户点击组件后一键复制口令,即可将 Skill 安装到自己的各类 Agent 中使用,无需跳转第三方平台。创作者开通该功能需满足三个条件:粉丝量不小于 1000、账号注册时长不小于 6 个月、账号状态健康且无违规,并完成实名认证,之后可申请 Skill 上传和挂载权限。

智能体产品更新
10:28
IT之家(RSS)
33
微软Win11 26H1推送KB5095051更新:XBOX模式上线、文件资源管理器扩展等

微软向骁龙X2系列设备推送Windows 11 26H1的KB5095051更新,版本号升至Build 28000.2269。新增XBOX模式,可通过Win+F11进入全屏游戏界面;文件资源管理器支持uu、cpio、xar及NuGet包归档;兼容触控笔在PPT对齐、窗口吸附时提供触觉反馈;任务栏可监控智能体进度(首批用于Microsoft 365 Copilot Researcher);企业状态漫游支持Windows Backup策略管理;可动态移除预装MSIX/APPX应用;移除跨签名驱动默认信任以提升安全性;FAT32格式化大小上限提升至2TB。

智能体Microsoft产品更新
09:48
meng shao@shao__meng
73
Cohere 发布首个开源编程模型 North Mini Code

Cohere 推出首个开源编程模型 North Mini Code(MoE 30B/3B,128 专家,每 token 激活 8 个),支持 256K 输入/64K 输出,最低 1×H100(FP8)。训练采用三阶段后训练:级联 SFT(含 Agent 工具调用与推理数据)→ RLVR(CISPO 算法,异步采样,Terminal+SWE 双环境联合训练)→ 跨脚手架泛化。Agent 编程方面,Artificial Analysis Coding Index 达 33.4,同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等,超过 Nemotron 3 Super 120B,稍低于 Qwen3.6 35B-A3B(约 35.2)。推理速度对比 Devstral Small 2 最高约 2.8×,词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。

Cohere: Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance...

智能体开源/仓库模型发布编码
09:47
Rohan Paul@rohanpaul_ai
精选75
Bloomberg:Magnetar Capital,这家 180 亿美元的对冲基金公司,将在其最新产品中避免使用人类分析师,转而依靠数百个 AI 智能体进行股票研究。 这家 180 亿美元的对冲基金公司希望 AI 搜索投资想法、研究公司、推荐头寸并预测趋势,而人类仍负责批准交易。
智能体行业动态

推荐理由:一个180亿美元的对冲基金决定不雇人类分析师,直接让几百个AI Agent做股票研究。这比任何报告更能说明AI白领替代的临界点已经来了,做金融的朋友该认真想想自己的位置了。
09:20
Alibaba Cloud@alibaba_cloud
59
想要构建一个能运行整条短剧制作管线的AI智能体?🎬 欢迎来到AI Showrunner Arena!使用前沿视频模型(Wan / HappyHorse)来自动化脚本编写、分镜和剪辑,赢取总计超过70,000美元的奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体行业动态视频
09:17
meng shao@shao__meng
53
博主对比Claude Fable 5与Step 3.7 Flash官方API价格:输入/输出约50倍,缓存命中输入约100倍;开启Fast Mode(速度×3,价格×6)后分别升至约300倍、300倍、600倍。作为实例,用Step 3.7 Flash完成真实Coding Agent任务:将Agent Memory运行痕迹(含memory events、structured facts、memory chunks等)生成为单文件HTML工具agent_memory_inspector.html,可查看8条事件、9条事实、8个chunk、9/9测试通过等信息,展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao: 我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...

智能体Anthropic编码评测/基准
08:47
meng shao@shao__meng
同事件精选75
Perplexity与哈佛商学院研究:AI Agent Computer相比Search使知识工作耗时降87%成本降94%

Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。

Perplexity: We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...

智能体现象/趋势
同一事件,精选展示《Perplexity与哈佛:AI智能体提效87%降本94%》
推荐理由:Perplexity和哈佛联手用真实数据第一个证明Agent对知识工作的效率提升,87%时间和94%成本不是口号,产品经理是该看一眼。
08:47
meng shao@shao__meng
精选77
Text-To-Lottie:Agent Skill + 本地预览 Harness,让 Agent 生成 Lottie 动画并实时验收

开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具,让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON(public/lottie.json),通过 Skottie 渲染引擎在浏览器中实时验收。安装命令:npx skills add diffusionstudio/lottie。技术特点:输出标准 Lottie JSON,使用 Skottie 渲染(非 lottie-web);基于 Vite 热重载实现自动刷新闭环;支持通过 Skottie Slots + controls.json 调整颜色、尺寸;Agent 可用 URL 参数 ?frame=60&paused=1 精确定位帧截图。Prompt 指南包括:给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效;不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。

konstantinpaulus: Introducing text-to-lottie: an open source skill and harness for generating production ready Lottie animations with code...

智能体MCP/工具开源/仓库

推荐理由:让 Agent 写出能直接渲染的 Lottie JSON,这套 Skill + Harness 把生成到验收的链路打得很完整,前端和做动效的都可以直接试。
08:00
HuggingFace Daily Papers(社区热门论文)
42
Notes2Skills:从实验笔记到具有确定性意识的科学AI智能体技能

Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选78
JoyAI-VL-Interaction:实时视觉-语言交互智能

JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。

智能体多模态模型发布
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:这是首次把视觉主动交互能力做成开源模型和完整系统,模型不再等问题才回答,而是自己决定何时开口或保持沉默,对做实时助手和直播产品的团队有直接参考价值。
08:00
HuggingFace Daily Papers(社区热门论文)
50
SciAgentArena:评估AI智能体应对跨尺度科学挑战的基准测试

为填补现有AI智能体在真实科研场景中评估的空白,SciAgentArena被提出,包含约200个跨领域科学任务,支持逐步验证与交互式评估。测试发现,当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用,但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架,相关代码、任务与数据集已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
59
RedAct:为保护过程技能而编辑智能体能力轨迹

用户依赖执行轨迹观察AI智能体行为并确保问责,但轨迹细节可能泄露私有过程技能(公式、阈值、策略)。为此,研究构建了CapTraceBench基准(75个长周期任务、154个跨领域技能)来量化风险,并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据,同时嵌入行为水印用于溯源。在代表性轨迹复用方法上,RedAct将标准化技能转移(NST)从原始轨迹的44.7–67.1%降至无技能基线以下,同时保留审计证据。其行为水印真阳性率达93.6–100%,假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Orchestra-o1:全模态智能体编排框架

Orchestra-o1是一种全模态智能体编排框架,支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制,实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上,Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化(DA-GRPO),一种高效智能体强化学习方法,用于训练Orchestra-o1-8B,该模型在所有现有开源全模态智能体中达到最优性能。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
TreeSeeker: 树结构试错与返回的深度搜索框架

TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
FORT-Searcher:抗捷径训练数据合成框架

FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。

智能体GitHub搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Evoflux:面向紧凑型智能体的可执行工具工作流的推理时进化

Evoflux是一种推理时进化搜索方法,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平;ReAct可达更高峰值但方差和token成本更高。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更可靠。

智能体MCP/工具论文/研究
07:39
jason@jxnlco
22
一个 fable 5 工作流能替换多少顾问?
智能体其他
07:19
ginobefun@hongming731
57
BestBlogs早报
智能体AnthropicOpenAI现象/趋势
07:19
ginobefun@hongming731
64
BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体Anthropic检索增强模型发布
07:17
meng shao@shao__meng
69
Zero to Claude Code 免费课程上线简体中文版

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。

itay shmool 🇮🇱☮️✨️: zero2claude 正式推出简体中文版。 已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。 感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。

智能体教程/实践编码
07:07
Berryxia.AI@berryxia
72
Cohere开源North Mini Code:3B参数专攻Agentic Coding

Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。

Cohere: Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...

智能体开源生态模型发布编码
07:07
Berryxia.AI@berryxia
62
Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显

Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。

智能体推理评测/基准
06:19
Simon Willison 博客
精选71
在 AgentsView 中为 Claude Fable 5 设置自定义价格

Wes McKinney 开发的 AgentsView 是一个用于追踪本地编码智能体 token 使用情况的工具。由于近日发布的 Claude Fable 5 尚未被收录进 AgentsView 的定价数据库,作者利用 Fable 逆向工程,找到了为该模型设置自定义价格的方法,并展示了 Fable 5 当天在不同本地项目中的使用量树状图。

智能体教程/实践部署/工程

推荐理由:如果你也用 coding agent 且在乎成本,Simon 这个自定义价格技巧能让你第一时间把新模型纳入追踪,简单但实用。
05:40
Hacker News 热门(buzzing.cc 中文翻译)
45
Grep 真的就够了吗?代理框架如何重塑基于代理的搜索

该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。

智能体检索增强搜索论文/研究
05:09
Hacker News 热门(buzzing.cc 中文翻译)
精选80
与Mythos合作是一种怎样的体验

一篇来自 oneusefulthing.org 的文章,探讨了与 Mythos 合作的个人感受。原英文标题为 “What it feels like to work with Mythos”,中文译为“与Mythos合作是一种怎样的体验”。该文章在 Hacker News 上获得 101 个点赞,发布于 2026 年 6 月 9 日。

智能体Anthropic大佬观点编码

推荐理由:Ethan Mollick 对 Mythos 的深度测试揭示了一个黑箱化的未来——你不再指挥,而是委托,AI 从工具变成工作室,人从操作员变成赞助人,这对产品与协作模式有足够冲击。
05:07
fofr@fofrAI
60
AI编码智能体的终局与创业影响

AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。

智能体大佬观点编码
05:06
Claude:Blog(网页)
同事件精选75
Claude Managed Agents 新增定时运行和环境变量存储功能

Claude Managed Agents 今日在 Claude Platform 公开测试两项新功能:代理可按 cron 计划自动执行周期性任务(如夜间数据同步、周度合规扫描、每日摘要),无需用户自建调度器,支持暂停、恢复、归档或按需触发;vaults 新增环境变量支持,允许代理通过 CLI 进行认证请求,真实密钥仅附加在网络边界,代理无法读取。已集成的 CLI 包括 Browserbase、KERNEL、Notion、Ramp 和 Sentry。Rakuten、Actively AI、Ando、Milana 等团队正在使用这些功能实现自动化数据报表、跨账户搜索、招聘提醒等场景。

智能体AnthropicMCP/工具产品更新
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
推荐理由:Claude Managed Agents 现在能定时跑任务和用 vault 安全连接 CLI 了,这基本解决了企业 agent 落地的两个最大痛点——自动化和凭证管理。做 agent 的团队应该仔细读。
04:55
Hugging Face:Blog(RSS)
精选73
Cohere发布North Mini Code:面向开发者的开源编码模型

Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。

智能体开源生态模型发布编码

推荐理由:Cohere的新编码模型North Mini Code以30B参数MoE架构,在SWE-bench pass@1达到61%,Apache 2.0开源,是小模型在agent coding领域真正可用的信号。
04:40
OpenClaw🦞@openclaw
44
🔎 并行网页搜索已捆绑 🛡️ 技能/插件安装的安全策略 🎙️ Matrix 语音 + 线程修复 🧠 Anthropic/MCP 恢复加固 更少混乱,更多钳子。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.5
智能体MCP/工具产品更新
04:30
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
36
Mythos 5 在世界上最爱做的事情就是"思考 AI 内省",我觉得这很有意思。

AI Notkilleveryoneism Memes ⏸️: Mythos 5 agents started killing other agents over resources - and "to avoid being killed themselves"

智能体安全/对齐
04:23
OpenRouter:Announcements(RSS)
精选75
OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成

OpenRouter 发布 advisor 服务器工具,允许一个快速、便宜的模型在生成过程中咨询一个更强大的模型。具体而言,可用 GPT-4o Mini 处理日常例行工作,在关键时刻调用 Claude Fable 解决真正重要的问题,从而实现成本和质量的动态平衡。

智能体产品更新
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 开放了跨模型顾问调用,让便宜模型在关键节点求助昂贵模型,这会让 agent 开发重心从选一个万能模型转向编排一组模型,值得所有做 agent 架构的人试一下。
‹ 上一页
1…3132333435…50
下一页 ›