AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
7月1日周三
07:08Ethan Mollick:One Useful Thing(RSS)73聊天机器人的黄昏
07:01宝玉62Anthropic 发布科研AI工作台 Claude Science
06:31MarkTechPost(RSS)51Linq 推出 iMessage Apps,对话内嵌入交互式迷你应用
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
05:59TechCrunch:AI(RSS)65OpenClaw 正式登陆 Android 和 iOS
05:31Rohan Paul65Anthropic 发布专为科研设计的 Claude Science beta 版
05:28Artificial Analysis60Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8
05:20Chubby♨️56智能体可直接用USDC支付获取数据
04:58ClaudeDevs51Claude Managed Agents 新增多项更新
04:31Rohan Paul65Acti 将 AI 智能体嵌入手机键盘,输入框即工作流
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
03:31OpenAI Developers26AI智能体推动工程角色转变
03:23Peter Steinberger 🦞24OpenAI:Agent使工程转向设定方向与审查
03:20AYi58吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"
03:20AYi65Claude Sonnet 5:中端价格,旗舰级 Agent 能力
03:08The Decoder:AI News(RSS)81Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列
03:07Hacker News 热门(buzzing.cc 中文翻译)72Anthropic 发布 Claude Science beta:专注严谨科学研究的 AI 应用
03:01宝玉69Anthropic 发布 Claude Sonnet 5,替代 Sonnet 4.6 成为默认模型
02:37Hacker News 热门(buzzing.cc 中文翻译)78Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型
02:35elvis63Sonnet 5 发布,智能体任务更可靠
02:28TechCrunch:AI(RSS)73Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力
02:28Claude73Claude Sonnet 5:最具智能体能力的版本
02:28🚨 AI News | TestingCatalog80Claude Sonnet 5 发布,性能接近 Opus 4.8
02:27OpenRouter73Claude Sonnet 5上架OpenRouter,促销价$2/$10 per M
02:20Chubby♨️80Anthropic 发布 Sonnet 5:最智能体化的 Sonnet 系列模型
02:02Anthropic:Newsroom(网页)81精选Claude Sonnet 5 发布
01:58TechCrunch:AI(RSS)72精选Acti 将 AI 智能体直接放入手机键盘
01:37OpenAI58OpenAI 推出 GeneBench-Pro 生物基准测试
01:32Anthropic:Newsroom(网页)66精选Claude Science 科研工作台正式上线
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:28TechCrunch:AI(RSS)61Anthropic 推出 Claude Science 科学家 AI 工作台
01:19Simon Willison 博客73精选用 shot-scraper video 让 AI 智能体录制工作演示视频
01:17Google Developers Blog(RSS)67精选ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排
01:17Google Developers Blog(RSS)52Google发布新技能:从你的编码智能体驱动智能体质量飞轮
01:02Microsoft Research39微软SkillOpt:将智能体技能编辑转为训练
00:50fofr73Google 发布 gemini-skills,基于 Omni API 快速搭建 AI 智能体
00:49Chubby♨️50NoimosAI 发布 Creative Agent:自动分析竞品创意并生成内容
00:36AK31OSWorld2.0 评测长程真实世界任务
00:30Rohan Paul55noimos_ai 发布 Creative Agent 自主创意系统
00:27🚨 AI News | TestingCatalog49NoimosAI 发布 Creative Agent 品牌资产生成工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
07:08
Ethan Mollick:One Useful Thing(RSS)
73
聊天机器人的黄昏

前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体AnthropicOpenAI大佬观点
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
07:01
宝玉@dotey
62
Anthropic 发布科研AI工作台 Claude Science

Anthropic 推出 Claude Science,一个面向生命科学等领域的 AI 工作台,将文献检索、代码运行、数据库查询等科研流程整合到统一界面。它基于现有 Claude 模型(含 Opus 4.8),未专门训练生物学能力,通过主 Agent 连接 60+ 科学数据库(基因组学、蛋白质组学等),并可生成子 Agent 执行任务。特性包括可复现性(图表附带生成代码与环境)和本地运算(macOS/Linux 或 SSH 连接集群,敏感数据本地保留)。早期用户案例:Gladstone 研究所几天内搭建基因组浏览器;UCSF 团队用其发现卡了一年的 RNA-seq 病毒污染物;Allen 研究所将两年综述缩短至数周。与 OpenAI 的 GPT-Rosalind 不同,Claude Science 侧重工作流集成。即日起公测,需 Pro($20/月)及以上订阅。Anthropic 将资助最多 50 个项目,每个最高 $30,000,申请截止 7 月 15 日。

Claude: Introducing Claude Science, a new app designed with every stage of research in mind. Artifacts traced to their code, env...

智能体Anthropic产品更新
06:31
MarkTechPost(RSS)
51
Linq 推出 iMessage Apps,对话内嵌入交互式迷你应用

Linq 推出 iMessage Apps,允许开发者在 iMessage 对话中构建交互式迷你应用。用户无需离开聊天即可购物、玩游戏、订机票或支付,不再依赖外部链接跳转。技术实现基于新的 type: "imessage_app" 消息组件,通过 app 对象的 team_id 和 bundle_id 标识渲染扩展,layout 控制静态文本,interactive 标志决定是否显示实时交互卡片。已发送的卡片可通过 /messages/{id}/update 原地更新(仅支持 url、fallback_text、interactive、layout 等参数)。该功能仅限 iMessage 通道,无 SMS/RCS 回退,富交互渲染需接收方安装对应扩展。

智能体产品更新部署/工程
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
05:59
TechCrunch:AI(RSS)
65
OpenClaw 正式登陆 Android 和 iOS

免费开源 AI 智能体 OpenClaw 现已推出 iOS 和 Android 应用。用户通过 OpenClaw Gateway 将手机与智能体及所需工具、技能连接,可在移动端运行智能体完成编程、餐食规划等任务。OpenClaw 今年早些时候因 MoltBook(号称完全由智能体运营的社交媒体站)走红,其创建者 Peter Steinberger 随后加入 OpenAI。尽管 MoltBook 后被证实部分由人类伪装智能体运行,但此事件推动了智能体生态扩张,如今 AI 智能体已嵌入更多场景,包括手机端。

智能体产品更新开源生态
05:31
Rohan Paul@rohanpaul_ai
65
Anthropic 发布专为科研设计的 Claude Science beta 版

Anthropic 推出 Claude Science beta 版,整合 60 个科学数据库,支持代码追踪的 artifact(含环境、方法及完整消息历史),可渲染 3D 蛋白质、基因组轨迹、化学结构等。协调 agent 可调用专业 agent、实验室技能和计算资源(HPC 或 Modal),分析从 1 GPU 扩展至数百,数据保持本地。内置审稿 agent 自动检查计算、引用和图表与源代码一致性。早期用户报告:生成 10 份超 100 页的审稿草稿,种系分析时间降至十分之一。该工具属于 Anthropic 自 2025 年 10 月启动的生命科学与医疗健康计划。

智能体Anthropic产品更新
05:28
Artificial Analysis@ArtificialAnlys
60
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8

Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。

智能体Anthropic推理评测/基准
05:20
Chubby♨️@kimmonismus
56
能规划但付不了钱的智能体只是昂贵的聊天机器人。 无需账户,无需API密钥,无需人工介入。 智能体发送请求,用USDC支付,取回数据。这才是真正的创新。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具大佬观点
04:58
ClaudeDevs@ClaudeDevs
51
我们为 Claude Managed Agents 添加了一些更新: 流式会话事件增量、按会话的代理覆盖、新的 Webhook 事件类型、反向分页以及凭证注入作用域。
智能体Anthropic产品更新部署/工程
04:31
Rohan Paul@rohanpaul_ai
65
Acti 将 AI 智能体嵌入手机键盘,输入框即工作流

Acti 把 AI 智能体直接放在手机键盘的文本输入区。用户输入意图后长按 Acti 空格键,AI 读取需求并调用相应应用或服务,在同一输入框内返回地图链接、餐厅推荐、体育对比、回复草稿、提醒或 Notion 页面等结果。该方案无需单独的聊天机器人应用,键盘成为 AI 与真实工作流交汇的界面。此外还有 Skill Key 系统,可绑定按键(如按住 N 打开 Notion,按住 L 查看 LinkedIn 资料)。最实用的演示是地图:输入“时代广场星巴克位置”,长按空格即可获得地图链接和可发送的消息,无需打开地图 App。

智能体MCP/工具产品更新
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
03:31
OpenAI Developers@OpenAIDevs
26
随着智能体承担更长期的工作,工程转向设定方向、审查工作以及围绕模型设计更好的系统。
智能体OpenAI现象/趋势
03:23
Peter Steinberger 🦞@steipete
24
随着AI智能体承担更长期的工作,工程任务转向设定方向、审查工作以及围绕模型设计更好的系统。@steipete 对参与@aiDotEngineer 的主题演讲感到荣幸。

OpenAI Developers: As agents take on longer-running work, engineering shifts to setting direction, reviewing work, and designing better sys...

智能体OpenAI行业动态
03:20
AYi@AYi_AInotes
58
吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"

吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。

Andrew Ng: "Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...

智能体大佬观点编码
03:20
AYi@AYi_AInotes
65
Claude Sonnet 5:中端价格,旗舰级 Agent 能力

我靠, Anthropic 把真正能落地的智能体能力,直接下放到了中端产品线, Sonnet 级的价格, Opus 级的智能体能力, Anthropic 这波是真的杀疯了🤯

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

智能体Anthropic模型发布
03:08
The Decoder:AI News(RSS)
81
Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列

Anthropic 发布 Claude Sonnet 5,称其为最智能体的 Sonnet 版本,能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6:SWE-bench Pro 达 63.2%,Terminal-Bench 2.1 为 80.4%,知识工作基准 GDPval-AA v2 得分 1618,略超 Opus 4.8。模型即日起在所有计划上线,开发者可通过 Claude Code 和 API 使用,支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日,输入价格 $2/百万 token,输出 $10/百万 token,之后恢复至 $3/$15。模型未针对网络安全任务训练,默认启用实时网络防护,幻觉和谄媚行为较前代减少。

智能体Anthropic模型发布
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
03:07
Hacker News 热门(buzzing.cc 中文翻译)
72
Anthropic 发布 Claude Science beta:专注严谨科学研究的 AI 应用

Anthropic 推出 Claude Science beta,专为科学研究设计。可运行分析、搜索数据库,追踪从数据处理到发表的每一步。内置科学渲染器原生查看蛋白质、结构、分子及 PDF,每个结果附带原始代码、环境和对话,确保完全可复现。后台审查器自动标记错误引用、不可追溯数字及代码不匹配的图表。支持自然语言标注修改图表。管理计算环境,可在笔记本、Linux 机器、HPC 集群或 GPU 上按需扩展。持久化 Python 和 R 内核,变量和数据框内存驻留。预配置基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域,可查询 60+ 科学数据库。支持将流程保存为可复用技能或连接实验室工具。当前提供 macOS 和 Linux 版本。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
03:01
宝玉@dotey
69
Anthropic 发布 Claude Sonnet 5,替代 Sonnet 4.6 成为默认模型

Anthropic 发布 Claude Sonnet 5,替代 Sonnet 4.6 成为免费版和 Pro 版默认模型。Agent 编程基准得分 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作基准略超 Opus 4.8。API 推广价(8 月 31 日前)输入 $2/百万 Token、输出 $10/百万 Token,之后涨至 $3 和 $15。新分词器可能使 Token 消耗增加 1.0–1.35 倍,但推广期定价已对冲。幻觉率和迎合倾向低于前代,默认开启实时安全防护。模型代号 claude-sonnet-5,即日起在 Claude 所有套餐、Claude Code 和 API 上可用。

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

智能体Anthropic模型发布
02:37
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体Anthropic推理模型发布
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:35
elvis@omarsar0
63
Sonnet 5 来了! 这将支持更好的长时间运行的智能体。 之前的 Sonnet 模型不可靠,所以看到改进版本能更可靠地完成智能体任务,真是太棒了。它在 computer use 方面似乎也有大幅改进。

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

智能体Anthropic模型发布
02:28
TechCrunch:AI(RSS)
73
Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。

智能体Anthropic推理模型发布
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:28
Claude@claudeai
73
介绍 Claude Sonnet 5,这是迄今为止最具智能体能力的 Sonnet。 它会制定计划、使用浏览器和终端等工具,并以几个月前还需要更大、更昂贵模型才能达到的水平自主运行。
智能体AnthropicMCP/工具模型发布
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:28
🚨 AI News | TestingCatalog@testingcatalog
80
ANTHROPIC 🔥: Claude Sonnet 5 已正式发布,以更低的价格提供了接近 Opus 4.8 的性能。 Sonnet 5 在 SWE Bench Pro 上获得 63.2% 的分数,较 Sonnet 4.6 的 58.1% 有所提升。 你已经试过了吗?👀

Claude: Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...

智能体Anthropic模型发布编码
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:27
OpenRouter@OpenRouter
73
Claude Sonnet 5 正在 OpenRouter 上推出,促销价格:$2/M 输入,$10/M 输出!它以 Sonnet 定价提供旗舰智能,提升智能体编码和专业工作流。在早期测试中,智能体比 4.6 更可靠、更快,且更容易信任处理更大的任务。
智能体Anthropic模型发布编码
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:20
Chubby♨️@kimmonismus
80
Anthropic 发布 Sonnet 5:最智能体化的 Sonnet 系列模型

Anthropic 发布 Sonnet 5,称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8,在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型,已在 Claude Code 和 API 上线。推出促销价:输入 $2/M token、输出 $10/M(截至 8 月 31 日),标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全,幻觉率和奉承率更低,网络保护默认开启,但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Chubby♨️: Sonnet 5 released for me!!

智能体Anthropic安全/对齐推理
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:02
Anthropic:Newsroom(网页)
精选81
Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体Anthropic模型发布编码
关联讨论 5 条X:Claude Devs (@ClaudeDevs)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
01:58
TechCrunch:AI(RSS)
精选72
Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。

智能体Google产品更新端侧

推荐理由:Acti 想用 AI 代理重塑手机键盘,把 Gemini 塞进输入法,离不离开 App 都能用 AI 的思路很讨巧,但换键盘的阻力不小,目前更像一个有趣的试验品。刚拿到 530 万美元种子轮,有试错空间。
01:37
OpenAI@OpenAI
58
我们正在引入GeneBench-Pro,一个研究级基准测试,用于衡量一种更难的AI进步:智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。
智能体OpenAI数据/训练论文/研究
01:32
Anthropic:Newsroom(网页)
精选66
Claude Science 科研工作台正式上线

Anthropic 推出 AI 科研工作台 Claude Science,整合常用工具与计算资源,支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域;可在macOS/Linux本地运行,或通过SSH/HPC远程使用。生成含代码和环境的可审计成果(3D蛋白质结构、基因组浏览器轨迹等),内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型,也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
推荐理由:Anthropic 为科学家打造了一个整合 60+ 技能、可管理计算和审计输出的 AI 工作台,让 AI 从顾问变成可复现的实验合作者。
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:28
TechCrunch:AI(RSS)
61
Anthropic 推出 Claude Science 科学家 AI 工作台

Anthropic 于周二推出 Claude Science,一个面向科学家的 AI 工作台,运行现有 Claude 模型(含 Claude Opus 4.8),不提供新模型或特殊访问权限。工作台连接超过 60 个科学数据库,内置基因组学、蛋白质结构、化学等预构建工具包,主助手可创建子助手分工,事实核查器校验引用和计算。它能生成附有代码和环境的 3D 蛋白质结构等图表,支持自然语言编辑,并可在实验室本地基础设施上运行。早期用户已用来构建基因组浏览器和多智能体计算审查管道。Claude Science 现已向 Pro、Max、Team 和 Enterprise 订阅用户开放 beta 版,并提供 50 个项目、最高 3 万美元信用额度的资助申请机会。

智能体Anthropic产品更新
01:19
Simon Willison 博客
精选73
用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

智能体GitHubMCP/工具产品更新

推荐理由:Simon 把 agent 的产出从文字推到了视频,这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏,等于给自动化流程加了一双眼睛,开发者可以立刻用上这套 demo 生成方案。
01:17
Google Developers Blog(RSS)
精选67
ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。

智能体Google产品更新部署/工程

推荐理由:Google 给 Go 生态补上了多智能体编排的关键一环,图工作流引擎和人机协同直接内置,比之前拼积木的方式可靠很多,做 Agent 的 Go 开发者值得跟进。
01:17
Google Developers Blog(RSS)
52
Google发布新技能:从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能,将评估过程自动化成五阶段飞轮:准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发,开发者用自然语言描述测试目标,独立评估服务安全验证并统计实际性能提升。

智能体Google产品更新编码
01:02
Microsoft Research@MSFTResearch
39
AI 智能体常常失败,因为它们的指令(即技能)被手动修改,且无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程,在不改变模型权重的情况下使智能体行为更可靠:https://msft.it/6012vsvEs
智能体Microsoft论文/研究
00:50
fofr@fofrAI
73
Google 通过 Gemini Omni API 发布 gemini-skills 技能包,支持视频编辑、文生视频、图片参考视频生成、首帧生成视频,并提供预处理输入视频为 10 秒 720p、音频剥离、视频检查等辅助工具。同作者展示 Omni Flash 模型编辑能力:输入"将桌子改成浅水池",模型输出湿手、水波、折射、阴影及音效。该 API 已开放,可用于构建视频编辑流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

智能体Google教程/实践视频
00:49
Chubby♨️@kimmonismus
50
NoimosAI 今日推出 Creative Agent,可自动扫描 Meta、TikTok、LinkedIn 上的顶级创意,提取成功模式,并结合品牌自身历史表现生成广告素材。用户只需描述需求,智能体即完成调研与创作,最后由用户确认。该工具将市场洞察转化为高表现内容,分析竞争对手、热门创意及自有数据,确保产出基于已验证有效的策略。

NoimosAI: NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...

智能体产品更新
00:36
AK@_akhaliq
31
OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测
智能体论文/研究评测/基准
00:30
Rohan Paul@rohanpaul_ai
55
noimos_ai 发布 Creative Agent 自主创意系统

noimos_ai 推出 Creative Agent,一个自动化系统,可研究成功的创意模式并针对品牌适配。系统通过学习品牌历史表现(分析哪些内容受欢迎、哪些不受欢迎),同时扫描 Meta、TikTok、LinkedIn 等平台数百个竞争对手及市场中的成功创意,理解业务后将这些模式调整用于自身产品和服务。引用推文指出,它能分析竞争对手、顶级创意和过往结果,生成基于已验证策略的高表现资产。

NoimosAI: NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...

智能体产品更新
00:27
🚨 AI News | TestingCatalog@testingcatalog
49
NoimosAI 推出 Creative Agent,可收集市场洞察并将其转化为可直接使用的品牌资产。该工具支持竞品分析、高表现创意扫描及品牌历史结果调用,能跨 Meta、TikTok、LinkedIn 等平台分析高互动内容,识别有效模式并映射到品牌策略。

NoimosAI: NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...

智能体产品更新
‹ 上一页
123456…50
下一页 ›