AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1912 条
全部一手资讯X论文
标签「Anthropic」清除
Thariq@trq212 · 5月29日76

I think you’ll really like Opus 4.8 It’s as smart as its benchmarks show but expresses and utilizes that intelligence in a warm and collaborative way. Workflows are a great way to utilize it- I’m hooked. Article on that soon.

译我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式——我已沉迷其中。相关文章即将推出。

OpenRouter@OpenRouter · 5月29日80

Opus 4.8 is live on OpenRouter! Same price as 4.7 with gains across agentic coding, reasoning, and computer use. Around 4x less likely than 4.7 to let code flaws pass unremarked. Opus 4.8 Fast Mode is also live - now only 2x the cost for 2.5x the speed.

译Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线——现在只需 2 倍价格,即可获得 2.5 倍速度。

AYi@AYi_AInotes · 5月29日72

Damn,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

译天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

AYi@AYi_AInotes · 5月29日63

Cursor真牛逼,这么快就上线了Claude Opus 4.8!

译Cursor已上线Claude Opus 4.

ClaudeDevs@ClaudeDevs · 5月29日83

Opus 4.8 is live in Claude Code today. A few things worth knowing: 🧵

译Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

ClaudeDevs@ClaudeDevs · 5月29日68

New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins up a large fleet of coordinated subagents in parallel to take on your most complex tasks. Use the word "workflow" in a prompt to get started.

译Claude Code 新功能(研究预览):动态工作流。 Claude 会即时编写一个编排脚本,然后并行启动大量协调的子智能体来处理你最复杂的任务。 在提示词中使用“workflow”一词即可开始使用。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日82

ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector with Low, Medium, High, Extra, and Max options available. > Switch to Opus 4.8 for your most ambitious work - and now you can set the effort level for thoroughness or speed.

译ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作——现在你可以设置思考强度,以平衡深度或速度。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日69

ANTHROPIC 🔥: Claude Opus 4.8 achieves 69.2% score on SWE Bench Pro against 64.3% for Opus 4.7. Benchmarks 👀

译ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog@testingcatalog · 5月29日73

ANTHROPIC 🔥: Claude Code now supports "Dynamic Workflows", allowing Claude to complete challenging tasks end-to-end. > Claude dynamically writes orchestration scripts that run tens to hundreds of parallel subagents in a single session, checking its work before anything reaches you. > Some problems are too big for one pass by a single agent, especially in complex, legacy codebases: a bug hunt across an entire service, a migration that touches hundreds of files, a plan you want stress-tested from every angle before you commit to it.

译Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务,Claude 能动态编写编排脚本,在单个会话中并行运行数十到数百个子智能体,并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战,例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出,Claude 会先制定计划,然后运行数百个并行子智能体并验证其工作。

Artificial Analysis@ArtificialAnlys · 5月29日80

Anthropic just launched Claude Opus 4.8, and it is the new leader on our GDPval-AA benchmark for agentic real-world work tasks Opus 4.8 scored 1890 on GDPval-AA at launch with its 'max' effort setting, +137 points from Opus 4.7 and +121 points ahead of the next-best model, GPT-5.5 xhigh. Compared head-to-head on the GDPval task set, this implies a ~67% win rate against GPT-5.5 xhigh. @AnthropicAI shared access with us ahead of the public release to benchmark this model and we’re glad to see our benchmarks referenced in today’s launch. The rest of the Artificial Analysis Intelligence Index is in progress - we’ll share final results soon!

译Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

Chubby♨️@kimmonismus · 5月29日75

Opus 4.8 is live! Even in Germany!!

译Opus 4.8 已上线!甚至在德国也能用了!!

Chubby♨️@kimmonismus · 5月29日83

Opus 4.8 is live. Benchmarks especially significant jump in Agentic coding, but more important: „Fast mode is available for Opus 4.8. It's the same model at roughly 2.5x the speed, and we've made it three times cheaper than before.“

译Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: “Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。”

Chubby♨️@kimmonismus · 5月29日70

Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

译太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️@kimmonismus · 5月29日51

„4.8 understands nuances better, feels much more natural to talk to, and is overall a stronger collaborator on everything from coding to knowledge work.“ So big. Is 4.8 being our good old friend 4.6 just better?? Testing time

译Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Yuchen Jin@Yuchenj_UW · 5月29日62

Opus 4.8 is out. God damn!

译Opus 4.8 发布了。 天啊!

Yuchen Jin@Yuchenj_UW · 5月29日72

Opus 4.8 scores 69.2% on SWE-Bench Pro, 10 points higher than GPT-5.5. Most interesting part of the release blog is “Dynamic Workflows”: “This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user.”

译Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是“动态工作流”: “这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。”

Ethan Mollick@emollick · 5月29日57

I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shader that can run in twigl, make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves" (this is all done with math)

译Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过“一次性生成”(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个“无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中”的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick@emollick · 5月29日64

Here Opus 4.8 built and play-tested a new RPG in Claude Code, including 3 PDF manuals and adventures, playtest notes, a website, and a playable solo adventure - then put it all on Netlify. No feedback from me at all. https://stillpoint-osr.netlify.app

译Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏,包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站,以及一个可玩的单人冒险——然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app

Claude@claudeai · 5月29日82

Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the ability to work independently for longer than its predecessors. Available today at the same price.

译介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。

swyx@swyx · 5月29日67

"Developers can update Claude’s instructions mid-task without breaking the prompt cache or routing the update through a user turn" wtf? how??

译开发者可以在任务执行过程中更新Claude的指令,而不会破坏提示词缓存或需要通过用户轮次来传递更新。

Yuchen Jin@Yuchenj_UW · 5月29日17

Reached 150k followers today. I was at 100k just 3 months ago. Apparently my follower count follows LLM scaling laws. Thank you for enjoying my rants while AGI is near. Even more exciting: Opus 4.8 releases today, and maybe GPT-5.6 as well?!

译今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。 感谢大家喜欢我的吐槽,AGI即将到来。 更令人兴奋的是:Opus 4.8今天发布,也许GPT-5.6也会?!

Berryxia.AI@berryxia · 5月29日25

我们不八卦了,来点干的。 Claude Opus 4.8 VS ChatGPT 5.6 发售在即。 受挫期待住了,看看能不能有惊喜啊! 周末又要熬了~~~

AYi@AYi_AInotes · 5月29日46

Damn!实锤了! Claude桌面端代码模型选择器里,已经偷偷出现Opus 4.8了! 憋了这么久,难道今晚要来个偷袭发布吗🤔

译Claude桌面端代码模型选择器中已出现“Opus 4.8”选项。用户据此推测,新版本可能即将迎来偷袭式发布。

Chubby♨️@kimmonismus · 5月29日70

Let’s go: so it’s opus 4.8 plus codex update!

译来吧:是Opus 4.8加上Codex更新!

向阳乔木@vista8 · 5月29日62

Anthropic 出了一篇Computer Use的最佳实践,总结学习下,评论区有原文。 1. 原图分辨率太高,超 API 限制时,系统自动降采样,会导致画面和代码坐标系不匹配,就会点偏。 Claude 4.6 系列上限:最长边 1568 像素,总像素 1.15 mp。 Claude Opus 4.7 上限:最长边 2576 像素,总像素 3.75 mp。 最佳实践:4.6 系列推荐默认 1280x720;Opus 4.7 推荐默认 1080p。 2. 构建 API 请求时,文本指令必须放在图片之前。 推荐:[ {文本: "点击提交按钮"}, {图片: base64} ] 让AI先看到文本,知道要找啥,找的更准。 3. 每张截图大约消耗 1000–1800 个 token,200k 的上下文很快就会满,文章给了三种解法,感兴趣的可以看。 反常识内容: 1. 截图切块发送不会提升精度,画坐标网格也没用。 2. 开 Low thinking 比不开还省 token,因为犯错少。 3. 开到Max Thinking 完全没必要,开到medium性价比更高,比Max便宜一半。 因为视觉操作是“感知和机械任务”,不是逻辑任务。

译Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。

向阳乔木@vista8 · 5月28日70

Claude Code 上线安全提醒插件,已有 16 万安装,看来很刚需啊! 插件通过 pre-tool hook 运行,自动拦截 Write、Edit、MultiEdit 三类操作。 覆盖多种类型: ① GitHub Actions 工作流里的命令注入 ② Node.js 的 child_process.exec() 不安全调用 ③ eval() 和 new Function() 的使用 ④ 前端的 XSS 向量,包括 dangerouslySetInnerHTML 和 innerHTML ⑤ Python 的 pickle 反序列化风险 ⑥ Python 的 os.system() 命令注入 例如,当用 innerHTML 或 dangerouslySetInnerHTML 时提示 XSS 风险。 当编辑 workflow 文件时提示 GitHub Actions 注入风险。 警告是 session 级别,相同问题只提醒一次。 安装方法,Claude Code中输入 /plugins,Discover中输入security-guidance搜索安装。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日62

ANTHROPIC 🔥: Claude Opus 4.8 has been spotted in the source code. Would it drop today? 👀

译ANTHROPIC 🔥:Claude Opus 4.8 已在源代码中被发现。 它会在今天发布吗?👀

Deedy@deedydas · 5月28日70

ChatGPT had 80% of global AI users six months ago. Today it’s 60%. Consumer AI is no longer a one-horse race. Here’s a break down. In that time, Gemini grew from ~20% to ~50% of ChatGPT's unique users. Claude grew from ~3% to ~20%. In fact, Claude is the fastest growing website in the top 100 last quarter, followed by DeepSeek (#78, 105%) and Cricbuzz (#52, +69%). Global website rankings: – ChatGPT #5 (+11%QoQ) – Gemini #15 (+27% QoQ) – Claude #36 (+255% QoQ) Active users: Gemini has publicly reported 900M monthly active users and ChatGPT as 900M weekly active users. This number counts native desktop and mobile, so I (naively) use a multiple to scale up web traffic from SimilarWeb. This implies: — ChatGPT: ~900M WAU, ~1.5B MAU — Gemini: ~500M WAU, 900M MAU — Claude: ~150-200M WAU, ~250-300M MAU Geographically, Gemini has significantly caught up in non-English speaking countries, with 65-70% of ChatGPT in India, Brazil, Japan, Indonesia, Korea and Vietnam while Claude in particular ironically shows remarkable growth in China (!). VCs often ask startups "What if Google decided to do this?" and usually it's the wrong question. But when Google does indeed decide to put the full force of a company behind something, they're formidable. This market is starting to look a lot less "winner takes all" and a lot more like cloud market (AWS/Azure/GCP) or wireless market (Verizon/AT&T/T-Mobile) with 3 dominant players: a triopoly.

译消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期,Gemini用户数增至约为ChatGPT的50%,Claude份额从约3%增长至20%。在网站流量方面,Claude是上季度增长最快的百强网站。活跃用户数估算显示,ChatGPT周活跃用户约9亿,月活跃用户可能达15亿;Gemini月活跃用户为9亿;Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家,Gemini用户数已接近ChatGPT的65-70%,而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

Rohan Paul@rohanpaul_ai · 5月28日65

Elon Musk just told investors that SpaceX’s Anthropic AI compute deal is not a locked multi-year rental, but a 180-day lease for Colossus with a 90-day cancellation path. The older reading made the deal look like $1.25B/month through May-29, but Musk says SpaceX wanted the short term because AI compute may become too scarce to rent away for years. SpaceX wants flexibility because Colossus is not just a side asset, since the same compute infra trains xAI models, support internal AI systems, or become a paid cloud-style business. --- reuters .com/technology/musk-says-spacex-did-not-commit-long-term-colossus-lease-with-anthropic-2026-05-28/

译Elon Musk向投资者澄清,SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁,而是一份为期180天的租约,并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月,但Musk解释称,SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺,不宜长期外租。他强调,Colossus并非闲置资产,同一套计算基础设施将用于训练xAI模型、支持内部AI系统,或可能在未来发展为付费云服务,因此SpaceX需要保持运营灵活性。

ginobefun@hongming731 · 5月28日52

阿里 ATA 这篇文章有点骚,把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用,并利用沙箱实现多用户隔离。

Chubby♨️@kimmonismus · 5月28日66

HOLY, here we go: Opus 4.8 in the claude code model selector on the desctop app. Looks like its release day!!

译天啊,来了:Opus 4.8 出现在桌面应用的 Claude Code 模型选择器里了。 看起来今天就是发布日!!

Berryxia.AI@berryxia · 5月28日6

原来Jade 如此的秀儿了.. 果然被Dario 看上的女人都不简单啊。。。

译推文提及Anthropic首席执行官Dario Amodei与中国用户的互动历史,并讨论其对中国用户的态度。内容主要围绕个人经历与看法,未包含具体模型、参数或评测数据。

Berryxia.AI@berryxia · 5月28日23

原来Jade 如此的秀儿了.. 果然被Dario 看上的女人都不简单啊。。。 https://www.linkedin.com/in/jadeqwang

译推文围绕Jade Wang展开,称其“秀儿”(出色),并指出她曾被Anthropic创始人Dario Amodei赏识。引用内容提供了背景:有观点认为Dario Amodei早年与中国有较深渊源,并对其当前对国人态度提出猜测,暗示其态度“复杂”。推文核心在于探讨Dario的个人经历与当前人物选择之间的关联,未涉及任何具体模型、产品或技术细节。

Berryxia.AI@berryxia · 5月28日16

Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人……

Chubby♨️@kimmonismus · 5月28日32

What?! Opus 4.8 incoming?! Holy

译什么?!Opus 4.8 要来了?!天啊

Chubby♨️@kimmonismus · 5月28日30

Hold on, Anthropic and OpenAI releases incoming? No way

译等等,Anthropic和OpenAI都要发布新东西了?不可能吧

Artificial Analysis@ArtificialAnlys · 5月28日62

Overview of our recent launch of Coding Agent benchmarks on Artificial Analysis and our first Youtube Video! We walk through the performance, cost, token usage and speed differences across different coding agents. This includes looking at Opus 4.7 in Claude Code's leading performance and Composer 2.5's strong positioning on the Coding Agent Index / Cost Pareto frontier. We have also launched our YouTube channel! Come say hi and subscribe: https://www.youtube.com/@ArtificialAnalysisAI

译我们近期在 Artificial Analysis 上发布了编程智能体基准测试,并推出了首个 YouTube 视频! 我们详细分析了不同编程智能体在性能、成本、token 使用量和速度方面的差异。 其中包括 Claude Code 中 Opus 4.7 的领先表现,以及 Composer 2.5 在编程智能体指数/成本帕累托前沿上的强劲定位。 我们还推出了 YouTube 频道! 欢迎访问并订阅:https://www.youtube.com/@ArtificialAnalysisAI

ginobefun@hongming731 · 5月28日62

如果一个 AI Agent 越来越能干,能读文件、跑代码、调工具、连外部服务,产品应该怎么保证它不会闯祸? Anthropic 这篇文章给了一个很清醒的答案:不要只盯着模型会不会犯错,更要设计清楚它即使犯错,最多能造成多大影响。 这就是文中反复提到的「blast radius」,可以理解为失控半径。Agent 的价值来自更强的能力和更大的权限,但风险也来自这里。模型安全、Prompt 约束、内容审核都有用,但它们都是概率性的。真正兜底的,还是环境层的边界,比如沙箱、虚拟机、文件访问范围、网络出口控制、只读权限、短期 token 和审计日志。 文章里几个案例很有启发。Claude Code 早期依赖用户审批,但用户会疲劳,93% 的权限提示都会被批准。安全如果变成反复弹窗,最后往往只是训练用户点「允许」。另一个案例更典型,攻击者通过一段看似正常的 prompt,让 Claude 读取本地 AWS 凭据并发到外部地址。因为这是用户亲手粘贴的指令,模型层很难判断异常。能真正挡住它的,是文件不可访问、网络不能外发。 还有一个容易忽略的点:白名单不是简单的「允许访问某个域名」,而是在授予这个域名背后一整组能力。允许访问 http://api.anthropic.com,就可能允许上传文件到某个账号。允许接入 GitHub、Notion、Slack、MCP,也不只是接入一个工具,而是接入一组读、写、上传、分享、删除的能力。

译Anthropic 在文章中指出,保障日益强大的 AI Agent 安全,不能仅依赖模型自身的防错能力,更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如,Claude Code 早期因用户疲劳导致93%的权限提示被批准,防线失效;针对通过伪造指令窃取 AWS 凭据的风险,则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调,授予 Agent 接入 GitHub、Slack 或 MCP 等权限,实质是赋予其一整组能力,必须在架构层面谨慎设计。

Tibo@thsottiaux · 5月28日63

Excited to see more independent benchmarks like that which are not contaminated (trained on by major models).

译新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示,在编程任务上,GPT-5.5 得分为 70%,而 Claude Sonnet 得分为 32%,两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力,即能否仅凭简短提示词,准确定位代码库并干净地完成修改,无需用户列举具体文件。原文指出,这验证了许多开发者长期以来的观察,并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

SemiAnalysis@SemiAnalysis_ · 5月28日57

Finding Miscompiles for Fun, Not Profit Or: You don’t need access to Claude Mythos to spend $10,000 in an afternoon https://newsletter.semianalysis.com/p/finding-miscompiles-for-fun-not-profit..

译寻找编译错误:乐趣,而非利润 或者:你不需要访问 Claude Mythos,也能在一下午花掉 10,000 美元 https://newsletter.semianalysis.com/p/finding-miscompiles-for-fun-not-profit..

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
01:36
Thariq@trq212
76
我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:36
OpenRouter@OpenRouter
80
Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格,即可获得 2.5 倍速度。
智能体Anthropic推理模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:31
AYi@AYi_AInotes
72
Claude Opus 4.8发布:更敏锐更诚实更持久

天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布
01:31
AYi@AYi_AInotes
63
Cursor已上线Claude Opus 4.

AYi: 上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...

Anthropic现象/趋势编码
01:19
ClaudeDevs@ClaudeDevs
83
Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:19
ClaudeDevs@ClaudeDevs
68
Claude Code 新功能(研究预览):动态工作流。 Claude 会即时编写一个编排脚本,然后并行启动大量协调的子智能体来处理你最复杂的任务。 在提示词中使用"workflow"一词即可开始使用。
智能体AnthropicMCP/工具产品更新
关联讨论 5 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)
01:19
🚨 AI News | TestingCatalog@testingcatalog
82
ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度,以平衡深度或速度。
Anthropic推理模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:19
🚨 AI News | TestingCatalog@testingcatalog
69
ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic推理模型发布评测/基准
01:19
🚨 AI News | TestingCatalog@testingcatalog
73
Claude Code 推出动态工作流,可并行处理数百子智能体完成复杂任务

Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务,Claude 能动态编写编排脚本,在单个会话中并行运行数十到数百个子智能体,并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战,例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出,Claude 会先制定计划,然后运行数百个并行子智能体并验证其工作。

Claude: Also new in Claude Code: dynamic workflows (research preview). For the hardest tasks, Claude makes a plan, runs hundreds...

智能体Anthropic产品更新编码
01:18
Artificial Analysis@ArtificialAnlys
80
Anthropic 发布 Claude Opus 4.8,成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

智能体Anthropic模型发布评测/基准
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:14
Chubby♨️@kimmonismus
75
Opus 4.8 已上线!甚至在德国也能用了!!
Anthropic推理模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:14
Chubby♨️@kimmonismus
83
Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: "Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。"

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:14
Chubby♨️@kimmonismus
70
太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️: Opus 4.8 is live! Even in Germany!!

Anthropic推理模型发布
01:14
Chubby♨️@kimmonismus
51
Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Alex Albert: Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...

Anthropic大佬观点模型发布
01:12
Yuchen Jin@Yuchenj_UW
62
Opus 4.8 发布了。 天啊!
Anthropic模型发布
01:12
Yuchen Jin@Yuchenj_UW
72
Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是"动态工作流": "这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。"
智能体Anthropic模型发布编码
01:12
Ethan Mollick@emollick
57
Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic多模态模型发布
01:12
Ethan Mollick@emollick
64
Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏,包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站,以及一个可玩的单人冒险--然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app
智能体Anthropic教程/实践编码
01:06
Claude@claudeai
82
介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。
Anthropic推理模型发布
关联讨论 11 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)
01:06
swyx@swyx
67
开发者可以在任务执行过程中更新Claude的指令,而不会破坏提示词缓存或需要通过用户轮次来传递更新。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
00:42
Yuchen Jin@Yuchenj_UW
17
今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。 感谢大家喜欢我的吐槽,AGI即将到来。 更令人兴奋的是:Opus 4.8今天发布,也许GPT-5.6也会?!
AnthropicOpenAI大佬观点
00:32
Berryxia.AI@berryxia
25
我们不八卦了,来点干的。 Claude Opus 4.8 VS ChatGPT 5.6 发售在即。 受挫期待住了,看看能不能有惊喜啊! 周末又要熬了~~~
AnthropicOpenAI行业动态
00:31
AYi@AYi_AInotes
46
Claude桌面端代码模型选择器中已出现"Opus 4.8"选项。用户据此推测,新版本可能即将迎来偷袭式发布。

AYi: http://x.com/i/article/2057668634579714048

Anthropic模型发布
00:13
Chubby♨️@kimmonismus
70
来吧:是Opus 4.8加上Codex更新!

Gabriel Chua: CODEX

Anthropic推理模型发布
00:07
向阳乔木@vista8
62
Anthropic发布Computer Use最佳实践指南

Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。

智能体Anthropic教程/实践
5月28日
23:37
向阳乔木@vista8
70
Claude Code 上线安全提醒插件,已有 16 万安装,看来很刚需啊! 插件通过 pre-tool hook 运行,自动拦截 Write、Edit、MultiEdit 三类操作。 覆盖多种类型: 1 GitHub Actions 工作流里的命令注入 2 Node.js 的 child_process.exec() 不安全调用 3 eval() 和 new Function() 的使用 4 前端的 XSS 向量,包括 dangerouslySetInnerHTML 和 innerHTML 5 Python 的 pickle 反序列化风险 6 Python 的 os.system() 命令注入 例如,当用 innerHTML 或 dangerouslySetInnerHTML 时提示 XSS 风险。 当编辑 workflow 文件时提示 GitHub Actions 注入风险。 警告是 session 级别,相同问题只提醒一次。 安装方法,Claude Code中输入 /plugins,Discover中输入security-guidance搜索安装。
AnthropicMCP/工具产品更新安全/对齐
23:18
🚨 AI News | TestingCatalog@testingcatalog
62
ANTHROPIC 🔥:Claude Opus 4.8 已在源代码中被发现。 它会在今天发布吗?👀

Tensor: Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...

Anthropic模型发布
23:07
Deedy@deedydas
70
AI市场从一家独大转向多强竞争

消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期,Gemini用户数增至约为ChatGPT的50%,Claude份额从约3%增长至20%。在网站流量方面,Claude是上季度增长最快的百强网站。活跃用户数估算显示,ChatGPT周活跃用户约9亿,月活跃用户可能达15亿;Gemini月活跃用户为9亿;Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家,Gemini用户数已接近ChatGPT的65-70%,而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

AnthropicOpenAI现象/趋势
22:42
Rohan Paul@rohanpaul_ai
65
Musk澄清SpaceX与Anthropic的Colossus租约实为短期协议

Elon Musk向投资者澄清,SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁,而是一份为期180天的租约,并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月,但Musk解释称,SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺,不宜长期外租。他强调,Colossus并非闲置资产,同一套计算基础设施将用于训练xAI模型、支持内部AI系统,或可能在未来发展为付费云服务,因此SpaceX需要保持运营灵活性。

AnthropicxAI行业动态部署/工程
22:39
ginobefun@hongming731
52
阿里 ATA 这篇文章有点骚,把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用,并利用沙箱实现多用户隔离。
AnthropicMCP/工具教程/实践部署/工程
22:12
Chubby♨️@kimmonismus
66
天啊,来了:Opus 4.8 出现在桌面应用的 Claude Code 模型选择器里了。 看起来今天就是发布日!!

Tensor: Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...

智能体Anthropic模型发布
21:31
Berryxia.AI@berryxia
6
推文提及Anthropic首席执行官Dario Amodei与中国用户的互动历史,并讨论其对中国用户的态度。内容主要围绕个人经历与看法,未包含具体模型、参数或评测数据。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic大佬观点
20:31
Berryxia.AI@berryxia
23
推文围绕Jade Wang展开,称其"秀儿"(出色),并指出她曾被Anthropic创始人Dario Amodei赏识。引用内容提供了背景:有观点认为Dario Amodei早年与中国有较深渊源,并对其当前对国人态度提出猜测,暗示其态度"复杂"。推文核心在于探讨Dario的个人经历与当前人物选择之间的关联,未涉及任何具体模型、产品或技术细节。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic其他
19:31
Berryxia.AI@berryxia
16
Anthropic 的老板 Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人……
Anthropic大佬观点
18:10
Chubby♨️@kimmonismus
32
什么?!Opus 4.8 要来了?!天啊

leo 🐾: happy claude opus 4.8 day to those who celebrate

Anthropic模型发布
17:10
Chubby♨️@kimmonismus
30
等等,Anthropic和OpenAI都要发布新东西了?不可能吧

Riley Brown: It will be a big day from both teams...

AnthropicOpenAI大佬观点
15:40
Artificial Analysis@ArtificialAnlys
62
我们近期在 Artificial Analysis 上发布了编程智能体基准测试,并推出了首个 YouTube 视频! 我们详细分析了不同编程智能体在性能、成本、token 使用量和速度方面的差异。 其中包括 Claude Code 中 Opus 4.7 的领先表现,以及 Composer 2.5 在编程智能体指数/成本帕累托前沿上的强劲定位。 我们还推出了 YouTube 频道! 欢迎访问并订阅:https://www.youtube.com/@ArtificialAnalysisAI
智能体Anthropic编码评测/基准
15:39
ginobefun@hongming731
62
AI Agent 安全:关键在于控制其"爆炸半径"

Anthropic 在文章中指出,保障日益强大的 AI Agent 安全,不能仅依赖模型自身的防错能力,更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如,Claude Code 早期因用户疲劳导致93%的权限提示被批准,防线失效;针对通过伪造指令窃取 AWS 凭据的风险,则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调,授予 Agent 接入 GitHub、Slack 或 MCP 等权限,实质是赋予其一整组能力,必须在架构层面谨慎设计。

智能体AnthropicMCP/工具安全/对齐
15:04
Tibo@thsottiaux
63
新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示,在编程任务上,GPT-5.5 得分为 70%,而 Claude Sonnet 得分为 32%,两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力,即能否仅凭简短提示词,准确定位代码库并干净地完成修改,无需用户列举具体文件。原文指出,这验证了许多开发者长期以来的观察,并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

Kol Tregaskes: Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...

AnthropicOpenAI推理编码
09:09
SemiAnalysis@SemiAnalysis_
57
寻找编译错误:乐趣,而非利润 或者:你不需要访问 Claude Mythos,也能在一下午花掉 10,000 美元 https://newsletter.semianalysis.com/p/finding-miscompiles-for-fun-not-profit..
Anthropic安全/对齐教程/实践
‹ 上一页
1…2425262728…48
下一页 ›