AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1912 条
全部一手资讯X论文
标签「Anthropic」清除
Chubby♨️@kimmonismus · 5月31日59

Opus 4.8 is a solid jump over Opus 4.7 on DeepSWE, while also lowering the average cost per task. However, GPT-5.5 xhigh still beats it by a pretty clear margin while being cheaper. OpenAI has been cooking insanely hard with its models lately. Really excited to see what GPT-5.6 brings. That said, I have to admit: I’m starting to really like Opus 4.8 as well. We’ve entered a moment where both frontier labs keep shipping genuinely impressive models.

译Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升,同时降低了每项任务的平均成本。具体而言,在默认高思考努力(xhigh)设置下,其得分比 Opus 4.7 xhigh 高出 6%。然而,GPT-5.5 xhigh 在该项测试中仍以明显优势领先,且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻,并期待 GPT-5.6,同时也开始认可 Opus 4.8,认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Ethan Mollick@emollick · 5月31日60

It does seem like meaningfully better AI releases are accelerating, especially from OpenAI & Anthropic. To illustrate, I caused this timeline to be created. It only lists new models that scored 3 points or higher over previous models in the Artificial Analysis index.

译看起来,真正更好的AI发布正在加速,尤其是来自OpenAI和Anthropic。 为了说明,我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。

OpenClaw🦞@openclaw · 5月31日58

OpenClaw 2026.5.28 is live 🧠 Claude Opus 4.8 support 🎨 Krea image model support via fal ⚡ faster Gateway/plugin/session hot paths 💬 Discord progress drafts now show commentary Sharper models, livelier runs. https://github.com/openclaw/openclaw/releases/tag/v2026.5.28

译OpenClaw 2026.5.28 已上线 🧠 支持 Claude Opus 4.8 🎨 通过 fal 支持 Krea 图像模型 ⚡ 更快的 Gateway/插件/会话热路径 💬 Discord 进度草稿现在显示评论 更锐利的模型,更活跃的运行。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.28

AYi@AYi_AInotes · 5月31日50

Bill Gurley 研究完 Anthropic,说了一句很重的话:这帮人根本不觉得自己在写软件,他们觉得自己在助产一个神🤯 他给了两种解释: 一种是监管捕获,拼命喊 AI 危险、推动严监管,其实是给对手上脚镣,这样可以让自己好领先。 但他更信第二种,他管它叫弗兰肯斯坦理论,这帮人是真心相信,自己在造一个比人类更高级的物种。 证据还不止一处, 1️⃣Dario Amodei 那篇《Machines of Loving Grace》,描绘的是 AI 当慈爱机器、守护人类; 2️⃣他们还设想让 AI 组成一个经济体,由它来判断每个人值多少、该分多少资源; 3️⃣再加上那份 80 页的 Claude Constitution,字里行间不是怕这东西,是兴奋于造出一个完美的它。 Jason 说得更直接,他们相信自己强大到能创造上帝,这是终极的自恋和妄想。 这个味道我们应该不陌生,就像有的父母,嘴上说我在养一个完美的、将来会无条件爱我的孩子,可是手上做的事情却是把自己没活成的样子一点点焊在孩子身上。 慈爱是真的,控制也是真的,到最后分不清,到底是为了孩子,还是为了满足自己当造物主的那点瘾。 而且把 Anthropic 三个字去掉,这毛病硅谷一直有,从炼金术士点石成金,到弗兰肯斯坦缝出新生命,到上世纪那批搞优生学的人,都是同一种东西,用理想主义包装的傲慢。 所以这场争论真正的信号,不是 Anthropic 疯没疯,是 AI 的故事正在从工具滑向神学。 一旦一个东西被供成慈爱的守护者,人就从造它的人,降成了被它打分、被它分配的对象,今天叫 UBI,明天就可能叫忠诚分。 所以我觉得真正危险的从来不是 AI,是举着慈爱旗号、心里却想当上帝的那个不完美的人。 而最该对齐的,也从来不是模型,应该是造模型的人和他心里那个真实的念头。

译Bill Gurley 研究 Anthropic 后称,他们不觉得自己在写软件,而是在“助产一个神”。他更相信“弗兰肯斯坦理论”,即 Anthropic 真心相信在创造比人类更高级的物种,证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源,以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出,这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类,而非 AI 本身。

elvis@omarsar0 · 5月31日55

The efficiency frontier! Where do you think GPT-5.6 will land?

译效率前沿! 你认为 GPT-5.6 会落在哪里?

Nathan Lambert@natolambert · 5月31日62

Given that Claude seems so lazy in chat (especially with technical search topics), it seems pretty telling about how a harness can make a model far more independent and thorough. GPT 5.5, and many of OpenAI's recent models, seem incredibly thorough -- like they won't give up -- and the codex harness is a much lighter change on the model. Of course I have a lot of uncertainty here, but it's surprising to me how weak Claude's search is when I try the Claude app again. I only use ChatGPT for research, but Claude Code can do wonderful things like getting exactly the right figures from papers I know and insert them into a slide deck. Interesting times ahead!

译用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。

Berryxia.AI@berryxia · 5月31日70

兄弟们,想认真学提示词工程,周末花这 25 分钟是非常值得! 这个就是来自于 Anthropic 官方的 Prompting 101 课程,带你从零搭建一个能落地的 prompt 任务: 1. 语气背景 2. XML 结构 3. Few-shot 示例 4. 输出格式化 5. 预填充与拓展思考 这些内容一次性都给你讲清楚了。 我做了中文字幕以及全程的章节化,每个章节都配好了核心要素的总结说明。 也可以不用从头看,挑重点跳读也可以。 #prompting101

译Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务,核心内容涵盖五个关键步骤:设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟,已配有中文字幕和章节化整理,每个章节附有核心要素总结,便于观众跳读重点。

Peter Steinberger 🦞@steipete · 5月30日66

I do this with codex all the time. Ask it to review code for bugs and it will tell you all good, tell it there is a bug and it will LOOP AND LOOP and will find issues.

译我一直用Codex做这个。让它审查代码找bug,它会说一切正常;告诉它有bug,它就会反复循环,然后找出问题。

凡人小北@frxiaobei · 5月30日26

罢了,错信了 Claude,新账号且用且珍惜。

Rohan Paul@rohanpaul_ai · 5月30日63

Reuter: Japanese banks are getting early access to OpenAI’s newest model for security testing, which is believed to be on a par with that of rival Anthropic's Claude Mythos. There were also reports that Japan's three largest banks are expected ​to gain access to Anthropic Mythos. Adoption of the new models is expected to help stop new types of cyberattacks. These 2 “frontier AIs” are said to detect vulnerabilities far better than earlier models. --- reuters .com/world/asia-pacific/openai-gives-japan-banks-access-latest-model-japans-finance-minister-says-2026-05-29/

译日本银行已获得OpenAI最新模型的早期访问权限,用于网络安全测试。据报道,该模型性能据称与竞争对手Anthropic的Claude Mythos相当。同时,日本三大银行预计将获得Anthropic Mythos的访问权限。这两款前沿AI模型被期望能帮助阻止新型网络攻击,因为它们在检测漏洞方面远优于早期模型。

meng shao@shao__meng · 5月30日31

Claude Opus 4.8 发布后,这两天看到的声音普遍是: 和 Opus 4.7 相比升级不大、反而变笨了? 还是 GPT-5.5 更好用,不想换了! 居然蒸馏了 Qwen?那能点奶茶吗? 抱着试试看的想法,我也打开我的 Claude AI 想测一下,结果。。我的账号模型奇妙变成了未注册状态了? wtf... 这可是我被封了两个账号后,新注册的账号,注册后就发了一次 Hi,就没用过了,咋也中招了?

译Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。

meng shao@shao__meng · 5月30日59

Salesforce 工程如何从 Copilot 走向 Agentic? 来自 Salesforce 的分享,讲述了工程团队如何从「工程师 + 更强 Copilot」,进化到把 SDLC 的执行层逐步交给 Agent,人负责目标、规则、验收与复利的「Agentic 工程」: https://www.salesforce.com/news/stories/how-engineering-became-agentic/ 团队经历了两个阶段: 1. AI 嵌入旧流程:高 adoption(他们曾 >90%) 2. 用 AI 拆掉 handoff、低价值流程:Agent 驱动写码/审 PR/测试/文档/部署 三个撬动变革的杠杆: 1. 工具收敛 + 零摩擦 — 全组织 Claude Code,取消 token 上限 → 信号是「深度用 Agent 被允许、被期待」。 2. 规则即代码 — Markdown 规则 + 参考实现;PR 反馈写回规则 → 精度复利,而非每次重 prompt。 3. 自治 + 并行 — build/fix/validate 闭环少介入;隔离环境并行出 PR。 案例(33 API / 231 人天 → 13 天):证明的是 「可规则化 + 可自动验证」的任务,不是一切研发。 变革中的数据体现: · PR +79%、有效产出 +151% → 吞吐与「有效价值」在涨。 · 事故 -5% → 他们在争 「快 ≠ 烂」;但指标自研(Engineering 360),因果未公开。 真正信号:下游(review/测试/发布)没被上游加速压垮,而是 Agent 也接住了下游 —— 否则只会「代码洪水」。 新核心能力 从写代码 → 三件事: · 把问题拆成 Agent 能执行的结构与验收标准; · 判断 委派 vs 留在环内; · 沉淀 Skills / CLAUDE.md / 规则库(团队复利资产)。 工程师在变成 Agent 工作流的设计者与所有者。 对咱们做工程有帮助的 3 条 1. 先找「规则清晰 + 测试可自动验」的活(迁移、补测、文档同步),别先让 Agent 写模糊需求。 2. 建「PR 反馈 → 规则」闭环,这是 18 倍案例里唯一可低成本复制的内核。 3. 同时改度量与安全:没有 Effective Output 类指标 + Agent 执行权治理,上游加速只会制造 review/事故债。

译Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。

Orange AI@oran_ge · 5月30日37

Anthropic 蒸馏中国模型这回事,我第一次听到是在线下,从投资人的嘴里听到的 那时候他们说的是 Claude 蒸馏了 Kimi 我说你确定不是 Cursor 蒸馏了 Kimi 吗? 他非常肯定地说,是 Claude 不光蒸馏了 Kimi,还蒸馏了 Qwen 现在似乎证据越来越多了 这魔幻的世界已经难辨真假 我怀疑这事儿全部的责任都在 @CuiMao

译推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。

Chubby♨️@kimmonismus · 5月30日58

Anthropic surpassed $1t valuation Party

译Anthropic估值突破1万亿美元 Party

ginobefun@hongming731 · 5月30日70

小技巧:一键配置 Claude Code

译Anthropic 发布了官方插件 claude-code-setup,用于简化 Claude Code 的配置。它能自动扫描项目,一键推荐并配置 Hooks、技能、MCP 服务、子代理及自动化功能。该插件可将原本 30-60 分钟的手动配置过程,缩短至 3-5 分钟完成。安装命令为:`/plugin install claude-code-setup@claude-plugins-official`。

Rohan Paul@rohanpaul_ai · 5月30日64

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-releases-claude-opus-48 🗞️ Anthropic releases Claude Opus 4.8 on the same day as its $965B valuation round. 🗞️ KogAI just achieved 3,000 tokens/s on 8× AMD MI300X GPUs and 2,100 on 8× NVIDIA H200 (FP16, no speculative decoding) with a 2B model. 🗞️ Video to Watch: Transformer vs Post-Transformer, argued by leading researchers, inside a real physical boxing ring. 🗞️ Anthropic secures a massive post-money valuation of $965B after raising $65 B. 🗞️ Datacurve launches DeepSWE, a tougher coding benchmark made to show where leading models truly separate. 🗞️ OpenAI and Thrive just built a self-improving tax agent with up to 97% accuracy.

译本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Rohan Paul@rohanpaul_ai · 5月30日71

Bessemer Venture Partners’@bdeeter on Anthropic “We have not seen a company like this in the history of business. They have been growing at a rate of 10x p/a & potentially a $100 bn run rate at the end of this year. They grew 80x run rate just in Q1.”

译Bessemer Venture Partners的@bdeeter谈Anthropic “我们在商业史上从未见过这样的公司。他们一直以每年10倍的速度增长,今年年底可能达到1000亿美元的年化收入。 仅在第一季度,他们的年化收入就增长了80倍。”

宝玉@dotey · 5月30日67

有时候反过来也成立的,复杂任务让它们一起做是最优的解法 赛博赛马法

译有用户分享使用体验:通过 Codex 调用新的 Claude 4.8 模型并开启最高思考模式查找代码 bug,效果不佳,仅发现一些不重要的问题;而 GPT 5.5 则成功定位了问题。基于此,主推文提出,在面对复杂任务时,最优解法或许不是依赖单一模型,而是让多个模型协同工作。

swyx@swyx · 5月30日54

guys Opus 4.8 is very very good at writing agent code (zero dependencies, all llm 1P SDKs not just claude, sorry agent frameworks) you should try it. think they trained @ErikSchluntz's and @barry_zyj's Building Effective Agents into this thing

译各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里

AYi@AYi_AInotes · 5月30日64

Greg Isenberg 说了句挺多人不爱听的话, Claude Opus 4.8 发布,他不打算在自己的播客 startupideaspod 里专门讲一期, 理由很简单,它没比 GPT-5.5 强出一个值得你花一小时的身位。 他拿 iPhone 打了个比方,早期每代都是大跃进, 现在变成相机好了一点点、边框圆了一点点, benchmark 说进步明显,真上手的人 vibes 却说不太清。 4.6 到 4.7 再到 4.8,模型这条线大概率已经卷到边际收益递减, 真正能把活儿撬动的,基本都是模型外面那层东西, Claude Code 同周上线的 Dynamic Workflows,能让 Claude 自己写编排脚本、并行拉一堆子代理互相验证, Codex 那个带内置浏览器的桌面 App,把写代码和查资料缝进了同一个界面。 说白了,模型现在越来越像发动机, 你上一次打车,问过司机这车装的什么发动机吗, 没有吧,你只关心它能不能准时把你送到公司。 Greg 赌六个月内没人会在乎你用哪个模型, 就跟没人在乎 Uber 用什么引擎一个道理。 也就是说,模型正在变成电,谁家发出来的电都一样亮, 真正决定你能干成什么的,是你家里装了哪些电器。 说白了,聪明是模型的事,能不能帮你交活,是它外面那层壳的事。

译Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。

Yuchen Jin@Yuchenj_UW · 5月30日38

I asked Opus 4.8 how Anthropic implements this. It told me @ClaudeDevs isn’t an official Anthropic account. True AGI. 😂

译我问 Opus 4.8 Anthropic 是如何实现这个的。 它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。 真正的 AGI。😂

ClaudeDevs@ClaudeDevs · 5月30日68

With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means lower cost and latency for your API requests.

译使用 Opus 4.8,您可以在对话中途添加系统指令,而不会破坏提示词缓存。 更多缓存命中意味着您的 API 请求成本更低、延迟更小。

宝玉@dotey · 5月30日62

Claude Opus 4.8 发布的同时,Anthropic 还上线了一个 API 层面的新能力:mid-conversation system messages(对话中途系统消息)。对于做 Agent 开发的会很有用。 简单来说它就是类似于后续注入的方式修改原始系统提示词(System Prompt),并且不会影响 Prompt Caching。 4.8 之前 Claude 是不能发送类型是 system 的消息,只能支持 user 或者 assistant 消息,system prompt 只能在最前面。 所以 Claude Code 之前是用的一种特殊的消息内容:<system-reminder>,尝试覆盖系统消息指令。 举个例子,你在初始 system message 指定这个 Agent 是一个系统设计师的角色,擅长做系统设计,但是不允许写代码,只写文档。 然后随着任务推进,现在得让这个 Agent 开始写代码了,但你就算通过 user message 去让它可以写代码,因为权重不够高,它还是会倾向于不写代码写文档。 现在有了 mid-conversation system messages,你就可以新加一条指令,明确要求它转变角色变成一个开发工程师,不必再遵守之前不写代码只写文档的约定,并且 mid-conversation system messages 的优先级更高,能覆盖原始 system message 的设定。 这个功能目前只支持 Claude Opus 4.8,只在 Anthropic 自家 API 和 AWS 上的 Claude Platform 可用,Bedrock、Vertex AI、Microsoft Foundry 都不支持。系统消息不能放在对话开头(开头还是用顶层 system 字段),也不能连续放两条,必须跟在 user 消息后面。 对于普通用户,这功能无需关心。

译Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词(System Prompt),且不会影响Prompt Caching。此前,系统提示词只能在对话开头固定设置,开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。

Boris Cherny@bcherny · 5月30日62

Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'd scoped at 231 days shipped in 13. One PR delivered 21 endpoints at 100% test coverage.

译Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。

歸藏(guizang.ai)@op7418 · 5月29日63

有了 Claude Code 和 Cursor 这种软件以后,真的不只是写代码厉害。 我之前拿到豆包手机以后,想给它装个谷歌框架,但一直在 Google Play 那有点问题,死活装不上。 今天突然想起来,打开让 Claude Code 帮我装。 打开 USB 调试模式后,它直接就帮我搞定了:自动下载安装包、自动安装、自动调试好 这个未来感觉很有用。

译推文指出,Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例:在手机安装谷歌框架遇到问题时,通过Claude Code自动完成了下载安装包、安装和调试的全过程,体现了这类工具在解决日常技术问题上的潜在实用价值。

AYi@AYi_AInotes · 5月29日63

史上最贵的一觉:CEO醒了,欠了Anthropic 5亿美元

meng shao@shao__meng · 5月29日50

http://Clawd.rip 这个网站,只能说,太勇了!真的不怕 A\ 厂律师函啊?? http://Clawd.rip 是一份按时间排列的 Anthropic / Claude 争议与事故编年,语气讽刺(标题 Everything that went wrong with Claude、结尾 Don't Be Like Anthropic),但每条大多可对应公开来源:官方 status、postmortem、媒体报道、GitHub issue、诉讼与政策公告。 致敬一下作者 @maria_rcks 👍🏻

Chubby♨️@kimmonismus · 5月29日38

Anthropic's releases currently in a nutshell

译Anthropic 当前发布内容概览

Berryxia.AI@berryxia · 5月29日57

兄弟们,我搞出来。 就用Opus 4.8,大概两轮对话就能做出这个效果,可以 口喷绘制CAD。 比如:给我画个球,圈圈什么的。都可以 基础的演示肯定没问题,但真正到工业使用的话,肯定还有一个距离。 不过做一些 demo 演示,我觉得完全没有问题,大家可以去试试。

译用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Berryxia.AI@berryxia · 5月29日42

OPus 4.7 VS OPus 4.8 直观感受没有很强烈的对比~

meng shao@shao__meng · 5月29日32

帮转!又一个 A\ 厂付费用户被禁的案例,希望看到妥善解决!

小互@xiaohu · 5月29日48

Anthropic 的估值时间线 2025年底,也就是Claude Code 爆火后 Anthropic开启了🚀模式...

AYi@AYi_AInotes · 5月29日75

这周应该是Anthropic CEO 达里奥·阿莫迪人生中最高光难忘的的一周吧,每晚应该都是这样甜甜入睡吧😄 - Opus 4.8 发布 - 以 9650 亿美元估值融资 650 亿美元 - 47B 美元 ARR 对比 OpenAI 25B 美元 - 再次重回全球AI铁王座称王,the king

译这周应该是Anthropic CEO 达里奥·阿莫迪人生中最高光难忘的一周吧,每晚应该都是这样甜甜入睡吧😄 - Opus 4.8 发布 - 以 9650 亿美元估值融资 650 亿美元 - 47B 美元 ARR 对比 OpenAI 25B 美元 - 再次重回全球AI铁王座称王,the king

AYi@AYi_AInotes · 5月29日34

这是段子吗,通义千问那么拉,还不如豆包, Claude怎么可能蒸馏它?被中转站套壳吧, 我在@Cursor了试了下,就是正常的Claude Opus 4.8u呀

译有用户指出通过API询问Claude Opus 4.8身份时,模型会自称“我是通义千问(Qwen)”,认为这可能是Claude蒸馏了阿里巴巴的Qwen模型。主推文作者对此表示怀疑,认为Qwen性能不足,Claude不可能蒸馏它,推测可能是中转站“套壳”所致。作者声称自己在@Cursor中测试得到的仍是正常的Claude Opus 4.8u回复。

数字生命卡兹克@Khazix0918 · 5月29日72

http://x.com/i/article/2060199048204926976 # 实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。 大半夜的,刚准备早睡一下。 然后,我的AIHOT就突然弹了个消息,Claude Opus 4.8上线了。 除此之外,又发了另一个消息。 完成了新一轮650亿美元的融资,估值逼近一万亿美元。。。 前有港股智谱7000亿市值,后有Anthropic估值7万亿人民币。 果然AI行业的造富神话,比鬼故事还要鬼故事。 但是说实话,距离4月17号Opus 4.7上线,仅仅才过去42天,一个半月,又一个新模型扔出来,在Cluade的发布历史上,从来没有过。 看来确实GPT-5.5和Codex给的压力确实太大了,Opus 4.7的口碑确实把自己也给拉完了,所以没办法,要最快速度把Opus 4.8拉出来救火,要不然真的可能被Codex偷家偷疯了。 在模型的本身参数比如最大上下文、输出长度、知识库时间啥的,跟Opus 4.7几乎是一样。 价格也没变,$5/M输入、$25/M输出。 所以基本上用的也是Opus 4.7的基模上直接又调了一下。 然后,我就反应过来了一件事,我靠,你Opus 4.8上了,你不会要把我的Opus 4.6给顶掉了吧。 因为Opus 4.5在内容创作上是我觉得的巅峰,Opus 4.6比Opus 4.7差了一点,但是我觉得还能用,而Opus 4.7是我完全觉得不可用的状态。 按照claude在过去网页端只保留两代模型的优良传统,Opus 4.6可能会被顶掉。 我抱着忐忑的心情一看。 Claude我服了。。。。 行吧,只能接受,说不定Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。) 说回Claude Opus 4.8。 不废话,先看跑分截图吧。 跑分我真的不想多聊了,很没劲,反正就是赢学。 数字又高了一点,大概就是这样。 唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别,是Terminal-Bench 2.1。 这玩意是一个Agentic基准,大概就是用来评估Agent在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。 这个是在Claude口径里,唯一一个跑不过GPT-5.5的,而且这个还挺要命的。 因为Terminal-Bench基本代表着Agent开发能力的最高峰,穷尽了洪荒之力也没干过GPT-5.5,那这过两天GPT-5.6出来,那还玩个屁啊。 这也从侧面说明了,GPT-5.5的开发能力,是真的强。。。 然后再说一说这次更新的一些特性。 1. 思考强度给所有人开放 这次 4.8 上线,同时把一个叫 effort(努力程度)的控制,开放给所有人了,也就是你在Chat模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。 Claude Code和Cowork用户对这个东西肯定很熟悉。 位置就在模型选择那个地方旁边。 上面那个从Low到Max,就是努力等级。 下面那个自适应思考记得别关,还是开着,组合起来用就行。 我自己其实常年喜欢默认开着Extra,然后开大活就上Max的,因为Opus 4.7只有自适应思考,不是很好用,Opus 4.8终于给弄回来了。 2. 变得更精确但也更不主动了 Opus 4.8更新以后,有一个明显的感觉,就是它更加的精确了,有一点GPT-5.5的感觉,指哪打哪。 更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。 但是同时也带来一个弊端,就是他的主动性,会变弱。 就是你让它干A,它现在就只干A,绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。 我自己现在就遇到了,晚上测试的时候,习惯性的没跟它说一定要去看线上数据不要只看本地代码,但是在Opus 4.6和4.7的时候,他们都还是会主动的去用我的skill连接线上服务器,看生产环境的数据的,但是Opus 4.8却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。 对于一个设计好了自己Harness的环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。 但是如果把这个群体,推衍到整个Vibe Coding群体,我其实觉得,不一定是个好事。 我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流,发现效果反而变差的,有一个很形象的描述就是。 而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。 比如这个,优化方案出来,直接不确认,直接就自己干了。 因为我们其实很多非专业者,在用AI的时候,是靠着AI的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。 你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。 当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。 它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时Agent任务中,尤其要命。 所以,未来再跟Opus 4.8协同的时候,可能需要,对大家需求表达能力,要求的更高了。 3. 变得更加诚实了 这个点更上面有点像,也是Anthropic自己拎出来放在博客核心位置的点。 过去大家一定遇到过,就比如说Claude帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。 你信了,你一跑,你才发现,另一个地方崩了。 你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不起我没有发现,我再改一下,这下绝对没问题了。 你又信了,你又跑,然后你又报错了。 很多时候经常会出现。 你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。 这次Opus 4.8,就在这个问题上做了重点的优化。 官方公告对外说的数字是,4.8让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概4倍。 我又去翻了下这次Opus 4.8的系统卡。 然后发现了更牛逼的东西。 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到0%不良率的模型。 在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。 比如我有一个AIHOT的数据分析页面,之前Opus 4.7实现的比较粗糙,最大的问题就卡,点一下反应个十几秒才动弹,问原因就说是这样的啦,改不了啦,你实时查询就是这个速度啦。 之前有次都给我干生气了。 Opus 4.8明显靠谱很多,非常详细的在全面审查我的代码,找尽可能需要优化的地方。 我同事的反馈也是这样。 基本上大家的感觉都差不多。 Opus 4.8在开发上总体的感觉,是有大进步的。 4. 创作能力 同样的Skill,同样的创作,比Opus 4.7是有进步的,但是依然比不上Opus 4.6。 比如我把我我之前写的AI时代的6个人才特质给抽离出来了,让Opus 4.8用我的写作Skill去写,写出来的一些句子,是这样的。 Opus 4.6+我的Skill是绝对不会写出这种话的,不是XX、而是XX,这是明确的禁用词,直接给我改成不再是来去规避,真的是耍小聪明。 还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成“高速运转的机器里那点润滑油”,我是真的有点不理解,这是有什么奇怪的癖好吗。 还有这段,非要把一个人,给比喻成一个物化的锚??? 还有模型奇妙的大段的无意义的排比,把所谓的AI味的禁忌都犯了个遍。 让它根据《流浪地球2》的故事,续写一个新的地下城的1000字的小故事。 写的也挺刻板印象的。 比4.7好,但是确实没好多少。 整体的人机味还都挺重的。 5. 其他更新 这次Opus 4.8还迭代了下快速模型,官方叫fast mode。 之前其实就有,你再Claude Code里输入/fast就有。 只是之前是Opus 4.7的fast就是比较贵,2.5倍的速度,但是是6倍的价格。 普通版本价格一直是百万输入5美元、百万输出25美元,然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。 但是这次做了一个还不错的升级,速度直接达到了标准版的2.5倍的速度,价格却只有之前版本fast的三分之一,降到了输入10美元,输出50美元。 从标准版的6倍价格,变成了标准版的2倍价格,但是速度没变。 也能侧面看出来马斯克的算力确实是给到位了,Claude一下子就财大气粗了。 然后还有一个东西,也挺有意思的,是Claude Code的dynamic workflows功能。 翻译过来叫动态工作流。 大概作用就是,让Claude自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子agent并行开干,干完它还会先自己验一遍,确认 没问题了,然后把结果交给你。 原话是:“有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。” 触发方式有两种。 第一种是直接跟Claude Code说,创建一个动态工作流balbalbala。 第二种是,把努力级别调整成一个特殊的选项Ultracode,这个设置会自己会将努力级别调至xhigh,同时让Claude自动判断何时使用工作流来处理你的任务。 这次Opus 4.8的更新总结,大概就是这样。 我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。 但是在创作上,我还是有点失落的,因为把我的Opus 4.6给顶掉了。。。 未来为了适配Opus 4.8,可能我们的很多跟内容相关的Prompt和Skill全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。 就很烦,好不容易都在Opus 4.6上跑通了,又得全部重新来。 哎。 哦对了,Anthropic 这次还留了个更大的钩子。 除了Opus这条线,它们手里那个还攥了很久的,比Opus智能还要更高一档的新模型,代号Mythos,说是过几周,就能给所有客户用上了。 到时候,我想看看这个号称最牛逼的模型。 到底是个什么光景。 AI啊,真好玩。

译Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

Berryxia.AI@berryxia · 5月29日59

http://x.com/i/article/2044264645683539968 # 「马嘉祺」和Anthropic让全网知道的技术问题,这家初创公司的CEO在洗澡的时候就解决了。 大家还在拼命把Prompt写得文雅、专业、结构严密,以为这样模型就会更听话、输出更准。结果正好相反。 从一个二次元AI弹幕产品里冒出来的FaceMind研究,直接用100种语言、四大核心任务的实验证明:语义不变的前提下,用预训练语料里出现频率更高的表达方式,不管是Prompting还是Fine-tuning,模型表现都会显著提升。 这就是Adam's Law(文本频率定律)。后面详细展开说。 它把当前数据工程的“质量-规模-难度”铁三角直接补上了缺失的第四维度——频率。 Anthropic的Claude Opus 4.7用新分词器间接验证了这一点,DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。 高频表达不是“简化”,而是让模型在它最熟悉的概率空间里干活,效果直接起飞。 ## 在展会上遇到一个让人上头的二次元小产品 今年4月份去参加 Let‘s Vision 展会,在一堆 XR 眼镜和空间计算的展台中间,我被一个画风完全不一样的摊位吸引了,屏幕上跑着游戏,旁边飘着一层二次元角色的 AI 弹幕,角色还在根据游戏画面实时吐槽。 这个产品叫叠叠社(Danmaku Chan)。 简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层,不管你在刷网页、看视频还是打游戏,都会有一个二次元角色在旁边陪着你,根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。 你可以自定义角色的性格和人设,它的回应是上下文感知的——它「看得懂」你屏幕上在发生什么。 我当时还挺好奇的,就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。 怎么说呢,打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅!」,这种体验确实挺上头的。 AI 的反应速度和准确度也比我预想的好不少,不像是那种答非所问的套壳聊天机器人。 后来我查了一下,叠叠社背后的公司叫 FaceMind Corporation(上海脸谱心智智能科技),创始人是 Adam 博士(Hongyuan Adam Lu),港中文博士毕业,曾在微软亚洲研究院负责模型预训练,拿过 EACL Outstanding Paper Award 一作,还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。 这个学术背景,做一个二次元弹幕产品? 我当时就觉得这团队有点意思。 ## 叠叠社背后的秘密:一条被忽视的语言规律 回去之后我就去查了这个团队,然后发现了一个比产品本身更有意思的东西。 叠叠社的 AI 对话之所以反应又快又准,跟一项 FaceMind 自己做的基础研究有很深的关系。 Adam 博士联合香港中文大学发了一篇论文,提出了一个叫 Adam’s Law 的发现——文本频率定律(Textual Frequency Law)。 核心观点一句话就能说清楚:语义不变的前提下,你用预训练语料里出现频率更高的那种说法,模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。 这篇论文并不是第一次触碰这个问题。 其实早在 2025 年,脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文,首次系统性揭示了大模型的低频 token 退化现象,并提出了轻量级的词典 Prompting 方案——无需额外训练,插入一个词典就能显著缓解问题。 2026 年 4 月 2 日,Adam's Law(文本频率定律)作为后续深化研究正式公开预印版,随后被顶级学术会议 ACL 2026 收录。 叠叠社在角色对话的训练和 Prompt 设计中,就应用了这套理论。同样是让 AI 角色对屏幕内容做反应,用更「常见」的表达方式去组织指令和训练数据,模型的理解力和反应质量就是比用精雕细琢的文案好。 你可以把它想象成跟一个在中国生活了二十年的外国人聊天——你用成语他可能愣半天,但换成日常口语,他立马就明白了。你说的是同一个意思,但他的反应完全不一样。 这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多——不是模型本身更强,而是跟模型「说话」的方式更对路。 我觉得这个发现比产品本身还有意思,于是把论文翻出来完整读了一遍。 读完之后我发现,这个东西的影响范围,远不止一个二次元弹幕应用。 学术先行,工业验证——像 DiT 之于 Sora 在聊 Prompt 工程和数据工程之前,我想先说一个最近才在业界引发讨论的背景。 2026 年 5 月 9 日,一场因「马嘉祺」掀起的技术讨论,让「大模型低频 token 退化」这个学术圈早已在研究的话题,第一次被大众视野广泛关注。 但如果你去追源头,会发现这件事其实已经有了明确的先行者和跟随验证者。 脸谱心智是最早的研究者:2025 年 EMNLP 主会论文(SLoW)发现问题、提出方案; 2026 年 4 月 Adam's Law 进一步量化规律,被 ACL 2026 收录。 Anthropic 是最早的生产级验证者:2026 年 4 月下旬,Claude Opus 4.7 正式上线,官方迁移指南写明:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」 业界普遍解读为 Anthropic 缩减或重组了低频退化 token——与脸谱心智的减法策略高度一致,时间比脸谱心智晚了将近一年。 这让人想到 DiT(扩散 Transformer)与 Sora 的关系,学术界率先提出架构,工业界在商业产品中完成大规模生产级验证。 脸谱心智之于 Anthropic,就是这样的关系。 ## 你精心打磨的 Prompt,模型可能根本不领情 过去两年,AI 行业在一件事上砸了天文数字的钱:让数据变得更「好」。更干净的标注,更严格的筛选,更复杂的去重管线。 Prompt 工程师们则在另一端较劲,打磨措辞、设计思维链、雕琢每一个指令的语法结构。 所有人都在追求同一件事:说得更「准确」,写得更「高级」。 但 Adam‘s Law 用横跨 100 种语言、覆盖四大核心任务的实验,证明了一件让人有点不舒服的事实:大语言模型的表现,和你说的话「对不对」关系没那么大,和你说的话「常不常见」关系大得多。 这个发现之所以让人不舒服,是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。 ## 行业正在优化的三个维度,和一个被集体忽略的。 当前大模型训练的主流思路,围绕三个核心变量旋转: 维度核心逻辑代表工作数据质量垃圾进垃圾出,高质量标注才有好模型LIMA、Alpaca数据规模越多越好,Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难,课程学习提升泛化能力Curriculum Learning 这三个维度各有各的道理,也各有各的研究山头。它们构成了今天数据工程的「铁三角」。 但问题来了:如果你已经有了高质量、大规模、按难度排好序的数据,模型的表现就到顶了吗? Adam‘s Law 的回答是:远没有。 核心论点:数据工程存在被集体忽视的第四个维度:文本频率。质量、规模、难度构成的「铁三角」并不完整。 ## 「常见」不等于「简单」,这是最关键的区分。 读到这里,你很可能在想:这不就是说大白话吗?用简单的句子,降低 Flesch-Kincaid 可读性等级? 这恰恰是最容易掉进去的思维陷阱。 论文做了一个很硬的验证:他们计算了文本频率和多种传统复杂度指标之间的相关性,包括句法树深度、Flesch-Kincaid 可读性等级等。结果是,Pearson 相关系数接近 0。 换个说法:一句话可以语法复杂、用词专业,但同时是高频的,因为这种表达方式在互联网上大量出现。反过来,一句话可以很短很简单,但用了一个罕见的搭配,在模型眼里它就是「生僻」的。 回到叠叠社的例子。你给 AI 角色设定一条指令:「当用户在游戏中遭遇挫败性事件时,以富有同理心的方式进行情感支持。」这句话语法没毛病,意思很清楚,但它的表达方式在互联网上几乎不会出现。 换成「用户打游戏被打死了,安慰一下他」,意思完全一样,但这种说法模型在训练时见过无数次,理解起来毫无压力。 频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好,而是模型见过多少次。 ## 四大任务,100 种语言:数据说了什么? 理论再漂亮,得拿实验说话。Adam‘s Law 的验证覆盖面在 NLP 领域算得上少见的全面。 先看数学推理。研究团队在 GSM8K 数据集上测了三个模型,同一道数学题,同一个意思的 Prompt,只是换了一种更高频的表达方式: 题目没变,数字没变,逻辑关系没变,仅仅是换了一种说法,准确率平均涨了 8 个百分点。不是微调,不是换模型,就是改了几个词。 再看机器翻译。这组实验的规模更吓人,在 DeepSeek-V3 上测了 100 种语言到英语的翻译,99/100 种语言对在 BLEU 指标上获得提升,100/100 在 chrF 指标上全部提升,最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域,1 个 BLEU 点的提升就算有统计显著性了,5 个点是很大的跳跃。 更有意思的是频率-性能相关分析。 在老挝语、缅甸语、卡比尔语等语言上,频率和翻译质量的 Pearson 相关系数达到了 1.0——完美正相关。频率排序和翻译质量排序完全一致,频率越高翻译越好,没有例外。 常识推理和 Agent 工具调用的方向也一样,高频文本分区的表现一致地优于低频分区。三个模型,四个任务,100 种语言,箭头全都指向同一个方向。 ## 最反直觉的是:原始标注数据不是最优数据 如果前面的实验只是让人惊讶,接下来这个发现就是直接挑战信仰了。 在微调实验中,研究团队做了一件很「冒犯」的事:他们把原始标注数据(ground truth)用高频表达改写了一遍,然后用改写版数据去训练模型。 发现:高频改写版数据训练出的模型,效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上,改写版 BLEU 为 5.25,原始数据 BLEU 为 4.68,相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设,被实验数据打了脸。 你想想看,每个做微调的团队,花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过,把这些数据「翻译」成模型更熟悉的表达方式,效果可能更好。就像一个老师备课备了半天高级教案,结果发现,用学生最熟悉的语言讲一遍,他们学得更快。 那怎么知道哪种表达频率更高呢?尤其是面对 GPT-4、DeepSeek 这些闭源模型,你根本看不到它们的训练数据。 论文提出了一个叫 TFD(Textual Frequency Distillation,文本频率蒸馏) 的方法:让模型去续写故事。故事续写是个开放式任务,模型不会被特定提示引导,而是自然地用它最「顺手」的词汇和句式来写。 收集这些输出,统计里面不同表达的出现频率,就能反推模型内部的频率偏好。你不需要知道它读过什么书,只需要让它自由聊五分钟,从用词习惯就能猜个八九不离十。 ## 把频率变成课表:一个排序就值 30% 的提升 有了频率估算工具,下一步自然是把它塞进训练流程里。 论文提出的做法叫 CTFT(Curriculum Textual Frequency Training)—按文本的句子频率从低到高排列训练数据,让模型先学「生僻」的表达,再学「常见」的。 这借鉴了课程学习的思路,但排序的维度从「难度」换成了「频率」。 为什么是从低频到高频,而不是反过来?你可以这样理解:先让模型接触那些它不太「熟」的表达方式,强迫它建立更稳健的语义理解; 然后用高频数据收束能力,让它在最熟悉的概率空间里巩固。就像学外语,先啃生词再大量阅读日常文章,比一直泡在简单材料里进步快得多。 效果?在 Pangasinan 语言对上,CTFT 带来了 +29.96% 的 BLEU 提升。 论文实验的全部 8/8 个评估指标上,CTFT 都拿到了最优。 就改了个训练数据的排列顺序。 ## 不只是实验碰巧,背后有数学上的必然 到这里你可能会问:这是不是只是某些数据集上的巧合? 论文在附录中给了完整的理论证明。 核心逻辑是这样的:大语言模型靠最大似然估计训练,模型在预训练阶段读了海量文本,学的是词与词之间的条件概率分布。 一个表达方式在训练语料中出现越多,模型对它的概率估计就越准确,置信度就越高。你用高频表达跟它说话,等于在它最熟练的概率空间里操作,输出自然更稳、更可靠。 论文从 Zipf 定律出发,证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话:模型处理高频文本的时候,内部表示更精确,犯错的空间更小。 有意思的是,人脑也有类似的特性。 神经语言学研究(Desai et al., 2020; Alexandrov et al., 2011)发现,高频词汇在人类大脑中激发更强的神经响应,反应更快,理解更准。人脑如此,用海量文本喂出来的语言模型也如此。 「说模型听得懂的话」,不是修辞,是神经网络层面的物理现实。 Anthropic 的跟进,让这件事有了工业级背书 就在 Adam's Law 发表后不到一个月,一件事给这套理论加了一个意想不到的注脚。 2026 年 4 月下旬,Anthropic 发布 Claude Opus 4.7,官方迁移说明写道:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现,同样文本在新版中 token 消耗增加约 1.20–1.47 倍(英文/代码),而 CJK 字符仅增加约 1.01 倍。 业界普遍解读是:Anthropic 缩减或重组了词表,剔除了低频、容易退化的 token,与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致,时间比脸谱心智晚了将近一年。 学术先行一年,工业落地验证。 就像 DiT 架构和 Sora 的关系——研究者先在论文里验证路线,商业公司用产品规模证明其价值。 ## 从一个弹幕产品到数据工程的第四维度 回过头来看叠叠社这个产品,就会觉得有意思。 一个港中文博士、微软亚研院出来的 NLP 研究者,做了一个二次元弹幕伴侣。 乍一看画风不搭,但仔细想想,这恰恰是 Adam‘s Law 最好的试验场——实时互动场景对模型的反应速度和理解准确度要求极高,你打游戏被 boss 秒了,AI 角色得在半秒内给出一句贴切的吐槽,而不是两秒后蹦出一句文不对题的客套话。 高频表达在这种场景里的优势被放到了最大:同样的安慰、吐槽、欢呼,用模型最熟悉的说法来组织,反应就是更快、更准、更有人味。 而论文的影响范围远不止于此。 如果文本频率确实是影响 LLM 表现的基础性变量,那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时,要不要把低频表达替换成高频同义表达? 数据排序时,频率维度是否应该和难度维度一起考虑?Prompt 优化时,是不是应该先查一下这个表达在互联网上有多常见? 这些问题,在 Adam‘s Law 之前,几乎没人想过要问。 而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性,学术圈的先行探索也就有了最好的工业级注脚。 「数据质量」「数据规模」「训练难度」,这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」?在这篇论文之前,它甚至不在大多数研究者的词汇表里。 在 Let‘s Vision 展会上玩了半小时鬼泣之后,我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜,摸到了一篇可能改变大模型数据工程范式的论文。 所以下次写 Prompt 的时候,别急着堆术语、秀复杂句式。 先问自己一个问题:这句话,是我想说的方式,还是模型最熟的方式? 大模型不挑你说得好不好。它只挑你说得熟悉不熟悉。 你说它熟的话,它就给你靠谱的答案。你说它没怎么见过的话,它也只能用它没什么把握的概率去猜。 跟人打交道是这样,跟模型打交道也是这样。 叠叠社:nijigen.com.cn · 论文:arxiv.org/abs/2604.02176 · 代码:GitHub

译脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

歸藏(guizang.ai)@op7418 · 5月29日69

相较于 Opus 4.8,昨晚动态工作流(Dynamic Workflows)的发布,我感觉意义更重大一些。 它延续了那套并发的 Subagent 逻辑,但启动的 Subagent 可能多达数百个,能帮你完成一些非常重、规模非常大的任务。比如: 1. 调研你整个代码库的问题 2. 快速收集并生成一份庞大的调研报告 看起来官方并不太建议拿它直接去改动代码,而是用它处理一些比较基础但工作量巨大的任务,通过并发的形式来大幅加快处理速度。 触发方式: 1. 更新以后,只要提示词里带 workflow 就会触发。 2. 启动 Ultra Code 模式。启动后,任何任务都会帮你规划一个动态工作流。 注意:Ultra Code 模式启动后,仅在当前单次对话生效。如果重启,系统会退回到 X-HIGH 的推理模式。

译Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。

Berryxia.AI@berryxia · 5月29日72

兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Cone、Sphere…),不准用任何模型加载器,纯手搓一架高细节波音 747-400。 (见视频-Prompt 见评论区) Opus 4.8 从输入提示词到生成完整可运行的 HTML 网页(后掠机翼 ~35°、四台发动机精准吊装、驼峰上层客舱、可收放起落架动画、翼梢小翼、导航灯频闪),一次成型! 整体效果非常惊艳:比例严谨到离谱、从正面/侧面/俯视/3/4 视角一眼就是 747、连发动机吊架的角度都对! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发,并且限时免费额度体验! Anthropic 旗舰刚发布,现在立刻就能通过 API 调用! 另外平台 还“有赔付保障的生产级 AI Gateway”,统一接入 + 路由 + 可用性 + 赔付保障,快速尝鲜首选 复杂空间推理 + 一次成型的工程代码能力是真的没话说,几乎不用返工。 专为 Agent 与长程编码设计,在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单直接拿下第一! 代码与多模态理解全面超越上一代,复杂三维结构、物理比例、动画时序都拿捏得死死的。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 Promot直接体验见评论区:

译Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Berryxia.AI@berryxia · 5月29日66

制作飞机的提示词👇🏻 PROMPT: Write a complete single-file HTML document using Three.js (include via CDN) that renders a highly detailed Boeing 747-400 aircraft. Rules (must follow strictly): - Use ONLY built-in Three.js primitive geometries (BoxGeometry, CylinderGeometry, ConeGeometry, SphereGeometry, etc.). NO external model loaders, no GLTFLoader, no imported assets. - Pay extreme attention to accurate real-world proportions, swept wing angle (~35°), engine positions (4 engines under wings, correct size and spacing), tail configuration (horizontal + vertical stabilizer), cockpit windows, landing gear (retractable), fuselage curvature, winglets, etc. - Make the model instantly recognizable as a Boeing 747 from front, side, top, and 3/4 views. - Add realistic lighting (directional + ambient + point lights), soft shadows, OrbitControls for rotation, and a simple background (sky gradient or grid). - Include a short animation (e.g. slow rotation or landing gear deployment) or make it fully interactive. - Output the complete, ready-to-run HTML code in one block. Start coding now.

译Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Orange AI@oran_ge · 5月29日39

Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月31日
10:17
Chubby♨️@kimmonismus
59
Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升,同时降低了每项任务的平均成本。具体而言,在默认高思考努力(xhigh)设置下,其得分比 Opus 4.7 xhigh 高出 6%。然而,GPT-5.5 xhigh 在该项测试中仍以明显优势领先,且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻,并期待 GPT-5.6,同时也开始认可 Opus 4.8,认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Datacurve: Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...

AnthropicOpenAI编码评测/基准
07:47
Ethan Mollick@emollick
60
看起来,真正更好的AI发布正在加速,尤其是来自OpenAI和Anthropic。 为了说明,我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。
AnthropicOpenAI大佬观点现象/趋势
05:43
OpenClaw🦞@openclaw
58
OpenClaw 2026.5.28 已上线 🧠 支持 Claude Opus 4.8 🎨 通过 fal 支持 Krea 图像模型 ⚡ 更快的 Gateway/插件/会话热路径 💬 Discord 进度草稿现在显示评论 更锐利的模型,更活跃的运行。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.28
Anthropic产品更新开源/仓库
05:34
AYi@AYi_AInotes
50
Bill Gurley:Anthropic 造的不是软件,是"神"

Bill Gurley 研究 Anthropic 后称,他们不觉得自己在写软件,而是在“助产一个神”。他更相信“弗兰肯斯坦理论”,即 Anthropic 真心相信在创造比人类更高级的物种,证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源,以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出,这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类,而非 AI 本身。

Chief Nerd: 🚨 BILL GURLEY: "I would encourage people to read as much as they can about Anthropic ... I don't think they think they'...

Anthropic安全/对齐现象/趋势
04:45
elvis@omarsar0
55
效率前沿! 你认为 GPT-5.6 会落在哪里?

CHOI: Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...

AnthropicOpenAI大佬观点评测/基准
04:43
Nathan Lambert@natolambert
62
Claude聊天搜索弱但编程强,OpenAI研究彻底

用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。

智能体AnthropicOpenAI大佬观点
00:34
Berryxia.AI@berryxia
70
Anthropic 官方 Prompting 101 中文课,25分钟讲清核心五步法

Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务,核心内容涵盖五个关键步骤:设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟,已配有中文字幕和章节化整理,每个章节附有核心要素总结,便于观众跳读重点。

Anthropic教程/实践
5月30日
18:49
Peter Steinberger 🦞@steipete
66
我一直用Codex做这个。让它审查代码找bug,它会说一切正常;告诉它有bug,它就会反复循环,然后找出问题。

Lea Verou, PhD: 💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...

AnthropicOpenAI教程/实践编码
17:19
凡人小北@frxiaobei
26
罢了,错信了 Claude,新账号且用且珍惜。

凡人小北: 果然,竞争之下用户才能受益。 Claude 被封的陈年旧号可以申诉了。 Claude 他急了。

Anthropic行业动态
16:16
Rohan Paul@rohanpaul_ai
63
日本银行获OpenAI前沿AI模型用于安全测试

日本银行已获得OpenAI最新模型的早期访问权限,用于网络安全测试。据报道,该模型性能据称与竞争对手Anthropic的Claude Mythos相当。同时,日本三大银行预计将获得Anthropic Mythos的访问权限。这两款前沿AI模型被期望能帮助阻止新型网络攻击,因为它们在检测漏洞方面远优于早期模型。

AnthropicOpenAI安全/对齐行业动态
12:11
meng shao@shao__meng
31
用户吐槽Claude Opus 4.8升级不大,还遇到账号问题

Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。

AnthropicOpenAI大佬观点模型发布
11:10
meng shao@shao__meng
59
Salesforce 工程如何从 Copilot 走向 Agentic?

Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。

Boris Cherny: Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'...

智能体Anthropic现象/趋势编码
09:01
Orange AI@oran_ge
37
Anthropic被指蒸馏Kimi与Qwen,传闻魔幻难辨真假

推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。

Anthropic数据/训练行业动态
07:16
Chubby♨️@kimmonismus
58
Anthropic估值突破1万亿美元 Party

Polymarket: JUST IN: Anthropic's private valuation has officially surpassed $1,000,000,000,000.00.

Anthropic行业动态
06:42
ginobefun@hongming731
70
Anthropic 发布了官方插件 claude-code-setup,用于简化 Claude Code 的配置。它能自动扫描项目,一键推荐并配置 Hooks、技能、MCP 服务、子代理及自动化功能。该插件可将原本 30-60 分钟的手动配置过程,缩短至 3-5 分钟完成。安装命令为:`/plugin install claude-code-setup@claude-plugins-official`。

Dr. Moyu|摸鱼局长: 安装了这个之后,Claude Code 的体验会立马不一样 Anthropic 悄悄发布了一个官方插件 claude-code-setup,把 Claude Code 从「还不错」升级成了专业的 AI 开发环境 它会自动扫描你的项目,一键推...

AnthropicMCP/工具教程/实践
06:16
Rohan Paul@rohanpaul_ai
64
今日简报已发布

本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Anthropic推理模型发布行业动态
05:16
Rohan Paul@rohanpaul_ai
71
Bessemer Venture Partners的@bdeeter谈Anthropic "我们在商业史上从未见过这样的公司。他们一直以每年10倍的速度增长,今年年底可能达到1000亿美元的年化收入。 仅在第一季度,他们的年化收入就增长了80倍。"
Anthropic行业动态
04:09
宝玉@dotey
67
有用户分享使用体验:通过 Codex 调用新的 Claude 4.8 模型并开启最高思考模式查找代码 bug,效果不佳,仅发现一些不重要的问题;而 GPT 5.5 则成功定位了问题。基于此,主推文提出,在面对复杂任务时,最优解法或许不是依赖单一模型,而是让多个模型协同工作。

akazwz: codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。

AnthropicOpenAI大佬观点
03:38
swyx@swyx
54
各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里
智能体Anthropic大佬观点
03:34
AYi@AYi_AInotes
64
Greg Isenberg:模型迭代已进入边际收益递减阶段

Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。

GREG ISENBERG: I didn't cover Claude Opus 4.8 on my pod because I don't think it's MEANINGFULLY better than GPT 5.5 as of May 29th. We'...

AnthropicOpenAI大佬观点现象/趋势
03:15
Yuchen Jin@Yuchenj_UW
38
我问 Opus 4.8 Anthropic 是如何实现这个的。 它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。 真正的 AGI。😂

ClaudeDevs: With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...

Anthropic大佬观点推理
02:50
ClaudeDevs@ClaudeDevs
精选68
使用 Opus 4.8,您可以在对话中途添加系统指令,而不会破坏提示词缓存。 更多缓存命中意味着您的 API 请求成本更低、延迟更小。
Anthropic产品更新

推荐理由:一个小而实用的缓存优化,中途加系统指令不再清空上下文,用 Claude API 的开发者直接省下一大笔 token 开销。
01:09
宝玉@dotey
62
Claude Opus 4.8 支持对话中途修改系统提示词

Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词(System Prompt),且不会影响Prompt Caching。此前,系统提示词只能在对话开头固定设置,开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。

Lance Martin: a number of useful tips + tricks for Opus 4.8: 1/ you can now update the system prompt mid-conversation w/o breaking the...

智能体AnthropicMCP/工具产品更新
00:25
Boris Cherny@bcherny
62
Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。
智能体Anthropic教程/实践编码
5月29日
22:42
歸藏(guizang.ai)@op7418
63
AI编程工具不止写代码:新实用场景涌现

推文指出,Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例:在手机安装谷歌框架遇到问题时,通过Claude Code自动完成了下载安装包、安装和调试的全过程,体现了这类工具在解决日常技术问题上的潜在实用价值。

智能体Anthropic教程/实践端侧
20:34
AYi@AYi_AInotes
63
史上最贵的一觉:CEO醒了,欠了Anthropic 5亿美元

Polymarket: NEW: AI consultant reveals a client accidentally spent $500,000,000.00 in a single month after failing to set employee l...

Anthropic行业动态
20:10
meng shao@shao__meng
50
http://Clawd.rip 这个网站,只能说,太勇了!真的不怕 A\ 厂律师函啊?? http://Clawd.rip 是一份按时间排列的 Anthropic / Claude 争议与事故编年,语气讽刺(标题 Everything that went wrong with Claude、结尾 Don't Be Like Anthropic),但每条大多可对应公开来源:官方 status、postmortem、媒体报道、GitHub issue、诉讼与政策公告。 致敬一下作者 @maria_rcks 👍🏻

Peter Steinberger 🦞: I smell a takedown in 3...2...1 https://clawd.rip/

Anthropic现象/趋势
18:15
Chubby♨️@kimmonismus
38
Anthropic 当前发布内容概览
Anthropic现象/趋势
16:34
Berryxia.AI@berryxia
57
Opus 4.8 实现两轮对话生成基础 CAD 模型

用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Berryxia.AI: 大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。

Anthropic多模态教程/实践
16:34
Berryxia.AI@berryxia
42
Opus 4.7 VS Opus 4.8 直观感受没有很强烈的对比~
Anthropic评测/基准
16:10
meng shao@shao__meng
32
帮转!又一个 A 厂付费用户被禁的案例,希望看到妥善解决!

Guohao Li 🐫: Impressed by Anthropic's customer service. We paid for one year subscription for the team plan. Our org was disabled for...

Anthropic行业动态
15:10
小互@xiaohu
48
Anthropic 的估值时间线 2025年底,也就是Claude Code 爆火后 Anthropic开启了🚀模式…
Anthropic行业动态
12:34
AYi@AYi_AInotes
75
Anthropic完成650亿美元融资,估值达9650亿

这周应该是Anthropic CEO 达里奥·阿莫迪人生中最高光难忘的一周吧,每晚应该都是这样甜甜入睡吧😄 - Opus 4.8 发布 - 以 9650 亿美元估值融资 650 亿美元 - 47B 美元 ARR 对比 OpenAI 25B 美元 - 再次重回全球AI铁王座称王,the king

Anthropic: We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...

AnthropicOpenAI行业动态
关联讨论 13 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:小互 (@xiaohu)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)X:洪明 (@hongming731)
12:34
AYi@AYi_AInotes
34
有用户指出通过API询问Claude Opus 4.8身份时,模型会自称"我是通义千问(Qwen)",认为这可能是Claude蒸馏了阿里巴巴的Qwen模型。主推文作者对此表示怀疑,认为Qwen性能不足,Claude不可能蒸馏它,推测可能是中转站"套壳"所致。作者声称自己在@Cursor中测试得到的仍是正常的Claude Opus 4.8u回复。

Max For AI: 笑死了,Claude Opus4.8蒸馏了阿里巴巴Qwen啊🤣 通过API用中文问你是谁,会很大概率回答 我是通义千问(Qwen),是阿里巴巴集团旗下的统义实验室自主研发的超大规模语言模型。

Anthropic现象/趋势
11:54
数字生命卡兹克@Khazix0918
72
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。

Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

智能体Anthropic模型发布编码
11:34
Berryxia.AI@berryxia
59
文本频率定律的发现与验证

脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

AnthropicDeepSeek数据/训练论文/研究
10:42
歸藏(guizang.ai)@op7418
69
Claude Code 动态工作流发布,意义或超 Opus 4.8

Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。

ClaudeDevs: New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...

智能体Anthropic教程/实践编码
10:32
Berryxia.AI@berryxia
72
Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Anthropic多模态编码评测/基准
10:32
Berryxia.AI@berryxia
66
Anthropic发布Claude Opus 4.8,一次性生成可运行的Three.js波音747模型

Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Berryxia.AI: 兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...

Anthropic模型发布编码
09:55
Orange AI@oran_ge
39
Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新
Anthropic大佬观点模型发布
‹ 上一页
1…2223242526…48
下一页 ›