Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...
Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...
Bill Gurley 研究 Anthropic 后称,他们不觉得自己在写软件,而是在“助产一个神”。他更相信“弗兰肯斯坦理论”,即 Anthropic 真心相信在创造比人类更高级的物种,证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源,以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出,这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类,而非 AI 本身。
🚨 BILL GURLEY: "I would encourage people to read as much as they can about Anthropic ... I don't think they think they'...
Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...
用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。
Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务,核心内容涵盖五个关键步骤:设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟,已配有中文字幕和章节化整理,每个章节附有核心要素总结,便于观众跳读重点。
💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...
日本银行已获得OpenAI最新模型的早期访问权限,用于网络安全测试。据报道,该模型性能据称与竞争对手Anthropic的Claude Mythos相当。同时,日本三大银行预计将获得Anthropic Mythos的访问权限。这两款前沿AI模型被期望能帮助阻止新型网络攻击,因为它们在检测漏洞方面远优于早期模型。
Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。
Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。
Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'...
推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。
JUST IN: Anthropic's private valuation has officially surpassed $1,000,000,000,000.00.
安装了这个之后,Claude Code 的体验会立马不一样 Anthropic 悄悄发布了一个官方插件 claude-code-setup,把 Claude Code 从「还不错」升级成了专业的 AI 开发环境 它会自动扫描你的项目,一键推...
本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。
codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。
Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。
I didn't cover Claude Opus 4.8 on my pod because I don't think it's MEANINGFULLY better than GPT 5.5 as of May 29th. We'...
With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...
Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词(System Prompt),且不会影响Prompt Caching。此前,系统提示词只能在对话开头固定设置,开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。
a number of useful tips + tricks for Opus 4.8: 1/ you can now update the system prompt mid-conversation w/o breaking the...
推文指出,Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例:在手机安装谷歌框架遇到问题时,通过Claude Code自动完成了下载安装包、安装和调试的全过程,体现了这类工具在解决日常技术问题上的潜在实用价值。
NEW: AI consultant reveals a client accidentally spent $500,000,000.00 in a single month after failing to set employee l...
I smell a takedown in 3...2...1 https://clawd.rip/
用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。
大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。
Impressed by Anthropic's customer service. We paid for one year subscription for the team plan. Our org was disabled for...
这周应该是Anthropic CEO 达里奥·阿莫迪人生中最高光难忘的一周吧,每晚应该都是这样甜甜入睡吧😄 - Opus 4.8 发布 - 以 9650 亿美元估值融资 650 亿美元 - 47B 美元 ARR 对比 OpenAI 25B 美元 - 再次重回全球AI铁王座称王,the king
We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...
关联讨论 13 条Artificial Intelligence News(RSS)TechCrunch:AI(RSS)Anthropic:Newsroom(网页)X:小互 (@xiaohu)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)X:洪明 (@hongming731)笑死了,Claude Opus4.8蒸馏了阿里巴巴Qwen啊🤣 通过API用中文问你是谁,会很大概率回答 我是通义千问(Qwen),是阿里巴巴集团旗下的统义实验室自主研发的超大规模语言模型。
Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。
脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。
Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。
Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。
兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...