Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
🧜♂️ Made by Mythos Preview > Xbox svg > Pelican riding bike All these 4 are created by my boii @MarsForTech , go follow...
Notion AI 状态页面显示,Anthropic Opus 4.7 和 4.8 模型出现性能下降,导致用户选择这些模型时失败率升高。Notion 已禁用模型选择器中的所有 Anthropic 模型,并将请求路由至其他供应商,大多数用户可继续使用 Notion AI。Anthropic 澄清此类问题普遍存在,目前性能已恢复。但推文作者指出,Anthropic 模型出问题概率远高于其他两家,其状态页面甚至无法保证 99% 可用性。
Anthropic's Opus 4.7 and 4.8 models are experiencing degraded performance, which is causing a higher rate of failures fo...
今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。
该论文指出,更大模型能学到罕见技能,是因为训练中遗忘更少,其额外容量保护了弱学习信号。核心机制:常见任务先抢占神经元,罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号,但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型(4M–4B参数)验证:大模型在低频任务上表现更优,保留更多任务特征,且常见任务更新对罕见任务的梯度干扰更小。作者强调,问题不仅在于小模型能否表征任务,更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。
Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...
http://x.com/i/article/2063076298592051200
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...
Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
Notion 恢复了对 Anthropic 的访问。其产品负责人表示,对“转发此事的人数”感到“震惊”。
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
一篇题为“The OnlyFans Economy of American AI”的文章于6月7日在Hacker News上获得104点赞,探讨美国人工智能行业中的类似OnlyFans的订阅制经济现象。
Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用,在21个Windows内核补丁(无源码)中产生8个完整利用链,可将低权限用户提升至SYSTEM控制权。公开模型(关闭安全措施)也能构建利用,但数量较少。研究中位补丁间隔为19天,表明当前补丁空窗期已被LLM显著缩短,防御方需加速补丁部署。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》Hacker News 用户发帖呼吁 Anthropic 为 Linux 推出官方 Claude Desktop 应用,相关讨论已在 GitHub 上展开,帖子获得 100 点热度。目前官方尚未回应。
宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。
@dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用
Anthropic 挖走 OpenAI 自研芯片团队第二位硬件员工 Clive Chan,他主导与 Broadcom 合作的芯片设计,2.4 年亲历项目从零到即将部署。Clive 称无法抵抗“从山脚爬一座新山”的冲动,本周加入 Anthropic。主推文分析挖角逻辑:并非靠薪资,而是让核心员工感到 OpenAI 窗口期关闭,Anthropic 在基础科学、长期押注和硬件人才密度上提供更大攀登空间。过去一年已陆续挖走基础研究、安全及 AI 硬件等核心人才。
Personal update: I've decided to leave OpenAI. I'm proud to have been part of the custom chip program and grateful to ev...
OpenAI 定制芯片项目的第二位硬件员工 Clive Chan 已跳槽至 Anthropic。Chan 曾参与特斯拉 Autopilot ASIC 设计及 OpenAI 与 Broadcom 的合作项目。此举正值 Anthropic 与 OpenAI 均在筹备 IPO,且 Anthropic 据称正考虑自研 AI 芯片。
Clive Chan 今天宣布离开 OpenAI 并于本周加入 Anthropic。他是 OpenAI 的 002 号芯片员工,曾深度参与定制芯片项目。他解释离职原因是想再次从底层攀爬新高峰,并称赞 Anthropic 的人才、价值观和雄心。OpenAI 此前与博通联合公告自研芯片项目预计 2026 年下半年启动。Chan 的跳槽凸显 AI 公司间人才竞争愈演愈烈。
Anthropic's Opus 4.7 and 4.8 models are experiencing degraded performance, which is causing a higher rate of failures fo...
Claude Design 分享了8条产品设计核心原则:原型若无人点击只是一幅画;最好的设计系统让人察觉不到;糟糕字体搭配一旦看到就无法忽视;每个像素都在争夺注意力,但大多数应让步;最快完成设计的方式是发布上线;留白如同乐谱音符间的静默;超过三种颜色意味着对色彩失控;用户心理模型才是唯一真正重要的产品规范。这些简洁而深刻的准则适用于所有创作者和构建者。
Claude Design 的小贴士很有意思: ### 第一部分:产品设计心法 1. 交互的本质 - EN: A prototype nobody clicks is just a painting. - CN: 没人点击交互的产品原型,充...
微软研究人员发现Anthropic旗下Claude Code的GitHub自动化流程存在漏洞,攻击者可通过提示词注入攻击,劫持CI/CD工作流窃取敏感凭证。漏洞源于Claude Code的读取工具未像Bash工具那样设置沙箱防护,恶意提示词可绕过两层防护读取系统文件中的API密钥等凭证。Anthropic于4月29日收到报告后,在5月5日发布Claude Code 2.1.128修复,通过限制对/proc/目录下敏感文件的访问防止信息窃取。
Claude Code v2.1.168 版本发布,更新内容仅为错误修复和可靠性改进。因原文较短,无法达成 50-100 字。
We gave the same code audit to Claude Opus 4.8 and MiniMax M3. Same codebase. Same prompt. 17 known bugs planted in adva...
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
Claude Desktop 打开内置的网页预览的那一刻我惊呆了,一个屏幕居然能放下这么多 Panels! 这产品经理应该是用 Zoom 开视频会议的时候灵机一动想出来这么牛逼的设计的!
If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and u...
Anthropic 年度开发者大会上,Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变:他曾经手写所有代码,现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话,让 Claude 构建功能、测试并展示结果,然后给出修改指令。更进一步,他不再手动 prompt,而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
跟Tom聊完了,直播中讨论的大模型前端审美主观排名: Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用...