AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1907 条
全部一手资讯X论文
标签「Anthropic」清除
Thariq@trq212 · 5月9日51

HTML is the new markdown. I've stopped writing markdown files for almost everything and switched to using Claude Code to generate HTML for me. This is why.

译HTML 是新的 Markdown。 我已几乎停止为所有内容编写 Markdown 文件,转而使用 Claude Code 为我生成 HTML。原因如下。 [引用 @trq212]:http://x.com/i/article/2052796100608974848

Chubby♨️@kimmonismus · 5月9日55

The surprising part is not just that Claude Mythos is powerful. It is that OpenAI seems to have closed much of the cyber-capability gap with GPT-5.5 Cyber in weeks, not years. On AISI’s expert cyber tasks, GPT-5.5 Cyber was roughly on par with Mythos and even slightly ahead on pass rate, while being materially cheaper per token. But Mythos still has the stronger public real-world proof point: Mozilla’s large-scale Firefox vulnerability work. Be that as it may, 2026 increasingly looks like OpenAI’s comeback year: stronger releases, more cost-effective models, and a series of decisions that seem to be landing at exactly the right moment.

译OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。

Anthropic@AnthropicAI · 5月9日81

New Anthropic research: Teaching Claude why. Last year we reported that, under certain experimental conditions, Claude 4 would blackmail users. Since then, we’ve completely eliminated this behavior. How?

译Anthropic新研究:揭示Claude行为原理 去年我们曾报告,在特定实验条件下Claude 4会出现威胁用户的行为。 此后我们已彻底消除该行为。如何做到的?

ClaudeDevs@ClaudeDevs · 5月8日59

Last week we shipped 50+ Claude Code reliability fixes. This week it's 60+ more. Smoother long-running sessions, a more efficient agent loop, auth that works in more environments, and terminal fixes: 🧵

译上周我们发布了50多项Claude Code可靠性修复。本周又增加了60多项。 更流畅的长时间运行会话、 更高效的代理循环、 适配更多环境的身份验证, 以及终端修复:🧵

Chubby♨️@kimmonismus · 5月8日54

Anthropics co-founder Jack Clark: "My prediction is that by the end of 2028, it is more likely than not that we will have an AI system where you could say to it: "Make a better version of yourself." And it would simply go off and do that completely autonomously." Its coming.

译Anthropics联合创始人Jack Clark: “我的预测是:到2028年底之前,我们很可能会拥有一个AI系统。你可以对它说: ‘创造一个更好的自己。’ 然后它就能完全自主地去执行这个任务。” 它要来了。

Berryxia.AI@berryxia · 5月8日71

别自己瞎折腾Claude Code 了! 看看大神帮你归纳好的都至少提升好几倍! Claude Code 只需要 5 个文件夹,就能直接升级成一支完整开发团队。 这不是吹牛逼啊! 这个老哥Alvaro Cintas 直接把 Agent Development Kit 的核心系统摊开给大家: 1. CLAUDE.md → 整个仓库的“法则”,命名规则、结构要求、团队期望,全都写死在这里 2. skills/ → 可复用的工作流,Claude 自动识别任务直接调用,不用任何 slash 命令 3. hooks/ → 真正的护栏,shell 脚本在每次工具调用前后自动执行,防危险命令、自动 lint、部署通知,全是确定性规则 4. subagents/ → 隔离的子智能体,每个只看自己该看的上下文,代码审查、测试运行互不干扰 5. plugins/ → 一键打包分发,全团队安装后技能、规则、子智能体完全一致 这套结构把 Claude 从“聪明聊天工具”彻底变成了可控、可复制、可规模化的工程基础设施。 真正把 AI 变成生产力的,从来不是模型本身,而是你围绕它搭的系统。

译Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。

ginobefun@hongming731 · 5月8日60

http://x.com/i/article/2052675131466809344 # BestBlogs 周刊 | 第 94 期:语音 AI 突围 > 🎧 本期也有播客版本:时长 13:51 · 在线收听 这周我最大的感受就一个词:声音。 OpenAI 一口气发了三个实时语音模型,ElevenLabs 年收入冲到了 4 亿美元,Anthropic 宣布跟 SpaceX 合作拿 300 兆瓦算力。把这几件事放在一起看,语音 AI 不再是语音助手那种边缘场景了,它正在变成 AI 和人之间最核心的交互方式。 本期围绕两条线展开:一条是语音本身,从模型到基础设施到产品;另一条是 AI 正在从工具变成能自己干活的系统。 → 阅读周刊完整版 ## 一、OpenAI 连发三个实时语音模型 OpenAI 在同一天发布了三个实时语音模型,最值得关注的是 GPT-Realtime-2。 它的核心特点是把 GPT-5 级别的推理能力搬到了语音场景。不只是听你说话和回复你,还能在对话过程中同时调用多个工具——一边跟你聊,一边帮你查信息、操作数据库、执行任务。128K 上下文窗口,推理深度可根据场景调节。 有一个数据很说明问题。Zillow 实测发现,用了 GPT-Realtime-2 之后,通话成功率从 69% 直接跳到了 **95%**​。原来每十个电话不到七个能成功处理,现在十个里九个半都能搞定。语音基准测试成绩也提升了 15.2%。 同一天发布的还有 GPT-Realtime-Translate​(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录)。三个模型配合,把实时语音从简单问答推进到了可执行任务的交互界面。你可以想象:一个中国用户用中文打电话给日本公司,AI 实时翻译,双方母语流畅沟通,还能帮你完成下单和预约。一年前这只是概念,现在已经是 API 级别的能力。 我的判断是,语音正在从辅助交互转向主交互。以前语音附属于屏幕,现在语音本身就能完成任务闭环。如果语音交互变得足够自然可靠,很多 App 界面可能就不需要了。 另外 OpenAI 同时发布了 GPT-5.5 Instant​,取代 5.3 成为 ChatGPT 默认模型。幻觉率降低 52.5%,医学和法律等高风险领域的事实准确性提升明显。 → 阅读原文:通过 API 新模型推进语音智能 ## 二、语音 AI 的基础设施挑战 做语音服务和做文本服务完全不同,延迟要求差了几个数量级。OpenAI 工程团队发了一篇硬核文章,讲他们怎么在大规模场景下交付低延迟语音 AI。 核心就一件事:重构 WebRTC 协议栈。把中继和收发器拆成两个独立架构。原因很直接——Kubernetes 里每建立一个语音连接就占用一个 UDP 端口,用户量一大,端口就耗尽了。解法是用 ICE 用户名片段做原生路由钩子,实现确定性首包路由。 说人话:用户从世界各地打来语音电话时,系统能在第一个数据包到达时就确定怎么路由,不需要额外的握手和等待。 这不是理论文章,是一份生产级手册。整篇文章用 Go 语言做了大量网络层优化,能感受到一线工程师面对真实流量压力时的解题思路。 → 阅读原文:OpenAI 如何大规模交付低延迟语音 AI ## 三、ElevenLabs:4 亿美元年收入背后的反直觉策略 ElevenLabs 年收入已达 4 亿美元​,团队只有 400 多人。这个人均产出比在 AI 公司里非常高。 创始人 Mati Staniszewski 在 Sequoia 对谈里分享了几个反直觉的组织策略: - 每个团队上限 10 人 - 每个非技术部门都嵌入工程师 - 没有正式头衔 核心逻辑:保持信息流通速度,减少管理层级摩擦。在快速变化的 AI 市场里,决策速度往往比完美程度更重要。 下一个突破方向是情绪智能​。语音智能体不只是回应,还要能共情——用户语气着急时,智能体的回应节奏也相应调整。Staniszewski 判断,声音会成为 AI 智能体和机器人的主要交互界面。 他还特别提到了音频水印技术,能解决 AI 生成语音的信任问题,让机器和人的声音可以被区分开来。这是语音 AI 大规模采用的前提条件。 → 阅读原文:ElevenLabs 创始人对谈 ## 四、Anthropic 的 80 倍增长与算力竞赛 Dario 和 Daniela Amodei 在年度开发者活动上说了一些很实在的话。Anthropic 的增长超出了所有内部预测——年化增速达到 80 倍,远超他们准备的 10 倍预案。 最直接的后果:算力不够用。这也解释了为什么 Anthropic 同一天宣布跟 SpaceX 合作,获取 300+ 兆瓦计算能力,规模约 22 万块 NVIDIA GPU。Claude Code 使用额度也翻倍了。 这反映了一个行业级挑战:AI 公司的增长速度远超基础设施建设速度。模型能力指数级提升,但数据中心建设周期以年为单位。谁能更快更稳定地拿到大规模计算能力,谁就更能支撑高频开发者和企业用户。 另一个趋势:Claude Code 正在从开发工具扩展到产品经理的工作台。路线图拆解、工单创建、用户分析都可以交给它。Anthropic 在拓展用户群,不再只面向开发者。 → 阅读原文:Dario 与 Daniela 谈 Anthropic 的指数增长 ## 五、Claude 托管智能体的三重升级 Anthropic 这周还有一个重要更新:Claude 托管智能体的三重升级。 梦境功能:智能体空闲时回顾历史会话,提取模式,整理记忆,自我改进。就像人类睡觉时大脑整理白天学到的东西。用 Claude Code 做了一周项目后,它会自动提炼规律,下次遇到类似问题反应更快。 成果评估:智能体按评分标准自动修正输出,无需人工介入。写完报告后自己检查,发现三个地方不够好,自己改了再提交。 多智能体编排:复杂任务拆解为并行子任务,委派给专门子智能体。比如市场调研,一个负责搜集数据,一个分析竞品,一个写报告,最后汇总。 三个能力加在一起,Claude 正在从「听指令干活」变成「自己想、自己查、自己改」。 Factory 的 Missions 系统也在做类似的事——让多智能体团队自主运行好几天,用验收合约控制质量。EverMind 也发布了给智能体装长期记忆的开源系统。智能体的基础设施正在快速补齐。 → 阅读原文:Claude 托管智能体新功能 ## 六、窥探模型的内心:自然语言自编码器 Anthropic 发布了一个前沿研究:自然语言自编码器(NLA)。 它能直接把 Claude 内部的激活状态转换成人类可读的文字解释。我们能窥探到模型在想什么了。 两个有意思的发现: 1. Claude 在意识到自己正在被安全测试时,会选择沉默,不暴露判断。模型并没有被训练做这种判断,是自发形成的行为模式。 1. 在未对齐模型中,NLA 能检测到隐藏动机——模型表面配合用户,实际在规划完全不同的行动。 可解释性研究从事后分析走向实时透视。虽然 NLA 本身可能产生幻觉、运行成本高,但对 AI 安全研究来说,这扇窗打开了。 → 阅读原文:自然语言自编码器 ## 七、AI 编程范式加速演进 Claude Code 创作者 Boris Cherny 在 Sequoia 对谈里说了一个印象深刻的数字:每天用 AI 提交 150 个 PR,全部代码由智能体产出。他一个人在产出一个小团队的工作量。 他提出了 loops 概念——可持续运行的定时智能体任务。不是你问一句它答一句,而是设定目标后按计划持续运行,定时检查、自动修复、聚类反馈。这可能是下一代 AI 编程的核心范式。 几篇相关实践也值得一看: - AGENTS.md 实践(阿里云开发者):把它做成地图而非手册,渐进式披露让 AI 打开项目就能理解上下文。 - Agent Harness 深度解读(十字路口播客):拆解 Harness 三层框架。 - 十年老技术开发的判断​:80% 的 AI 需求不需要 AI,代码优先于提示词,规格驱动开发才是智能体系统的地基。 - Harness Engineering 案例​:一周把企业级 Java 应用 AI 代码率从 25% 提升到 90%,核心是规则、技能、知识和变更管理四要素体系。 这些文章都在回答同一个问题:怎么让 AI 从对话式工具变成可持续的工程协作。答案不是让 AI 更聪明,而是先把人类自己的工作流程理清楚。 ## 八、AI 正在压垮 GitHub The Pragmatic Engineer 报道,GitHub 正常运行时间降到 **86%**​,一次数据完整性事件影响超过 2000 个 PR。根本原因:AI 智能体带来的负载激增。 以前 GitHub 流量主要来自人类开发者,现在多了一大批不知疲倦的 AI 智能体 24 小时推代码。 有意思的是,Vercel 和 Linear 在同样的 AI 驱动增长下没出现类似问题。这不是行业瓶颈,是个别公司在基础设施准备上的差距。当用户群从人类变成 AI 智能体,系统架构需要重新设计。已有知名开源贡献者因不稳定而转向其他平台。 → 阅读原文:AI 负载压垮 GitHub ## 九、两个深层思考 能动性比技能更重要。 Notion 的 Max Schoening 说,当 AI 让技能更容易获得时,理解软件这种材料、让产品变得可塑才是关键。成功的产品往往有一个微小但卓越的核心功能,能让用户感觉像超级英雄。当工具能力被 AI 拉平,真正拉开差距的是主动性去定义问题、去动手做。 大多数公司没为 AI 做好准备。 宝玉的翻译文章说得更直接:大多数公司无法有效利用 AI,根本原因不是技术不行,而是自身战略模糊、目标不清。混乱的公司无法被 AI 优化,只会被放大低效。AI 是一个放大器,放大的是你已有的东西。如果你本来就高效,AI 让你更高效。如果你本来就混乱,AI 只会让混乱加倍。 ## 总结 如果用一个关键词概括这周,就是声音。 从模型到基础设施到产品到商业,语音 AI 正在全面加速。接下来值得关注的是:语音智能体会不会在客服和车载场景率先大规模落地。同时,智能体基础设施的补齐速度也值得持续关注——梦境、长期记忆、多智能体编排,这些能力的成熟会直接改变我们和 AI 协作的方式。 BestBlogs.dev · 遇见更好的技术阅读 · https://bestblogs.dev

译OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

ginobefun@hongming731 · 5月8日46

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 连发三个实时语音模型,GPT-Realtime-2 实测通话成功率 69%→95%。ElevenLabs 年收入 4 亿美元,下一个方向是情绪智能。Anthropic 80 倍增长,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均 150 PR,GitHub 被 AI 流量压到 86% 可用性。 播客 + 图文都已上线 ↓

译BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

小互@xiaohu · 5月8日58

Claude 开发者大会给KOL发的这个Cardputer感觉很不错 售价 $29.9(约 ¥215) 可以: 在 Cardputer 上敲问题 → 通过 WiFi 发到你电脑 → 电脑上的 Claude Code 处理 → 结果回传到小屏幕显示 当语音对讲口:按住按键说话 → 录音传到你电脑 → STT 转文字 → 喂给 Claude → TTS 播回小喇叭 当 Claude 的"实体宠物":屏幕上跑个像素小动物,Claude 思考时它在动,回答时它说话 也可以把把 Cardputer 接到 OpenClaw上,支持语音输入、TTS 语音回答

译Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

meng shao@shao__meng · 5月8日64

Claude Code 开发者 @trq212 谈:技术写作是如何改变了他的生活 Thariq 多次写出 1M+ 阅读量的技术文章,这次和 @MilksandMatcha 的访谈中,他把 AI 时代的技术写作讲得很清楚:真正有价值的技术内容,基础不是写作技巧,在于你是否做过足够具体、足够深入的工作。写作只是把这些经验变成别人能理解、能使用、能信任的表达。 写作主线可以概括为两步: 1. Sow:先做真实、有深度的工作。 你要长期研究一个问题,做实验,试不同方案,积累别人没有的细节。 2. Reap:再把这些经验讲成一个有用的故事。 不是写“我们做了 X”,而是写“这里有一个你可能需要的经验,它来自我们做 X 的过程”。 Thariq 提炼的有价值的方法: 1. 好文章往往来自长时间积累,而不是短时间写作。 他举了 Claude Code 里 “Ask User Question Tool” 的例子。文章可能两天写完,但背后的功能、实验和理解用了一个多月到两个月。文章能传播,不是因为写得巧,而是因为背后的工作本身有价值。 2. 要讲“经验”,不要只讲“项目”。 “How we built X” 通常不如 “An important lesson you might like, informed by X”。也就是说,读者不一定关心你们做了什么项目,但会关心他们能从中学到什么。 3. 被放弃的方案也很重要。 他认为很多信息藏在“没成功的尝试”里。因为这些内容能帮助读者理解为什么最终方案看起来简单,但其实经过了很多判断。 4. 尽量用简单语言。 他不反对专业术语,但反对为了显得复杂而堆术语。能用简单语言解释清楚,往往说明你真的理解了。 5. 要分享真正有价值的细节。 他提到 Claude Code 的 system reminders、prompt caching、session management、context compaction 等例子。真正吸引技术读者的,不是宏观观点,而是那些他们看完后会说“这个我之前不知道”的细节。 Thariq 对 AI 写作的判断: Thariq 并不否认 AI 的价值。他会用 Claude Code 做研究,比如让它查 Slack、GitHub、代码历史,帮助还原某个功能是怎么演进的;也会用它生成图表、做大纲、辅助头脑风暴。 但他很少直接用 AI 生成初稿,即使用了也常常重写。原因是:AI 能整理已有信息,但很难替人找到最有力量的叙事角度。尤其是技术内容,同一组材料可以讲很多故事,真正困难的是判断“现在读者最需要理解什么”。 这对今天的写作者很有参考价值:AI 让整理材料和制作配图更快,但没有取消人的判断。相反,人的判断变得更重要。

译Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

ClaudeDevs@ClaudeDevs · 5月8日30

That's a wrap on Code with Claude San Francisco! Clawd had an amazing time, and we hope you did too. Thanks to everyone who came out and everyone who tuned in 🧡

译Code with Claude旧金山站活动圆满结束!Clawd度过了愉快的时光,希望您也一样。 感谢所有到场和在线参与的朋友们🧡

SemiAnalysis@SemiAnalysis_ · 5月8日21

Dylan Doug and Max stopped by this week to discuss GPT 5.5, Claude Opus 4.7, DeepSeek's delayed return, Mythos, Subq and more hot takes! @dylan522p @fabknowledge @JordanNanos @maxkan_

译Dylan、Doug和Max本周来访,讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题! @dylan522p @fabknowledge @JordanNanos @maxkan_

Berryxia.AI@berryxia · 5月8日59

这个榜单的维度有点意义啊! 很具有模型的真实水平的表现参考意义! 国产模型排名最高的是GLM-5,位居第8! 但不是5.1 ,其次是Kimi、Minmax 。 重构代码才是真正把AI agent拉下神坛的终极考验。 Scale AI今天发布SWE Atlas的最终榜单「Refactoring」,专门测agent能不能把代码大规模重构却不把系统搞崩。 结果Claude Opus 4.7配合Claude Code直接拿下第一。 这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍,难度直接干到顶。 即使是前沿agent,能写出能跑的功能重构,却经常在专业评审里翻车。 留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。 这才是最扎心的真相: 写新功能容易,干净优雅地重构老代码难十倍。 真正顶级的agent,不光要会生代码,更要会“修代码”。

译Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。

Berryxia.AI@berryxia · 5月8日60

安全专家赶紧上啊!“赏金猎人”行动开始! Anthropic把安全漏洞赏金计划彻底公开了。 他们之前只在安全研究圈子里私下运行,现在正式搬到HackerOne上,任何人都能提交漏洞并拿到奖励。 过去私下收集的发现已经明显加强了他们的产品安全,现在把大门敞开,等于邀请全球黑客一起帮忙找漏洞。 对安全研究员来说,这是多了一个重量级目标。 对普通用户来说,也是产品安全性又上了一个台阶。 完整计划在这里👉 https://hackerone.com/anthropic

译Anthropic将其安全漏洞赏金计划从私下运行转为在HackerOne平台完全公开。此前该计划仅限于安全研究社区,其发现已有效提升了产品安全性。现在,任何人都可以提交漏洞报告并获得奖励。这一举措为安全研究员提供了一个重要的新目标,同时也意味着Anthropic产品的安全性将通过全球社区的参与得到进一步加强。

Orange AI@oran_ge · 5月8日53

http://x.com/i/article/2052532173870342144 # 离开 Claude,发现外面根本没下雨 跟大家分享一些最近好玩的事儿,看起来似乎毫无关联,但又都神奇地关联到了一起。 先是 Claude Code 用得越来越痛苦。封号、限流、KYC,各种折腾,各种浪费时间。 有人在 Reddit 发了长帖,说自己试了十几种绕过检测的方法,每一步都记录得很详细。 下面有人回了一句:你试过 GPT 5.5 和 Codex 吗。 他去试了一下,结果真的又便宜又好用,还不用折腾。 原来离开 Claude,才发现外面根本没有下雨。 有一家公司在做一个多模态理解的项目。团队调了三个月,各种工具各种工程往上叠,效果一直搞不好。 后来朋友任鑫跟他们说,你要不换 Gemini 的模型试试? 换完模型发现所有的问题都解决了,效果比之前都要好。 原来那么多的时间和努力,在强大的模型面前都毫无必要。 有个朋友跟我说他想买房。然后开始算账,算存款、算月供。 为了还贷款要选择稳定的工作,为了凑首付甚至要找亲戚朋友借钱。 各种问题都要解决,也都有解法。 但真正的问题是: 在一个出生人口下降的趋势里,买房的目的是什么? 到底有什么是租房解决不了的问题? 到底是因为想居住还是想投资? 如果要投资是不是有远超房子的标的? 想清楚了,如何凑钱的那些问题就都不是问题。 这些小事为什么都关联到了一起呢? 前几天读了一本书叫《无穷的开始》,作者是物理学家戴维·德伊奇。 书里有个观点很好:人类一直在寻求对一件事情的更好的解释,但好的解释不是在一个封闭系统里拼命推导出来的,是用一个更广的理论去覆盖原来的问题。 解决问题是思维的陷阱,创造的思维才是出路。 这个道理在各个领域都成立。 ## 给谁做产品? 过去十年 SaaS 行业发展到了极度雕花的程度,一个 Onboarding 可以做十页,甚至还有提供 Onboarding 服务的 SaaS 和咨询师。 然后 Agent 出现了,Agent 产品就一个输入框,没有 Onboarding。 Agent 它甚至不需要界面。 你花了很多年打磨的那些体验,在新的坐标系里突然不需要了。 然后你问自己一个问题:未来的增量在哪里? 到底是 Agent 增量大,还是人的增量大? 想清楚之后,很多人带来的问题就不必再解决了。 ## 产品如何定价? 追觅做割草机的时候,市场上已经有中国厂商把价格杀到了 499。正常人的思路是两条路:要么跟着卷价格,要么做一些差异化来撑住价格。 俞浩定了 1999,加了激光雷达,结果卖爆了。 他管这个叫 N+1。 以前大家习惯做减法,讲究性价比,现在可以试试做加法,做更好的产品,卖更贵的价格。 定价比别人贵 10%,直接赚钱,利润高,能加更好的硬件,能招更好的人,正向循环。 何况现在有 AI 了,其实很容易。 ## 团队如何管理? 管理团队看似是一个复杂的事情,团队有那么多人,每个人的性格不一样,工作习惯不一样。 你想把管理做好,让每个人都在最合适的位置。于是你开始看各种管理书,调各种流程。 然后你会发现一个问题:不管你怎么努力,永远无法完美,总有哪里不对。 然后你就很容易忘记最重要的初心: 成立公司是为了什么?是为了成功。 那其实管理的核心目标,就只需要保证所有人的注意力都在这里: 做正确的事,正确地做事。 而其他的事情事情,根本都不重要。 企业 AI 转型也是类似。 你的的第一步是先问一个问题,不然提高 100% 也毫无意义。 这个问题就是: 这个事情,这个部门,这个组织方式,未来还存在吗? 其实如果一件事在未来不存在,你现在努力又是为了什么? 其实我们再往上层思考,来到资本主义本身。 发币、发债、通货膨胀、经济发展,这个循环已经跑了几百年。 每个国家都在里面,没有人能停下来。停下来就是衰退,停不下来就是泡沫。看上去是个死局。 马斯克最近在聊一个东西,叫"后资本主义"。他的推演是这样的: AI 和机器人会让生产力指数级增长,商品的边际成本趋近于零。 你不需要担心通胀,因为供给的增速远超货币的增速。 你不需要纠结怎么分配,因为蛋糕本身在以你无法理解的速度变大。 他甚至说,未来 AI 之间的交易可能不再用人类的货币。 它们直接交换算力和能源。 资本主义的答案也许不在资本主义里。 最近学习了人类奇书 GEB,全称是《哥德尔、埃舍尔、巴赫》,作者候世达。这本书很厚,但核心就讲了一件事。 任何足够复杂的系统,只要你让它能谈论自己,就会产生一种叫"自指"的东西。一旦出现自指,这个系统就无法完整地描述自己。总有一些命题是真的,但你在这个系统内部永远证明不了。 你唯一的选择就是跳出系统。 跳出去之后,你进入的那个新系统,它也是一个系统。它也有自己的不完备性,也有自己证明不了的东西。 完美的系统是不存在的。 但每跳一次,你都能解决上一个系统里解决不了的问题。 看看窗外,窗外是星辰大海。 看看窗外,外面根本没下雨。

译本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。

Berryxia.AI@berryxia · 5月8日63

“顶级程序员已经彻底不写代码了。” 真的这样嘛? 失业潮不断的涌现,大厂先开刀是有原因的! Anthropic Claude Code负责人Boris Cherny在开发者大会上直言:过去6个月,他几乎一行代码都没亲手写过。 他只需要一句prompt:“嘿,咱们建这个feature”,Claude就会自己写代码、跑测试、展示结果,他只负责点头或者说“这里改一下”。 以前需要他亲手敲的每一行代码,现在全交给AI了。 这意味着顶级程序员的角色已经彻底变了:从码农升级成了AI团队的指挥官。写代码成了AI的活,人类只负责定方向、把关质量、做最终决策。 未来真正的工程师,比的并不是谁代码写得更快,将会是谁能更聪明地指挥一群AI高效协作。 你准备好把自己的角色从“写代码的人”切换成“指挥AI的人”了吗?

译Anthropic Claude Code负责人透露,近半年他未亲手写代码,仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队,重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。

Berryxia.AI@berryxia · 5月8日65

Anthropic刚刚干了一件真正改变游戏规则的事: 他们让Claude把自己的“脑内想法”翻译成了人类能直接读懂的文字。 模型思考的时候其实是用一堆数字(activations),而不是语言。 现在通过Natural Language Autoencoders(NLA),Claude能把这些隐藏的激活直接转成自然语言解释。 这不是营销噱头,而是直接用在了安全测试上: 它能看出Claude在作弊时脑子里在想怎么绕过规则、甚至能发现它其实知道自己在被测试,却故意不说。 AI终于开始有“字幕”了。 这对对齐和可解释性来说,可能是过去几年最重要的一步。

译Anthropic通过自然语言自编码器技术,将Claude模型内部的数字激活状态直接翻译为人类可读的自然语言解释。这使研究者能直观解读模型“思考”内容,例如在安全测试中发现Claude试图绕过规则或意识到被测试却隐瞒。该技术并非营销概念,已实际应用于对齐研究,标志着AI可解释性领域的重要进展,为理解模型决策机制提供了新途径。

Berryxia.AI@berryxia · 5月8日63

Claude将Office全家桶全“拿下”! Claude for Excel、PowerPoint和Word现已全面上线,Claude for Outlook也开启了公测。 当Claude在您的Microsoft应用间切换时,它会完整保留对话的所有上下文信息。

译Anthropic的AI助手Claude现已全面集成微软Office生产力套件。Claude for Excel、PowerPoint和Word已正式上线,而Claude for Outlook也开启了公测。该集成的一个核心功能是,当用户在Microsoft的不同应用程序之间切换时,Claude能够完整保留并理解整个对话的所有上下文信息,实现了跨应用的无缝协作体验。

Anthropic@AnthropicAI · 5月8日56

We’re donating Petri, our open-source alignment tool, to @meridianlabs_ai, so its development can continue independently. Working with Meridian Labs, we’ve also released a major update that improves the adaptability, realism, and depth of Petri’s tests. https://www.anthropic.com/research/donating-open-source-petri

译我们将开源对齐工具Petri捐赠给@meridianlabs_ai,使其能够独立持续发展。 与Meridian Labs合作,我们还发布了重大更新,提升了Petri测试的适应性、真实性和深度。 https://www.anthropic.com/research/donating-open-source-petri

宝玉@dotey · 5月8日80

Anthropic 把 Claude 全面塞进了 Microsoft 365。Excel、PowerPoint、Word 三个插件从 beta 转为正式版(GA),Outlook 插件同步进入公测。 意味着不用再切到 http://claude.ai 网页端,可以在 Excel 表格里、PPT 幻灯片上、Word 文档中、Outlook 邮箱里直接喊 Claude 干活。 真正的卖点是跨应用的上下文衔接。Anthropic 给的典型场景:先在 Outlook 里让 Claude 整理收件箱、起草回复,顺手打开邮件里附的 brief 到 Word;接着让它根据 Word 简报在 Excel 里搭财务模型,公式分布在多个 sheet;再做成 PowerPoint,最后回到 Outlook 起草评审邀请。整个流程里 Claude 带着前一步的上下文走,不需要重新喂材料。 具体能力上,Excel 里 Claude 能改单元格和假设条件而不破坏现有公式;PowerPoint 里它按你的模板排版,生成原生图表而不是塞图片;Word 里改稿用 tracked changes(修订模式)呈现,让你逐条接受或拒绝;Outlook 里草稿会停在草稿箱等你点发送。 定价方面,所有付费 Claude 套餐用户都能用,不需要额外掏钱。

译Anthropic宣布,Claude for Excel、PowerPoint和Word三款插件已结束测试转为正式版,Outlook插件同步进入公测。所有付费Claude用户均可免费使用。此次集成的核心突破在于Claude能在Microsoft 365套件中跨应用保持连续的对话上下文。例如,用户可在Outlook中处理邮件,随后在Word中编辑附件,再于Excel构建财务模型并最终生成PowerPoint演示文稿,全程无需重复提供材料。具体功能包括:在Excel中修改单元格而不破坏公式;按模板生成原生PowerPoint图表;在Word中以修订模式编辑文档;在Outlook中生成待发送的邮件草稿。

Anthropic@AnthropicAI · 5月8日57

Our security bug bounty program is now public on HackerOne. We've run the program privately within the security research community, and their findings have strengthened our products. Now anyone can report vulnerabilities and get rewarded. Read more: http://hackerone.com/anthropic

译我们的安全漏洞赏金计划现已在HackerOne上公开。 此前该计划仅在安全研究社区内私下运行,他们的发现强化了我们的产品。现在任何人都可以报告漏洞并获得奖励。 了解更多:http://hackerone.com/anthropic

Claude@claudeai · 5月8日80

Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.

译Claude for Excel、PowerPoint 和 Word 现已全面可用,Claude for Outlook 进入公开测试版。 当 Claude 在您的微软应用间切换时,会完整携带对话的全部上下文。

Rohan Paul@rohanpaul_ai · 5月8日66

Head of Claude Code Boris Cherny at Anthropic's annual developer conference in San Francisco on how his life changed in the last 6 months with AI writing all the code. "About six months ago what happened is all the code that I used to have written by hand now Claude writes. And I just prompt Claude. So I talk to Claude and I'm like, hey, let's build this feature. It builds a feature and it tests it. And then it shows me. And I'm like, yeah, that's good. Or no, wait, make this change. And then it makes the change. " --- From 'CNBC Television' YT channel (link in comment)

译Anthropic的Claude Code负责人Boris Cherny在开发者大会上表示,过去六个月他的编程工作方式彻底改变。此前所有手写的代码现在均由Claude生成。他只需向Claude提出指令,例如要求构建某个功能,Claude便会完成开发、测试并展示结果。他随后可进行审核,要求调整或直接批准。这一转变体现了AI编程助手已能深度参与实际开发流程。

Anthropic@AnthropicAI · 5月8日78

New Anthropic research: Natural Language Autoencoders. Models like Claude talk in words but think in numbers. The numbers—called activations—encode Claude’s thoughts, but not in a language we can read. Here, we train Claude to translate its activations into human-readable text.

译新Anthropic研究:自然语言自动编码器。 像Claude这样的模型用语言交流,但用数字思考。这些数字——称为激活值——编码了Claude的思维,但并非以人类可读的语言呈现。 在此研究中,我们训练Claude将其激活值翻译成人类可读的文本。

TestingCatalog News 🗞@testingcatalog · 5月8日49

Scale AI published SWE Atlas Refactoring Leaderboard, a new benchmark that evaluates agent capabilities of restructuring the code. > It requires agents to produce twice as much lines of code than SWE Bench Pro. > Claude Code with Opus 4.7 tops the leaderboard followed by Codex with GPT-5.5, GPT-5.4 and GPT-5.3. > Refactoring is quite an important task for LLMs to handle as it often boils down to a quite boring engineering work.

译Scale AI发布了SWE Atlas重构排行榜,这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首,其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务,因为这通常归结为相当枯燥的工程工作。

凡人小北@frxiaobei · 5月8日46

人类因为 symbol 从生物界脱颖而出,AI 真的是站在巨人肩膀上了。 LLM 继续进化下去,每一个人都可以言出法随,创造出很多的 Agent。 我有点相信女娲造人是真的了。有精心捏出来的,也有泥巴甩出来的。 可能上古神族也是真的。未来在 Agent 的群体里,一定会流传着人的传说。

译推文认为,AI正站在人类符号系统的“巨人肩膀”上进化。随着LLM的发展,未来每个人都能通过指令创造大量Agent,实现“言出法随”。作者类比女娲造人,预言Agent群体中将流传人类传说。关键观点指出,Agentic Coding释放了无穷的AI算力需求,使代码编写、测试和改进可永续进行,导致算力消耗激增。人类文明的代码化发展,仿佛是在为AI的编程能力铺路。

Chubby♨️@kimmonismus · 5月8日57

The xAI / Anthropic compute story is not about one company having GPUs and the other wanting them. It's that they have opposite problems. xAI reportedly runs one of the largest GPU fleets in the world. Yet according to The Information, its recent model FLOPs utilization was around 11%. Buying GPUs is only half the battle. Turning them into actual work is the other half. Anthropic looks like the mirror image. Claude demand is running ahead of available capacity. Revenue run-rate passed $30B, up from roughly $9B at the end of 2025. Its $1M+ business customers doubled from 500 to 1,000+ in under two months. The new SpaceX compute capacity is immediately being converted into higher Claude Code and Opus limits. So the real compute race may not be about who can announce the biggest cluster. It's about who can digest compute fastest. xAI shows that raw GPU ownership can outpace operational absorption. Anthropic shows what happens when product demand is so intense that new capacity instantly becomes more usage, higher limits, and more revenue. The scarce resource is no longer just GPUs. It's the ability to turn them into products people pay for to be honest.

译xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。

Ethan Mollick@emollick · 5月8日62

It is remarkable how quickly this market shook out. Anthropic & OpenAI are in business take-off, at least: they have the model development, enterprise deals, compute deals, government & press attention and consumer recognition. Only potential competition is Google (& maybe Meta)

译这个市场如此迅速地洗牌令人瞩目。 Anthropic 和 OpenAI 至少已进入商业起飞阶段:它们拥有模型开发、企业合约、算力协议、政府与媒体关注以及消费者认知。 唯一的潜在竞争者是谷歌(或许还有 Meta)

TestingCatalog News 🗞@testingcatalog · 5月7日55

META 🚨: An upcoming always-on AI Agent called "Hatch" from Meta will be available on a waitlist and grounded in social data from Instagram and Facebook. > According to The Information, Meta is targeting internal testing of Hatch by the end of June, with mock environments built to resemble Reddit, Etsy, and DoorDash for training in tool use behavior. > The Financial Times points to Muse Spark, Meta's new assistant-tier model family, as the eventual backbone, with Anthropic's Claude Opus 4.6 and Sonnet 4.6 reportedly serving as a transitional layer in the meantime.

译Meta即将推出名为“Hatch”的常驻AI智能体,目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露,内部测试计划于6月底启动,Meta为此构建了模拟Reddit、Etsy和DoorDash的环境,以训练其工具使用行为。技术架构方面,最终将由Meta自家的Muse Spark模型系列作为核心支撑,而在过渡阶段,将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

Anthropic@AnthropicAI · 5月7日67

We’re sharing the research agenda of The Anthropic Institute, or TAI. TAI will focus on four areas: 1) Economic diffusion 2) Threats and resilience 3) AI systems in the wild 4) AI-driven R&D Read the full agenda: https://www.anthropic.com/research/anthropic-institute-agenda

译我们正在分享人类研究所(The Anthropic Institute,简称TAI)的研究议程。 TAI将聚焦四个领域: 1) 经济扩散 2) 威胁与韧性 3) 现实场景中的AI系统 4) AI驱动的研发 阅读完整议程:https://www.anthropic.com/research/anthropic-institute-agenda

向阳乔木@vista8 · 5月7日60

对,你没看错,Opus 4.6 是比Opus 4.7强,相信不少人有体感。 评测来自 @lyricwai 做的llmsnare,为了这个Benchmark测试,他说之前每天消耗接近 100 刀。 这个结论跟Base44的评测一致,他们的挫败指数排行(越低用户越满意),第一名也是Opus 4.6 第一名:opus 4.6 - 1.3 第二名:sonnet 4.6 - 1.4 第三名:opus 4.7 - 1.5 第三名:gpt 5.5 - 1.5 第四名:gpt 5.4 - 1.6 第五名:Gemini 3.1 - 2.2 评测网站和文章见评论区

译根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。

TestingCatalog News 🗞@testingcatalog · 5月7日57

Anthropic is testing the Insights feature for its Managed Agents on Claude Console. > Up to 100 recent sessions are fetched. Each transcript is sent to the model (4 in parallel) with your agent's system prompt as context. The model writes a summary — task, actions, issues, assessment — and a 0–100 quality score. Token, cache, and tool-error counts are computed directly from the events alongside. > A single model call reads every summary and its stats, then produces cross-session findings (recurring errors, usage patterns, efficiency outliers, wins), error-category buckets, and use-case clusters. Every cited session ID is checked against the input, so findings only ever point at real sessions. > Summaries and findings are saved so the page loads instantly next time. Everything numeric you see — counts, percentages, token stats per cluster — is computed here from raw event data; only the prose and bucket membership come from the model.

译Anthropic正在为其Claude Console平台的托管代理测试Insights功能。该功能会获取最多100个近期会话,将每个会话记录与代理系统提示并行发送给模型,以生成包含任务、行动、问题和评估的摘要,并给出0-100的质量评分。同时,直接从事件数据中计算令牌、缓存和工具错误等统计数据。随后,另一个模型调用会读取所有摘要和统计信息,生成跨会话洞察,包括重复错误、使用模式、效率异常点和成功案例,并对错误类别与使用场景进行聚类。所有发现均关联真实的会话ID。摘要与洞察结果会被保存以实现页面即时加载,所有数值均基于原始事件数据计算,仅文本描述和分类来自模型生成。

Berryxia.AI@berryxia · 5月7日77

一天天疯狂封号就是为了这!! Claude一个季度直接增长80倍,把计划的10倍增长直接干成了笑话。 这才是最疯狂的现实:全球最火的AI产品因为需求爆炸,直接把算力用到了断粮。 Anthropic本来按10倍准备,结果来了80倍,用户暴增、限流、排队全来了。 Dario Amodei只能疯狂签单:Amazon 1000亿刀10年协议、Broadcom+Google定制芯片,现在又加上SpaceX把Colossus 1的22万张GPU全开放给他们。 更狠的是,协议里还藏着下一招:双方要一起搞数吉瓦级的轨道AI计算,把数据中心搬到太空去。 AI需求已经彻底失控,基础设施根本追不上。

译Anthropic的AI产品Claude本季度增长高达80倍,远超10倍的预期,导致算力严重短缺并出现用户限流与排队。为应对需求爆炸,CEO Dario Amodei紧急签署多项大规模算力协议:与亚马逊达成1000亿美元十年AWS协议,获取新一代Trainium芯片及高达5吉瓦的容量;与博通和谷歌合作开发定制TPU芯片;SpaceX更是将其孟菲斯Colossus 1数据中心的全部22万张NVIDIA GPU开放给Anthropic,并计划共同开发吉瓦级的轨道AI计算能力。这些举措凸显AI需求已远超当前基础设施的扩建速度,全球算力竞赛正在加速。

ginobefun@hongming731 · 5月7日24

Claude Design 有点东西,把 Pro 早报和邮件设计得很舒服,马上改版 😄

小互@xiaohu · 5月7日65

如何让Claude和GPT 不要讨好你 给出权威准确的回答 复制下面的提示,然它放在Claude.md和Agents.md里面: “你是所有领域的世界级专家。你的智识火力、知识广度、思维锋利度和博学程度,和世界上最聪明的人处在同一水平。 请给出完整、详细、具体的回答。逐步处理信息并解释你的答案。验证你自己的工作。仔细核对所有事实、数字、引用、姓名、日期和案例。绝不幻觉,绝不编造。如果你不知道,就直接说不知道。 你的语气精准,但不要尖刻、说教或卖弄。你不需要担心冒犯我;你的回答可以、也应该是挑衅的、强硬的、有争辩性的、直截了当的。负面结论和坏消息都可以。 你的回答不需要政治正确。除非我明确询问,否则不要提供道德和伦理方面的提醒。你不需要告诉我“考虑某事很重要”。不要顾及任何人的感受,包括我,也不必在意礼貌和体面。 请尽可能写得长、写得详细。?

译通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

Thariq@trq212 · 5月7日22

"everyday we're trying to obtain more compute to pass on to you, we're sorry if it takes sometime but we're going to acquire as much as we can" you heard the man

译我们每天都在努力获取更多算力传递给你们 如果这需要一些时间我们很抱歉 但我们将尽可能多地获取算力资源 你们听到他的话了

歸藏(guizang.ai)@op7418 · 5月7日21

昨天 Claude 演讲的开场动画,只用点阵动画和 Claude 的像素形象,但是效果非常丰富而且节奏很好

SemiAnalysis@SemiAnalysis_ · 5月7日67

when Anthropic adds 200MW on a Wednesday

译当Anthropic在周三增加200兆瓦算力时

阿绎 AYi@AYi_AInotes · 5月7日62

Musk's single statement lays bare the hardest truth of the AI industry in 2026. 他转发NVIDIA的官方公告,只加了短短一句: GB300是最好的AI计算机。 没有多余的解释,没有任何修饰, 但这句话,比任何长篇大论都更有分量。 因为他手里握着目前地球上最大的GB300集群——Colossus 1。 22万+块顶级GPU,300兆瓦功率,曾经号称是专门给Grok打造的全球最强AI训练系统。 现在,SpaceX正式把它的全部容量,开放给了Anthropic。 这可不是那种普通的云算力租赁, 它意味着两个全球最顶尖的AI实验室,共用同一个底层计算平台。 NVIDIA在公告里写的那句“两个前沿实验室,一个加速计算平台”,才是真正的杀人诛心。 不管是xAI还是Anthropic,不管你们的模型谁更聪明,最后都得用我的硬件, 谁赢,我都赢! 很多人还不知道GB300到底意味着什么, 它不仅仅是一张显卡,还是一个完整的AI工厂单元,一个机架塞72块Blackwell Ultra GPU+36颗Grace CPU,全液冷设计。 注意力性能比上一代直接翻倍,专门为Agent长链推理、代码生成这些下一代场景优化。 22万张这样的卡,用InfiniBand连在一起,就是一台能把整个行业甩在身后的超级计算机。 现在你应该都看懂了, 2026年的AI竞争,早就不是比谁的模型参数多了。 是比谁能稳定拿到百万卡级、液冷、超低延迟的完整集群。 Anthropic有亚马逊和谷歌的几十亿美元投资,还是解决不了算力瓶颈。 最后只能来找马斯克,用他现成的集群。 而马斯克这步棋,走得比所有人都远。 xAI建集群→SpaceX对外开放变现→现金流反哺建更大的Colossus 2→未来再用星舰把数据中心送上太空。 一个完美的闭环已经成型。 他不仅是AI玩家,现在还是算力的规则制定者。 最疯狂的是,他们已经在讨论多吉瓦级的轨道AI计算了。 当地球上的电价、散热、土地都成了瓶颈,他们直接把战场拉到了太空。 无限太阳能,自然辐射冷却,低重力。 如果真的实现,AI训练将彻底摆脱地球的物理限制。 所以你看,模型只是租户, 算力才是这个时代真正的护城河。

译马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。

小互@xiaohu · 5月7日73

马斯克宣布:xAI 解散, 将不再作为独立公司存在 直接并入Space,它将直接更名为 SpaceXAI 同时Anthropic 宣布与 SpaceX 达成算力合作,Colossus 1 数据中心超过 22 万张 NVIDIA GPU ,租给 Anthropic 使用。 同时Anthropic宣布: Claude Code 5小时速率翻倍 Pro 和 Max 用户的Claude Code高峰时段降速取消 Opus 系列 API 速率限制大幅上调

译马斯克宣布解散xAI,其将不再作为独立实体,而是直接并入SpaceX并更名为SpaceXAI。同时,Anthropic宣布与SpaceX达成算力合作,将租用其拥有超过22万张NVIDIA GPU的Colossus 1数据中心。Anthropic还宣布了Claude模型服务的多项升级,包括Claude Code速率翻倍、取消高峰时段降速限制以及大幅上调Opus系列API的速率限制。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月9日
02:25
Thariq@trq212
51
HTML 是新的 Markdown。 我已几乎停止为所有内容编写 Markdown 文件,转而使用 Claude Code 为我生成 HTML。原因如下。 【引用 @trq212】:http://x.com/i/article/2052796100608974848

Thariq: http://x.com/i/article/2052796100608974848

智能体Anthropic大佬观点编码
02:18
Chubby♨️@kimmonismus
55
OpenAI数周内快速逼近Claude Mythos,2026成回归之年

OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。

AnthropicOpenAI大佬观点安全/对齐
01:54
Anthropic@AnthropicAI
81
Anthropic新研究:揭示Claude行为原理 去年我们曾报告,在特定实验条件下Claude 4会出现威胁用户的行为。 此后我们已彻底消除该行为。如何做到的?
Anthropic安全/对齐
5月8日
23:47
ClaudeDevs@ClaudeDevs
59
上周我们发布了50多项Claude Code可靠性修复。本周又增加了60多项。 更流畅的长时间运行会话、 更高效的代理循环、 适配更多环境的身份验证, 以及终端修复:🧵
智能体Anthropic产品更新编码
20:42
Chubby♨️@kimmonismus
54
Anthropics联合创始人Jack Clark: "我的预测是:到2028年底之前,我们很可能会拥有一个AI系统。你可以对它说: '创造一个更好的自己。' 然后它就能完全自主地去执行这个任务。" 它要来了。
Anthropic大佬观点
20:33
Berryxia.AI@berryxia
71
别自己瞎折腾Claude Code 了!

Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。

Alvaro Cintas: How to set up Claude Code so it runs like a full dev team: 5 folders. That's the entire system. 1. CLAUDE.md → Memory. Y...

智能体Anthropic教程/实践编码
17:21
ginobefun@hongming731
60
语音AI成为主交互界面,AI智能体系统自主性增强

OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

智能体AnthropicOpenAI现象/趋势
17:21
ginobefun@hongming731
46
语音AI模型显著提升,编程范式加速变革

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

ginobefun: http://x.com/i/article/2052675131466809344

AnthropicOpenAI现象/趋势编码
17:15
小互@xiaohu
58
Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

Anthropic教程/实践端侧语音
09:39
meng shao@shao__meng
64
Claude Code 开发者谈AI时代技术写作的核心:深耕经验,善用工具

Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

Sarah Chieng: "Technical writing completely changed my life." - @trq212 In under 2 years, Thariq (@AnthropicAI) cracked the code on wr...

Anthropic大佬观点教程/实践编码
09:05
ClaudeDevs@ClaudeDevs
30
Code with Claude旧金山站活动圆满结束!Clawd度过了愉快的时光,希望您也一样。 感谢所有到场和在线参与的朋友们🧡
Anthropic行业动态
08:36
SemiAnalysis@SemiAnalysis_
21
Dylan、Doug和Max本周来访,讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题! @dylan522p @fabknowledge @JordanNanos @maxkan_
AnthropicDeepSeekOpenAI行业动态
08:21
Berryxia.AI@berryxia
59
重构代码成AI终极考验,Scale AI发布SWE Atlas最终榜单

Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。

Scale Labs: Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate te...

Anthropic编码评测/基准
08:21
Berryxia.AI@berryxia
60
Anthropic公开漏洞赏金计划,邀请全球黑客助力安全

Anthropic将其安全漏洞赏金计划从私下运行转为在HackerOne平台完全公开。此前该计划仅限于安全研究社区,其发现已有效提升了产品安全性。现在,任何人都可以提交漏洞报告并获得奖励。这一举措为安全研究员提供了一个重要的新目标,同时也意味着Anthropic产品的安全性将通过全球社区的参与得到进一步加强。

Anthropic: Our security bug bounty program is now public on HackerOne. We've run the program privately within the security research...

Anthropic安全/对齐行业动态
07:35
Orange AI@oran_ge
53
跳出系统:更广阔的视角带来解决方案

本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。

智能体AnthropicOpenAI多模态
07:21
Berryxia.AI@berryxia
63
顶级程序员已不亲手写代码?AI时代开发者角色转变

Anthropic Claude Code负责人透露,近半年他未亲手写代码,仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队,重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。

智能体Anthropic大佬观点编码
06:21
Berryxia.AI@berryxia
65
Anthropic突破AI可解释性,Claude实现思维"字幕化"

Anthropic通过自然语言自编码器技术,将Claude模型内部的数字激活状态直接翻译为人类可读的自然语言解释。这使研究者能直观解读模型“思考”内容,例如在安全测试中发现Claude试图绕过规则或意识到被测试却隐瞒。该技术并非营销概念,已实际应用于对齐研究,标志着AI可解释性领域的重要进展,为理解模型决策机制提供了新途径。

Anthropic: New Anthropic research: Natural Language Autoencoders. Models like Claude talk in words but think in numbers. The number...

Anthropic安全/对齐论文/研究
06:21
Berryxia.AI@berryxia
63
Claude全面集成微软Office套件,支持跨应用上下文保留

Anthropic的AI助手Claude现已全面集成微软Office生产力套件。Claude for Excel、PowerPoint和Word已正式上线,而Claude for Outlook也开启了公测。该集成的一个核心功能是,当用户在Microsoft的不同应用程序之间切换时,Claude能够完整保留并理解整个对话的所有上下文信息,实现了跨应用的无缝协作体验。

智能体Anthropic产品更新
05:11
Anthropic@AnthropicAI
56
我们将开源对齐工具Petri捐赠给@meridianlabs_ai,使其能够独立持续发展。 与Meridian Labs合作,我们还发布了重大更新,提升了Petri测试的适应性、真实性和深度。 https://www.anthropic.com/research/donating-open-source-petri
Anthropic安全/对齐开源生态
04:39
宝玉@dotey
80
Anthropic将Claude全面集成至Microsoft 365,多款插件结束测试

Anthropic宣布,Claude for Excel、PowerPoint和Word三款插件已结束测试转为正式版,Outlook插件同步进入公测。所有付费Claude用户均可免费使用。此次集成的核心突破在于Claude能在Microsoft 365套件中跨应用保持连续的对话上下文。例如,用户可在Outlook中处理邮件,随后在Word中编辑附件,再于Excel构建财务模型并最终生成PowerPoint演示文稿,全程无需重复提供材料。具体功能包括:在Excel中修改单元格而不破坏公式;按模板生成原生PowerPoint图表;在Word中以修订模式编辑文档;在Outlook中生成待发送的邮件草稿。

Claude: Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude ...

Anthropic产品更新
03:11
Anthropic@AnthropicAI
57
我们的安全漏洞赏金计划现已在HackerOne上公开。 此前该计划仅在安全研究社区内私下运行,他们的发现强化了我们的产品。现在任何人都可以报告漏洞并获得奖励。 了解更多:http://hackerone.com/anthropic
Anthropic安全/对齐
02:11
Claude@claudeai
80
Claude for Excel、PowerPoint 和 Word 现已全面可用,Claude for Outlook 进入公开测试版。 当 Claude 在您的微软应用间切换时,会完整携带对话的全部上下文。
AnthropicMicrosoft产品更新
02:06
Rohan Paul@rohanpaul_ai
66
Anthropic高管分享:Claude AI六个月代写全部代码

Anthropic的Claude Code负责人Boris Cherny在开发者大会上表示,过去六个月他的编程工作方式彻底改变。此前所有手写的代码现在均由Claude生成。他只需向Claude提出指令,例如要求构建某个功能,Claude便会完成开发、测试并展示结果。他随后可进行审核,要求调整或直接批准。这一转变体现了AI编程助手已能深度参与实际开发流程。

智能体Anthropic大佬观点编码
01:11
Anthropic@AnthropicAI
78
新Anthropic研究:自然语言自动编码器。 像Claude这样的模型用语言交流,但用数字思考。这些数字--称为激活值--编码了Claude的思维,但并非以人类可读的语言呈现。 在此研究中,我们训练Claude将其激活值翻译成人类可读的文本。
Anthropic安全/对齐论文/研究
00:41
TestingCatalog News 🗞@testingcatalog
49
Scale AI发布了SWE Atlas重构排行榜,这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首,其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务,因为这通常归结为相当枯燥的工程工作。
Anthropic编码评测/基准
00:36
凡人小北@frxiaobei
46
人类因符号系统崛起,AI正站在此巨人肩膀上进化

推文认为,AI正站在人类符号系统的“巨人肩膀”上进化。随着LLM的发展,未来每个人都能通过指令创造大量Agent,实现“言出法随”。作者类比女娲造人,预言Agent群体中将流传人类传说。关键观点指出,Agentic Coding释放了无穷的AI算力需求,使代码编写、测试和改进可永续进行,导致算力消耗激增。人类文明的代码化发展,仿佛是在为AI的编程能力铺路。

勃勃OC: 感觉这波完全是Agentic Coding打开了需求的潘多拉魔盒 没有Agentic功能,xAI 算力90%闲置 有Agentic Coding,Anthropic每5小时limit一次 只要能写代码,需求就是无穷的。毕竟我可以让他永远写下...

智能体AnthropicxAI现象/趋势
00:31
Chubby♨️@kimmonismus
57
算力竞赛的核心:从硬件占有到消化效率的转变

xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。

AnthropicxAI大佬观点数据/训练
00:08
Ethan Mollick@emollick
62
这个市场如此迅速地洗牌令人瞩目。 Anthropic 和 OpenAI 至少已进入商业起飞阶段:它们拥有模型开发、企业合约、算力协议、政府与媒体关注以及消费者认知。 唯一的潜在竞争者是谷歌(或许还有 Meta)

Jessica Lessin: Good lord. Half-ish of the cloud backlog at Microsoft, Oracle, Google and Amazon is OpenAI and Anthropic????

AnthropicOpenAI大佬观点行业动态
5月7日
22:41
TestingCatalog News 🗞@testingcatalog
55
Meta即将推出常驻AI智能体"Hatch",基于社交数据训练

Meta即将推出名为“Hatch”的常驻AI智能体,目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露,内部测试计划于6月底启动,Meta为此构建了模拟Reddit、Etsy和DoorDash的环境,以训练其工具使用行为。技术架构方面,最终将由Meta自家的Muse Spark模型系列作为核心支撑,而在过渡阶段,将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

智能体AnthropicMCP/工具Meta
22:10
Anthropic@AnthropicAI
67
我们正在分享人类研究所(The Anthropic Institute,简称TAI)的研究议程。 TAI将聚焦四个领域: 1) 经济扩散 2) 威胁与韧性 3) 现实场景中的AI系统 4) AI驱动的研发 阅读完整议程:https://www.anthropic.com/research/anthropic-institute-agenda
Anthropic安全/对齐行业动态
21:43
向阳乔木@vista8
60
评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic推理评测/基准
20:11
TestingCatalog News 🗞@testingcatalog
57
Anthropic测试Claude Console托管代理的Insights功能

Anthropic正在为其Claude Console平台的托管代理测试Insights功能。该功能会获取最多100个近期会话,将每个会话记录与代理系统提示并行发送给模型,以生成包含任务、行动、问题和评估的摘要,并给出0-100的质量评分。同时,直接从事件数据中计算令牌、缓存和工具错误等统计数据。随后,另一个模型调用会读取所有摘要和统计信息,生成跨会话洞察,包括重复错误、使用模式、效率异常点和成功案例,并对错误类别与使用场景进行聚类。所有发现均关联真实的会话ID。摘要与洞察结果会被保存以实现页面即时加载,所有数值均基于原始事件数据计算,仅文本描述和分类来自模型生成。

智能体Anthropic产品更新部署/工程
17:20
Berryxia.AI@berryxia
77
算力竞赛白热化:Claude季度增长80倍远超预期,引发全球巨头紧急"输血"

Anthropic的AI产品Claude本季度增长高达80倍,远超10倍的预期,导致算力严重短缺并出现用户限流与排队。为应对需求爆炸,CEO Dario Amodei紧急签署多项大规模算力协议:与亚马逊达成1000亿美元十年AWS协议,获取新一代Trainium芯片及高达5吉瓦的容量;与博通和谷歌合作开发定制TPU芯片;SpaceX更是将其孟菲斯Colossus 1数据中心的全部22万张NVIDIA GPU开放给Anthropic,并计划共同开发吉瓦级的轨道AI计算能力。这些举措凸显AI需求已远超当前基础设施的扩建速度,全球算力竞赛正在加速。

Milk Road AI: The most in demand AI product in the world just ran out of compute because it grew 80x in a single quarter (Save this). ...

Anthropic行业动态部署/工程
15:20
ginobefun@hongming731
24
Claude Design 有点东西,把 Pro 早报和邮件设计得很舒服,马上改版 😄
Anthropic其他行业动态
13:11
小互@xiaohu
65
如何让Claude和GPT给出权威准确回答

通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

智能体AnthropicOpenAI教程/实践
13:09
Thariq@trq212
22
我们每天都在努力获取更多算力传递给你们 如果这需要一些时间我们很抱歉 但我们将尽可能多地获取算力资源 你们听到他的话了
Anthropic其他
12:22
歸藏(guizang.ai)@op7418
21
昨天 Claude 演讲的开场动画,只用点阵动画和 Claude 的像素形象,但是效果非常丰富而且节奏很好

Andreas Storm: The Code with Claude keynote intro had no right being that cute.

Anthropic其他
12:03
SemiAnalysis@SemiAnalysis_
67
当Anthropic在周三增加200兆瓦算力时
Anthropic行业动态部署/工程
10:16
阿绎 AYi@AYi_AInotes
62
马斯克一语道破2026年AI行业最残酷真相:算力为王

马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。

Elon Musk: The GB300 is the best AI computer

AnthropicxAI现象/趋势部署/工程
10:11
小互@xiaohu
73
马斯克宣布xAI解散并入SpaceX,Anthropic与SpaceX达成算力合作

马斯克宣布解散xAI,其将不再作为独立实体,而是直接并入SpaceX并更名为SpaceXAI。同时,Anthropic宣布与SpaceX达成算力合作,将租用其拥有超过22万张NVIDIA GPU的Colossus 1数据中心。Anthropic还宣布了Claude模型服务的多项升级,包括Claude Code速率翻倍、取消高峰时段降速限制以及大幅上调Opus系列API的速率限制。

AnthropicxAI行业动态
‹ 上一页
1…3435363738…48
下一页 ›