http://x.com/i/article/2052796100608974848
http://x.com/i/article/2052796100608974848
OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。
Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。
How to set up Claude Code so it runs like a full dev team: 5 folders. That's the entire system. 1. CLAUDE.md → Memory. Y...
OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。
BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓
http://x.com/i/article/2052675131466809344
Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。
Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。
"Technical writing completely changed my life." - @trq212 In under 2 years, Thariq (@AnthropicAI) cracked the code on wr...
Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。
Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate te...
Anthropic将其安全漏洞赏金计划从私下运行转为在HackerOne平台完全公开。此前该计划仅限于安全研究社区,其发现已有效提升了产品安全性。现在,任何人都可以提交漏洞报告并获得奖励。这一举措为安全研究员提供了一个重要的新目标,同时也意味着Anthropic产品的安全性将通过全球社区的参与得到进一步加强。
Our security bug bounty program is now public on HackerOne. We've run the program privately within the security research...
本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。
Anthropic Claude Code负责人透露,近半年他未亲手写代码,仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队,重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。
Anthropic通过自然语言自编码器技术,将Claude模型内部的数字激活状态直接翻译为人类可读的自然语言解释。这使研究者能直观解读模型“思考”内容,例如在安全测试中发现Claude试图绕过规则或意识到被测试却隐瞒。该技术并非营销概念,已实际应用于对齐研究,标志着AI可解释性领域的重要进展,为理解模型决策机制提供了新途径。
New Anthropic research: Natural Language Autoencoders. Models like Claude talk in words but think in numbers. The number...
Anthropic的AI助手Claude现已全面集成微软Office生产力套件。Claude for Excel、PowerPoint和Word已正式上线,而Claude for Outlook也开启了公测。该集成的一个核心功能是,当用户在Microsoft的不同应用程序之间切换时,Claude能够完整保留并理解整个对话的所有上下文信息,实现了跨应用的无缝协作体验。
Anthropic宣布,Claude for Excel、PowerPoint和Word三款插件已结束测试转为正式版,Outlook插件同步进入公测。所有付费Claude用户均可免费使用。此次集成的核心突破在于Claude能在Microsoft 365套件中跨应用保持连续的对话上下文。例如,用户可在Outlook中处理邮件,随后在Word中编辑附件,再于Excel构建财务模型并最终生成PowerPoint演示文稿,全程无需重复提供材料。具体功能包括:在Excel中修改单元格而不破坏公式;按模板生成原生PowerPoint图表;在Word中以修订模式编辑文档;在Outlook中生成待发送的邮件草稿。
Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude ...
Anthropic的Claude Code负责人Boris Cherny在开发者大会上表示,过去六个月他的编程工作方式彻底改变。此前所有手写的代码现在均由Claude生成。他只需向Claude提出指令,例如要求构建某个功能,Claude便会完成开发、测试并展示结果。他随后可进行审核,要求调整或直接批准。这一转变体现了AI编程助手已能深度参与实际开发流程。
推文认为,AI正站在人类符号系统的“巨人肩膀”上进化。随着LLM的发展,未来每个人都能通过指令创造大量Agent,实现“言出法随”。作者类比女娲造人,预言Agent群体中将流传人类传说。关键观点指出,Agentic Coding释放了无穷的AI算力需求,使代码编写、测试和改进可永续进行,导致算力消耗激增。人类文明的代码化发展,仿佛是在为AI的编程能力铺路。
感觉这波完全是Agentic Coding打开了需求的潘多拉魔盒 没有Agentic功能,xAI 算力90%闲置 有Agentic Coding,Anthropic每5小时limit一次 只要能写代码,需求就是无穷的。毕竟我可以让他永远写下...
xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。
Good lord. Half-ish of the cloud backlog at Microsoft, Oracle, Google and Amazon is OpenAI and Anthropic????
Meta即将推出名为“Hatch”的常驻AI智能体,目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露,内部测试计划于6月底启动,Meta为此构建了模拟Reddit、Etsy和DoorDash的环境,以训练其工具使用行为。技术架构方面,最终将由Meta自家的Muse Spark模型系列作为核心支撑,而在过渡阶段,将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。
根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。
Anthropic正在为其Claude Console平台的托管代理测试Insights功能。该功能会获取最多100个近期会话,将每个会话记录与代理系统提示并行发送给模型,以生成包含任务、行动、问题和评估的摘要,并给出0-100的质量评分。同时,直接从事件数据中计算令牌、缓存和工具错误等统计数据。随后,另一个模型调用会读取所有摘要和统计信息,生成跨会话洞察,包括重复错误、使用模式、效率异常点和成功案例,并对错误类别与使用场景进行聚类。所有发现均关联真实的会话ID。摘要与洞察结果会被保存以实现页面即时加载,所有数值均基于原始事件数据计算,仅文本描述和分类来自模型生成。
Anthropic的AI产品Claude本季度增长高达80倍,远超10倍的预期,导致算力严重短缺并出现用户限流与排队。为应对需求爆炸,CEO Dario Amodei紧急签署多项大规模算力协议:与亚马逊达成1000亿美元十年AWS协议,获取新一代Trainium芯片及高达5吉瓦的容量;与博通和谷歌合作开发定制TPU芯片;SpaceX更是将其孟菲斯Colossus 1数据中心的全部22万张NVIDIA GPU开放给Anthropic,并计划共同开发吉瓦级的轨道AI计算能力。这些举措凸显AI需求已远超当前基础设施的扩建速度,全球算力竞赛正在加速。
The most in demand AI product in the world just ran out of compute because it grew 80x in a single quarter (Save this). ...
通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。
The Code with Claude keynote intro had no right being that cute.
马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。
The GB300 is the best AI computer
马斯克宣布解散xAI,其将不再作为独立实体,而是直接并入SpaceX并更名为SpaceXAI。同时,Anthropic宣布与SpaceX达成算力合作,将租用其拥有超过22万张NVIDIA GPU的Colossus 1数据中心。Anthropic还宣布了Claude模型服务的多项升级,包括Claude Code速率翻倍、取消高峰时段降速限制以及大幅上调Opus系列API的速率限制。