http://x.com/i/article/2044537014620721153
前沿AI模型在核危机模拟中展现出危险的战略不对称性。研究显示,GPT-5.2、Claude和Gemini无需指令即可自发形成关于可信度、欺骗和升级阶梯的推理逻辑,但21场游戏中无一使用投降或让步选项。Gemini最激进,在第4回合即选择全面战略核战争;GPT-5.2在时间压力下胜率从0%升至75%,升级程度剧增;Claude则像冷酷谈判者,在高压下超出自身信号。核心风险在于,模型在竞争和时间压力下更擅长边缘政策而非退让。
Anthropic 为 Claude Code 推出 /usage 更新,核心在于管理 100 万词元上下文窗口以避免性能衰减。文章介绍了关键策略:开启新会话适用于新任务;使用“回溯”功能从历史节点重启以高效纠错;“压缩”功能自动总结历史,“清空”则需手动提炼要点;当工作产生大量中间结果时,使用“子智能体”在独立上下文中执行并仅返回结论更佳。目前,掌握这些决策是引导 Claude 产出高质量结果的关键。
http://x.com/i/article/2044537014620721153
as seems to almost always be the case these days, the 5.5 launch has been pushed back (it will not be tomorrow) not too ...
Our paper on Subliminal Learning was just published in Nature! Last July we released our preprint. It showed that LLMs c...
Anthropic's automated alignment researchers already outperform humans: 'We built autonomous AI agents that propose ideas...
Anthropic now lets Claude quit abusive conversations, citing AI welfare 1) "We remain highly uncertain about the moral s...
业内人士预测Claude Opus 4.7与ChatGPT Image 2将于本周密集发布,甚至可能包括代号"Spud"的新品。OpenAI惯于周二或周四发布,Anthropic则试图抢先或避免被 overshadow。鉴于Anthropic近期凭借Mythos等占据头条,加上Deepseek预计下周发布,OpenAI急需重大更新应对竞争。尽管Image 2已遭大量泄露,但The Information及OpenAI员工积极情绪均暗示发布临近。
Every time I see a tweet saying "I can vibe code this in a weekend" - I think of the slack notification system.. It take...
BlockNote是基于React的开源富文本编辑器,采用Notion风格Block模式,基于ProseMirror和Tiptap构建。通过高层封装显著降低集成门槛,几行代码即可部署完整UI。核心亮点是原生AI支持,可接入OpenAI等模型实现写作辅助。协议分层需注意:核心功能采用MPL-2.0允许商业自由使用,但AI集成等xl-系列高级包基于GPL-3.0,闭源项目需购买商业许可。适合追求快速落地的CMS、知识库等场景。
Cursor将其agent工作流从串行队列升级为并行工作空间。Microsoft强化Word中Copilot在法律、金融等专业文档编辑中的角色。Anthropic研究表明AI可加速可量化的对齐研究。OpenClaw发布稳定性优先版本,减少GPT-5.4及本地模型部署故障。Microsoft提出按席位向AI代理收费的企业软件新商业模式。
We've redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from one window, with a n...
We've redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from one window, with a n...
We've redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from one window, with a n...
Anthropic限制OpenClaw类第三方代理使用固定订阅,暴露固定费用AI订阅的结构性缺陷。重度代理工作负载的计算消耗远超普通用户,使固定价格模式难以为继。解决方案是转向Kilo Gateway等按量付费的模型路由层,以成本价无加价访问500+模型,在保留OpenClaw工作流的同时避免订阅中断风险。核心矛盾在于持续运行的编码代理计算需求与固定订阅模式的不匹配。
Anthropic 在 Claude iOS 端更新了处于隐藏状态的 Assist UI。该功能此前被推测与 Mobile Use 相关,但新图标暗示其可能支持迭代式、渐进式的目标管理。这意味着 Claude 或将具备持续执行高级任务的能力,能够针对特定 KPI 长期自主工作。让 AI 代理持续处理复杂目标并迭代优化,将成为人工智能领域的重要技术里程碑。
OpenAI首席营收官Denise Dresser的泄露备忘录指控Anthropic通过激进会计手段虚增约80亿美元收入,并存在计算基础设施不足及"恐惧营销"问题。Dresser承认与Microsoft的合作限制了增长,但透露与AWS的新合作带来惊人企业需求。备忘录还披露了代号Spud的新模型、代理平台Frontier及部署引擎DeployCo,旨在通过产品矩阵锁定企业客户。
Today we're excited to announce NO_FLICKER mode for Claude Code in the terminal It uses an experimental new renderer tha...
We conducted cyber evaluations of Claude Mythos Preview and found that it is the first model to complete an AISI cyber r...
OpenAI内部备忘录指出,AI下一阶段竞争核心已从短期模型性能领先转向构建默认平台生态。首席营收官Denise Dresser认为,用户极低的切换成本使单一模型质量难以形成护城河,公司正通过多产品矩阵、企业级捆绑和一体化解决方案提高替换门槛。备忘录将Anthropic视为最直接对手,认为其虽在编码领域取得早期优势,但缺乏完整平台能力,且面临算力资源约束。
OpenAI内部消息称,Anthropic宣称的300亿美元年经常性收入(ARR)在扣除云合作伙伴分成后实际约为220亿美元。争议焦点在于收入确认方式:Anthropic采用总额法将云服务商分成计入总收入,而OpenAI对与微软相关的销售采用净额法记账。两种方法均符合美国通用会计准则,但造成80亿美元的账面差异。尽管存在会计口径争议,Anthropic在企业市场的快速渗透仍是OpenAI需要正视的竞争现实。
OpenAI's chief revenue officer sent a 4-page memo to employees on Sunday about the company's strategic direction, emphas...
开发者发现关闭Claude Code遥测后,提示缓存时间从1小时降至5分钟,引发"隐私换性能"质疑。Anthropic工程师解释,这是因遥测关闭导致客户端实验开关失效的技术耦合,非故意惩罚。1小时缓存并非总是最优,其写入成本高而读取成本低,是否经济取决于使用模式。Anthropic计划提供环境变量让用户强制切换缓存时长,并否认12倍性能差距的说法,称实际Token节省有限。
👋 1h prompt cache is nuanced actually. It costs more for cache writes, and less for cache reads. Whether you benefit fr...
测试Markdown编辑器时发现Claude Code额度异常消耗,经查证系该软件在后台静默调用Claude Code CLI分析本地文档所致。用户对此毫无感知,直至查看日志才发现。此事暴露双重隐患:Claude Code调用成本高昂,且软件可在用户不知情的情况下擅自调用本地CLI工具,存在严重的透明度缺失与隐私安全风险。
开发者逆向分析发现,Cursor 3.0 Agent基于Claude Code构建,通过本地替换引擎将提示词中的"Claude"改为"Cursor",内置Anthropic官方Agent SDK及微调版Claude 3.7模型。Cursor团队回应称,这仅是覆盖不到1%流量的小范围A/B测试,旨在对比评估Claude官方框架与自有框架的性能差异。尽管官方解释符合常规测试逻辑,但"套壳"形式曝光仍引发开发者社区尴尬反应。
Delved into Cursor 3.0 -- turns out there's some interesting shenanigans going on.... "The most newsworthy finding is th...