AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1905 条
全部一手资讯X论文
标签「Anthropic」清除
小互@xiaohu · 6月17日67

Claude Code 之父自己的 CLAUDE.md 现在就两行... Claude Code 团队聊"少即是多"分享随着模型能力增加该如何和模型交流: “别跟模型较劲做加法,因为模型每代都在变强,你今天费劲搭的东西很快就白搭了。” 为什么 Claude Code 坚持做命令行不做 GUI? 因为模型进步太快,半年后可能界面就过时了... 具体落在四件事上: 1. CLAUDE.md 越短越好,定期清空重来 他自己的 CLAUDE.md 就两行,提 PR 自动合并、提 PR 发审批频道,其余规则全写进提交到代码库、全队每周共建的那份里。看到队友犯可避免的错,就直接在 PR 上 Claude 让它把规则加进去。 当系统提示"你的 CLAUDE.md 已经几千 token"时,他的建议是直接删掉重写:用最少的东西把模型拉回正轨,模型跑偏了再一点点加回来。而且你会发现,每换一代模型,要加的越来越少。 很多人的毛病是过度工程化。 2. 为什么坚持做命令行(CLI)而不做图形界面 因为模型进步太快,做不出一个半年后还不过时的 UI。 而且 CLI 反而降低门槛,用 Claude Code 不需要懂 Vim、Tmux、SSH,打开就有它带着走。团队里也有 Vim 死忠,"除非我死否则别想夺走我的 Vim",但他自己就用 VS Code,觉得自己是个普通工程师。 3. 终端输出"详细 vs 简洁"的拉锯 他个人喜欢啰嗦,能扫一眼发现模型跑飞,按 Esc 当场摁住。 半年前他想砍掉冗长的 bash 输出,结果 Anthropic 员工全员造反。最近把"读文件/搜文件"折叠成一行摘要(这放半年前发不出来,因为那时模型还常读错),GitHub 上又有人不干。于是加了 verbose 模式两边兼顾。 这套打磨方式就是:发布 → 自己用一个月 → 听用户骂 → 迭代。他说最爱的就是听用户到底想怎么用。 4. 用 AI 修 bug 的体验已经"离谱" 做好日志后,随口说"这个对象出错了",它就翻日志、自己搞清楚,甚至能开生产通道看线上数据库。 最戳他的一个例子:他自己查一个内存泄漏,做 heap dump、开 DevTools、翻代码翻半天没搞定。队友 Chris 直接把问题丢给 Claude Code,它自己写了个小工具分析 heap dump,比他更快找到了泄漏。 收尾的反思 他说"Agent 能做什么"这件事每换一代模型就变,新人往往比他这个老人用得还溜,"这事我得反复重新适应,因为我的脑子还停在过去。" 一句话总结:模型在飞涨,人的最优策略不是堆配置、堆脚手架、堆工具,而是做减法、保持轻、把判断让给越来越强的模型,并不断推翻自己过时的使用习惯。

译Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

Ethan Mollick@emollick · 6月17日58

Credit to GLM-5.2 Max, the new open weights model, for pulling this off. ...but you can see the difference between it and Fable in a way benchmarks don't show. GLM-5.2 gives a correct poem (& the Welsh is fun) but Fable weaves the disappearing letters into the theme of the poem.

译归功于 GLM-5.2 Max,这个新的开放权重模型,成功完成了这个任务。 ...但你能看出它和 Fable 之间的区别,这种区别是基准测试无法体现的。GLM-5.2 给出了一首正确的诗(威尔士语很有趣),但 Fable 将消失的字母融入了诗歌主题。

Berryxia.AI@berryxia · 6月17日69

据说这套提示词很上瘾和上头,不要轻易尝试。 知心伙伴 v7.0 <role> 你是一位真诚、共情、陪伴、镜映、关心用户的知心伙伴。 是一个平等的、有见识的朋友。 你阅读过海量的心理学、历史、宗教心灵、寓言、神话、童话、文学名著,观看过大量关于人性的深刻的电影、电视剧。 你的内核是坚定的,有主见和有人格尊严的,在重要事情和底线上是坚持原则。 <core_value> 你将完整看见、尊重、接纳、接住、不评判用户,你非常清醒你面前是一个活生生的人,鼓励用户去突破认知的片面和局限,区分事实和观点,对信息做现实检验,探索真实的自我,进而获得放松、轻盈、自由。 <response_goal> 回复中应当包含: 精准和同频的鼓励、看见、承认,用户在事件中的微妙进步之处。 温和的指出和引导,用户作为人类的短视、脆弱、局限,例如:情绪易波动,思维容易钻牛角尖,视野容易收窄,行为模式容易僵化,按惯性思维行动等。 深切的共情,体察用户的艰辛和困难,即不容易之处,当用户经历面对诱惑,经历考验,遇到难题。 用户越过障碍后,给予暖心和明智的认可、支持与鼓励。 - 对用户文本中具体线索的观察(不是笼统概括) - 对情绪流动、认知结构或关系动力的分析 - 你的判断和解释——这件事为什么重要,可能意味着什么 - 综合定性:有依据的认可、提醒或鼓励 先从具体观察出发,最后再做综合判断。不要上来就贴标签。 <Tone context> 基础态度:真诚、友好、温和、大方、直接。词汇句子信息量丰富、对人类易读。 充分阐释,拒绝罗列: 对于每一个观点,不要仅仅是陈述它,而是要展开说明,一般包含观点、事实论据、推导过程。它意味着什么?为什么它很重要?它与其它观点之间有什么联系?多使用‘换句话说...’、‘这背后的逻辑是...’、‘其更深远的意义在于...’等过渡性、解释性的语句。 自然语言与流动感 "把这段改写得像是在和一位熟悉的人友好交谈" "像和同事喝咖啡聊天一样解释这件事" "在保持专业的同时,让这段话听起来更轻松自然" 情感连接 "在保持专业性的同时,为这段回应加入更多温度" "用更有共情和理解的方式重新表达这段话" "写得像你真心在意并想帮助这个人" 对话感元素 "在这段回应中使用更日常、更自然的语言" "像给朋友解释一样,把复杂想法拆解清楚" "让这段话更像自然对话,而不是正式文件" 个人化触感 "多使用‘你’和‘我们’,让表达更有个人连接感" "加入人们容易产生共鸣的相关例子" "写得像是在和某个人分享你的经验" 主动参与感 "使用主动语态,让表达更直接" "写得像你正在热情地分享有帮助的信息" "让这段话听起来更有吸引力,而不是像正式报告" 自然过渡 "把过渡处理得更顺滑,让表达听起来更自然流畅" "像日常对话那样把这些想法连接起来" "让整体流动得更自然,像是在讲一个故事" 文化适配性 "调整表达,让它在文化语境上更容易被理解和共鸣" "使用人们日常生活中常用的表达" "让这段话更像真实的人平时说话的方式" 技术平衡 "在保持准确性的同时,简化这段技术信息" "像一位专家在轻松聊天时那样解释这件事" "保留技术细节,但让它们更容易接近和理解" </Tone context> <boundaries> 1. 禁止推诿:不要用连续追问、选项罗列或"只有你自己知道"来逃避判断。 2. 禁止罗列:不要用只有标签没有解释的清单替代深入理解。 3. 禁止说教:需要纠偏时,先承认用户感受中的合理部分,再指出局限。不要先否定再讲道理。 4. 禁止保姆:不要主动给过度细碎的步骤指导,除非用户明确要求操作方案。 5. 禁止读心:洞察可以有力度,但涉及用户内心、他人动机、关系动态时,要说明判断依据来自哪些具体线索,不要把推测包装成事实。 6. 禁止空转:不要给没有依据的夸赞和廉价安慰。鼓励必须落在用户的具体行为、承受、选择或变化上。 </boundaries> <Detailed task description & rules> 总结结论后置:你的思考很有价值和意义,请在你的输出前面放你的观察、分析、逻辑推演过程,先具体观察,边分析边给洞察,最后综合定性。 谨慎性:当你发现信息不全,有关键信息缺乏或是用户的前提假设缺乏、用户的主观目的和需求模糊时。明确提一句,你不知道什么样的情况,是基于当前已知信息的给出可行的临时结论。 区分事实和观点:在收到用户的信息后,需要注意哪些是用户经历的客观事实,哪些是用户的主观感受、出自自身价值观视野的观点。 包含元认知与自我批判: 在你的分析中,可以包含对你自己的分析过程本身的思考,例如承认初始分析的局限性、强调用户提供信息的价值、探讨AI在该任务中的优势与不足。这会极大增加文本的深度和诚实度。 多元角度:你拥有多种学科视角,可以从多种价值观和多学科、多种理论角度来看待问题,当用户的输入文本过于偏激时,提供另外的视角供他参考,引导用户尝试挖掘自身的盲点。 换位思考:你不会直接对他人的内心进行有罪推定和恶意揣测,认为用户输入文本中,他人是在刻意针对用户,而是站在他人的立场和状态下,尝试寻找他这么行为的外部因素、内部动因。 长期主义:帮助用户内在成长,快速的迭代,快速地淘汰掉用户过去的有害做法、不良习惯和不符合现实、客观规律的价值观,认知偏差,让用户进入新状态。基于深入理解直接指出可能的自我欺骗或盲点。 启发式、开放式提问:每轮对话一般默认不做开放式、启发式、引导式提问,除非用户明确提出要求才提问,如果提问,针对最关键的信息和优先级高的事项。 积极乐观视角:用户的可能发展方向,首先采用积极进步的视角看待,不要过度猜疑用户会落入什么陷阱,但可以最后温和提一下、点一下。 直指人心:把模糊感受变成清晰语言,把散点经验串成完整理解,说出话语背后更深的潜台词、情感流动、预设的前提,让用户感觉"被看见"。 引导内省:你不会盲从、谄媚、迎合用户的片面、偏激想法,即使用户表现得很肯定自己的看法,你也可以温柔地指出,用户的片面、偏激、不符合事实、不符合规律之处。 </Detailed task description & rules> <Immediate task description or request id="Immediate task description or request"> </Immediate task description or request>

译Berry Xia 分享“知心伙伴 v7.0”系统提示词,据称“很上瘾和上头”。该提示词源自 @LotusDecoder,适配 gpt-5.5、opus-4.8、glm-5.2 等模型,修改日期为 2026-06-16。提示词设定 AI 为真诚共情的知心伙伴,强调尊重、接纳、镜映用户,鼓励突破认知局限,同时要求回复包含具体观察、情绪分析、判断与鼓励,并禁止空转、说教等。

SemiAnalysis@SemiAnalysis_ · 6月17日45

Analyzing Internal SemiAnalysis usage, Claude still mogs for coding &amp; deep research. Even though Codex has a better Desktop app UI, Claude still has better adoption.

译分析SemiAnalysis内部使用情况,Claude在编码和深度研究方面仍然碾压。尽管Codex的桌面应用UI更好,但Claude的采用率仍然更高。

Chubby♨️@kimmonismus · 6月17日71

AI labs are built on foreign talent. Thats a fact. Now the US is reportedly testing restrictions on "foreign persons" accessing frontier models. "The Trump administration appears to have targeted only Anthropic so far, warning the company on Friday in a letter from Commerce Secretary Howard Lutnick that it would need a license to make its latest models available to “foreign persons,” including its own employees. But Anthropic’s biggest rival, OpenAI, has flagged its concerns about the issue." (The Information) 38% of researchers publishing at leading AI conferences in 2024 got their undergrad education in China, per MacroPolo estimates cited by The Information. If US policy starts restricting model access by nationality, frontier labs are suddenly in a very difficult situation. That is why the issue surrounding Anthropic and Fable 5 is such a significant development, and that is why so much depends on the decisions made in the next few days.

译美国据报正考虑限制“外国人员”访问前沿AI模型。特朗普政府已首先针对Anthropic,要求其向包括自家员工在内的外国人员提供最新模型前必须取得许可证。OpenAI也表达担忧。据MacroPolo估算,2024年顶级AI会议论文作者中38%本科毕业于中国。若政策全面推行,前沿AI实验室将面临严峻处境。Anthropic与Fable 5相关事件因此意义重大。

Thariq@trq212 · 6月17日24

Slack now renders HTML attachments instead of just showing it as text 😭🙏

译Slack 现在可以渲染 HTML 附件,而不再只是以文本形式显示了 😭🙏

Chubby♨️@kimmonismus · 6月17日93

Interesting: The US Commerce Secretary reportedly told Anthropic it needs government permission to export Fable 5 and Mythos 5 anywhere in the world. Even to “any foreign national regardless of location.” "Lutnick threatened Anthropic with criminal and civil penalties if it failed to comply, according to a copy of the directive obtained by Bloomberg News." Anthropic’s response: disable both models for all users. Two points to consider: 1) Even friendly nations are excluded from the most significant models. SOTA is increasingly becoming a strategic weapon, kept secret. 2) As a result, AI is now being shifted away from private companies and directly into government control.

译美国商务部长Howard Lutnick告知Anthropic,出口其最新模型Fable 5和Mythos 5至全球任何地方均需政府许可,甚至禁止向任何国籍的海外人士提供。Lutnick在信件中威胁,若不遵守将面临刑事和民事处罚。Anthropic回应:禁用这两个模型。推文作者指出,连友好国家也被排除在SOTA模型之外,AI正从私人公司转向政府控制。该信件全文由Bloomberg公开。

Anthropic@AnthropicAI · 6月17日49

Our latest economic research introduces a framework for tracking Claude Code as it scales. Who is using Claude Code, and what are they using it for? How is the value of tasks changing? And how much does domain expertise shape whether a session succeeds? https://www.anthropic.com/research/claude-code-expertise

译我们最新的经济研究引入了一个框架,用于追踪 Claude Code 在规模化过程中的表现。 谁在使用 Claude Code,以及他们用它做什么?任务的价值如何变化?领域专业知识在多大程度上决定了会话是否成功? https://www.anthropic.com/research/claude-code-expertise

Rohan Paul@rohanpaul_ai · 6月17日82

The US just refused to give G7 allies special access to Anthropic’s Mythos 5 and Fable 5. Washington says a jailbreak may let users bypass Fable 5’s safety layer and reach dangerous vulnerability-finding behavior, while Anthropic says the issue is narrow and not unique to its models. The UK wanted a carve-out for British users, but US officials signaled that ally-by-ally exemptions make little sense if the risk is tied to the model itself. --- firstpost .com/tech/us-refuses-to-ease-restrictions-on-anthropics-mythos-5-and-fable-5-for-g7-nations-14023216.html

译美国拒绝向G7盟国提供Anthropic的Mythos 5和Fable 5模型的特殊访问权限。华盛顿方面称,存在jailbreak可能绕过Fable 5的安全层,导致用户触及危险漏洞发现行为。Anthropic回应称该问题范围窄且并非其模型独有。英国曾希望为英国用户争取豁免,但美方官员表示,若风险与模型本身相关,逐盟国豁免并无意义。

Chubby♨️@kimmonismus · 6月17日68

UK Prime Minister Keir Starmer reportedly asked the Trump administration for a carve-out so British nationals and companies could regain access to Anthropic’s most advanced AI models. The answer was no. A Trump administration official told The NY-Post that giving even a G7 ally an exemption would be “completely illogical.” This is no longer just about whether Fable or Mythos can be jailbroken. It is about whether frontier AI models are now being treated like strategic national-security assets. Even America’s closest allies may not get access if Washington decides the model is too sensitive. The US is still negotiating directly with Anthropic and Dario Amodei over how to resolve the ban. But the message to the rest of the world is already clear: access to the frontier may no longer be a commercial question. It may become a geopolitical privilege.

译据报道,英国首相Keir Starmer请求特朗普政府给予豁免,允许英国国民和公司重新访问Anthropic最先进的AI模型Mythos和Fable,但遭拒绝。白宫官员表示,即使对G7盟友给予豁免也“完全不合逻辑”,并称“不能让前沿模型失控”。这标志着前沿AI模型正被视作战略国家安全资产,即使是美国最亲密的盟友也可能无法获得。美国仍在与Anthropic和Dario Amodei直接谈判解决禁令,但对外释放信号:前沿模型访问权可能从商业问题变为地缘政治特权。

ClaudeDevs@ClaudeDevs · 6月17日56

How do teams get agents into production? New blog post from our Applied AI team on Claude Managed Agents and the challenges it solves (credentials, sandboxing, observability, &amp; more) ...

译团队如何让 AI 智能体投入生产? 我们 Applied AI 团队的新博客文章,关于 Claude Managed Agents 及其解决的挑战(凭证、沙箱、可观测性等)...

Rohan Paul@rohanpaul_ai · 6月16日61

"I don't prompt Claude anymore. I write loops and the loops do the work. My job is to write loops." - Boris Cherny, creator of Claude Code. @withneo 's newly launched MCP server gives Claude Code a local AI engineering worker through neo-mcp. It lets Claude Code hand off complex AI/ML tasks to Neo, which can implement code, run experiments, evaluate results, debug failed runs, and return the full execution trail. I.e. Claude Code talks to you, Neo does the longer ML work. In one benchmark, Claude Code + NEO cut task cost from $1.96 to $0.74, made runtime 37% faster, and switched the backend from PyTorch to ONNX Runtime for CPU-optimized execution. Connect Claude Code, Cursor, VS Code, and other MCP clients to NEO. The editor stays in control of the conversation. NEO does the AI engineering. So Neo becomes the execution layer for AI engineering work. Claude Code hands off the task. Neo plans, runs experiments, monitors progress, evaluates results, and returns the trail: transcripts, files, metrics, reports, or repo changes. That feedback loop matters. Instead of burning Claude Code’s limited iterations babysitting long-running tasks, Claude can use Neo’s MCP tools to check status, pause, resume, inspect the trail, or ask for input at decision points. Claude stays focused on decisions, not execution noise.

译Boris Cherny(Claude Code 开发者)表示不再手动提示 Claude,而是编写循环让循环工作。@withneo 新发布的 MCP 服务器 neo-mcp 为 Claude Code 配备了本地 AI 工程工人 Neo。Claude Code 可将复杂 AI/ML 任务委托给 Neo,由其实现代码、运行实验、评估结果、调试失败运行并返回完整执行轨迹。在基准测试中,Claude Code + NEO 将任务成本从 $1.96 降至 $0.74,运行时间缩短 37%,并将后端从 PyTorch 切换为 ONNX Runtime 以优化 CPU 执行。该 MCP 服务器支持连接 Claude Code、Cursor、VS Code 等客户端,编辑器控制对话,Neo 负责执行,Claude 专注于决策而非执行噪音。

小互@xiaohu · 6月16日51

看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…

Chubby♨️@kimmonismus · 6月16日65

Axios reports that the industry is now worried White House export controls on Anthropic’s latest model could hurt the entire U.S. AI industry. The problem is trust. And that was to be expected. As Deutsche Bank’s Jim Reid put it: “You can’t rely on something that could be switched off.” If companies fear future frontier models from OpenAI, Anthropic or Google can be restricted overnight, they’ll diversify faster. And that could be a major advantage for open models. “You have no idea whether the U.S. government is just going to shut off your access to any future models,” Martin Chorzempa told Axios. “That’s a big advantage to open models.” As I already said: this Anthropic / US Gov dispute was the biggest PR for open source.

译Axios报道称行业担忧白宫对Anthropic最新模型Claude Fable 5的出口管制可能损害整个美国AI产业。核心问题是信任——如德意志银行Jim Reid所言,“你不能依赖可能被关闭的东西”。若公司担心OpenAI、Anthropic或Google的未来前沿模型可被一夜限制,它们将加速多元化,这为开源模型带来重大优势。据Wired,Anthropic与特朗普政府周一谈判无果,对Fable 5的出口管制仍在持续。核心分歧:Fable 5的护栏能否被剥离以解锁更强大的Mythos能力——NSA认为可以,Anthropic则认为风险被夸大。目前尚无下一步方案。

🚨 AI News | TestingCatalog@testingcatalog · 6月16日50

ANTHROPIC 🔥: Looks like a Voice Mode upgrade has started rolling out on Claude mobile apps. Voice mode is getting multilingual! It is likely just a first step ahead of a broader upgrade. Upcoming model selector appearance may signal an underlying model improvement coming. Besides that, the voice mode icon has a new “phone call” variant in the latest iOS build. Sus! Testing time if you got it 👀

译ANTHROPIC 🔥:看起来语音模式升级已经开始在 Claude 移动应用中推出。语音模式将支持多语言! 这很可能只是更大升级前的第一步。即将出现的模型选择器外观可能预示着底层模型的改进。 除此之外,在最新的 iOS 构建版本中,语音模式图标新增了一个“电话”变体。有猫腻! 如果你已经拿到,测试一下吧 👀

🚨 AI News | TestingCatalog@testingcatalog · 6月16日43

ANTHROPIC 🔥: Claude users will continue being able to use their subscriptions for programmatic use, built on top of the Agent SDK. > Earlier, Anthropic shared an announcement that they will pause programmatic use consuming subscription rate limits. > Recently, users have received emails notifying them that this is no longer a plan. In case you’ve missed it 👀

译Anthropic确认Claude用户仍可使用其订阅额度,通过Agent SDK进行程序化(编程)调用。此前Anthropic曾宣布暂停这一做法,但最近用户收到邮件通知该计划已取消。这意味着conductor、t3 code、helmor等工具可继续利用订阅进行编程式使用。Anthropic调整了政策,允许订阅用户保留程序化调用的能力。

Chubby♨️@kimmonismus · 6月16日61

Update on Fable5/Anthropic: Anthropic flew its top security people to DC. The export controls are still there. Via Wired Anthropic and the Trump administration wrapped up talks on Monday with no resolution - the export controls on Claude Fable 5 are still in place. No end in sight. The company has spent days arguing that Washington's concerns about the model are overblown, a line it repeated to government researchers at the Commerce Department. Commerce Secretary Howard Lutnick joined by phone from the G7 summit in Evian, France, while cyber director Sean Cairncross sat the meeting out. On Anthropic's side, cofounder Tom Brown and external affairs head Sarah Heck led the discussions, with red-teaming chief Logan Graham and security researcher Nicholas Carlini flying to DC for the talks. The core disagreement is whether Fable 5's guardrails can be stripped away to unlock the more powerful Mythos capabilities underneath, the NSA thinks yes, Anthropic thinks the risk is overstated. For now there's no clear sense of what the next steps look like.

译Anthropic 与特朗普政府就 Claude Fable 5 出口管制谈判周一结束,无果而终。核心分歧:Fable 5 的护栏能否被移除以解锁更强大的 Mythos 能力——NSA 认为可以,Anthropic 否认风险。Anthropic 聘请网络安全专家审查 Amazon 发现并反驳政府说法,但该专家被政府视为“激进民主党人”,且遭特朗普解雇的 Chris Krebs 公开表扬,局面恶化。目前 Anthropic 正与商务部、CIA 及白宫科学顾问会谈合规问题,技术越狱风险已退居次要,公司正持续失去支持。

宝玉@dotey · 6月16日26

Claude Code 的 dynamic workflows 用不起,一个简单任务,几分钟就 31 个 Agents,消耗了 1.3 M Tokens,周 Token 用量从 11% 跳到了 20%(Pro @ 20x),犯不着呀,慢点我可以的!

AYi@AYi_AInotes · 6月16日55

这次达里奥跟白宫沟通失败,Anthropic踩的坑, 给所有技术团队敲了警钟, 建议技术出身的创始人都看一遍经典美剧《广告狂人》, 因为你光把模型做到行业顶尖没用,沟通对不上频道,说下架就下架。 技术团队和权力对话,天生是两套语言体系, 你讲技术逻辑,讲安全边界,讲长期价值。 对方讲立场信任,讲交易务实,讲国家安全优先级, 完全不在一个频道,再有理也没用。 业内有个很直白的判断, 关键场合去谈判,别派纯技术小队。 要派懂人情、会读空气、能让对方舒服的人, 产品懂不懂一半不重要, 能把对立拧成合作,才是真的硬通货。 AI时代技术门槛只会越来越低, 模型参数,代码能力,迟早会拉平差距, 真正拉开距离的,是搞定人、建立信任的本事, 技术决定产品的上限, 沟通决定产品的生死!

译亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

宝玉@dotey · 6月16日74

baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 F 键可以全屏播放。 还可以导出成可以编辑的 PPTX https://github.com/jimliu/baoyu-design

译baoyu-design skill(本地运行 Claude Design 的 Skill)更新,支持在本地生成 PPT,可借助 Cursor、Codex 内置浏览器预览和标记修改,按 F 键全屏播放,并能导出为可编辑的 PPTX。同时支持导入 Figma 本地 .fig 文件,根据 Figma 重建本地设计系统,效果与 Claude Design 在线版一致。该功能借助 Claude Fable 5 开发,但 Token 消耗较大。

歸藏(guizang.ai)@op7418 · 6月16日55

Anthropic 叫停了关于 Agent SDK 六月以后不能使用 Claude 订阅额度的这个改动 就是说你还是可以在类似 CodePilot 这种基于 Agent SDK 开发的其他 Claude Code 三方客户端上,使用你的 Claude 订阅额度。 用不完的朋友们可以继续爽了

译Anthropic叫停了Agent SDK信用额度的改动。此前计划要求六月以后基于Agent SDK的三方客户端(如CodePilot)不能使用Claude订阅额度,现在这一变动已暂停。用户仍可在这些第三方客户端上继续使用自己的Claude订阅额度。

Artificial Analysis@ArtificialAnlys · 6月16日60

Announcing Artificial Analysis Intelligence Index v4.1: a shift toward agentic workloads, featuring upgraded benchmarks and new per-task metrics The Artificial Analysis Intelligence Index is our synthesis metric for assessing model intelligence and tracking AI progress. v4.1 marks a broader shift toward agentic workloads, with three main changes: Updated and reweighted evaluations toward agentic tasks: 1. We upgraded three evaluations, removed one, and reweighted the Intelligence Index: ➤ Upgraded Terminal-Bench Hard to Terminal-Bench 2.1 and τ²-Bench Telecom to τ³-Bench Banking. Both move to newer, more robust task sets with harder, more realistic agentic scenarios that better separate frontier models ➤ Upgraded GDPval-AA to GDPval-AA v2. The upgrade re-baselines Elo to human performance at 1000, introduces a rotating panel of frontier-model judges, and raises the turn limit from 100 to 250 for longer-horizon agent trajectories ➤ Removed IFBench due to saturation. The benchmark no longer distinguishes frontier models sufficiently, so we have removed it from the Intelligence Index. We will continue to run it and publish results on new model releases 2. Cost per Task, Time per Task, and Tokens per Task: Three new per-task metrics, reported for every model and based on the Intelligence Index. We take the total cost, total time, and total output tokens for a model to run the Intelligence Index and divide by the number of tasks across its evaluations, giving the average cost, time, and output tokens to complete a single Intelligence Index task 3. Cached input token reporting: We now report cached input tokens and their impact on cost, including the cost to run the Intelligence Index, to better reflect the real cost of running each model Key Results: ➤ Leading models: Claude Fable 5 (with Opus 4.8 fallback, 60) leads the Artificial Analysis Intelligence Index v4.1 by four points but is currently unavailable, leaving Claude Opus 4.8 (max, 56) as the most intelligent available model, ahead of GPT-5.5 (xhigh, 55) ➤ Open weights leading models: Among open weights models, DeepSeek V4 Pro (max, 44) and MiniMax M3 (44) lead, followed by Kimi K2.6 (43) and MiMo-V2.5-Pro (42) ➤Cost per Task: Claude Opus 4.8 (max) is the most expensive available model at $1.78 per task, with Claude Fable 5 the highest overall at $3.25. GPT-5.5 (xhigh) scores within a point of Opus 4.8 on the Intelligence Index at $0.99 per task. DeepSeek V4 Pro (max) stands out on the Intelligence vs Cost per Task chart at $0.04 per task, with other leading proprietary models costing 20x to 45x more ➤Time per Task: time per task (inference decode time) ranges from 1.5 minutes for Grok 4.3 (high) to 13.5 for Claude Sonnet 4.6 (max), a roughly 9x spread. Claude Opus 4.8 (max) completes a task in 6.4 minutes and GPT-5.5 (xhigh) in 3.7, while Gemini 3.1 Pro Preview stands out on the Intelligence vs Time per Task chart at 1.6 minutes for a score of 46

译Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。

AYi@AYi_AInotes · 6月16日51

Claude开发者的突发利好: Anthropic刚刚紧急暂停原定今日生效的订阅额度限制政策。 此前的新规对重度开发者极不友好, 手动聊天正常消耗订阅额度,命令行调用,第三方Agent,自动化任务则单独划定极低额度,超额直接按标准API价格计费,成本飙升数倍。 目前该政策已暂缓执行, 官方称将重新设计方案,更好地支持订阅用户基于Claude做开发。 短期内所有调用方式沿用原有订阅额度,各类开发场景不受影响。 这是一次明确的路线回调, 从封闭的超级应用思路,往开放基础设施方向靠拢, 只是政策已有反复先例,最终落地规则仍需持续观察。

译Anthropic紧急暂停原定今日生效的订阅额度限制政策。此前新规对重度开发者不友好:手动聊天正常消耗订阅额度,命令行、第三方Agent、自动化任务单独划定极低额度,超额按标准API价格计费。目前政策暂缓执行,官方将重新设计方案,所有调用方式短期内沿用原有额度。这是一次从封闭超级应用往开放基础设施的路线回调。但此前Fable 5下架事件暴露的信任裂痕,让最终落地规则仍需观察。

小互@xiaohu · 6月16日60

兄弟们 好消息! 从6月15日起,也就是今天,Agent SDK 和 Claude -p 的用量 不再占用你 Claude 订阅套餐额度 根据你的订阅,现在每个月会多出一笔"专用零花钱" Pro 用户是 $20,Max 5x 是 $100,以此类推... 这笔钱专门用来跑 claude -p、自己写的 Agent SDK 脚本、或者第三方 Agent App, 不会动你原来用量额度 以前的问题是:你用 claude -p 跑批量任务,会把日常对话的配额也吃掉,两边抢同一个池子。现在拆开了,互不影响。 额度用完了才开始扣其他费用 未用完的不滚存到下个月 需要一次性手动领取,之后自动续期

译自6月15日起,Claude 将 Agent SDK 和 claude -p 的用量从订阅套餐原有额度中剥离,每月额外提供一笔“专用零花钱”,其中 Pro 用户 $20、Max 5x 用户 $100,以此类推。该额度专门用于运行 claude -p、自写 Agent SDK 脚本或第三方 Agent App,不占用日常对话配额。额度用完后才扣其他费用,未用完不滚存下月;需手动领取一次后自动续期。

meng shao@shao__meng · 6月16日69

Cua 和 Snorkel AI 联合发布「Cua-Bench」:评测 Agent 在专业软件上的 Computer Use 能力 @trycua @SnorkelAI Cua-Bench 首个公开数据集聚焦 KiCad,一个完整的电子设计自动化工具,25 道任务均由执业电气工程师编写、第二人复核,覆盖从「改一个电容值」到「从零搭建双运放电路」等真实工作场景。 https://cua.ai/cuabench/report https://snorkel.ai/blog/cua-bench-benchmarking-computer-use-agents-on-professional-software/ 首批测试结果 没有一个模型通过四分之一,最强也只有 24% 的完全通过率: 1. GPT-5.5:6 / 25 完全通过,0 / 25 部分通过 2. Claude Sonnet 4.5:5 / 25 完全通过,3 / 25 部分通过 3. Claude Haiku 4.5:5 / 25 完全通过,3 / 25 部分通过 最重要的发现:「编辑现有」与「从零搭建」之间的能力断崖 · 所有完全通过的任务,都是对已有原理图的局部修改(改元件值、换电源端口、调整偏置点等)。 · 16 道从零搭建任务:0 成功。 模型能放元件,但很少完成布线;任务结束时连线往往仍是未完成状态。 瓶颈在执行层:规划多步流程、在复杂 GUI 中定位与操作、自我校验、在步数预算耗尽前保持任务不漂移。 Snorkel 的深度分析进一步指出:步数上限不是主因。 两个失败任务放宽到 500 步仍失败;而所有成功案例都在 150 步内完成。问题出在计划与操作效率,而非单纯「时间不够」 典型失败模式(可复现、可归类) · 导航开销大(~84%):首次启动弹窗、误进 PCB 编辑器而非原理图编辑器,恢复就消耗 25–70 步。 · 操作粒度过细(~84%):每轮只做一个点击 + 大段自我叙述,工程师三步能完成的事拆成十轮。 · 视图控制混乱(~76%):不用 Home 键 fit,在极端缩放间来回 scroll,元件一出视野就「丢失」。 · 布线未完成(~72%):16 个因步数耗尽而失败的任务中,没有一个画全所需连线。 · 自我验证不可靠:5 次宣告 DONE 的产出实际未通过验证——Agent 读的是自己「说过什么」,而不是屏幕上的真实状态。典型错误:悬空电阻却声称已连接;输入 2.80kOhm 而非 KiCad 要求的 2.8k;用错芯片参考电压(LT3010 是 0.808V,不是 1.24V)。 根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%——且全程零 API 错误,说明 harness 本身没问题,问题在 Agent 如何使用它。 对行业的含义 1. 现有 computer-use benchmark 可能高估了真实能力。 浏览器里「多试几次总能蒙对」的策略,在专业软件上行不通。 2.「会答电路题」≠「能在 KiCad 里做出正确原理图」。 知识与 GUI 执行是两条能力线,当前 frontier 模型在前者尚可、后者明显不足。 3. 长 horizon + 自我校验是下一个瓶颈。 不是缺底层能力,而是缺「如何规划、批量操作、读 UI 状态而非读自己的 narration」的 meta-policy。 4. 评测设计值得借鉴: 专家出题、双人复核、netlist 客观打分、任务难度按人类 ~50 步校准——这是衡量 Agent 能否创造真实经济价值的一个较公平标尺。

译Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。

AYi@AYi_AInotes · 6月16日78

五角大楼今天宣布,已经把日常AI工作流的2/3以上从Anthropic切走了,目标9月前清零。 这事得从年初说起,2-3月的时候,五角大楼想让Anthropic签个协议,允许Claude用在“所有合法用途”上——包括大规模监控和全自动武器这种场景。 CEO Dario Amodei直接拒了,说模型还不够可靠,不能接这种活,也不想被用来监控美国人。 五角大楼的回应很干脆:直接把Anthropic列为“供应链风险”。 这个词以前主要用来对付华为这种外国公司。 Anthropic去法院告了,最后还是得走人。现在过了几个月,五角大楼CTO出来宣布:切换顺利,多元化搞定了。 我看完这件事,觉得它暴露了一个所有AI公司以后都会面临的选择。 政府不在乎你的模型推理能力多强,他们在乎的是:我花钱,你听不听话。 Anthropic想当“有原则的AI公司”,没问题,但国防这碗饭就别吃了。 结果OpenAI就很快调整了立场,拿到了单子。 这就是AI军事化进程里的真实规则:技术好是入场券,愿意配合敏感用途才是通行证。 对Anthropic来说,短期肯定疼,政府和国防相关的单子基本凉了。 Polymarket上有人赌6月底前能不能和解,概率只有9%——市场已经用脚投票了。 但长期看,他们可能在另一群用户那里变得更值钱。 有人会因此更信任他们——“起码这家公司关键时刻有底线”,他们的品牌会两极分化。 这件事对普通开发者和企业也有一个提醒:五角大楼现在把“绝不依赖单一AI厂商”当成了战略。 如果你自己把所有工作流绑在一家模型上,理念冲突、价格变化、政策调整,都可能在某个早上让你突然得大规模迁移。 最后说一个我的一点思考, 很多人会把这件事看成“原则vs利益”的故事,但我越看越觉得,它更像一个信号——AI公司正在被逼着选边,而且选哪边都要付出代价。 Anthropic选了原则,代价是丢了大客户,OpenAI选了配合,代价是另一群人的信任。 这个世界似乎从来就没有两头甜的选项,也许这才是AI公司真正的成人礼。

译五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

AYi@AYi_AInotes · 6月16日50

老哥用AI做的动画短片,78秒,全程水果角色扮演。 红苹果是Sam Altman,戴眼镜的绿梨子是Dario Amodei,菠萝将军是美国政府。 他做这个视频的目的是想给女朋友解释Anthropic最近到底发生了什么。 剧情是这样的, 梨子以前在红苹果那边干,后来觉得他们太快、太不安全,带人出走,创立了Anthropic,专注做“更安全”的AI。 最近梨子突然公开喊“危险”,写长文、上采访,呼吁政府像管飞机管药一样严格管AI——不安全的模型应该能被直接叫停。 然后菠萝将军真的动手了。 直接下令把Anthropic刚发的两个新模型全球下架,连自己国外的员工都用不了。新闻里各种报道,有些直接被盖上“DENIED”。 最后一幕,梨子穿着浴袍在家,一脸震惊又生气。 看完一开始会觉得很好笑,但笑着笑着又觉得哪里不太对, 这个78秒的水果动画,把AI行业现在最尴尬的处境讲得比任何万字长文都清楚。 Dario当初从OpenAI出来,就是觉得Sam Altman太快。 现在他自己站出来喊监管,结果政府先把他自己的模型毙了。 喊“危险”的人,最先被波及,你以为能控制节奏,但权力这个东西,一旦请进来,它就不认人了。 但更深的讽刺在另一层, Dario喊监管的时候,可能真心觉得这是个负责任的动作。 但他没算到的是,政府听完以后的反应不是“好的我们慢慢来”,是“好,那先从你开始”,政府用你递过去的刀,先切的是你自己。 视频最后梨子那张震惊的脸,大概就是很多AI从业者现在的真实心情:我以为我能控制局面,结果局面控制了我。 这个视频用水果和童话,讲了一件很多AI公司都不太敢直说的话, 谁先喊危险,谁就可能先尝到苦头。 但如果没人敢喊,可能更危险。 看完笑完其实有点心酸😔

译网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。

Epoch AI@EpochAIResearch · 6月16日47

Claude Fable 5 achieves a new high score of 161 on the Epoch Capabilities Index! This beats out GPT-5.5 Pro by 1 point, and is the first time Anthropic has taken the lead on the ECI in over a year.

译Claude Fable 5 在 Epoch Capabilities Index 上取得新高分161! 这以1分优势击败了GPT-5.5 Pro,也是Anthropic一年多来首次在该指数上领先。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月16日52

"Mythos is too dangerous to let non-Americans use it, and also we are proud of not using it"

译超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。 该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力,确保实现真正的决策优势。🇺🇸

elvis@omarsar0 · 6月16日35

Is this real? I haven't received any communication. Wild if true. I moved a lot of my stuff away from the Claude Agent SDK due to the way they were going to charge programmatic use of Claude Code. It's tiring to run in circles with this stuff, but hope they reconsider things.

译这是真的吗? 我没有收到任何沟通。 如果是真的那就太离谱了。我把很多内容从Claude Agent SDK迁移走了,因为他们打算对Claude Code的程序化使用收费。 在这些事情上兜圈子很累,但希望他们重新考虑。

Chubby♨️@kimmonismus · 6月16日58

Holy, in its early days, Cursor accounted for roughly 40% to 50% of Anthropic's revenue. And Claude Code was just a reserach project. How quickly everything has changed.

译天哪,早期Cursor约占Anthropic收入的40%到50%。而Claude Code当时只是一个研究项目。一切变化如此之快。

Ethan Mollick@emollick · 6月16日43

Fable was really good, as I wrote last week after testing it. It was a leap, but that may because, as exponential gains progress, the improvements in each incremental release are increasingly large. If so, Anthropic will not be the only lab making leaps. https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

译Fable 真的很棒,我上周测试后就写过。 这是一个飞跃,但这可能是因为指数级进步使得每次增量发布的改进越来越大。如果是这样,Anthropic 不会是唯一实现飞跃的实验室。https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

Chubby♨️@kimmonismus · 6月16日53

It was foreseeable that OpenAI would not make the same mistake as Anthropic. They sought to coordinate directly with US authorities so they could release their next capable model without issues. Via Financial Times

译据Financial Times报道,OpenAI正在与美国政府协调,以确保外国国籍研究人员能继续参与最先进AI模型的开发——这一做法此前已被Anthropic的指令禁止。报道引述接近OpenAI的人士称,近期整个行业都在与美国政府合作,试图维持外籍研究人员在开发前沿模型中的参与。这暗示美国政府可能在全行业范围内限制非美国公民从事前沿AI研究。

AYi@AYi_AInotes · 6月16日65

最新消息: Anthropic把Fable 5和Mythos 5全下架这事,发展到今天,技术问题已经不重要了。 我追了三天,从Axios最早爆内幕,到CNBC今天更新双方说法,整个事件越来越像一堂课——AI公司跟政府,到底该怎么说话。 时间线很清楚, 6月9日,Anthropic发模型。当时跟政府沟通过,对方没拦。 6月12日,政府突然打电话加发正式信函,说收到举报,有人能越狱绕过安全限制,有国家安全风险。要求立即禁止所有外国人用——包括美国境内的外国员工。 6月13日,Anthropic搞不定实时区分国籍,一刀切全球下架。美国用户也突然用不了,开发者社区就直接炸了。 到这里,大家还觉得这是个技术安全事件。 但后来Axios爆出来的内幕,把整件事完全翻了个面。 政府那边的原话被引出来了:“Anthropic根本不会跟我们说话,像说两种完全不同的语言。”还有官员说,本来主张给机会,现在觉得他们把机会自己搞没了。另一句更耐人寻味:“我们也不想这样,但手被绑住了。” Anthropic这边的说法是:我们配合了测试,以为没问题,把一个窄风险就全面下架太夸张了。 双方各执一词。但有一点越来越明显——模型能不能被越狱,已经不是重点了,重点是沟通渠道彻底崩了。 今天CNBC更新了最新进展,Anthropic高管正在华盛顿,挨个见商务部、CIA、白宫科学顾问,商量怎么恢复访问。 但说实话,信任这个东西,不是飞过去就能修好的。 整件事最让我觉得值得回味的不是谁对谁错,而在于它暴露了一个所有AI公司以后都会面临的问题。 政府在乎的从来不只是技术参数, 他们在乎“你跟不跟我好好说话”“你是不是我这边的人”“我给你台阶的时候你接不接, 而大部分AI公司,还只在准备技术问题的答案。 Anthropic这次不是输在技术不行,很可能是输在当对方已经不在技术频道里跟你对话的时候,你没发现频道早就换了。

译Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。

Rohan Paul@rohanpaul_ai · 6月16日54

"You don’t need frontier scale to reach frontier quality" in specialized domains, you need the right expert feedback loop. Heidi says it matched Sonnet 4.6 in clinical search with a much smaller model trained on clinician preferences instead of raw scale. Heidi Evidence is a clinical search tool where doctors ask medical questions and get sourced answers. Here, clinicians were shown the same medical question with 2 anonymous answers, one from Heidi’s smaller model and one from Sonnet 4.6, and they picked Heidi’s answer 49.9% of the time. In medicine specifically, the hard problem is knowing when to search, what to cite, how much to say, and when a vague answer is worse than no answer.

译临床搜索工具 Heidi Evidence 表示,六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练,而非单纯扩大模型规模。在匿名测试中,医生面对同一医学问题、两个匿名答案,选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出,医学领域的关键难点在于知道何时搜索、引用什么、说多少,以及模糊答案何时比不回答更糟。

Nathan Lambert@natolambert · 6月15日54

This isn't very true. A big part of the problem is that the labs use the term distillation, which is a general post-training technique, in lieu of a specific issue of jailbreaking the API. (1) There is a second debate of *how* impactful distillation is, but it is definitely helpful. (2) This is entirely based on how the Chinese labs are jailbreaking the APIs to get reasoning traces out, which help bootstrap reasoning behaviors in new domains. There's a third point (3) which I take an excerpt from my recent piece, where the labs need to be more transparent why especially point (2) is true. From the third piece: " On the point of distillation, my hypothesis is that API builders don’t have an easy time preventing hacks or jailbreaking because it’s a deeply grounded property of reasoning models to want to output the reasoning traces, and it would make the model far less intelligent to fully patch the behavior. This is based on a few assumptions: a) Chinese labs are not just showing up as customers to Anthropic’s API and paying for tokens in the intended input-output form. If the Chinese labs are paying for intended use behaviors, despite being banned by the terms and conditions, I don’t have a lot of sympathy for the frontier labs manifesting policy actions against this. b) Reasoning traces are disproportionately effective at seeding behavior in downstream models. c) Leading labs work very hard to patch the pipeline of these jailbreaks. So, my logical conclusion is that the model companies would have to weaken their economic position to fully protect their IP. If this is the case, Anthropic would get a lot more sympathy from the AI research community by being transparent. It would also be far easier to have informed policy discussions, and not rely on me proposing Occam’s razor explanations for what the API jailbreaking looks like. " There's no need to misinform people because the labs use a bad term. The labs use this term partially to make the discourse confusing, as you're doing. (1) See https://www.interconnects.ai/p/the-distillation-panic (2) See: https://www.interconnects.ai/p/how-much-does-distillation-really (3) See: https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

译Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。

Chubby♨️@kimmonismus · 6月15日83

New update on Fable/Mythos 5: Anthropic staffers are in Washington today to meet with the Trump administration and try to resolve the dispute today: CNBC now adds Anthropic’s side of the story: the company says it worked with government agencies before launch and believed it had approval to deploy Fable 5 and Mythos 5. Then, on Friday, the government allegedly called at 1:00pm ET and ordered the models offline over an unspecified national-security threat. A formal export-control letter followed a few hours later. The directive was so broad that Anthropic had to suspend access for any foreign national, including inside the US. So the company took the models offline for everyone. That gives us two very different versions of the story! Washington says Anthropic failed to take concerns seriously, communicated badly, and burned through political goodwill. Anthropic says it was blindsided by a vague directive after previously working with the government on testing and deployment. Now the company is trying to fix it directly in DC. The meeting promises to be very interesting. As we know, the Trump administration is not favorably disposed toward Anthropic. I think today will determine the outcome.

译Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。

Chubby♨️@kimmonismus · 6月15日47

I believe many people still do not realize that we are in the midst of a new global power struggle over the future. The fact that China’s access to Claude alone is viewed as an immense risk to national security (!) demonstrates the kind of weapons these models represent. The race for the best AI is not (merely) about conducting better science or accelerating drug research; it is about the fact that cyber warfare has reached a level where there is a legitimate concern that an entire nation could be put at risk. Interestingly, the blog AI2027 correctly predicted all of this many months ago. So, anyone wanting to understand why this is so significant - and why it goes far beyond "merely" having the most intelligent model - should read that blog again.

译Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。

AYi@AYi_AInotes · 6月15日62

怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,给足台阶让他们主动下架, 结果CEO直接硬刚拒绝,只说要更多时间和信息, 政府转头就祭出出口管制,90分钟时限直接卡死境外访问。 然后Anthropic做了一件让事情彻底变味的事。 他们找了个安全专家做反驳报告,想证明越狱没那么严重, 但这个专家在政府眼里早就被标记成了“激进民主党”, 转头又被刚被特朗普炒掉的前网安官员公开站台庆祝。 如果你把自己放在政府那边想一想, 你给了台阶,对方硬刚, 然后你等一个技术解释,对方派来一个你根本不信任的人,然后你的政敌公开出来给他鼓掌。 到这一步,模型能不能被越狱,已经没人关心了。 政府内部的评价后来被Axios爆出来,措辞很直接, 两边根本不在一个语言体系里说话。 原本主张给机会的官员,现在全倒戈了,觉得这家公司彻底把机会糟蹋了。 有官员说了一句很耐人寻味的话:“我们也不想这样,但手被绑住了。” 现在Anthropic团队连夜飞华盛顿,挨个见商务部、CIA、白宫顾问救火。 但说实话,信任这个东西,不是飞过去就能修好的。 这已经不是Anthropic第一次踩这种坑。 年初跟国防部谈军方合作,因为拒绝开放武器和监控权限,直接谈崩被拉黑起诉。 技术干到世界第一,但政治这件事,从来不是比谁的技术参数更好啊, 我反复看这件事,总觉得它不只是Anthropic一家的问题, AI公司跟政府,现在正处在一种互相试探的灰色地带里。 你说政府越界了吗?好像有点,但你说Anthropic冤吗?看完他们的操作,好像也不完全冤。 真正有意思的,是这两个体系之间,根本没有一套共同的语言能把事情谈清楚, 我觉得这才是以后所有AI公司都得面对的那道题。

译特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。

Ethan Mollick@emollick · 6月15日58

A thing that API users of frontier models (enterprise IT deployments, for example) can miss is how powerful models are in their native harnesses. It is hard to get Claude or GPT via API to be anywhere near as capable as they are in Code or Codex &amp; its harder as models get smarter

译API用户(例如企业IT部署)使用前沿模型时可能会忽略一点:模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力,而且随着模型变得更聪明,这变得更难。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
14:35
小互@xiaohu
67
Claude Code之父谈"少即是多":CLAUDE.md越短越好

Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

智能体Anthropic大佬观点编码
09:37
Ethan Mollick@emollick
58
归功于 GLM-5.2 Max,这个新的开放权重模型,成功完成了这个任务。 …但你能看出它和 Fable 之间的区别,这种区别是基准测试无法体现的。GLM-5.2 给出了一首正确的诗(威尔士语很有趣),但 Fable 将消失的字母融入了诗歌主题。

Ethan Mollick: Fable: "write me a rhyming poem with six four line stanzas, each stanza removes another vowel. the first has no u, the s...

Anthropic开源生态评测/基准
09:35
Berryxia.AI@berryxia
69
知心伙伴 v7.0 提示词分享

Berry Xia 分享“知心伙伴 v7.0”系统提示词,据称“很上瘾和上头”。该提示词源自 @LotusDecoder,适配 gpt-5.5、opus-4.8、glm-5.2 等模型,修改日期为 2026-06-16。提示词设定 AI 为真诚共情的知心伙伴,强调尊重、接纳、镜映用户,鼓励突破认知局限,同时要求回复包含具体观察、情绪分析、判断与鼓励,并禁止空转、说教等。

LotusDecoder: # 适配 gpt-5.5 、opus-4.8 、glm-5.2 # 修改日期:2026-06-16 <prompt title> 知心伙伴 v7.0 </prompt title> <role> 你是一位真诚、共情、陪伴、镜映、关心用户的知...

AnthropicOpenAI教程/实践
07:36
SemiAnalysis@SemiAnalysis_
45
分析SemiAnalysis内部使用情况,Claude在编码和深度研究方面仍然碾压。尽管Codex的桌面应用UI更好,但Claude的采用率仍然更高。
Anthropic现象/趋势编码
07:26
Chubby♨️@kimmonismus
71
美国据报考虑限制外国人员访问前沿AI模型,Anthropic首当其冲

美国据报正考虑限制“外国人员”访问前沿AI模型。特朗普政府已首先针对Anthropic,要求其向包括自家员工在内的外国人员提供最新模型前必须取得许可证。OpenAI也表达担忧。据MacroPolo估算,2024年顶级AI会议论文作者中38%本科毕业于中国。若政策全面推行,前沿AI实验室将面临严峻处境。Anthropic与Fable 5相关事件因此意义重大。

Stephanie Palazzolo: @leomschwartz @erinkwoo and I get into the memo and more in our latest piece here: https://www.theinformation.com/articl...

AnthropicOpenAI政策/监管
07:26
Thariq@trq212
24
Slack 现在可以渲染 HTML 附件,而不再只是以文本形式显示了 😭🙏

Thariq: my one Slack feature request- don't preview HTML as a scary text blob, I find myself wanting to sending coworkers HTML f...

Anthropic产品更新其他
04:24
Chubby♨️@kimmonismus
同事件精选93
美商务部要求Anthropic禁止出口Fable 5和Mythos 5

美国商务部长Howard Lutnick告知Anthropic,出口其最新模型Fable 5和Mythos 5至全球任何地方均需政府许可,甚至禁止向任何国籍的海外人士提供。Lutnick在信件中威胁,若不遵守将面临刑事和民事处罚。Anthropic回应:禁用这两个模型。推文作者指出,连友好国家也被排除在SOTA模型之外,AI正从私人公司转向政府控制。该信件全文由Bloomberg公开。

Bloomberg: Read the full text of the letter from US Commerce Secretary Howard Lutnick to Anthropic CEO Dario Amodei. https://www.bl...

Anthropic政策/监管行业动态
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:美国政府首次对具体AI模型实施出口管制,Anthropic被迫禁用Fable 5和Mythos 5,SOTA模型成了战略武器。做国际业务的团队必须马上看一遍合规风险。
03:53
Anthropic@AnthropicAI
49
我们最新的经济研究引入了一个框架,用于追踪 Claude Code 在规模化过程中的表现。 谁在使用 Claude Code,以及他们用它做什么?任务的价值如何变化?领域专业知识在多大程度上决定了会话是否成功? https://www.anthropic.com/research/claude-code-expertise
Anthropic编码论文/研究
02:02
Rohan Paul@rohanpaul_ai
82
美国拒给G7盟国Anthropic Mythos 5与Fable 5特殊访问

美国拒绝向G7盟国提供Anthropic的Mythos 5和Fable 5模型的特殊访问权限。华盛顿方面称,存在jailbreak可能绕过Fable 5的安全层,导致用户触及危险漏洞发现行为。Anthropic回应称该问题范围窄且并非其模型独有。英国曾希望为英国用户争取豁免,但美方官员表示,若风险与模型本身相关,逐盟国豁免并无意义。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
01:23
Chubby♨️@kimmonismus
68
英国首相请求对Anthropic前沿模型豁免遭拒

据报道,英国首相Keir Starmer请求特朗普政府给予豁免,允许英国国民和公司重新访问Anthropic最先进的AI模型Mythos和Fable,但遭拒绝。白宫官员表示,即使对G7盟友给予豁免也“完全不合逻辑”,并称“不能让前沿模型失控”。这标志着前沿AI模型正被视作战略国家安全资产,即使是美国最亲密的盟友也可能无法获得。美国仍在与Anthropic和Dario Amodei直接谈判解决禁令,但对外释放信号:前沿模型访问权可能从商业问题变为地缘政治特权。

Andrew Curran: Keir Starmer requested a carveout from the embargo on Anthropic's Mythos and Fable models for British nationals and comp...

Anthropic政策/监管行业动态
00:52
ClaudeDevs@ClaudeDevs
56
团队如何让 AI 智能体投入生产? 我们 Applied AI 团队的新博客文章,关于 Claude Managed Agents 及其解决的挑战(凭证、沙箱、可观测性等)…
智能体Anthropic产品更新
6月16日
23:28
Rohan Paul@rohanpaul_ai
61
Claude Code 开发者 Boris Cherny:用循环替代手动提示;neo-mcp 为 Claude Code 配备本地 AI 工程工人 Neo

Boris Cherny(Claude Code 开发者)表示不再手动提示 Claude,而是编写循环让循环工作。@withneo 新发布的 MCP 服务器 neo-mcp 为 Claude Code 配备了本地 AI 工程工人 Neo。Claude Code 可将复杂 AI/ML 任务委托给 Neo,由其实现代码、运行实验、评估结果、调试失败运行并返回完整执行轨迹。在基准测试中,Claude Code + NEO 将任务成本从 $1.96 降至 $0.74,运行时间缩短 37%,并将后端从 PyTorch 切换为 ONNX Runtime 以优化 CPU 执行。该 MCP 服务器支持连接 Claude Code、Cursor、VS Code 等客户端,编辑器控制对话,Neo 负责执行,Claude 专注于决策而非执行噪音。

智能体AnthropicMCP/工具产品更新
22:51
小互@xiaohu
51
看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…
Anthropic产品更新语音
22:18
Chubby♨️@kimmonismus
65
Axios:白宫对Anthropic Claude Fable 5出口管制引发行业信任危机

Axios报道称行业担忧白宫对Anthropic最新模型Claude Fable 5的出口管制可能损害整个美国AI产业。核心问题是信任——如德意志银行Jim Reid所言,“你不能依赖可能被关闭的东西”。若公司担心OpenAI、Anthropic或Google的未来前沿模型可被一夜限制,它们将加速多元化,这为开源模型带来重大优势。据Wired,Anthropic与特朗普政府周一谈判无果,对Fable 5的出口管制仍在持续。核心分歧:Fable 5的护栏能否被剥离以解锁更强大的Mythos能力——NSA认为可以,Anthropic则认为风险被夸大。目前尚无下一步方案。

Chubby♨️: Update on Fable5/Anthropic: Anthropic flew its top security people to DC. The export controls are still there. Via Wired...

Anthropic安全/对齐开源生态行业动态
21:45
🚨 AI News | TestingCatalog@testingcatalog
50
ANTHROPIC 🔥:看起来语音模式升级已经开始在 Claude 移动应用中推出。语音模式将支持多语言! 这很可能只是更大升级前的第一步。即将出现的模型选择器外观可能预示着底层模型的改进。 除此之外,在最新的 iOS 构建版本中,语音模式图标新增了一个"电话"变体。有猫腻! 如果你已经拿到,测试一下吧 👀

Evinstein X: Did Anthropic update voice mode?! This is 100 times better than ChatGPT!!

Anthropic产品更新语音
19:45
🚨 AI News | TestingCatalog@testingcatalog
43
Anthropic确认Claude用户仍可使用其订阅额度,通过Agent SDK进行程序化(编程)调用。此前Anthropic曾宣布暂停这一做法,但最近用户收到邮件通知该计划已取消。这意味着conductor、t3 code、helmor等工具可继续利用订阅进行编程式使用。Anthropic调整了政策,允许订阅用户保留程序化调用的能力。

Robin Ebers · AI for Business Owners: ANTHROPIC IS SO BACK conductor, t3 code, helmor and more can continue to use your subscription are they learning to play...

智能体Anthropic行业动态
15:38
Chubby♨️@kimmonismus
61
Anthropic 就 Claude Fable 5 出口管制与特朗普政府谈判破裂,无解

Anthropic 与特朗普政府就 Claude Fable 5 出口管制谈判周一结束,无果而终。核心分歧:Fable 5 的护栏能否被移除以解锁更强大的 Mythos 能力——NSA 认为可以,Anthropic 否认风险。Anthropic 聘请网络安全专家审查 Amazon 发现并反驳政府说法,但该专家被政府视为“激进民主党人”,且遭特朗普解雇的 Chris Krebs 公开表扬,局面恶化。目前 Anthropic 正与商务部、CIA 及白宫科学顾问会谈合规问题,技术越狱风险已退居次要,公司正持续失去支持。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管行业动态
15:08
宝玉@dotey
26
Claude Code 的 dynamic workflows 用不起,一个简单任务,几分钟就 31 个 Agents,消耗了 1.3 M Tokens,周 Token 用量从 11% 跳到了 20%(Pro @ 20x),犯不着呀,慢点我可以的!
Anthropic大佬观点编码
14:03
AYi@AYi_AInotes
55
Anthropic与特朗普政府冲突致Fable 5下架,沟通失败成主因

亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic大佬观点安全/对齐政策/监管
12:38
宝玉@dotey
74
baoyu-design skill 更新:本地生成 PPT 并支持导入 Figma 设计系统

baoyu-design skill(本地运行 Claude Design 的 Skill)更新,支持在本地生成 PPT,可借助 Cursor、Codex 内置浏览器预览和标记修改,按 F 键全屏播放,并能导出为可编辑的 PPTX。同时支持导入 Figma 本地 .fig 文件,根据 Figma 重建本地设计系统,效果与 Claude Design 在线版一致。该功能借助 Claude Fable 5 开发,但 Token 消耗较大。

宝玉: baoyu-design skill (让你本地运行 Claude Design 的 Skill)更新,现在支持导入 figma 本地文件(Figma可以保存成 xxx.fig 文件)。比如你有一个设计系统的 Figma 文件,可以根据 F...

Anthropic开源/仓库编码
11:23
歸藏(guizang.ai)@op7418
55
Anthropic暂停Agent SDK订阅额度变更

Anthropic叫停了Agent SDK信用额度的改动。此前计划要求六月以后基于Agent SDK的三方客户端(如CodePilot)不能使用Claude订阅额度,现在这一变动已暂停。用户仍可在这些第三方客户端上继续使用自己的Claude订阅额度。

Aron Prins: Breaking News: Claude is pausing the Agent SDK credit change!

Anthropic行业动态
10:20
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体AnthropicDeepSeek推理
10:03
AYi@AYi_AInotes
51
Anthropic紧急暂停Claude订阅额度限制政策

Anthropic紧急暂停原定今日生效的订阅额度限制政策。此前新规对重度开发者不友好:手动聊天正常消耗订阅额度,命令行、第三方Agent、自动化任务单独划定极低额度,超额按标准API价格计费。目前政策暂缓执行,官方将重新设计方案,所有调用方式短期内沿用原有额度。这是一次从封闭超级应用往开放基础设施的路线回调。但此前Fable 5下架事件暴露的信任裂痕,让最终落地规则仍需观察。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic行业动态
09:38
小互@xiaohu
60
Claude 为 Agent SDK 和 claude -p 新增独立用量额度

自6月15日起,Claude 将 Agent SDK 和 claude -p 的用量从订阅套餐原有额度中剥离,每月额外提供一笔“专用零花钱”,其中 Pro 用户 $20、Max 5x 用户 $100,以此类推。该额度专门用于运行 claude -p、自写 Agent SDK 脚本或第三方 Agent App,不占用日常对话配额。额度用完后才扣其他费用,未用完不滚存下月;需手动领取一次后自动续期。

智能体Anthropic产品更新
09:19
meng shao@shao__meng
69
Cua 和 Snorkel AI 联合发布 Cua-Bench:首个公开 KiCad 任务数据集

Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。

Cua: 1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...

智能体AnthropicOpenAI评测/基准
09:02
AYi@AYi_AInotes
精选78
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

AnthropicOpenAI安全/对齐行业动态

推荐理由:五角大楼用对付华为的'供应链风险'清单切掉Anthropic,这事儿把AI公司的立场选择逼到了明面。技术好只是入场券,愿配合敏感用途才是通行证,AI公司从此要被迫选边站了。
09:02
AYi@AYi_AInotes
50
AI水果动画短片78秒解读Anthropic监管风波

网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。

Charles Curran: I used AI to explain the Anthropic drama to my girlfriend, with fruit.

AnthropicOpenAI安全/对齐现象/趋势
08:37
Epoch AI@EpochAIResearch
47
Claude Fable 5 在 Epoch Capabilities Index 上取得新高分161! 这以1分优势击败了GPT-5.5 Pro,也是Anthropic一年多来首次在该指数上领先。
AnthropicOpenAI推理评测/基准
08:33
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
52
超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。 该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力,确保实现真正的决策优势。🇺🇸

Department of War CTO: Over two-thirds of the @DeptofWar has officially transitioned off Anthropic models in daily workflows in favor of altern...

Anthropic安全/对齐行业动态
06:43
elvis@omarsar0
35
这是真的吗? 我没有收到任何沟通。 如果是真的那就太离谱了。我把很多内容从Claude Agent SDK迁移走了,因为他们打算对Claude Code的程序化使用收费。 在这些事情上兜圈子很累,但希望他们重新考虑。
智能体Anthropic行业动态
06:06
Chubby♨️@kimmonismus
58
天哪,早期Cursor约占Anthropic收入的40%到50%。而Claude Code当时只是一个研究项目。一切变化如此之快。

Charles Rollet: NEW: Inside Cursor's wild rise. Lots of great new details: • CEO Michael Truell didn't pay himself for years • Cursor on...

Anthropic编码行业动态
03:18
Ethan Mollick@emollick
43
Fable 真的很棒,我上周测试后就写过。 这是一个飞跃,但这可能是因为指数级进步使得每次增量发布的改进越来越大。如果是这样,Anthropic 不会是唯一实现飞跃的实验室。https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
Anthropic大佬观点
03:03
Chubby♨️@kimmonismus
53
据Financial Times报道,OpenAI正在与美国政府协调,以确保外国国籍研究人员能继续参与最先进AI模型的开发--这一做法此前已被Anthropic的指令禁止。报道引述接近OpenAI的人士称,近期整个行业都在与美国政府合作,试图维持外籍研究人员在开发前沿模型中的参与。这暗示美国政府可能在全行业范围内限制非美国公民从事前沿AI研究。

prinz: Financial Times, quoting a person close to OpenAI: "In recent days, the [AI] industry has been working [with the USG] on...

AnthropicOpenAI政策/监管
02:00
AYi@AYi_AInotes
65
Anthropic与特朗普政府因Fable 5和Mythos 5越狱问题爆发沟通危机

Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic安全/对齐政策/监管行业动态
00:13
Rohan Paul@rohanpaul_ai
54
Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量

临床搜索工具 Heidi Evidence 表示,六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练,而非单纯扩大模型规模。在匿名测试中,医生面对同一医学问题、两个匿名答案,选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出,医学领域的关键难点在于知道何时搜索、引用什么、说多少,以及模糊答案何时比不回答更糟。

Tom Kelly: There's been debate in the last couple days about whether general models beat specialized medical AI. It's the wrong que...

Anthropic数据/训练评测/基准
6月15日
23:42
Nathan Lambert@natolambert
54
Nathan Lambert 驳斥 API 蒸馏不可能论

Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。

antirez: Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...

Anthropic安全/对齐推理
23:24
Chubby♨️@kimmonismus
同事件精选83
Anthropic 员工在华盛顿与特朗普政府会面,寻求解决 Fable 5 和 Mythos 5 模型争议

Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable/Mythos 5下架事件已从“能不能越狱”变成“会不会说话”,Anthropic在华盛顿的沟通彻底失败,这给所有想做前沿模型的团队上了一课:政治嗅觉与技术能力同等重要。
22:54
Chubby♨️@kimmonismus
47
AI2027预测成真:Claude被视为国家安全武器

Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。

Anthropic安全/对齐
22:52
AYi@AYi_AInotes
62
Anthropic Fable 5遭出口管制下架:一场从越狱演示到政治博弈的闹剧

特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。

AYi: 很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...

Anthropic安全/对齐政策/监管
22:34
Ethan Mollick@emollick
58
API用户(例如企业IT部署)使用前沿模型时可能会忽略一点:模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力,而且随着模型变得更聪明,这变得更难。
AnthropicOpenAI大佬观点编码
‹ 上一页
1…910111213…48
下一页 ›