7月3日

06:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

AI正大规模发现软件漏洞。 2026年6月，21家知名组织披露约1500个高严重性和关键性CVE，是Claude Mythos Preview发布前月纪录的3.5倍以上。主推文则类比：想象这张图表中Mythos在人类基因组中寻找漏洞。

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

安全/对齐现象/趋势

06:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

用户 @om_patel5 发现，Claude 在解决高难度编程题时，Web 界面泄露了其未经筛选的思维过程。模型并非用完整句子推理，而是发出"DATA DATA DATA. GO."、"GRRR"、"GAAAH"、"PHEW"等简短片段，如同焦躁的原始人速记。AI Safety Memes 指出，这表明模型本质上已建立自己的"私人语言"--一种比规范英语更快、更省 token 的压缩速记形式进行推理，而给出的清晰答案只是经过打磨的最终输出。

Om Patel: SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...

安全/对齐推理现象/趋势

04:35

Ethan Mollick@emollick

精选77

关于Mythos和网络安全的讨论并非炒作。（正如任何使用Fable进行自主工作的人可能已经认识到的那样。）

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic 安全/对齐推理

推荐理由：AI在安全漏洞发现上第一次展现出规模化能力，6月CVE数直接翻了3.5倍，所有做安全的人今天起都得重新评估自己的攻击面。

04:34

Epoch AI@EpochAIResearch

AI似乎正在大规模发现软件漏洞。 2026年6月，21家知名组织披露了约1，500个高危和严重级别CVE，是Claude Mythos预览版发布前月度记录的3.5倍多。

安全/对齐现象/趋势编码

04:30

X.PIN@thexpin

中国用户用"破甲"技术破解 AI 生成色情内容

中国社交平台用户通过角色扮演提示词（文游）让 AI 生成色情小说，DeepSeek 因免费且文笔细腻最受欢迎，腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术：在输出每字间插入特殊字符绕过关键词过滤，或要求模型在响应末尾追加 300 个“喵”字符后手动剪切，以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。

安全/对齐现象/趋势

04:29

Chubby♨️@kimmonismus

我想Mythos的网络安全能力并没有被夸大。Mythos很棒，Fable也很出色。只可惜它被严格限制了。

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic 安全/对齐现象/趋势

03:38

Rohan Paul@rohanpaul_ai

用户 @bridgemindai 披露一次编码会话花费 $321，其中 Fable 5 仅完成 $78（约 25%），而 Opus 4.8 被回退调用完成 $242（约 75%）。原因在于 Fable 5 的新分类器将常规编码提示误判为网络安全风险，导致大部分工作自动路由到更昂贵的 Opus 模型。Anthropic 曾称仅极少数任务会触发 fallback，但该用户实际体验与此不符。

BridgeMind: I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...

Anthropic 安全/对齐编码评测/基准

02:14

Hacker News 热门（buzzing.cc 中文翻译）

西班牙下令将帕兰蒂尔列入公共和私营企业的"黑名单"

西班牙政府下令国企将美国数据分析公司Palantir列入黑名单，担忧其滥用国家安全机密。首相府责成SEPI监管的Telefónica、Indra及Navantia停止与其签新合同，已导致Navantia项目搁浅，内政部长也否决了与国民警卫队的协议。法国此前已停止合作，德国转向欧洲替代品。但Palantir仍保留国防部2023年签署的价值1650万欧元的CIFAS合同，将于今年11月到期，军方希望续约，首相府未决。同时西班牙加速国产技术投资，批准对加泰罗尼亚公司Openchip的1.15亿欧元投资，作为总额50亿欧元的政府支持项目部分。

安全/对齐政策/监管

01:38

Rohan Paul@rohanpaul_ai

Anthropic的Claude Fable 5（7月1日版）回归后在BridgeBench重测中表现大幅下滑：Debugging从86.2暴跌至25.9，Refactoring从73.6降至38.4，Hallucination从75.9滑落至61.7。原因是新安全护栏并非简单拒绝层，而是将标记请求路由至较弱的Opus 4.8，导致大量任务回退。Rohan Paul评论称这标志着普通人可能再也无法获得升级的前沿模型，如今只有"许可智能"。

BridgeMind: FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...

Anthropic 安全/对齐编码

01:08

Apple Machine Learning Research（RSS）

精选72

多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

00:59

Chubby♨️@kimmonismus

Fable 5 不是被削弱，而是被屠杀了。问题甚至不在于模型本身，而在于 Anthropic 设置的硬性护栏。网友对此表示震惊。

ħεsam: Fable 5 isn't nerfed, it's SLAUGHTERED. the problem isn't even the model itself, but the hard guardrails Anthropic has s...

Anthropic 大佬观点安全/对齐

00:29

Chubby♨️@kimmonismus

精选75

Anthropic与五角大楼控权之争：Claude军事用途护栏分歧

WSJ法庭文件显示，Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来，核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途，五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险，阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施，政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。

Anthropic 安全/对齐政策/监管

推荐理由：这起诉讼暴露了前沿AI公司面对军事化应用的深层挣扎，法庭文件里的邮件往来比最终判决更值得看，直接拷问每一家模型公司的底线该划在哪里。

7月2日