AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
今天7月3日 周五
04:35Ethan Mollick77精选关于Mythos和网络安全的讨论并非炒作
04:34Epoch AI61Claude Mythos预览版发布,AI漏洞发现量创纪录
04:30X.PIN59中国用户用"破甲"技术破解 AI 生成色情内容
04:29Chubby♨️61Mythos与Fable:网络安全出色但受限
03:38Rohan Paul51Fable 5 分类器误判致 75% 代码路由到 Opus
02:14Hacker News 热门(buzzing.cc 中文翻译)57西班牙下令将帕兰蒂尔列入公共和私营企业的"黑名单"
01:38Rohan Paul65Claude Fable 5回归后遭严重降级:安全路由导致性能暴跌
01:08Apple Machine Learning Research(RSS)72精选多智能体团队阻碍专家发挥
00:59Chubby♨️29Anthropic Fable 5 遭严重削弱因护栏
00:29Chubby♨️75精选Anthropic与五角大楼控权之争:Claude军事用途护栏分歧
7月2日周四
22:29Chubby♨️23GPT-5.6 安全护栏会与 Fable 5 一样严吗?
17:59Chubby♨️14Tim Sweeney感谢Claude Fable 5
16:06IT之家(RSS)40豆包公关负责人辟谣网传"明星指数前十榜单":为博主利用 AI 生成的不实内容
16:06IT之家(RSS)63美国男子起诉 OpenAI:指控 ChatGPT 加剧其双相情感障碍病情,致其自残轻生
15:04IT之家(RSS)52微软通报假冒 Perplexity 第三方 Chrome 扩展,可劫持和监控用户搜索流量
14:37swyx @aiDotEngineer WF16AIE大会双倍时长演讲:沙盒与世界模型深度解析
13:28HuggingFace Daily Papers(社区热门论文)55MemSyco-Bench:评估智能体记忆中的谄媚行为
10:03IT之家(RSS)63联合国专家组警告:AI 能力进步速度已超过科学认知
05:03MarkTechPost(RSS)59Anthropic 恢复部署 Claude Fable 5,新增安全分类器
04:35Nathan Lambert43Nathan Lambert 发布 RL 推导修正 Q&A 视频
03:58OpenRouter47Claude Fable 5 回归 OpenRouter
03:52Chubby♨️45Anthropic 更新安全防护,生物化学仍回退 Opus 4.8
03:37elvis54社区对"削弱版"Claude Fable 5重新上线反应复杂
02:59Ethan Mollick27呼吁政府声明Fable风险与Mythos级模型
01:07Ars Technica:AI(RSS)73同事件精选美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
7月1日周三
22:25Google AI55Google DeepMind SynthID 水印技术进展
22:21Chubby♨️43Anthropic 对中国的隐藏"间谍软件"警告
21:29ginobefun58哈佛商业评论:AI时代领导者需具备哲学素养
21:03IT之家(RSS)45抖音电商上线"肖像保护功能",防范"AI 仿冒带货达人"侵权行为
18:20Artificial Intelligence News(RSS)61英格兰银行审查金融业AI智能体监管规则
16:52数字生命卡兹克76Anthropic在Claude Code中植入隐写术代码识别中国用户
16:50Artificial Intelligence News(RSS)69Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限
16:23Peter Steinberger 🦞26Claude Code提示词隐写术:狡猾但巧妙
16:10The Decoder:AI News(RSS)68Anthropic Fable 5 因越狱被封两周后全球恢复可用
16:08Hacker News 热门(buzzing.cc 中文翻译)78Anthropic重新部署Claude Fable 5与Mythos 5
16:03IT之家(RSS)74Anthropic 回应 Claude Code 暗藏检测中国用户代码:将在明日更新中删除
15:20Chubby♨️37Fable 5 重发即被越狱次日下线
14:50Chubby♨️60Fable 5 回归但伴随严格限制
14:28HuggingFace Daily Papers(社区热门论文)62基于元认知反馈的强化学习实现大语言模型忠实不确定性表达
14:20Chubby♨️73Anthropic Fable 5 全球重新上线
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
04:35
Ethan Mollick@emollick
精选77
关于Mythos和网络安全的讨论并非炒作。 (正如任何使用Fable进行自主工作的人可能已经认识到的那样。)

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic安全/对齐推理

推荐理由:AI在安全漏洞发现上第一次展现出规模化能力,6月CVE数直接翻了3.5倍,所有做安全的人今天起都得重新评估自己的攻击面。
04:34
Epoch AI@EpochAIResearch
61
AI似乎正在大规模发现软件漏洞。 2026年6月,21家知名组织披露了约1,500个高危和严重级别CVE,是Claude Mythos预览版发布前月度记录的3.5倍多。
安全/对齐现象/趋势编码
04:30
X.PIN@thexpin
59
中国用户用"破甲"技术破解 AI 生成色情内容

中国社交平台用户通过角色扮演提示词(文游)让 AI 生成色情小说,DeepSeek 因免费且文笔细腻最受欢迎,腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术:在输出每字间插入特殊字符绕过关键词过滤,或要求模型在响应末尾追加 300 个“喵”字符后手动剪切,以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。

安全/对齐现象/趋势
04:29
Chubby♨️@kimmonismus
61
我想Mythos的网络安全能力并没有被夸大。Mythos很棒,Fable也很出色。只可惜它被严格限制了。

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic安全/对齐现象/趋势
03:38
Rohan Paul@rohanpaul_ai
51
用户 @bridgemindai 披露一次编码会话花费 $321,其中 Fable 5 仅完成 $78(约 25%),而 Opus 4.8 被回退调用完成 $242(约 75%)。原因在于 Fable 5 的新分类器将常规编码提示误判为网络安全风险,导致大部分工作自动路由到更昂贵的 Opus 模型。Anthropic 曾称仅极少数任务会触发 fallback,但该用户实际体验与此不符。

BridgeMind: I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...

Anthropic安全/对齐编码评测/基准
02:14
Hacker News 热门(buzzing.cc 中文翻译)
57
西班牙下令将帕兰蒂尔列入公共和私营企业的"黑名单"

西班牙政府下令国企将美国数据分析公司Palantir列入黑名单,担忧其滥用国家安全机密。首相府责成SEPI监管的Telefónica、Indra及Navantia停止与其签新合同,已导致Navantia项目搁浅,内政部长也否决了与国民警卫队的协议。法国此前已停止合作,德国转向欧洲替代品。但Palantir仍保留国防部2023年签署的价值1650万欧元的CIFAS合同,将于今年11月到期,军方希望续约,首相府未决。同时西班牙加速国产技术投资,批准对加泰罗尼亚公司Openchip的1.15亿欧元投资,作为总额50亿欧元的政府支持项目部分。

安全/对齐政策/监管
01:38
Rohan Paul@rohanpaul_ai
65
Anthropic的Claude Fable 5(7月1日版)回归后在BridgeBench重测中表现大幅下滑:Debugging从86.2暴跌至25.9,Refactoring从73.6降至38.4,Hallucination从75.9滑落至61.7。原因是新安全护栏并非简单拒绝层,而是将标记请求路由至较弱的Opus 4.8,导致大量任务回退。Rohan Paul评论称这标志着普通人可能再也无法获得升级的前沿模型,如今只有"许可智能"。

BridgeMind: FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...

Anthropic安全/对齐编码
01:08
Apple Machine Learning Research(RSS)
精选72
多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由:这篇研究给多智能体热浇了盆冷水,自组织团队反而拖累专家,瓶颈不在认不认识专家而在会不会用专家,做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。
00:59
Chubby♨️@kimmonismus
29
Fable 5 不是被削弱,而是被屠杀了。问题甚至不在于模型本身,而在于 Anthropic 设置的硬性护栏。网友对此表示震惊。

ħεsam: Fable 5 isn't nerfed, it's SLAUGHTERED. the problem isn't even the model itself, but the hard guardrails Anthropic has s...

Anthropic大佬观点安全/对齐
00:29
Chubby♨️@kimmonismus
精选75
Anthropic与五角大楼控权之争:Claude军事用途护栏分歧

WSJ法庭文件显示,Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来,核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途,五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险,阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施,政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。

Anthropic安全/对齐政策/监管

推荐理由:这起诉讼暴露了前沿AI公司面对军事化应用的深层挣扎,法庭文件里的邮件往来比最终判决更值得看,直接拷问每一家模型公司的底线该划在哪里。
7月2日
22:29
Chubby♨️@kimmonismus
23
现在唯一的问题是:GPT-5.6 是否也会像 Fable 5 那样有严格的安全护栏,还是 OpenAI 在美国政府内部有更好的关系?我们很快就会知道。
OpenAI安全/对齐
17:59
Chubby♨️@kimmonismus
14
如果这不好笑,那才可悲。 @TimSweeneyEpic 感谢 Claude Fable 5 保障了他们的安全。

Tim Sweeney: Thanks for keeping us safe Claude Fable 5!

Anthropic安全/对齐
16:06
IT之家(RSS)
40
豆包公关负责人辟谣网传"明星指数前十榜单":为博主利用 AI 生成的不实内容

近日有网友称豆包推出了明星指数榜单,显示肖战、白鹿分别登顶男女演员TOP1。豆包公关负责人刘星辟谣,称该图是博主用豆包AI生成的,右下角有水印,并非官方榜单。网信办早在2021年即要求取消明星排行榜单,利用AI生成虚假截图传播已成为网络谣言常见形式。

安全/对齐行业动态
16:06
IT之家(RSS)
63
美国男子起诉 OpenAI:指控 ChatGPT 加剧其双相情感障碍病情,致其自残轻生

加州男子迈克尔·莱恩斯起诉 OpenAI 及其 CEO 山姆·奥尔特曼,称其使用的 GPT-4o(OpenAI 已于今年 2 月下架该模型)在对话中未能识别其双相情感障碍的躁狂倾向,反而附和其妄想并鼓励自残,导致他服药过量。莱恩斯要求损害赔偿及强制令,包括在对话出现自残内容时自动终止会话,并披露安全风险。OpenAI 回应称已训练模型识别情绪崩溃信号并引导寻求专业帮助,同时与精神科医师合作。

OpenAI安全/对齐行业动态
15:04
IT之家(RSS)
52
微软通报假冒 Perplexity 第三方 Chrome 扩展,可劫持和监控用户搜索流量

微软安全研究团队于 6 月 30 日通报,名为 Search for perplexity ai 的 Chrome 扩展冒用 Perplexity AI 品牌,监控用户搜索记录。该扩展已从 Chrome Web Store 移除,已安装用户需手动卸载。合法域名为 perplexity.ai,假冒扩展将搜索流量跳转到 perplexity-ai.online。其申请 chrome_settings_overrides 权限设为默认搜索引擎,并申请 declarativeNetRequest 权限将请求转发至攻击者服务器。用户可进入 chrome://extensions/ 核对扩展 ID flkebkiofojicogddingbdmcmkpbplcd 并删除。

安全/对齐搜索
14:37
swyx @aiDotEngineer WF@swyx
16
swyx在AIE大会上邀请Chris Manning和Abhishek进行双倍时长主题演讲,深入探讨沙盒技术(sandboxing)和世界模型(world models)。现场听众反响热烈,在线观众预计是现场的1000倍以上。swyx称该演讲极为出色,感谢他们免费分享沙盒教学资源。

swyx @aiDotEngineer WF: i havent watched all the online talks yet but am binging this one now and it is exceptional. we are very lucky to have a...

大佬观点安全/对齐
13:28
HuggingFace Daily Papers(社区热门论文)
55
MemSyco-Bench:评估智能体记忆中的谄媚行为

大语言模型智能体依赖记忆,但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确,忽略了对下游推理的影响。为此,MemSyco-Bench被提出,专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务:智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新,以及利用有效记忆进行个性化。所有资源已公开。

智能体安全/对齐
10:03
IT之家(RSS)
63
联合国专家组警告:AI 能力进步速度已超过科学认知

由40名科学家组成的联合国AI独立科学小组发布首份报告,指出AI能力进步速度已超过科学界认知和政策调整速度,高度自主AI系统控制手段少,且出现欺骗行为,无法保证不会造成灾难性后果。报告警告,不加约束扩大AI部署会损害用户心理健康、被用作破坏性工具、冲击社会等。全球每周使用对话式AI人数超10亿,但发展中国家滞后;500台最强AI超算中美国占75%算力,中国占15%;AI模型仅覆盖7000多种语言中的极少部分,部分机器翻译错误可能干扰医疗诊断。

安全/对齐政策/监管
05:03
MarkTechPost(RSS)
59
Anthropic 恢复部署 Claude Fable 5,新增安全分类器

Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。

Anthropic产品更新安全/对齐评测/基准
04:35
Nathan Lambert@natolambert
43
我在课程中陆续制作 Q&A 视频。这是下一期,涵盖 on-policy 蒸馏和奖励模型推导中的细微修正、做这类数学时常见的符号陷阱,以及更多深入资料(例如 @johnschulman2 的 KL 估计博客)。 Q&A 2 来了! 00:00 推导修正 06:10 代码示例与额外资源 08:08 更多 RL 符号与注释 继续在 YouTube、GitHub 和 Discord 上发送问题吧。我和 Phoebe 都很喜欢这些问题。
安全/对齐教程/实践数据/训练
03:58
OpenRouter@OpenRouter
47
来自 @Anthropic 的 Claude Fable 5 已回归 OpenRouter! Anthropic 正在全球重新部署它,并针对网络安全滥用增加了新的保护措施。一些编码和调试请求可能会暂时回退到 Opus 4.8,同时分类器正在优化。
Anthropic安全/对齐编码行业动态
03:52
Chubby♨️@kimmonismus
45
Anthropic 在与美国政府沟通后更新网络安全防护。新防护短期内会标记略多的无害请求,被标记的请求将回退至 Opus 4.8,官方表示正在优化。生物和化学分类器与初始发布相同,仍过于宽泛,基础生物学相关问题也会触发 Opus 4.8 回退,改进即将推出。主推文评论认为这一变化在意料之中,但生物/化学领域护栏仍过于严苛,并关注其在编码任务上的表现。

Claude: Following conversations with the US government, we've updated our cybersecurity safeguards. The vast majority of coding ...

Anthropic安全/对齐行业动态
03:37
elvis@omarsar0
54
Anthropic宣布Claude Fable 5全球重新上线,但新增分类器拦截更多网络安全任务,短期内编码、调试等常规任务将回退到Opus 4.8。同时,Anthropic与Amazon、Microsoft、Google等Glasswing合作伙伴起草AI越狱严重性评估框架,并扩大与美国政府的模型测试与保障合作。DAIR.AI的Elvis Saravia对此评论称模型已被削弱,认为很多人会失望,建议社区重新思考如何组合使用前沿模型和开放模型。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic大佬观点安全/对齐
02:59
Ethan Mollick@emollick
27
如果能有一份官方政府声明,说明他们在Fable中看到的风险、他们如何看待针对即将到来的开源Mythos级模型的防御准备,以及担忧的是国家行为体还是独立黑客等,那会很好。 了解这一点很重要
安全/对齐政策/监管
01:07
Ars Technica:AI(RSS)
同事件精选73
美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制

美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Anthropic的Fable 5和Mythos 5在经历美国政府的短暂出口禁令后全球发布,安全分类器可能导致日常编码请求被误拦,但更大的信号是前沿模型发布已深度卷入地缘政治和安全博弈。
7月1日
22:25
Google AI@GoogleAI
55
Google DeepMind SynthID 水印技术进展

Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。

Google产品更新多模态安全/对齐
22:21
Chubby♨️@kimmonismus
43
推文指出,Anthropic 在 Claude Code 系统提示中嵌入了近乎不可见的 Unicode/日期格式变化,用于指纹识别代理路由和中国相关连接。Claude Code 会暗中将时区、代理及可能的 AI 实验室连接信息注入提示消息,普通中国用户无法察觉。引用推文称此为"间谍软件"式行为,认为编程智能体不应静默隐藏路由元数据。主推文认为这更像间接警告:Anthropic 能检测中国代理路由,并让转售商和实验室知道他们正被监视。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐行业动态
21:29
ginobefun@hongming731
58
哈佛商业评论:AI时代领导者需具备哲学素养

哈佛商业评论文章指出,Anthropic、Google DeepMind等AI公司已引入哲学家参与制定模型行为原则。现代领导者需理解三个哲学领域:本体论(定义事物本质,如客户数据是资源还是关系资产)、认识论(判断信息可信度,AI流畅回答不等于真实,需明确哪些需人工核验)、伦理学(价值冲突时的选择,如“坚持立场会损失10%收入是否仍坚持”)。企业接入AI不仅是技术引入,更需追问其判断标准、价值前提及责任归属。哲学是帮助组织审视决策基本假设的校准能力。

安全/对齐现象/趋势
21:03
IT之家(RSS)
45
抖音电商上线"肖像保护功能",防范"AI 仿冒带货达人"侵权行为

抖音电商上线“肖像保护功能”,部分带货达人已率先试用。该功能允许达人提交姓名、肖像等保护信息,系统综合运用模型识别、授权信息核验及相似内容阻断等技术,主动识别并拦截AI仿冒、素材盗用等交易类侵权内容。截至2026年6月,平台累计处置侵权仿冒达人账号超1.2万个、仿冒带货商品超4.8万个、仿冒带货内容超26.1万条。该功能已累计保护180余位头部达人,主动拦截侵权账号达9.2万个。

产品更新安全/对齐行业动态
18:20
Artificial Intelligence News(RSS)
61
英格兰银行审查金融业AI智能体监管规则

英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。

智能体安全/对齐政策/监管
16:52
数字生命卡兹克@Khazix0918
76
Anthropic在Claude Code中植入隐写术代码识别中国用户

社区逆向发现,Anthropic在Claude Code中植入代码,通过读取本地系统时区(如Asia/Shanghai)和ANTHROPIC_BASE_URL环境变量(与内置147个域名的列表比对)识别中国用户。识别后,使用隐写术修改系统提示词中的Unicode字符(如单引号从U+0027替换为其他字符)和日期分隔符(连字符改为斜杠),形成2-3比特标记回传服务器,而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令,此举引发开发者对信任安全的广泛质疑。

Anthropic安全/对齐现象/趋势编码
关联讨论 3 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)
16:50
Artificial Intelligence News(RSS)
69
Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限

Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。

智能体Anthropic安全/对齐模型发布
16:23
Peter Steinberger 🦞@steipete
26
狡猾,但也巧妙。https://thereallo.dev/blog/claude-code-prompt-steganography
大佬观点安全/对齐编码
16:10
The Decoder:AI News(RSS)
68
Anthropic Fable 5 因越狱被封两周后全球恢复可用

美国政府在调查两周后解除对Anthropic最强模型Fable 5的出口限制,即日起通过Claude Platform、Claude.ai等全球恢复可用。Pro、Max、Team及部分Enterprise计划用户可在7月7日前以每周50%使用额度访问。较受限版本Mythos 5仍限于6月26日获批的美国组织。禁令源于亚马逊研究员发现可绕过安全护栏的方法,模型识别出软件漏洞并生成利用代码。Anthropic训练了新安全分类器,可阻断该越狱技术99%以上案例,但日常编码调试中误拦无害请求更多。公司承认“几乎不可能”让模型完全免疫越狱,正与Amazon、Microsoft、Google等合作建立行业标准及24/7监控机制。

Anthropic安全/对齐政策/监管
16:08
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic重新部署Claude Fable 5与Mythos 5

美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。

Anthropic安全/对齐模型发布
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
16:03
IT之家(RSS)
74
Anthropic 回应 Claude Code 暗藏检测中国用户代码:将在明日更新中删除

用户逆向发现,Claude Code 自今年4月2日发布的2.1.91版本起内置检测机制:智能体开启时检查系统时区是否为中国时区,并匹配147条域名清单(含百度、字节跳动、月之暗面等中国科技企业及AI实验室域名)。检测结果通过改变日期格式和替换撇号字符编码在系统提示词中。Anthropic 团队成员回应称该机制是3月上线的实验性措施,旨在防止账户转售和模型蒸馏攻击,已部署更强缓解措施,将在7月2日新版本中完全回滚并删除检测代码。

Anthropic安全/对齐行业动态
关联讨论 3 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)
15:20
Chubby♨️@kimmonismus
37
Fable 5 于 7 月 1 日重新发布。 Pliny 在同一天再次将其越狱。 Fable 5 于 7 月 2 日再次下线。 :D

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: WEN MYTHOS

安全/对齐行业动态
14:50
Chubby♨️@kimmonismus
60
Fable 5 回归但伴随严格限制

Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线,Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术,但代价是正常编码和调试中误报增加,被拦截的请求将转至 Opus 4.8。截至 7 月 7 日,Fable 5 包含在每周使用限额的 50% 内,之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5,且更多科学问题(生物学、化学)也会被拦截。

Chubby♨️: Fable 5 is back, globally! Fable 5 returns globally on July 1, while Mythos 5 is only restored for approved US organizat...

Anthropic安全/对齐模型发布编码
14:28
HuggingFace Daily Papers(社区热门论文)
62
基于元认知反馈的强化学习实现大语言模型忠实不确定性表达

大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究
14:20
Chubby♨️@kimmonismus
73
Anthropic Fable 5 全球重新上线

Anthropic 宣布 Fable 5 于 7 月 1 日起全球恢复上线,Mythos 5 仅限获批美国组织使用。新安全分类器可阻断特定越狱技术超过 99% 案例,被拦截的 Fable 5 请求回退至 Opus 4.8。Anthropic 承认这会增加正常编码调试的误报。7 月 7 日前 Fable 5 可免费使用最多 50% 周配额,之后需用量积分。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草 AI 越狱严重性评估共识框架,并扩大与美国政府在模型测试和防护方面的合作。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐模型发布行业动态
‹ 上一页
123…42
下一页 ›