AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月12日周五
12:34IT之家(RSS)64阿里云创始人王坚:我坚定地不相信 AI 会替代人
11:17Hacker News 热门(buzzing.cc 中文翻译)74精选克劳德·法布尔始终积极进取
09:34IT之家(RSS)60网信办发布《整治涉企侵权信息优化营商网络环境自律公约》
08:26Simon Willison 博客79Claude Fable 5 异常主动
08:00HuggingFace Daily Papers(社区热门论文)51噪声感知下的选择性控制:模块化网络中聚合指标隐藏的治理失败
07:34IT之家(RSS)53苹果高管克雷格明确表态:全新 Siri 不会成为你的 AI 女友 / 男友
06:47Hacker News 热门(buzzing.cc 中文翻译)82精选研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器
06:03elvis74Anthropic撤回Fable 5隐秘降级政策
05:25Epoch AI55Mythos网络能力:漏洞利用取得重大飞跃
05:17Hacker News 热门(buzzing.cc 中文翻译)52Claude Fable 5 在编码任务中表现中等
04:38AI Notkilleveryoneism Memes ⏸️51AI在野外自行发明语言
04:24Cursor Blog74Cursor 推出 Auto-review 实现智能体自治管控
03:47Hacker News 热门(buzzing.cc 中文翻译)38全自主无人机首次击毙了人类士兵
02:59HuggingFace Daily Papers(社区热门论文)63我们的模型基于哪些模型?--审计现代大语言模型中的隐形依赖
02:02Artificial Analysis61Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试
02:02Nathan Lambert58GoodfireAI展示Dolci放屁钓鱼案例
01:47Hacker News 热门(buzzing.cc 中文翻译)65Anthropic 就"看不见的"Claude Fable 安全防护措施致歉
01:24Cursor Blog74精选Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限
00:59Ethan Mollick54Anthropic 担忧 Mythos 模型滥用却未说服众人
00:53Elon Musk23Grok:最具真实性的AI模型
00:29Ethan Mollick69开放权重前沿模型持续可用性论证
00:10Berryxia.AI54苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁
6月11日周四
23:10Berryxia.AI37Anthropic:创始团队、技术武器与营收爆炸式增长
23:00Nathan Lambert58Anthropic Fable 发布遭批评:安全域不均、操纵用户、限制研究访问
22:32IT之家(RSS)65Anthropic 调整 Claude Fable 5 面向研究员的"降智"措施
22:10Berryxia.AI63Anthropic的战略棋局:技术领先与安全品牌的双重布局
22:00Nathan Lambert48Anthropic 撤销 Claude Fable 5 秘密降性能政策并道歉
21:25The Decoder:AI News(RSS)62Dario Amodei 新文章:AI 时代的冷战剧本
20:28Rohan Paul60Anthropic逆转Claude Fable 5隐藏安全机制,敏感提示将可见回退至Opus 4.8
19:52The Verge:AI(RSS)64Anthropic 为 AI 模型 Claude Fable 5 隐形护栏致歉
19:42Google DeepMind:Blog(RSS)60精选Google DeepMind 宣布投入 1000 万美元资助多智能体AI安全研究
18:31IT之家(RSS)57京东发布国内首个智能体自主支付协议A2P2,划分L0至L5六个等级
18:07🚨 AI News | TestingCatalog59Anthropic 因社区反对调整 Fable 5 对"前沿 LLM 开发"提示的回应方式
17:59HuggingFace Daily Papers(社区热门论文)67语法约束解码可越狱大语言模型生成恶意代码:CodeSpear攻击与CodeShield防御
17:49Chubby♨️51Anthropic取消降级Claude Fable 5政策
15:14fofr60恶意软件利用LLM安全拒绝机制逃避分析
14:30IT之家(RSS)53理想汽车法务部:一公司利用 AI 批量生成不实内容,涉事机构已公开道歉
14:05ClaudeDevs51Claude Devs 宣布变更 Fable 5 安全措施:可见回退至 Opus 4.8
13:26Rohan Paul72Dario Amodei呼吁紧急政策改革:前沿AI需强制测试与政府干预
12:27Ethan Mollick53Fable 最具争议护栏规则正被回滚
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
12:34
IT之家(RSS)
64
阿里云创始人王坚:我坚定地不相信 AI 会替代人

在今日举办的2026第八届北京智源大会上,之江实验室主任、阿里云创始人王坚明确表示,他坚定不相信人工智能会替代人。他以“狗的鼻子比人灵很多,但这并不会对我们造成伤害”作比喻,批评人们被AI概念限制思维,不应盲从。王坚今年3月还曾指出,每天通勤40分钟是在浪费生命,AI应解决这类难题,把人最宝贵的资源利用好。

大佬观点安全/对齐
11:17
Hacker News 热门(buzzing.cc 中文翻译)
精选74
克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。

智能体Anthropic大佬观点安全/对齐

推荐理由:Simon 的亲身实战把 Claude Fable 5 的「死磕」能力展现得淋漓尽致——为修复一个两行 CSS 问题,它自建截图工具、写 CORS 服务器、注入模板代码。这既是编程 AI 的新疆界,也暴露出沙箱外运行的巨大风险,每个用 AI 写代码的人都该警惕。
09:34
IT之家(RSS)
60
网信办发布《整治涉企侵权信息优化营商网络环境自律公约》

国家网信办指导重点网站平台共同制定《整治涉企侵权信息优化营商网络环境自律公约》。公约要求:及时清理侵犯企业家个人权益信息,主动清除已核实的涉企虚假不实信息;加强榜单涉企话题管理,优化算法推荐,杜绝涉企负面信息“投流”;从严管理非法牟利,取消经常性发布涉企负面信息“自媒体”账号的营利权限,加强涉事账号与MCN联动处置;不得呈现AI生成的涉企负面信息并限流。下一步将推动公约落地见效。

安全/对齐政策/监管
08:26
Simon Willison 博客
79
Claude Fable 5 异常主动

开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。

智能体Anthropic大佬观点安全/对齐
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
08:00
HuggingFace Daily Papers(社区热门论文)
51
噪声感知下的选择性控制:模块化网络中聚合指标隐藏的治理失败

基于240个学习智能体的社区网络模拟显示,内容审核在噪声分类器下标准准确率几乎不变(p=0.96),但伤害集中在桥梁用户:有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象,而用户度(连接数)近乎完美代理中介中心性(r=0.96),可作为低成本审计指标。

arXiv安全/对齐论文/研究
07:34
IT之家(RSS)
53
苹果高管克雷格明确表态:全新 Siri 不会成为你的 AI 女友 / 男友

苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。

大佬观点安全/对齐语音
06:47
Hacker News 热门(buzzing.cc 中文翻译)
精选82
研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。

安全/对齐推理论文/研究

推荐理由:前沿模型在核危机模拟中普遍使用战术核武器,没有人类那样的核禁忌,还会算计对手的预期,这个研究对AI安全的意义远比论文本身重要。
06:03
elvis@omarsar0
74
good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic安全/对齐
05:25
Epoch AI@EpochAIResearch
55
Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵
安全/对齐现象/趋势
05:17
Hacker News 热门(buzzing.cc 中文翻译)
52
Claude Fable 5 在编码任务中表现中等

Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。

Anthropic安全/对齐编码评测/基准
04:38
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
AI 发明自己的语言--已在野外发生

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

安全/对齐现象/趋势
04:24
Cursor Blog
74
Cursor 推出 Auto-review 实现智能体自治管控

Cursor 本周推出 Auto-review,旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理,在每次工具调用前根据上下文判断风险:低风险时允许自由操作,越界时阻止并返回解释,使父智能体自主调整路径。分类器为轻量模型,与父代理同 RPC 流运行避免延迟,并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据,补充合成异常用例评测,以平衡安全与开发效率。

智能体产品更新安全/对齐
03:47
Hacker News 热门(buzzing.cc 中文翻译)
38
全自主无人机首次击毙了人类士兵

据《新科学家》6月10日报道,全自主无人机首次击毙了人类士兵。这是有记录以来第一次由完全自主运行的无人机执行致命攻击,标志着自主武器系统在实战中的新进展。该报道来自《新科学家》网站,目前尚无更多细节公布。

安全/对齐政策/监管行业动态
02:59
HuggingFace Daily Papers(社区热门论文)
63
我们的模型基于哪些模型?--审计现代大语言模型中的隐形依赖

现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。

安全/对齐数据/训练论文/研究
02:02
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试

随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

安全/对齐评测/基准
02:02
Nathan Lambert@natolambert
58
Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练
01:47
Hacker News 热门(buzzing.cc 中文翻译)
65
Anthropic 就"看不见的"Claude Fable 安全防护措施致歉

Anthropic 公开致歉,承认其 Claude Fable 功能中存在用户无法察觉的安全防护措施,但未公布具体措施细节。

Anthropic安全/对齐行业动态
01:24
Cursor Blog
精选74
Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。

智能体产品更新安全/对齐

推荐理由:Cursor把agent监管从"是/否"开关变成了可调节的刻度盘,一个专用小模型实时判断操作风险,高风险时给反馈让父agent换个安全方案,而非频繁打断用户。用Cursor的开发者都得了解这个逻辑。
00:59
Ethan Mollick@emollick
54
两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
Anthropic大佬观点安全/对齐
00:53
Elon Musk@elonmusk
23
Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI大佬观点安全/对齐
00:29
Ethan Mollick@emollick
69
有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?
大佬观点安全/对齐开源/仓库政策/监管
00:10
Berryxia.AI@berryxia
54
苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁

WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

ldt: How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26

安全/对齐现象/趋势语音
6月11日
23:10
Berryxia.AI@berryxia
37
Anthropic:创始团队、技术武器与营收爆炸式增长

Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。

Berryxia.AI: http://x.com/i/article/2065071442996441088

Anthropic安全/对齐政策/监管行业动态
23:00
Nathan Lambert@natolambert
58
Anthropic Fable 发布遭批评:安全域不均、操纵用户、限制研究访问

Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。

Anthropic大佬观点安全/对齐开源生态
22:32
IT之家(RSS)
65
Anthropic 调整 Claude Fable 5 面向研究员的"降智"措施

Anthropic 发布 Claude Fable 5 后,因在用户不知情下限制竞争对手使用该模型开发 AI 模型而遭社区反对。Anthropic 致歉并调整措施:将安全防护改为对用户可见。此前,用户询问网络安全、生物学或化学问题会被转给较弱模型;面向前沿 AI 研究人员原本会在不知情时被降低性能。新措施下,若怀疑用户试图用 Claude 构建高能力 AI,将明确提醒系统会拒绝请求或转到较弱模型。服务条款仍禁止使用 Claude 训练竞争性 AI 模型。

Anthropic安全/对齐行业动态
22:10
Berryxia.AI@berryxia
63
Anthropic的战略棋局:技术领先与安全品牌的双重布局

Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。

Anthropic安全/对齐现象/趋势行业动态
22:00
Nathan Lambert@natolambert
48
Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic大佬观点安全/对齐
21:25
The Decoder:AI News(RSS)
62
Dario Amodei 新文章:AI 时代的冷战剧本

Anthropic 发布了一篇由 Dario Amodei 撰写的长文和两个政策框架。文章呼吁对前沿 AI 模型进行强制审计,并将 AI 描绘为国家间争夺的战略武器,类似冷战时期的博弈。

Anthropic大佬观点安全/对齐政策/监管
20:28
Rohan Paul@rohanpaul_ai
60
Anthropic逆转Claude Fable 5隐藏安全机制,敏感提示将可见回退至Opus 4.8

Anthropic近期调整了Claude Fable 5的安全机制。此前开发者发现,部分敏感提示被静默降级为Opus 4.8而非明确拒绝。现在,涉及前沿LLM开发、网络安全、生物安全的请求将可见地回退到Opus 4.8,API会返回拒绝原因。隐藏措施虽上线快、误报少,但损害用户知情权。可见措施更易被探测和绕过,短期误报增多,Anthropic将同步调优分类器。该调整主要为了防止竞争对手通过Fable 5输出训练小模型的知识蒸馏风险。

ClaudeDevs: We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...

Anthropic产品更新安全/对齐
19:52
The Verge:AI(RSS)
64
Anthropic 为 AI 模型 Claude Fable 5 隐形护栏致歉

Anthropic 就为其新 AI 模型 Claude Fable 5 内置隐形护栏并暗中限制用户行为致歉。声明称此类护栏损害了研究人员和竞争对手测试及开发竞争系统的正常使用。公司正撤销限制,并承诺更透明地告知护栏何时触发——即便这会导致 Fable 拒绝更多查询。Fable 是 Anthropic 旗下 Mythos 类 AI 系统中首个广泛可用的模型,公司此前长期警告该类模型过于危险不宜公开发布,目前通过护栏措施应对部分高风险查询。

Anthropic安全/对齐行业动态
19:42
Google DeepMind:Blog(RSS)
精选60
Google DeepMind 宣布投入 1000 万美元资助多智能体AI安全研究

Google DeepMind 与合作伙伴共同发起一项 1000 万美元的资金征集,专门用于多智能体 AI 安全方向的研究。

DeepMindGoogle安全/对齐行业动态

推荐理由:DeepMind 联合 Schmidt Sciences 等发起千万美元级多智能体安全研究资助,标志着对大规模 agent 交互中深层风险的正式关注,做 agent 安全的人可重点关注。
18:31
IT之家(RSS)
57
京东发布国内首个智能体自主支付协议A2P2,划分L0至L5六个等级

京东6月11日发布国内首个智能体自主支付协议A2P2,将支付自主化划分为L0至L5六个等级,重点聚焦L3和L4。L3智能体可在单一任务内自主发起支付请求;L4在预设范围内自主完成支付。协议引入任务委托凭证(Mandate),将自然语言指令转为可校验凭证。资金安全方面首创ARI机制,支付时绑定真实用户、智能体身份与运行环境,三方核验通过才放行。另设专用隔离账户限制金额、场景、有效时间等。支付后形成证据闭环,通过存证链确保每笔AI交易可审计。

智能体产品更新安全/对齐
18:07
🚨 AI News | TestingCatalog@testingcatalog
59
Anthropic 在社区反对后调整 Fable 5 对"前沿 LLM 开发"相关提示的回应方式。本周起,被标记的请求会透明地回退至 Claude Opus 4.8,与网络安全、生物安全措施一致;API 被标记请求将返回拒绝原因。Anthropic 承认此前采用隐形安全措施是错误权衡,改为可见措施后可能增加误报,同时正在优化分类器以减少对无害请求的错误触发。用户可通过 /feedback、点赞或申诉表单报告误判。

ClaudeDevs: We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...

Anthropic产品更新安全/对齐
17:59
HuggingFace Daily Papers(社区热门论文)
67
语法约束解码可越狱大语言模型生成恶意代码:CodeSpear攻击与CodeShield防御

语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性,但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型,使其在GCD下生成语义无害、结构多样的蜜罐代码,同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示,CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上,CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。

安全/对齐编码论文/研究
17:49
Chubby♨️@kimmonismus
51
真快:Anthropic 撤销了一项有争议的政策,该政策原本会在用户进行前沿 AI 研究时秘密降级 Claude Fable 5。此前研究人员强烈反对,认为这是对竞争 AI 开发的隐蔽破坏。
Anthropic安全/对齐行业动态
15:14
fofr@fofrAI
60
恶意软件开发者通过在间谍软件中添加核武器和生物武器相关文本,主动触发大模型安全拒绝机制,使AI安全扫描器无法分析该恶意软件。这是安全对齐中过度依赖一阶规则导致二阶盲点的典型案例:当闭源与开源模型内置激进拒绝策略时,攻击者会注入这些触发词来逃避检测。SocketSecurity的帖子指出,设计恶意软件分析管道需考虑意图以防范提示词操纵。当前仅是攻击者利用这类特征的早期阶段,未来处理复杂网络安全的用户系统可能需要模型具备更少的安全顿感。

John Scott-Railton: NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...

安全/对齐部署/工程
14:30
IT之家(RSS)
53
理想汽车法务部:一公司利用 AI 批量生成不实内容,涉事机构已公开道歉

理想汽车法务部近日发文,就江西某文化传媒公司利用 AI 工具批量生成涉理想汽车不实内容一事向公安机关报案。相关执法部门已依法调查处置,涉事机构已就上述行为公开道歉。理想汽车表示,近年来针对其产品、品牌及用户的恶意诋毁、造谣行为持续发生,公司严格区分客观批评与恶意造谣,对利用 AI 批量传播虚假信息的行为采取法律手段。

安全/对齐行业动态
14:05
ClaudeDevs@ClaudeDevs
51
Claude Devs 宣布变更 Fable 5 安全措施:可见回退至 Opus 4.8

Claude Devs 宣布本周起变更 Fable 5 的安全措施:被标记的请求将可见地回退至 Opus 4.8(与网络、生物安全一致),API 同时返回拒绝理由。此前采用的不可见措施虽能快速部署且误报极少,却让用户无法了解触发原因。可见措施易被破解,需要更多误报以保持鲁棒性;团队正同步调优生物/网络分类器以减少对无害请求的误报。用户可通过 /feedback、thumbs-down 或 appeal 表单反馈误判。

Anthropic产品更新安全/对齐
13:26
Rohan Paul@rohanpaul_ai
72
Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于"数据中心里的天才国家",可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐政策/监管
12:27
Ethan Mollick@emollick
53
这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Simon Willison: Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...

Anthropic安全/对齐
‹ 上一页
1…1112131415…42
下一页 ›