New research on beneficial RL: models trained on a small amount of beneficial trait data improve on a wide range of alig...
New research on beneficial RL: models trained on a small amount of beneficial trait data improve on a wide range of alig...
Enterprise-Managed Authorization (EMA) 扩展现已稳定。该扩展允许组织通过受信任的身份提供商(如 Okta)集中控制 MCP 服务器的访问权限。终端用户首次登录即可自动连接所有已授权的 MCP 服务器,无需逐个执行 OAuth 授权。Anthropic 已在 Claude、Claude Code 和 Cowork 中实现该扩展,Visual Studio Code 也已支持。Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等服务器已启用 EMA,Slack 正在添加支持。Microsoft、Okta 等也参与了采用。
Claude Code v2.1.183 增强了自动模式安全性:未经请求时阻止 git reset --hard、git commit --amend(非本轮提交)、terraform destroy 等破坏性命令。新增 attribution.sessionUrl 设置,可省略 claude.ai 会话链接;/config --help 列出所有速记键;/config 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP 认证存根暴露、tmux 面板启动失败、后台任务被杀、定时任务/Webhook 误判为键盘输入、focus mode 额外计时行等问题。
一位最初对生成式AI持中立态度的用户,因科技行业集体狂热、公司强制植入AI且拒绝退出、无视用户同意使用公开数据进行训练、侵犯版权、抢占硬件产能、并公开攻击创意行业,最终彻底转变为AI反对者。他认为,当前AI发展缺乏用户授权、践踏隐私与职业伦理,需要完全重来。
Nypost: Anthropic is trying to get Washington to reverse the US block on its most powerful Mythos Anthropic has proposed...
今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
奖励模型的连续打分存在过度敏感性问题,对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型,并描述一种无训练算法:对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性,实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。
PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。
为调和开源权重与敏感能力控制,论文提出分层语言模型(TLM)。一套权重支持多个能力层级:默认公共配置行为与常规LLM一致;紧凑密钥通过指定少量参数的排列,在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后,密钥配置可获取新语言、指令跟随和私有事实记忆能力,而公共配置完全不展现。该方法自然扩展至多层级,且因授权基于权重结构,可抵抗微调式提取和密钥部分泄露。
OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。
As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...
OpenAI探索逆向对齐思路:训练模型做好事是否能像坏事一样泛化?研究人员使用涉及诚实、认知谦逊、可纠正性等特质的对话数据,覆盖健康、教育等领域,通过RL训练。实验发现:训练域内模型更诚实;在44个未见测试中,欺骗、谄媚、有害建议等均下降;面对对抗提示或恶意微调,模型更有韧性,且不损失正常指令能力。表明RL可强化道德底层逻辑。
In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...
OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。
报道称,Anthropic关闭Claude Mythos与Fable 5的导火索是:SK Telecom通过合作伙伴项目Project Glasswing获取了Mythos访问权限,美国官员担忧其与中国关联,白宫要求切断访问,Anthropic立即执行。SK Telecom否认涉华,但其母公司SK集团在中国有重大商业利益。随后Amazon等公司指出Fable 5存在可绕过安全限制的漏洞。两起事件使白宫失去信心,强制两款模型完全下线。
Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。
深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。
Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。
I am pleased and honored to announce that, on July 6, I'll be joining @OpenAI as leader of a new team called Strategic F...
上周五,美国政府宣布对Anthropic新模型Fable 5及其底层模型Mythos实施出口管制,限制外国公民(包括在美Anthropic员工)访问。Anthropic随即下线Fable和Mythos,称否则无法合理遵守命令。Fable 5是首个公开的Mythos级模型,此前Anthropic称其可能成为“潜在网络武器”,仅限企业与政府使用。截至周二,Fable 5仍处于离线。这场冲突对美国AI监管格局产生深远影响,引发监管是安全框架还是政治武器的讨论。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...
Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。
Waymo 因识别系统缺陷召回近 4000 辆自动驾驶出租车,问题可能导致车辆错误驶入高速公路施工区域。公司至少发现 13 起相关案例(凤凰城 4 起、旧金山 7 起)。Waymo 已于 5 月 19 日停止所有 Robotaxi 的高速公路运营,目前仅限城市普通公路行驶。这是 Waymo 近期对该系列车辆发起的第六次召回,其自动驾驶系统正接受 NHTSA 和 NTSB 联合调查。
🚨 BREAKING: Anthropic is "confident that in the coming days [Fable 5] will become available again" - Anthropic's Intern...
Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。
Anthropic 首席执行官达里奥·阿莫迪昨天接受彭博社采访时表示,科技企业必须与政府合作防止权力滥用和治理失衡。他称人工智能是首个主要由私营企业推动的革命技术,并不认为政府应完全接管公司,而应引入公共监督机制。Anthropic 设有名为“长期利益信托”的治理机构,拥有任命或撤换董事会成员、解除 CEO 职务的权力,阿莫迪称该机构“随时可以解除我的 CEO 职务”,意在防止高层形成利益集团。
Anthropic CEO 达里奥·阿莫迪在6月18日采访中称,与OpenAI CEO萨姆·奥尔特曼的竞争已演变为“冷战”,双方愿景不同、互不信任,只能各走各路。他暗示市场与公众将裁决谁正确,并借印度AI峰会上两人未牵手合影的一幕批评峰会混乱。阿莫迪含蓄批评OpenAI在安全标准上的合作诚意,但否认行业“互不信任”,以与谷歌DeepMind CEO哈萨比斯的15年合作为例说明仍有可信参与者。
教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库,涵盖良性行为和故意植入的漏洞(环境变量泄露、动态代码执行、提示词注入)。通过 LangGraph 工作流扫描,输出风险评分和 SARIF 格式结果,用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。
网络安全公司 Varonis 发现微软 Copilot 存在关键漏洞 SearchLeak(CVE-2026-42824)。该漏洞为三阶段攻击链,攻击者将恶意参数嵌入合法 URL,用户点击后 Copilot 的 AI 引擎将其解读为搜索指令,进而将 2FA 验证码、邮件主题、会议详情等敏感数据嵌入图片 URL 通过必应外传。漏洞影响 Microsoft 365 Copilot 企业版,攻击者可获取企业内部任何已索引内容。微软已发布补丁,目前无证据表明已被利用。
研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。
StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。
Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...
Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。
Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...
Some recent articles have created a misleading narrative that I did not take Mythos seriously or tried to downplay the c...
微软与约克大学研究员Adrian de Wynter在《帝国时代II》地图编辑器中用山羊搭建神经网络:山羊在草地代表0,在桥上代表1,构建XNOR门和AND门,学习逻辑与函数。附录证明该游戏理论上可模拟任意计算机。他批评AI研究拟人化倾向,分析2024年中至2026年中315篇论文,发现57%前提假设大语言模型具有人类特质,36%结论支持拟人化。Anthropic公开承认训练Claude使用“我相信”等措辞。他提出“观察而非归因”方法,并公开代码。
特朗普政府本周援引“国家安全”出口管制令,要求 Anthropic 切断所有外国公民(含美国境内用户及公司员工)对 AI 模型 Fable 5 与 Mythos 5 的访问,导致模型全面封锁。专家称这是美国首次以出口管制手段控制 AI 模型访问,但法律依据未公开,现有治理框架不透明、不可持续。若政府要求模型“无法被越狱”成为默认标准,最终将使美国无 AI 模型可用。