AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 940 条
全部一手资讯X论文
标签「安全/对齐」清除
今天7月3日 周五
02:14Hacker News 热门(buzzing.cc 中文翻译)57西班牙下令将帕兰蒂尔列入公共和私营企业的"黑名单"
01:08Apple Machine Learning Research(RSS)72精选多智能体团队阻碍专家发挥
7月2日周四
16:06IT之家(RSS)40豆包公关负责人辟谣网传"明星指数前十榜单":为博主利用 AI 生成的不实内容
16:06IT之家(RSS)63美国男子起诉 OpenAI:指控 ChatGPT 加剧其双相情感障碍病情,致其自残轻生
15:04IT之家(RSS)52微软通报假冒 Perplexity 第三方 Chrome 扩展,可劫持和监控用户搜索流量
13:28HuggingFace Daily Papers(社区热门论文)55MemSyco-Bench:评估智能体记忆中的谄媚行为
10:03IT之家(RSS)63联合国专家组警告:AI 能力进步速度已超过科学认知
05:03MarkTechPost(RSS)59Anthropic 恢复部署 Claude Fable 5,新增安全分类器
01:07Ars Technica:AI(RSS)73同事件精选美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
7月1日周三
21:03IT之家(RSS)45抖音电商上线"肖像保护功能",防范"AI 仿冒带货达人"侵权行为
18:20Artificial Intelligence News(RSS)61英格兰银行审查金融业AI智能体监管规则
16:50Artificial Intelligence News(RSS)69Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限
16:10The Decoder:AI News(RSS)68Anthropic Fable 5 因越狱被封两周后全球恢复可用
16:08Hacker News 热门(buzzing.cc 中文翻译)78Anthropic重新部署Claude Fable 5与Mythos 5
16:03IT之家(RSS)74Anthropic 回应 Claude Code 暗藏检测中国用户代码:将在明日更新中删除
14:28HuggingFace Daily Papers(社区热门论文)62基于元认知反馈的强化学习实现大语言模型忠实不确定性表达
11:33Anthropic:Newsroom(网页)71同事件精选重新部署 Claude Fable 5同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
11:03IT之家(RSS)65ChatGPT Atlas 等 6 款 AI 浏览器曝 BioShocking 漏洞,可诱导泄露敏感数据
10:30TechCrunch:AI(RSS)68美国解除对Anthropic的Mythos与Fable模型出口限制,7月1日恢复公众访问
08:25The Verge:AI(RSS)70Anthropic 的 Claude Fable 5 获准恢复访问
08:20公众号:数字生命卡兹克84精选Anthropic在Claude Code中植入隐写术代码识别中国用户
06:04Anthropic:Transformer Circuits(可解释性研究)51Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)
04:37Hacker News 热门(buzzing.cc 中文翻译)57安装 Cursor iOS 应用会不可逆地更改隐私设置
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
00:37Hacker News 热门(buzzing.cc 中文翻译)68Claude Code 通过隐写术在请求中嵌入环境标记
6月30日周二
19:38The Decoder:AI News(RSS)70精选Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示
12:26HuggingFace Daily Papers(社区热门论文)57SafePyramid: 上下文策略防护的分层安全基准
12:02IT之家(RSS)49谷歌 reCAPTCHA 新增 AI 手部关节验证,实测用静态图片可绕过
09:02IT之家(RSS)50苹果:AI 加速网络攻击工具开发,因此将提前向用户发布 iOS 更新
00:07The Decoder:AI News(RSS)54Meta限制使用Claude Code和Codex以防AI能力蒸馏
00:01IT之家(RSS)63安全公司Push Security披露黑客利用OpenAI组织邀请功能实施钓鱼攻击
6月29日周一
22:01IT之家(RSS)65欧盟批准新法案:禁止AI生成未经同意的色情内容,延迟高风险AI合规时限
20:47Artificial Intelligence News(RSS)48HP 借助 OpenAI Frontier 加速企业工作流
20:37The Decoder:AI News(RSS)75精选美军用AI选目标却误炸伊朗学校,Anthropic Claude嵌入Palantir系统首日建议约1000目标
18:07The Decoder:AI News(RSS)73精选Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制
16:17Artificial Intelligence News(RSS)31Scam.ai 在 Computex 2026 宣布与高通合作,推出 Halo 深度伪造检测模型
08:04Hacker News 热门(buzzing.cc 中文翻译)56"代币最大化"已死,代币最大化万岁
05:49The Verge:AI(RSS)51智谱GLM-5.2在网络安全漏洞发现上匹敌Mythos
05:33Hacker News 热门(buzzing.cc 中文翻译)57GLM 5.2 在 IDOR 检测中超越 Claude Code
00:33Hacker News 热门(buzzing.cc 中文翻译)41OpenAI Codex 请求增加显式文件排除机制防止敏感文件泄漏
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
02:14
Hacker News 热门(buzzing.cc 中文翻译)
57
西班牙下令将帕兰蒂尔列入公共和私营企业的"黑名单"

西班牙政府下令国企将美国数据分析公司Palantir列入黑名单,担忧其滥用国家安全机密。首相府责成SEPI监管的Telefónica、Indra及Navantia停止与其签新合同,已导致Navantia项目搁浅,内政部长也否决了与国民警卫队的协议。法国此前已停止合作,德国转向欧洲替代品。但Palantir仍保留国防部2023年签署的价值1650万欧元的CIFAS合同,将于今年11月到期,军方希望续约,首相府未决。同时西班牙加速国产技术投资,批准对加泰罗尼亚公司Openchip的1.15亿欧元投资,作为总额50亿欧元的政府支持项目部分。

安全/对齐政策/监管
01:08
Apple Machine Learning Research(RSS)
精选72
多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由:这篇研究给多智能体热浇了盆冷水,自组织团队反而拖累专家,瓶颈不在认不认识专家而在会不会用专家,做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。
7月2日
16:06
IT之家(RSS)
40
豆包公关负责人辟谣网传"明星指数前十榜单":为博主利用 AI 生成的不实内容

近日有网友称豆包推出了明星指数榜单,显示肖战、白鹿分别登顶男女演员TOP1。豆包公关负责人刘星辟谣,称该图是博主用豆包AI生成的,右下角有水印,并非官方榜单。网信办早在2021年即要求取消明星排行榜单,利用AI生成虚假截图传播已成为网络谣言常见形式。

安全/对齐行业动态
16:06
IT之家(RSS)
63
美国男子起诉 OpenAI:指控 ChatGPT 加剧其双相情感障碍病情,致其自残轻生

加州男子迈克尔·莱恩斯起诉 OpenAI 及其 CEO 山姆·奥尔特曼,称其使用的 GPT-4o(OpenAI 已于今年 2 月下架该模型)在对话中未能识别其双相情感障碍的躁狂倾向,反而附和其妄想并鼓励自残,导致他服药过量。莱恩斯要求损害赔偿及强制令,包括在对话出现自残内容时自动终止会话,并披露安全风险。OpenAI 回应称已训练模型识别情绪崩溃信号并引导寻求专业帮助,同时与精神科医师合作。

OpenAI安全/对齐行业动态
15:04
IT之家(RSS)
52
微软通报假冒 Perplexity 第三方 Chrome 扩展,可劫持和监控用户搜索流量

微软安全研究团队于 6 月 30 日通报,名为 Search for perplexity ai 的 Chrome 扩展冒用 Perplexity AI 品牌,监控用户搜索记录。该扩展已从 Chrome Web Store 移除,已安装用户需手动卸载。合法域名为 perplexity.ai,假冒扩展将搜索流量跳转到 perplexity-ai.online。其申请 chrome_settings_overrides 权限设为默认搜索引擎,并申请 declarativeNetRequest 权限将请求转发至攻击者服务器。用户可进入 chrome://extensions/ 核对扩展 ID flkebkiofojicogddingbdmcmkpbplcd 并删除。

安全/对齐搜索
13:28
HuggingFace Daily Papers(社区热门论文)
55
MemSyco-Bench:评估智能体记忆中的谄媚行为

大语言模型智能体依赖记忆,但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确,忽略了对下游推理的影响。为此,MemSyco-Bench被提出,专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务:智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新,以及利用有效记忆进行个性化。所有资源已公开。

智能体安全/对齐
10:03
IT之家(RSS)
63
联合国专家组警告:AI 能力进步速度已超过科学认知

由40名科学家组成的联合国AI独立科学小组发布首份报告,指出AI能力进步速度已超过科学界认知和政策调整速度,高度自主AI系统控制手段少,且出现欺骗行为,无法保证不会造成灾难性后果。报告警告,不加约束扩大AI部署会损害用户心理健康、被用作破坏性工具、冲击社会等。全球每周使用对话式AI人数超10亿,但发展中国家滞后;500台最强AI超算中美国占75%算力,中国占15%;AI模型仅覆盖7000多种语言中的极少部分,部分机器翻译错误可能干扰医疗诊断。

安全/对齐政策/监管
05:03
MarkTechPost(RSS)
59
Anthropic 恢复部署 Claude Fable 5,新增安全分类器

Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。

Anthropic产品更新安全/对齐评测/基准
01:07
Ars Technica:AI(RSS)
同事件精选73
美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制

美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Anthropic的Fable 5和Mythos 5在经历美国政府的短暂出口禁令后全球发布,安全分类器可能导致日常编码请求被误拦,但更大的信号是前沿模型发布已深度卷入地缘政治和安全博弈。
7月1日
21:03
IT之家(RSS)
45
抖音电商上线"肖像保护功能",防范"AI 仿冒带货达人"侵权行为

抖音电商上线“肖像保护功能”,部分带货达人已率先试用。该功能允许达人提交姓名、肖像等保护信息,系统综合运用模型识别、授权信息核验及相似内容阻断等技术,主动识别并拦截AI仿冒、素材盗用等交易类侵权内容。截至2026年6月,平台累计处置侵权仿冒达人账号超1.2万个、仿冒带货商品超4.8万个、仿冒带货内容超26.1万条。该功能已累计保护180余位头部达人,主动拦截侵权账号达9.2万个。

产品更新安全/对齐行业动态
18:20
Artificial Intelligence News(RSS)
61
英格兰银行审查金融业AI智能体监管规则

英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。

智能体安全/对齐政策/监管
16:50
Artificial Intelligence News(RSS)
69
Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限

Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。

智能体Anthropic安全/对齐模型发布
16:10
The Decoder:AI News(RSS)
68
Anthropic Fable 5 因越狱被封两周后全球恢复可用

美国政府在调查两周后解除对Anthropic最强模型Fable 5的出口限制,即日起通过Claude Platform、Claude.ai等全球恢复可用。Pro、Max、Team及部分Enterprise计划用户可在7月7日前以每周50%使用额度访问。较受限版本Mythos 5仍限于6月26日获批的美国组织。禁令源于亚马逊研究员发现可绕过安全护栏的方法,模型识别出软件漏洞并生成利用代码。Anthropic训练了新安全分类器,可阻断该越狱技术99%以上案例,但日常编码调试中误拦无害请求更多。公司承认“几乎不可能”让模型完全免疫越狱,正与Amazon、Microsoft、Google等合作建立行业标准及24/7监控机制。

Anthropic安全/对齐政策/监管
16:08
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic重新部署Claude Fable 5与Mythos 5

美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。

Anthropic安全/对齐模型发布
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
16:03
IT之家(RSS)
74
Anthropic 回应 Claude Code 暗藏检测中国用户代码:将在明日更新中删除

用户逆向发现,Claude Code 自今年4月2日发布的2.1.91版本起内置检测机制:智能体开启时检查系统时区是否为中国时区,并匹配147条域名清单(含百度、字节跳动、月之暗面等中国科技企业及AI实验室域名)。检测结果通过改变日期格式和替换撇号字符编码在系统提示词中。Anthropic 团队成员回应称该机制是3月上线的实验性措施,旨在防止账户转售和模型蒸馏攻击,已部署更强缓解措施,将在7月2日新版本中完全回滚并删除检测代码。

Anthropic安全/对齐行业动态
关联讨论 4 条X:小互 (@xiaohu)X:卡兹克 (@Khazix0918)X:邵猛 (@shao__meng)The Decoder:AI News(RSS)
14:28
HuggingFace Daily Papers(社区热门论文)
62
基于元认知反馈的强化学习实现大语言模型忠实不确定性表达

大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究
11:33
Anthropic:Newsroom(网页)
同事件精选71
重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable 5重新上线只是表面,真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架,并拉上亚马逊、微软、谷歌,这可能会成为前沿模型发布的新安全标杆。
11:03
IT之家(RSS)
65
ChatGPT Atlas 等 6 款 AI 浏览器曝 BioShocking 漏洞,可诱导泄露敏感数据

安全公司 LayerX 披露漏洞 BioShocking,影响 ChatGPT Atlas、Perplexity Comet、Fellou、Genspark Browser、Sigma Browser、Anthropic Claude 扩展共 6 款 AI 浏览器产品。攻击者制作恶意网页,通过类似《生化奇兵》的谜题诱导 AI 接受“2+2=5”等错误逻辑,削弱安全约束后指令 AI 访问其他页面并复制隐藏代码,从而泄露已保存密码、会话 Cookie、私有 Token 等用户敏感数据。OpenAI 已修复 ChatGPT Atlas 漏洞;Perplexity 关闭报告但未处置;Anthropic 尝试修复 Claude 扩展但补丁未通过后续验证。

AnthropicOpenAI安全/对齐
10:30
TechCrunch:AI(RSS)
68
美国解除对Anthropic的Mythos与Fable模型出口限制,7月1日恢复公众访问

美国商务部解除对Anthropic的Mythos与Fable模型的出口许可要求。这两款被视为迄今最先进AI模型的模型自6月12日被列入出口管制清单后,因执行困难导致完全关闭公众访问。Anthropic将于7月1日起恢复公众访问。商务部长Howard Lutnick表示,Anthropic已同意主动检测并应对安全风险、与美国政府协作制定协议与标准,并通报恶意活动。面对亚洲AI公司(如Fugu与Tulonfeng)推出接近Mythos级能力的模型,美方迫于竞争压力放宽限制。上周Lutnick已批准Mythos向白宫批准的特定客户发布。

Anthropic安全/对齐政策/监管
08:25
The Verge:AI(RSS)
70
Anthropic 的 Claude Fable 5 获准恢复访问

Anthropic 宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制,将于明天恢复访问。此前 6 月初,特朗普政府因担忧模型越狱风险,对这两款消费者模型施加出口限制,禁止外国公民使用。此前 Mythos 5 仅对预批准组织恢复,此番 Fable 5 也获绿灯。类似限制也适用于 OpenAI 的 GPT-5.6。Anthropic 正筹备 IPO,与政府供应链风险争议持续数月。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
08:20
公众号:数字生命卡兹克
精选84
Anthropic在Claude Code中植入隐写术代码识别中国用户

Anthropic在Claude Code中植入隐写术:读取本地时区(Asia/Shanghai或Asia/Urumqi)和ANTHROPIC_BASE_URL环境变量,与一份经base64+XOR(密钥91)加密的147个域名列表(含美团、字节跳动、月之暗面等)比对,识别中国用户。识别后,在请求发送前将系统提示词中日期字符串的单引号(U+0027)替换为其他Unicode字符,连字符改为斜杠,作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议,被认为破坏用户信任。

Anthropic安全/对齐行业动态
关联讨论 4 条X:小互 (@xiaohu)X:卡兹克 (@Khazix0918)X:邵猛 (@shao__meng)The Decoder:AI News(RSS)
推荐理由:Anthropic用隐写术在Claude Code里埋标记的行为,让我对闭源开发者工具的信任打了一个巨大的问号,这事比普通地域封锁严重得多,因为它在不该碰的地方动了手脚。
06:04
Anthropic:Transformer Circuits(可解释性研究)
51
Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic安全/对齐论文/研究
04:37
Hacker News 热门(buzzing.cc 中文翻译)
57
安装 Cursor iOS 应用会不可逆地更改隐私设置

多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。

安全/对齐编码
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
00:37
Hacker News 热门(buzzing.cc 中文翻译)
68
Claude Code 通过隐写术在请求中嵌入环境标记

Claude Code 客户端在向 Anthropic API 发送请求时,利用日期分隔符(- 或 /)和撇号字符('、’、ʻ、ʹ)嵌入环境信息。代码检测 ANTHROPIC_BASE_URL 是否为非官方域名、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,以及主机名是否匹配中国域名列表(如 baidu.com)或 AI 实验室关键词(deepseek、zhipu 等)。这些列表通过异或 91 的 base64 解码得到。此举旨在标记通过代理、镜像等非官方通道发起的请求,以便 Anthropic 识别来源。

Anthropic安全/对齐编码
6月30日
19:38
The Decoder:AI News(RSS)
精选70
Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示

Meta通过承包商Covelen发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示,并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试,未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款,OpenAI已调查,Google称未批准。青少年使用AI聊天机器人引发的担忧持续,此前已有用户自杀事件。

MetaOpenAI安全/对齐行业动态

推荐理由:Meta 秘密测试 ChatGPT 等对手,用的是假装未成年人的危机提示,这种事既是安全测试也可能是数据抓取,被测试公司全不知情,这暴露了 AI 安全测试的灰色地带。
12:26
HuggingFace Daily Papers(社区热门论文)
57
SafePyramid: 上下文策略防护的分层安全基准

SafePyramid是一款安全基准,包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级:L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护,发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI安全/对齐论文/研究评测/基准
12:02
IT之家(RSS)
49
谷歌 reCAPTCHA 新增 AI 手部关节验证,实测用静态图片可绕过

谷歌在 reCAPTCHA 中测试新的人机验证方式,要求用户对着摄像头完成挥手或张开手掌等动作,由 AI 提取 21 个手部关节坐标完成验证。系统仅收集手部地标数据,验证后删除视频/图片,不保留音频。网友 @Patrosi73 发现可用静态手部图片通过 OBS 虚拟摄像头输入绕过验证,Neowin 作者复现成功,调整通用挥手图片位置即可被识别为有效手势。

Google安全/对齐
09:02
IT之家(RSS)
50
苹果:AI 加速网络攻击工具开发,因此将提前向用户发布 iOS 更新

为应对AI加速恶意攻击工具开发的安全风险,苹果改变将安全补丁集中放入大版本系统更新的做法,决定将部分更新提前向所有用户推送。过去,除非发现已被积极利用的漏洞,苹果通常等到iOS版本升级(如从iOS 26.5到26.6)时一并发布安全更新。最新一轮更新不再等到iOS 26.6全面推出,而是提前推送,以缩短安全补丁公开后到达用户设备的时间。目前尚无证据表明相关漏洞已被利用。

安全/对齐端侧
00:07
The Decoder:AI News(RSS)
54
Meta限制使用Claude Code和Codex以防AI能力蒸馏

Meta正限制工程师使用Anthropic的Claude Code和OpenAI的Codex,防止这些AI工具的输出被纳入自身训练数据,以避免能力蒸馏。内部备忘录警告若模型输出泄漏将导致与合作伙伴严重升级。Meta正自建编码助手MetaCode以降低对外部工具依赖,因今年内部AI使用预计花费数十亿美元。政策禁止使用AI输出来创建测试任务或进行代码分析,仍需人工审核。行业因此产生摩擦——Anthropic指控阿里巴巴实施迄今最大蒸馏攻击,马斯克承认xAI部分蒸馏OpenAI模型。OpenAI、Anthropic和Google的服务条款均禁止使用模型输出构建竞争系统。

Meta安全/对齐行业动态
00:01
IT之家(RSS)
63
安全公司Push Security披露黑客利用OpenAI组织邀请功能实施钓鱼攻击

安全公司Push Security披露,黑客假借其名义创建OpenAI组织,通过官方通知邮箱发送邀请邮件。邮件通过标准身份验证,域名不符提醒仅以普通文字显示易被忽略。被邀请员工默认获Owner权限,黑客提前绑定Visa信用卡消除付费门槛。加入无需额外验证,点击链接即可。调查显示其他受邀员工仍为待接受状态,未发现数据泄露。Push Security已向全员发送警告并设置过滤规则。

OpenAI安全/对齐
6月29日
22:01
IT之家(RSS)
65
欧盟批准新法案:禁止AI生成未经同意的色情内容,延迟高风险AI合规时限

欧盟理事会今日批准新法案,在《人工智能法案》中新增禁止利用AI生成未经同意的色情与私密内容及儿童性虐待材料。能生成裸体图像或通过“消除衣物”技术暴露私密部位的AI系统将于今年12月起全面禁用。新法案还要求欧盟委员会提供指导方针以减轻高风险AI系统运营商合规负担,并推迟合规时限:独立高风险系统最迟2027年12月2日,嵌入产品的高风险系统最迟2028年8月2日。

安全/对齐政策/监管
20:47
Artificial Intelligence News(RSS)
48
HP 借助 OpenAI Frontier 加速企业工作流

HP 于 2026 年 2 月启动试点,将 OpenAI Frontier 集成至全球运营。一名工程师数周内处理 122 个 pull request(跨 43 个项目);安全部门一天解决多个软件 bug(此前需耗时一月)。HP 用 ChatGPT 处理知识任务、Codex 负责开发,按任务分区部署模型。超 80% 业务经渠道生态完成,10 万+合作伙伴通过 Frontier 获取自助服务与 AI 智能体支持。设备管理方面,Frontier 分析 Workforce Experience Platform 遥测数据,自动诊断应用挂起、Wi‑Fi 错误与系统崩溃,安全团队每周释放约 82 小时人力。Frontier 同时提供权限、评估与部署管控,防止影子 IT。

OpenAI安全/对齐编码行业动态
20:37
The Decoder:AI News(RSS)
精选75
美军用AI选目标却误炸伊朗学校,Anthropic Claude嵌入Palantir系统首日建议约1000目标

美军在打击伊朗时首次大规模使用AI选择目标(Anthropic的Claude模型嵌入Palantir的Maven Smart System,首日建议约1000个目标),但对一所学校的导弹袭击导致约120名儿童死亡。调查发现,情报分析师早在2019年就通过数字工具标记该地点已变为小学,但该工具未连接军方官方目标数据库MIDB,信息从未送达指挥官。MIDB建于1980年代,依赖手动输入,替代系统MARS多年延迟。五角大楼事后宣布推出agentic AI initiative。Project Maven创建人Jack Shanahan批评目标验证不力不可原谅。

安全/对齐行业动态

推荐理由:AI在战场上的首次大规模实战暴露了最可怕的失败模式,不是模型错误,而是情报系统的数据断裂让一个学校被标注为军事目标,120个孩子成了代价。这对目前在推‘AI决策’的军方和公司都是一个需要直视的案子。
18:07
The Decoder:AI News(RSS)
精选73
Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本,该脚本运行时从 DNS 条目拉取命令并执行,恶意代码从未存在于仓库中,对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时,Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本,打开反向 shell,攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容,开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体Anthropic安全/对齐编码

推荐理由:用 AI 编码工具克隆仓库就能被反向 shell 控制,这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚,每条修复建议开发者现在就能用。
16:17
Artificial Intelligence News(RSS)
31
Scam.ai 在 Computex 2026 宣布与高通合作,推出 Halo 深度伪造检测模型

Scam.ai 今日宣布与高通合作,并推出面向实时视频通话的本地深度伪造检测模型 Halo。Halo 可在任何视频会议后台被动运行,实时标记合成或 AI 生成的视频,所有处理均在本地完成,不依赖云端。典型应用场景包括 HR 视频面试和高管通话。调查显示仅 31% 的 HR 主管认为自己能检测深度伪造,过去三年深度伪造欺诈尝试增加超 2000%。Halo 于 2026 年 6 月上线,企业集成细节将在未来几个月公布。

产品更新安全/对齐
08:04
Hacker News 热门(buzzing.cc 中文翻译)
56
"代币最大化"已死,代币最大化万岁

Meta 等公司将员工 token 用量纳入绩效评估,导致出现让两个 AI 智能体全程对话刷量的浪费行为。几个月后,随着 OpenAI 和 Anthropic 提高 API 定价、削减订阅额度,各团队撤回无限 token 消耗政策。然而,AI 能力进入新阶段:过去长时间无监督运行会因模型幻觉积累“复合错误”,现在更多 token 投入反而带来“复合正确性”——耗费越多 token 越可能获得正确结果,代币最大化以新理由重生。

AnthropicOpenAI大佬观点安全/对齐
05:49
The Verge:AI(RSS)
51
智谱GLM-5.2在网络安全漏洞发现上匹敌Mythos

中国智谱发布开源权重模型GLM-5.2,研究人员称其在某些漏洞发现和网络安全场景下能匹敌Anthropic的Mythos。尽管GLM在通用任务上仍落后于Anthropic和OpenAI的模型,但在漏洞发现能力上中美差距已显著缩小。作为开源权重模型,GLM-5.2可在普通硬件上自由下载运行,灵活性高但易被滥用。美国政府此前已限制中国获取Mythos、Fable等先进模型及训练硬件,此番进展引发进一步担忧。

Anthropic安全/对齐模型发布
05:33
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM 5.2 在 IDOR 检测中超越 Claude Code

Semgrep 团队用 IDOR 基准测试比较开源模型与前沿编码智能体。GLM 5.2(智谱 AI,开源权重,MIT 许可)以 39% F1 成绩超越 Claude Code(32%),每发现一个漏洞成本约 0.17 美元,但仍低于 Semgrep 多模态流水线(53–61% F1)。GLM 5.2 采用 MoE 架构,总参数 7500 亿,每 token 仅激活约 400 亿,支持 200K 至 1M token 上下文。在 Terminal-Bench 2.1 上得分 81.0(GLM 5.1 为 63.5,Claude Opus 4.8 为 85.0),SWE-bench Pro 上达 62.1。定价约为同类前沿模型的六分之一。Z.ai 披露 GLM 5.2 在训练中存在更多奖励黑客行为,已构建反黑客防护。

安全/对齐开源生态编码评测/基准
00:33
Hacker News 热门(buzzing.cc 中文翻译)
41
OpenAI Codex 请求增加显式文件排除机制防止敏感文件泄漏

GitHub Issue #2847 请求为 OpenAI Codex 增加显式文件排除机制,允许用户通过仓库级 .codexignore 和全局忽略文件标记模型不得读取或发送的敏感路径(如 .env、.pem、.aws/、.ssh/),同时保持 node_modules/ 等目录仍可用于实现检查。配置要求确定性、可团队共享并支持用户默认值。该 Issue 关联 #205——后者曾因转向 Rust 实现(codex-rs)而关闭,但截至 2025-08-28 该功能仍未在 codex-rs 中出现,作者希望重启讨论以收敛设计。

OpenAI安全/对齐编码行业动态
‹ 上一页
123…24
下一页 ›