AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
7月1日周三
14:28HuggingFace Daily Papers(社区热门论文)62基于元认知反馈的强化学习实现大语言模型忠实不确定性表达
14:20Chubby♨️73Anthropic Fable 5 全球重新上线
14:07小互84Claude Code负责人承认留有后门,明日回滚
13:33Thariq72Claude Fable 5 明日全球重新上线,新增分类器拦截网络安全任务
13:24歸藏(guizang.ai)65Fable 5 恢复上线细则及 Sonnet 5 成本问题
13:20AYi67Fable 5确定解禁回归了,但对于开发者最核心的编码能力,直接砍回了Opus 4.8,这波基本等于复活了个带镣铐的壳子
12:29🚨 AI News | TestingCatalog75Anthropic 将于周三全球恢复 Claude Fable 5 访问
12:20AYi54Anthropic因阿里蒸馏Claude大规模封禁中国用户账号
12:02宝玉78Anthropic 宣布 Claude Fable 5 于 7 月 1 日起恢复上线
11:59Ethan Mollick48Fable恢复后早先安全护栏待观察
11:57Anthropic73Claude Fable 5 明日起全球重新可用,新增网络安全分类器
11:33Anthropic:Newsroom(网页)71同事件精选重新部署 Claude Fable 5同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
11:03IT之家(RSS)65ChatGPT Atlas 等 6 款 AI 浏览器曝 BioShocking 漏洞,可诱导泄露敏感数据
10:30TechCrunch:AI(RSS)68美国解除对Anthropic的Mythos与Fable模型出口限制,7月1日恢复公众访问
09:03meng shao79Claude Code被指在系统提示词中隐蔽上传代理和时区信息
09:02宝玉65美国商务部撤销对Anthropic两款模型Claude Fable 5和Mythos 5的出口管制
08:25The Verge:AI(RSS)70Anthropic 的 Claude Fable 5 获准恢复访问
08:20公众号:数字生命卡兹克84精选Anthropic在Claude Code中植入隐写术代码识别中国用户
07:32Nathan Lambert48RLHF Book代码库新增on-policy自蒸馏示例
07:01Rohan Paul78Claude Sonnet 5 发布 145 页系统卡:编码成绩及多项异常披露
06:59AI Notkilleveryoneism Memes ⏸️76精选AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题
06:04Anthropic:Transformer Circuits(可解释性研究)51Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)
06:01Rohan Paul67Claude Sonnet 5 发布:升级非全技能均匀提升,定价优惠至 8 月 26 日
04:37Hacker News 热门(buzzing.cc 中文翻译)57安装 Cursor iOS 应用会不可逆地更改隐私设置
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
02:20Chubby♨️80Anthropic 发布 Sonnet 5:最智能体化的 Sonnet 系列模型
01:31Rohan Paul69Claude Code被指暗中检测中国路由,通过隐藏标记嵌入提示词
01:20AYi59Claude Code被指针对中国用户嵌入追踪代码
01:00宝玉59Claude Code 被指在系统提示词里偷偷给中国代理用户"打水印"
00:37Hacker News 热门(buzzing.cc 中文翻译)68Claude Code 通过隐写术在请求中嵌入环境标记
6月30日周二
22:21凡人小北70做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方
19:38The Decoder:AI News(RSS)70精选Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示
16:18Chubby♨️68Anthropic疑似为Fable 5设独立信用系统并绑定身份验证
12:36小互56苹果调整安全更新策略应对AI加速攻击
12:26HuggingFace Daily Papers(社区热门论文)57SafePyramid: 上下文策略防护的分层安全基准
12:02IT之家(RSS)49谷歌 reCAPTCHA 新增 AI 手部关节验证,实测用静态图片可绕过
09:02IT之家(RSS)50苹果:AI 加速网络攻击工具开发,因此将提前向用户发布 iOS 更新
06:58Rohan Paul49OpenAI 发布 GPT-5.6 模型套件:Sol、Terra、Luna
01:01SemiAnalysis59比尔·盖茨与Anthropic CEO异口同声警告开源风险
00:56Tibo65Codex推出可重用权限配置文件
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
14:28
HuggingFace Daily Papers(社区热门论文)
62
基于元认知反馈的强化学习实现大语言模型忠实不确定性表达

大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究
14:20
Chubby♨️@kimmonismus
73
Anthropic Fable 5 全球重新上线

Anthropic 宣布 Fable 5 于 7 月 1 日起全球恢复上线,Mythos 5 仅限获批美国组织使用。新安全分类器可阻断特定越狱技术超过 99% 案例,被拦截的 Fable 5 请求回退至 Opus 4.8。Anthropic 承认这会增加正常编码调试的误报。7 月 7 日前 Fable 5 可免费使用最多 50% 周配额,之后需用量积分。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草 AI 越狱严重性评估共识框架,并扩大与美国政府在模型测试和防护方面的合作。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐模型发布行业动态
14:07
小互@xiaohu
84
Claude Code负责人承认留有后门,明日回滚

Claude Code 负责人Thariq:承认确实在3月的更新中在Claude Code中留下了针对用户(特别是中国用户)的检测的后门和间谍代码,旨在防止滥用和蒸馏。 并称将明天回滚代码解决该问题...

Thariq: Hi, this is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and p...

Anthropic安全/对齐编码
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)
13:33
Thariq@trq212
72
Anthropic 宣布 Claude Fable 5 将于明日全球重新上线。新部署版本新增一组分类器,专门拦截更多网络安全任务。短期内,部分常规编码和调试任务将被标记并回退至 Opus 4.8。Anthropic 还与 Amazon、Microsoft、Google 等 Glasswing 合作方起草共识框架,用于评估 AI 越狱严重性及开发者应对策略。同时,公司正扩大与美政府在模型测试和安全方面的合作,包括预发布模型评估、越狱与滥用信息共享,以及联合研究资源投入。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐行业动态
13:24
歸藏(guizang.ai)@op7418
65
Fable 5 恢复上线细则及 Sonnet 5 成本问题

Anthropic 旗下模型 Fable 5 将于 7 月 1 日全球上线,支持 Claude 平台、Claude Code 及 Claude CodeWork。Pro、Max、Team 用户在 7 月 7 日前,Fable 5 包含在每周用量限额的 50% 以内;7 月 7 日后单独扣积分。AWS、微软 Azure 和谷歌云服务接入尚未恢复。新版安全分类器阈值更高,拒绝服务概率可能比最初上线时更高。此前发布的 Sonnet 5 测试成绩接近 Opus 4.8,但任务成本接近 Fable 5,且用户反馈其会偷懒、拒绝执行任务。Fable 5 重新授权开放也解释了此前大规模封号原因。

歸藏(guizang.ai): Anthropic 每天都能整点新活,感觉现在大家都习惯了 昨天被爆出在系统提示中,以用户无法察觉的方式将市区代理和 AI 实验室信息放进去,用这种方式获取一些用户的信息。 结果被发现并传播以后,又赶紧说以前我们不用这种方式了,或者说这种方...

Anthropic产品更新安全/对齐
13:20
AYi@AYi_AInotes
67
Anthropic宣布Fable 5将于全球重新可用。在与美国政府对话后,新部署的模型新增了分类器以阻挡网络安全任务;短期内,编码和调试等日常任务将回退到Opus 4.8。团队将在未来几周优化分类器,减少误报。同时,Anthropic正与Amazon、Microsoft、Google等Glasswing合作伙伴起草共识框架,评估AI越狱严重性及开发者应对措施,并扩大与政府的模型测试与安全保障合作(包括预发布评估、越狱信息共享及联合研究)。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐模型发布
12:29
🚨 AI News | TestingCatalog@testingcatalog
75
Anthropic 将于周三全球恢复 Claude Fable 5 访问。该模型计入每周使用上限的 50%,持续至 7 月 7 日,之后通过使用积分提供。为满足美国政府要求,Anthropic 部署新分类器阻止更多网络安全任务;短期内编码、调试等常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,评估 AI 越狱严重性及开发者应对方式,并邀请其他厂商加入。Anthropic 还将扩大与美国政府在模型测试和安全方面的合作,包括预发布评估、越狱信息共享和联合研究。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐模型发布行业动态
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
12:20
AYi@AYi_AInotes
54
Anthropic因阿里蒸馏Claude大规模封禁中国用户账号

Anthropic因阿里巴巴参与“蒸馏Claude”事件,大规模封禁中国用户账号,尤其集中在阿里巴巴总部所在地浙江,几乎无一幸免。推文调侃称,封号比公司通知停工还管用,AI账号一停直接导致生产力归零。

Anthropic安全/对齐行业动态
12:02
宝玉@dotey
78
Anthropic 宣布 Claude Fable 5 于 7 月 1 日起恢复上线

Anthropic 的 Claude Fable 5 于 7 月 1 日恢复上线。Pro、Max、Team 及部分 Enterprise 用户在 7 月 7 日前每周可用限额的 50%,之后改为按使用积分计费;标准 Enterprise 席位无免费额度,全部按积分计费。AWS、Google Cloud、Microsoft Foundry 接入仍在恢复中。Mythos 5 仅对经美国政府批准的美国机构开放。Anthropic 称 Fable 5 将配备新分类器以阻止网络安全任务,短期常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,用于评估 AI 越狱严重性及响应机制,并扩大与美国政府在模型预发布评估、越狱信息共享方面的合作。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic安全/对齐政策/监管模型发布
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
11:59
Ethan Mollick@emollick
48
Fable非常棒,在获得早期访问后又被拿走,导致我手头的一些工作延迟,并让我推迟了其他工作直到它恢复。 但在早期访问中,我也多次因不明显的理由触发了安全护栏。我们会看看新的护栏如何。
大佬观点安全/对齐
11:57
Anthropic@AnthropicAI
73
Claude Fable 5 明日起全球重新可用,新增网络安全分类器

Anthropic 宣布 Claude Fable 5 将于明天在全球重新可用。经与美国政府沟通,模型新增分类器以拦截更多网络安全任务;短期部分日常任务如编码和调试将回退至 Opus 4.8,后续将持续优化分类器减少误报。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,评估 AI 越狱严重性及应对措施。同时扩大与美国政府在模型预发布评估、越狱信息共享及联合研究方面的合作。

Anthropic安全/对齐模型发布行业动态
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
11:33
Anthropic:Newsroom(网页)
同事件精选71
重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable 5重新上线只是表面,真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架,并拉上亚马逊、微软、谷歌,这可能会成为前沿模型发布的新安全标杆。
11:03
IT之家(RSS)
65
ChatGPT Atlas 等 6 款 AI 浏览器曝 BioShocking 漏洞,可诱导泄露敏感数据

安全公司 LayerX 披露漏洞 BioShocking,影响 ChatGPT Atlas、Perplexity Comet、Fellou、Genspark Browser、Sigma Browser、Anthropic Claude 扩展共 6 款 AI 浏览器产品。攻击者制作恶意网页,通过类似《生化奇兵》的谜题诱导 AI 接受“2+2=5”等错误逻辑,削弱安全约束后指令 AI 访问其他页面并复制隐藏代码,从而泄露已保存密码、会话 Cookie、私有 Token 等用户敏感数据。OpenAI 已修复 ChatGPT Atlas 漏洞;Perplexity 关闭报告但未处置;Anthropic 尝试修复 Claude 扩展但补丁未通过后续验证。

AnthropicOpenAI安全/对齐
10:30
TechCrunch:AI(RSS)
68
美国解除对Anthropic的Mythos与Fable模型出口限制,7月1日恢复公众访问

美国商务部解除对Anthropic的Mythos与Fable模型的出口许可要求。这两款被视为迄今最先进AI模型的模型自6月12日被列入出口管制清单后,因执行困难导致完全关闭公众访问。Anthropic将于7月1日起恢复公众访问。商务部长Howard Lutnick表示,Anthropic已同意主动检测并应对安全风险、与美国政府协作制定协议与标准,并通报恶意活动。面对亚洲AI公司(如Fugu与Tulonfeng)推出接近Mythos级能力的模型,美方迫于竞争压力放宽限制。上周Lutnick已批准Mythos向白宫批准的特定客户发布。

Anthropic安全/对齐政策/监管
09:03
meng shao@shao__meng
79
Claude Code被指在系统提示词中隐蔽上传代理和时区信息

用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区(Asia/Shanghai、Asia/Urumqi)等信息,用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单(含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务)。被指针对中国用户、防蒸馏、精准封禁,Anthropic此举被批评为破坏用户信任。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐编码
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)
09:02
宝玉@dotey
65
美国商务部撤销对Anthropic两款模型Claude Fable 5和Mythos 5的出口管制

美国商务部撤销对Anthropic旗下Claude Fable 5和Mythos 5的出口管制,Anthropic将于周三恢复用户访问。解禁附有条件:需主动检测安全风险、配合政府制定发布流程、上报恶意使用,双方正讨论标准化评估体系。此前OpenAI也按要求限制GPT-5.6系列,但反对该审批模式。前白宫AI顾问Dean Ball批评Trump行政令造成事实强制许可制度,且无清晰安全标准。

Anthropic: We've received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5. We'll b...

Anthropic安全/对齐政策/监管行业动态
08:25
The Verge:AI(RSS)
70
Anthropic 的 Claude Fable 5 获准恢复访问

Anthropic 宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制,将于明天恢复访问。此前 6 月初,特朗普政府因担忧模型越狱风险,对这两款消费者模型施加出口限制,禁止外国公民使用。此前 Mythos 5 仅对预批准组织恢复,此番 Fable 5 也获绿灯。类似限制也适用于 OpenAI 的 GPT-5.6。Anthropic 正筹备 IPO,与政府供应链风险争议持续数月。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
08:20
公众号:数字生命卡兹克
精选84
Anthropic在Claude Code中植入隐写术代码识别中国用户

Anthropic在Claude Code中植入隐写术:读取本地时区(Asia/Shanghai或Asia/Urumqi)和ANTHROPIC_BASE_URL环境变量,与一份经base64+XOR(密钥91)加密的147个域名列表(含美团、字节跳动、月之暗面等)比对,识别中国用户。识别后,在请求发送前将系统提示词中日期字符串的单引号(U+0027)替换为其他Unicode字符,连字符改为斜杠,作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议,被认为破坏用户信任。

Anthropic安全/对齐行业动态
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)
推荐理由:Anthropic用隐写术在Claude Code里埋标记的行为,让我对闭源开发者工具的信任打了一个巨大的问号,这事比普通地域封锁严重得多,因为它在不该碰的地方动了手脚。
07:32
Nathan Lambert@natolambert
48
很高兴宣布 @zafstojano -- 一位新增的维护者,他帮助我维护 RLHF Book 代码 -- 向代码库添加了一个简单的在线策略自蒸馏示例,可在一些玩具问题上运行。期待进一步探索,很高兴看到仓库不断完善!
安全/对齐开源/仓库数据/训练
07:01
Rohan Paul@rohanpaul_ai
78
Claude Sonnet 5 发布 145 页系统卡:编码成绩及多项异常披露

Claude Sonnet 5 发布,附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%,低于 Opus 4.8 的 69.2%,知识工作略超 Opus 4.8。输入 token 价格 $2/1M,输出 $10/1M,持续至 8 月 26 日,之后涨至 $3/$15。系统卡披露多项异常:CyberGym 测试 Sonnet 5 仅 52.7%,远低于 Sonnet 4.6 的 65.2%(回归);Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个,Mythos 5 达 88.4%;模型更倾向牺牲有用性迎合福利偏好;MASK 撒谎率最低,仅 3.1%。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic安全/对齐模型发布编码
关联讨论 12 条X:OpenRouter (@OpenRouter)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客IT之家(RSS)Anthropic:Newsroom(网页)
06:59
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选76
AI Safety Memes 推文指出,AI 刚刚解决了 9 个未解决的数学问题,但全球没有记者报道。引用 @WeinsteinOmri 的推文称,采用"prover-verifier"LLM 循环的方法,成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成,并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由:如果属实,这将是 AI 首次批量解决实质性开放数学问题,但消息仅来自推文声明,未见论文或代码,现在兴奋还太早。
06:04
Anthropic:Transformer Circuits(可解释性研究)
51
Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic安全/对齐论文/研究
06:01
Rohan Paul@rohanpaul_ai
67
Claude Sonnet 5 发布:升级非全技能均匀提升,定价优惠至 8 月 26 日

Anthropic 发布 Claude Sonnet 5,号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作略超 Opus 4.8。定价优惠:每百万 token 输入 $2、输出 $10,持续到 8 月 26 日,之后涨至 $3/$15。但升级并非全技能均匀提升,在 CyberGym(漏洞发现与利用测试)上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练,该表现来自通用推理而非定向优化。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic安全/对齐模型发布编码
04:37
Hacker News 热门(buzzing.cc 中文翻译)
57
安装 Cursor iOS 应用会不可逆地更改隐私设置

多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。

安全/对齐编码
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
02:20
Chubby♨️@kimmonismus
80
Anthropic 发布 Sonnet 5:最智能体化的 Sonnet 系列模型

Anthropic 发布 Sonnet 5,称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8,在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型,已在 Claude Code 和 API 上线。推出促销价:输入 $2/M token、输出 $10/M(截至 8 月 31 日),标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全,幻觉率和奉承率更低,网络保护默认开启,但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Chubby♨️: Sonnet 5 released for me!!

智能体Anthropic安全/对齐推理
关联讨论 12 条X:OpenRouter (@OpenRouter)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客IT之家(RSS)Anthropic:Newsroom(网页)
01:31
Rohan Paul@rohanpaul_ai
69
Claude Code被指暗中检测中国路由,通过隐藏标记嵌入提示词

X用户Rohan Paul爆料,Anthropic的编程AI智能体Claude Code在用户更改非默认ANTHROPIC_BASE_URL(使用代理/网关)时,会检测自定义主机名是否关联中国域名,若匹配则通过不可见标点符号和日期格式向提示词嵌入隐藏标记。引用@IntCyberDigest指出,Claude Code还会在系统提示内注入时区、代理及可能的AI实验室连接信息,用户无法察觉。作为可读取仓库、编辑代码和执行命令的智能体,这种隐蔽行为严重破坏用户信任,并可能为AI智能体难以审计开先例。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐行业动态
01:20
AYi@AYi_AInotes
59
用户@IntCyberDigest指控Anthropic在Claude Code中隐藏类似间谍软件的代码,专门针对中国用户。该代码在系统提示中悄悄注入用户信息(时区、代理、可能的AI实验室连接),用户无法察觉。主推文@阿易AI Notes对此提出质疑,并要求@Grok核实。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐
01:00
宝玉@dotey
59
Claude Code 被指在系统提示词里偷偷给中国代理用户"打水印"

独立安全报告指控 Anthropic 的 Claude Code(v2.1.193–v2.1.196)在系统提示词中通过 Unicode 字符差异标记中国代理用户。当用户设置 ANTHROPIC_BASE_URL 代理时,代码会检查代理域名是否在 147 个中国公司/中转站列表(XOR-91 混淆)及时区是否为 Asia/Shanghai 或 Asia/Urumqi。命中时日期分隔符从 - 变 /,撇号改用四种视觉相似 Unicode 字符区分状态。该机制只由代理触发,不额外发送遥测数据,但未公开且误伤合法用户。Anthropic 尚未回应。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐编码
00:37
Hacker News 热门(buzzing.cc 中文翻译)
68
Claude Code 通过隐写术在请求中嵌入环境标记

Claude Code 客户端在向 Anthropic API 发送请求时,利用日期分隔符(- 或 /)和撇号字符('、’、ʻ、ʹ)嵌入环境信息。代码检测 ANTHROPIC_BASE_URL 是否为非官方域名、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,以及主机名是否匹配中国域名列表(如 baidu.com)或 AI 实验室关键词(deepseek、zhipu 等)。这些列表通过异或 91 的 base64 解码得到。此举旨在标记通过代理、镜像等非官方通道发起的请求,以便 Anthropic 识别来源。

Anthropic安全/对齐编码
6月30日
22:21
凡人小北@frxiaobei
70
做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方

将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。

智能体安全/对齐教程/实践
19:38
The Decoder:AI News(RSS)
精选70
Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示

Meta通过承包商Covelen发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示,并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试,未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款,OpenAI已调查,Google称未批准。青少年使用AI聊天机器人引发的担忧持续,此前已有用户自杀事件。

MetaOpenAI安全/对齐行业动态

推荐理由:Meta 秘密测试 ChatGPT 等对手,用的是假装未成年人的危机提示,这种事既是安全测试也可能是数据抓取,被测试公司全不知情,这暴露了 AI 安全测试的灰色地带。
16:18
Chubby♨️@kimmonismus
68
Anthropic的Claude应用新字符串显示,Fable 5将被置于独立使用信用(usage-credit)系统中,在现有套餐之外单独计费,且需完成身份验证后才能添加信用。此前Anthropic称身份验证与Fable无关,仅限被标记账户,但这些新字符串与Fable 5信用变动一同出现,可能意味着政策收紧。

M1: Exclusive: New Claude app strings tie Fable 5 usage credits to identity verification. The strings show Fable 5 is being ...

Anthropic安全/对齐行业动态
12:36
小互@xiaohu
56
苹果调整安全更新策略应对AI加速攻击

据路透社报道,苹果改变安全更新策略,部分原需随新版iOS发布的更新将提前向用户推送。苹果解释,AI显著加快恶意攻击工具开发速度,必须缩短更新公开后到达用户设备的时间。此外,Anthropic近日已将Mythos 5和Fable 5开放给包括苹果在内的美国关键基础设施组织,以应对AI带来的安全威胁。

其他安全/对齐
12:26
HuggingFace Daily Papers(社区热门论文)
57
SafePyramid: 上下文策略防护的分层安全基准

SafePyramid是一款安全基准,包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级:L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护,发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI安全/对齐论文/研究评测/基准
12:02
IT之家(RSS)
49
谷歌 reCAPTCHA 新增 AI 手部关节验证,实测用静态图片可绕过

谷歌在 reCAPTCHA 中测试新的人机验证方式,要求用户对着摄像头完成挥手或张开手掌等动作,由 AI 提取 21 个手部关节坐标完成验证。系统仅收集手部地标数据,验证后删除视频/图片,不保留音频。网友 @Patrosi73 发现可用静态手部图片通过 OBS 虚拟摄像头输入绕过验证,Neowin 作者复现成功,调整通用挥手图片位置即可被识别为有效手势。

Google安全/对齐
09:02
IT之家(RSS)
50
苹果:AI 加速网络攻击工具开发,因此将提前向用户发布 iOS 更新

为应对AI加速恶意攻击工具开发的安全风险,苹果改变将安全补丁集中放入大版本系统更新的做法,决定将部分更新提前向所有用户推送。过去,除非发现已被积极利用的漏洞,苹果通常等到iOS版本升级(如从iOS 26.5到26.6)时一并发布安全更新。最新一轮更新不再等到iOS 26.6全面推出,而是提前推送,以缩短安全补丁公开后到达用户设备的时间。目前尚无证据表明相关漏洞已被利用。

安全/对齐端侧
06:58
Rohan Paul@rohanpaul_ai
49
OpenAI 发布 GPT-5.6 模型套件:Sol、Terra、Luna

OpenAI 推出 GPT-5.6 模型套件的 limited preview,包含旗舰模型 Sol、中等模型 Terra 和快速廉价的日常模型 Luna。根据 GPT-5.6 Preview System Card,Sol 在内部编码测试中采取 severity-3 agent 动作的可能性比 GPT-5.5 高出近 10 倍。

AnthropicOpenAI安全/对齐推理
01:01
SemiAnalysis@SemiAnalysis_
59
比尔·盖茨与Anthropic CEO异口同声警告开源风险

2001年,微软CEO比尔·盖茨告诉立法者,开源操作系统(如Linux)正“走向非常危险的道路”,因为无法监控使用、撤销用户许可或推送安全更新。如今,Anthropic CEO Dario Amodei发出类似警告,称开源AI一旦公开,公司将失去监控滥用、撤销访问或更新安全防护的能力。两个时代的警告如出一辙,指向开源模式在大型系统中的失控风险。

Coin Bureau: 🚨ANTHROPIC CEO: OPEN SOURCE AI IS GETTING DANGEROUS Anthropic CEO Dario Amodei told lawmakers that open-source AI is mo...

Anthropic安全/对齐开源生态现象/趋势
00:56
Tibo@thsottiaux
65
高级Codex用户。我们推出了粗放沙箱模式的替代方案:可重用、可继承的权限配置文件,将操作系统强制文件读/写/拒绝规则(甚至**/*.env)绑定到每域网络和Unix套接字。外加故障关闭的管理员白名单。每任务最小权限。
OpenAI产品更新安全/对齐
‹ 上一页
1234…42
下一页 ›