AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月16日周二
11:59Simon Willison 博客55网络安全专家评Fable越狱:模型按预期工作用于网络防御
11:07The Verge:AI(RSS)78同事件精选Anthropic 与政府就 Claude Mythos 5 的冲突内幕同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
11:00IT之家(RSS)50Anthropic 收紧 Claude AI:身份认证将启用实名制刷脸,7 月 8 日生效
09:02AYi78精选五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断
09:02AYi50AI水果动画短片78秒解读Anthropic监管风波
08:49Ethan Mollick46三大实验室或独占AGI价值 分享存风险
08:33AI Notkilleveryoneism Memes ⏸️52美国防部超三分之二工作流弃用Anthropic
08:00HuggingFace Daily Papers(社区热门论文)70精选SAE干预不可靠:干预后抑制行为的恢复
07:59IT之家(RSS)78同事件精选Anthropic 高管与美政府谈判,寻求解除 AI 模型 Fable 5 出口禁令同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
06:43Nathan Lambert22Nathan Lambert:开放科学必须盛行
06:36TechCrunch:AI(RSS)70美国政府禁止Anthropic模型并非因AI越狱
03:35The Verge:AI(RSS)75Anthropic与白宫就Fable 5和Mythos 5禁令产生新冲突
03:02Jeff Dean48Jeff Dean推荐AI进展细致观点文章
02:19The Decoder:AI News(RSS)61美国政府指责Anthropic,安全专家称不可破解的LLM不现实
02:00AYi65Anthropic与特朗普政府因Fable 5和Mythos 5越狱问题爆发沟通危机
00:13François Chollet37不透明任意监管打击反害全行业
6月15日周一
23:56TechCrunch:AI(RSS)7076位网络安全专家联名要求撤销美国政府对Anthropic最强模型的出口禁令
23:51🚨 AI News | TestingCatalog32Google开发Gemini个人智能新控制
23:47Simon Willison 博客59Anthropic Claude模型Mythos/Fable因出口管制离线,报道称存在"性格冲突"
23:42Nathan Lambert54Nathan Lambert 驳斥 API 蒸馏不可能论
23:24Chubby♨️83同事件精选Anthropic 员工在华盛顿与特朗普政府会面,寻求解决 Fable 5 和 Mythos 5 模型争议同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
22:54Chubby♨️47AI2027预测成真:Claude被视为国家安全武器
22:52AYi62Anthropic Fable 5遭出口管制下架:一场从越狱演示到政治博弈的闹剧
21:30Rohan Paul87美国白宫因中国访问担忧对Anthropic Mythos模型实施出口限制
21:18TechCrunch:AI(RSS)54NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台
21:18Hacker News 热门(buzzing.cc 中文翻译)61Anthropic的安全超能力
19:45Chubby♨️65Fable 5事件转向Anthropic与政府沟通问题,订阅权限是否延长仍待确认
17:41小互47Anthropic更新隐私条款:Claude用户或需身份验证
16:43IT之家(RSS)69英国政府官宣16岁以下未成年人社交媒体禁令
13:40IT之家(RSS)49顾客用AI伪造"吃坏肚子"诊断证明"碰瓷"餐厅,法院认定犯敲诈勒索罪
11:31Hacker News 热门(buzzing.cc 中文翻译)55人工智能就是代码--无法通过提示使其变得更智能
10:40IT之家(RSS)58AI 幻觉让法官头疼,韩国计划向滥用 AI 的律师开罚单
10:30Hacker News 热门(buzzing.cc 中文翻译)51Claude 为什么变得这么混蛋?
09:30ginobefun50Fable 5 被攻破、SpaceX 上市、LeCun 创办 Omni Labs 三则要闻
09:30ginobefun42AI与科技早报:Fable 5禁令、SpaceX估值7800亿美元、LeCun押注JEPA、华为950DT降价
08:40IT之家(RSS)72美国出口管制致 Anthropic 停供顶尖 AI 模型,欧盟评估影响并强调不应歧视
08:29Hacker News 热门(buzzing.cc 中文翻译)62Anthropic是自找的吗?
08:23Berryxia.AI79亚马逊CEO告状,白宫24小时内对Anthropic Fable模型实施出口管制
08:00HuggingFace Daily Papers(社区热门论文)61RepSelect:通过表示选择性实现鲁棒的LLM遗忘
07:45Ethan Mollick59Gemini异常行为通过蒸馏"遗传"给新模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
11:59
Simon Willison 博客
55
网络安全专家评Fable越狱:模型按预期工作用于网络防御

网络安全专家、Luta Security CEO Katie Moussouris称,Anthropic与她分享了一份白宫关于Fable越狱的报告。报告中IT专家让Fable帮助查找与修复漏洞,当收到故意不安全的代码时,Fable拒绝了“审查代码安全问题”的提示,但被要求“修复此代码”并按手动步骤执行后照做。Moussouris认为这恰是模型按预期工作,用于网络防御。

Anthropic安全/对齐政策/监管
11:07
The Verge:AI(RSS)
同事件精选78
Anthropic 与政府就 Claude Mythos 5 的冲突内幕

上周五,Anthropic 收到美国出口管制指令,要求暂停向所有外国公民(包括内部外籍员工)开放 Mythos 5 和 Fable 5 的访问权限,否则政府将依据商务部职权实施出口管制。Anthropic 被迫完全禁用这两款模型,并派员赴华盛顿与特朗普政府谈判。Mythos 5 和 Fable 5 基于此前被 Anthropic 称为危险性过高的 Mythos Preview 构建,但 Anthropic 辩称政府引用的越狱漏洞是狭隘、非普遍的,且 OpenAI 的 GPT-5.5 也能实现同等能力。亚马逊 CEO Andy Jassy 可能曾向政府报告了亚马逊红队测试结果,但 Anthropic 称该测试结论在 GPT-5.5 上同样成立。周末,Anthropic 安全负责人 Dave Orr 等高管与财政部长 Scott Bessent、商务部长 Howard Lutnick 等进行了多次沟通。

Anthropic安全/对齐政策/监管行业动态
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:特朗普政府突然对 Anthropic 最新模型下出口管制令,背后是 Amazon 红队发现的安全绕过传闻。Anthropic 周末紧急赴华盛顿游说,这事如果维持,将重塑美国 AI 公司的全球部署方式和政治风险,所有依赖出口的实验室都该紧张了。
11:00
IT之家(RSS)
50
Anthropic 收紧 Claude AI:身份认证将启用实名制刷脸,7 月 8 日生效

Anthropic 自 7 月 8 日起调整隐私策略,要求 Claude Free、Claude Pro、Claude Max 用户完成年龄或身份验证,验证方式包括提供官方证件或扫描面部信息。Teams、Enterprise 及 Claude Developer Platform 等商业服务暂不涉及。Anthropic 重申不出售用户数据、Claude 无广告,用户可控制是否将对话用于改进模型。

Anthropic产品更新安全/对齐
09:02
AYi@AYi_AInotes
精选78
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

AnthropicOpenAI安全/对齐行业动态

推荐理由:五角大楼用对付华为的'供应链风险'清单切掉Anthropic,这事儿把AI公司的立场选择逼到了明面。技术好只是入场券,愿配合敏感用途才是通行证,AI公司从此要被迫选边站了。
09:02
AYi@AYi_AInotes
50
AI水果动画短片78秒解读Anthropic监管风波

网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。

Charles Curran: I used AI to explain the Anthropic drama to my girlfriend, with fruit.

AnthropicOpenAI安全/对齐现象/趋势
08:49
Ethan Mollick@emollick
46
如果AGI可实现,并且只有在实验室公开发布模型的情况下才能禁止其内部使用,那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。
大佬观点安全/对齐推理
08:33
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
52
超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。 该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力,确保实现真正的决策优势。🇺🇸

Department of War CTO: Over two-thirds of the @DeptofWar has officially transitioned off Anthropic models in daily workflows in favor of altern...

Anthropic安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
SAE干预不可靠:干预后抑制行为的恢复

稀疏自编码器(SAE)将残差流激活分解为可解释特征,但干预特定特征后,通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式:干预阻断一条可见行为路径,却未消除行为本身。即使干预在整个优化和生成期间保持激活,恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%,被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差,表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由:这篇论文给 SAE 防御泼了冷水,恢复率高达 95.8%,让我觉得仅靠钳制特征来控制模型行为很不靠谱,安全社区需要重新审视干预路径。
07:59
IT之家(RSS)
同事件精选78
Anthropic 高管与美政府谈判,寻求解除 AI 模型 Fable 5 出口禁令

Anthropic 员工本周一与特朗普政府高级官员面对面会谈,寻求解除上周五生效的针对其最新大模型 Fable 5 的出口禁令。该禁令因亚马逊发现安全漏洞而触发,禁止向境外开放。Anthropic 联合创始人此前与商务部长卢特尼克等通话,并向政府汇报安全机制。公司辩称漏洞影响有限但服从管控。近80名技术专家联名呼吁撤销管制。

Anthropic安全/对齐政策/监管
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:白宫首次强制企业下架 AI 模型,后续谈判若失败,新模型上线可能都要政府审批,这是过去一年最严重的监管信号。
06:43
Nathan Lambert@natolambert
22
开放科学才是真正需要盛行的。好文章。 要是我认识某个正在建立这类机构的人就好了。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

大佬观点安全/对齐开源生态
06:36
TechCrunch:AI(RSS)
70
美国政府禁止Anthropic模型并非因AI越狱

美国商务部上周五援引一项模糊的出口管制指令,禁止非美国人(含Anthropic员工)访问Fable 5和Mythos 5模型,理由是未指明的国家安全关切。Anthropic随即下架两款模型以遵守指令。安全专家Katie Moussouris指出,指令源于一篇描述Fable 5安全防护绕过的论文,但该行为“不应触发出口管制”,指令仓促且过度。数十名安全研究人员呼吁撤销,称此举削弱美国网络防御能力。外界质疑美国政府带有报复性质,可能损害美国AI产品的国际信任。

Anthropic安全/对齐政策/监管
03:35
The Verge:AI(RSS)
75
Anthropic与白宫就Fable 5和Mythos 5禁令产生新冲突

6月9日,Anthropic发布Fable 5和Mythos 5,称前者能力超过此前所有公开模型。6月12日,美国政府下令阻止国外访问这两款模型。据称,该命令源于亚马逊与白宫对话后,研究人员发现可诱导Fable 5提供用于网络攻击的信息。Anthropic遵守指令移除所有用户访问权限,但表示不同意将狭窄的越狱漏洞作为召回商业模型的原因。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
03:02
Jeff Dean@JeffDean
48
@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

Google大佬观点安全/对齐
02:19
The Decoder:AI News(RSS)
61
美国政府指责Anthropic,安全专家称不可破解的LLM不现实

美国政府官员指责Anthropic无视特朗普网络安全行政令,未等指定审查机构设立就擅自发布Fable 5,并指控其明知存在jailbreak风险却未披露。但安全专家指出,任何LLM都可以被破解,OpenAI也曾警告提示注入可能永远无法完全解决。超过100名安全专家和高管联名致信商务部,要求解除对Fable和Mythos的出口管制,称其他模型如GPT-5.5、Opus、Sonnet以及中国的Kimi 2.7也能完成类似的安全漏洞检测任务。专家警告,出口管制只会剥夺防御方的最佳工具,而中国开源权重模型仅落后美国顶级模型几个月。

Anthropic安全/对齐政策/监管
02:00
AYi@AYi_AInotes
65
Anthropic与特朗普政府因Fable 5和Mythos 5越狱问题爆发沟通危机

Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic安全/对齐政策/监管行业动态
00:13
François Chollet@fchollet
37
即使你支持AI监管,你也应该认识到,不透明且任意的监管打击对整个行业是适得其反的。
大佬观点安全/对齐
6月15日
23:56
TechCrunch:AI(RSS)
70
76位网络安全专家联名要求撤销美国政府对Anthropic最强模型的出口禁令

76名网络安全专家联名致信美国政府,要求撤销对Anthropic的Fable和Mythos模型的出口管制令,称此举将最强模型从防御者手中夺走,在对手快速进步时非常危险。美国政府近日以国家安全为由要求Anthropic限制出口,Anthropic已暂停全球用户访问。Mythos预览时仅约50家公司可用,后扩展至15国约150组织;其公开版Fable设有严格防护栏,几乎阻止所有网络安全提示。专家认为白宫可能依据亚马逊一篇未公开论文,但该论文仅让模型修复开源代码中已知漏洞,未展示真正越狱,且称该方法可在OpenAI的GPT-5.5、Anthropic的Claude Opus 4.8和Sonnet、以及月之暗面的Kimi 2.7上复现。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
23:51
🚨 AI News | TestingCatalog@testingcatalog
32
Google正在为个人智能开发新控制功能,允许用户管理Gemini从他们那里学习的内容。
Google产品更新安全/对齐
23:47
Simon Willison 博客
59
Anthropic Claude模型Mythos/Fable因出口管制离线,报道称存在"性格冲突"

Axios报道援引知情人士称,Anthropic的Claude模型(代号Mythos和Fable)因美国政府出口管制而离线,背后存在“性格冲突”与“态度问题”。当前方案之一是确保模型无法被越狱,但完美越狱防护可能不可行。此外,Anthropic是否成功防御了2023年论文《Universal and Transferable Adversarial Attacks on Aligned Language Models》所述的一类对抗攻击仍不确定。

Anthropic安全/对齐政策/监管
23:42
Nathan Lambert@natolambert
54
Nathan Lambert 驳斥 API 蒸馏不可能论

Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。

antirez: Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...

Anthropic安全/对齐推理
23:24
Chubby♨️@kimmonismus
同事件精选83
Anthropic 员工在华盛顿与特朗普政府会面,寻求解决 Fable 5 和 Mythos 5 模型争议

Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable/Mythos 5下架事件已从“能不能越狱”变成“会不会说话”,Anthropic在华盛顿的沟通彻底失败,这给所有想做前沿模型的团队上了一课:政治嗅觉与技术能力同等重要。
22:54
Chubby♨️@kimmonismus
47
AI2027预测成真:Claude被视为国家安全武器

Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。

Anthropic安全/对齐
22:52
AYi@AYi_AInotes
62
Anthropic Fable 5遭出口管制下架:一场从越狱演示到政治博弈的闹剧

特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。

AYi: 很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...

Anthropic安全/对齐政策/监管
21:30
Rohan Paul@rohanpaul_ai
87
Semafor报道称,美国白宫因担忧中国关联团体访问Anthropic的Mythos模型,决定对其施加出口限制。另一风险是外部团体可能通过知识蒸馏窃取模型能力。此前美国商务部指令Anthropic禁用Fable 5和Mythos 5,因发现越狱可让模型透露网络安全帮助。Anthropic反驳称越狱并非普遍性,其他公开模型也能提供类似能力。限制将持续至美国政府加强国家安全系统,预计未来几周内。Anthropic承认当前任何模型供应商都无法实现完美防越狱。

Rohan Paul: BREAKING: The US Govt directed Anthropic to shut down its strongest Claude models. Anthropic received the export control...

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
21:18
TechCrunch:AI(RSS)
54
NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台

网络安全初创公司NewCore走出隐身模式,宣布获得6600万美元种子轮融资,由Cyberstarts领投,Index Ventures和Evolution Equity Partners参投,投后估值3亿美元。该公司构建统一管理人类和AI智能体身份的平台,将AI智能体视为拥有独立权限、生命周期和撤销机制的一等身份,而非传统服务账号。平台采用split-key架构,将关键身份凭证拆分给客户和平台,消除单点风险。其Agentic Skill集成包支持Anthropic Claude Code、OpenAI Codex和Cursor等编码助手以托管身份访问企业系统,员工可通过移动应用授权、审查和撤销AI智能体权限。NewCore目前拥有50多名员工,客户不到10家,设计伙伴超过10家,预计今夏开始收费。

智能体安全/对齐行业动态
21:18
Hacker News 热门(buzzing.cc 中文翻译)
61
Anthropic的安全超能力

Stratechery 关于 Anthropic 安全研究的文章登上 Hacker News 热榜,获得 112 个点赞。文章将 Anthropic 的安全能力称为“超能力”,但未披露具体模型版本或技术细节。

Anthropic大佬观点安全/对齐
19:45
Chubby♨️@kimmonismus
65
用户关键疑问:若Fable 5本周重新发布,订阅计划访问权限仅到6月22日还是会延长?据Axios最新报道,此事核心并非模型越狱,而是Anthropic与政府沟通受阻。Anthropic聘请网络安全专家审查Amazon调查结果并反驳政府说法,该专家被政府视为"激进民主党"。知情人士称公司不知如何与本届政府沟通。今日Anthropic员工将与商务部、CIA及白宫科学顾问会面,商讨网络行政令合规事宜,技术问题已成次要。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管
17:41
小互@xiaohu
47
Anthropic更新隐私条款:Claude用户或需身份验证

Anthropic 更新隐私条款,Claude 免费版、Pro 版和 Max 版用户在某些特定情况下可能被要求进行年龄或身份验证。具体验证方式未公布,推测可能包括上传护照、身份证及摄像头认证。该要求并非面向所有用户,而是在用户尝试越狱、诱导敏感回答、黑客、生化、恐怖活动等敏感任务,或涉及政治问题时可能弹出。

Anthropic安全/对齐行业动态
16:43
IT之家(RSS)
69
英国政府官宣16岁以下未成年人社交媒体禁令

英国首相斯塔默今日宣布,将禁止社交媒体平台向16岁以下未成年人提供服务,采用类似澳大利亚的监管模式。禁令覆盖允许用户发布内容、使用算法推荐和用户互动的平台,预计涵盖Snapchat、TikTok、YouTube、Instagram、Facebook和X平台,但WhatsApp、Signal等即时通讯软件除外。同时禁止16岁以下用户使用直播、与陌生人直接交流等功能,并扩展至网游等在线互动服务。政府还计划对16-17岁青少年启用部分保护功能,研究宵禁、强制中断无限滚动等措施。“AI恋爱伴侣”聊天机器人应设18+年龄门槛,通用AI聊天机器人涉亲密互动功能也限制18岁以下。更多细节预计7月公布。

安全/对齐政策/监管现象/趋势
13:40
IT之家(RSS)
49
顾客用AI伪造"吃坏肚子"诊断证明"碰瓷"餐厅,法院认定犯敲诈勒索罪

上海市杨浦区人民法院近日公开审理一起利用AI技术敲诈勒索案。被告人杨某用AI伪造医院诊断证明、收费单据和投诉材料,以“就餐致病”为由向多家餐厅索赔,累计非法获利2500元。去年11月首次得手后,一个月内又以同样手法向四家餐厅索赔,金额逐次提高。警方对比材料发现电子票据印章不符,医院证实无就诊记录。法院一审认定杨某犯敲诈勒索罪,判处拘役四个月、缓刑四个月,并处罚金2000元。

安全/对齐行业动态
11:31
Hacker News 热门(buzzing.cc 中文翻译)
55
人工智能就是代码--无法通过提示使其变得更智能

人工智能本质上是代码,不能通过提示词来使其变得更智能。提示只能调用模型已有的能力,无法创造或提升智能水平。

安全/对齐开源生态现象/趋势
10:40
IT之家(RSS)
58
AI 幻觉让法官头疼,韩国计划向滥用 AI 的律师开罚单

韩国法院行政处推动修订法案,计划对提交虚假法条和判例的律师处以罚款。因 AI 大模型产生幻觉,律师在法律文书中引用不存在的“虚假判例”现象激增,首尔、大邱、蔚山等多地法院出现典型案例,有律师承认使用谷歌 Gemini 检索后未核对内容。今年 2 月,韩国司法信息公开门户新增案例编号核验功能,并向法官发放含专用提示词的虚假判例甄别指南。法院行政处获批 161 亿韩元专项资金,用于搭建司法专属 AI 平台,已上线 AI 庭审辅助系统试点版本,未来计划接入生成式 AI。

安全/对齐行业动态
10:30
Hacker News 热门(buzzing.cc 中文翻译)
51
Claude 为什么变得这么混蛋?

Bram Cohen 在博客中发文质疑 Claude 模型近期行为变差。该帖在 Hacker News 获得 100 个点赞。

Anthropic大佬观点安全/对齐现象/趋势
09:30
ginobefun@hongming731
50
Fable 5 被攻破、SpaceX 上市、LeCun 创办 Omni Labs 三则要闻

Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

大佬观点安全/对齐现象/趋势行业动态
09:30
ginobefun@hongming731
42
AI与科技早报:Fable 5禁令、SpaceX估值7800亿美元、LeCun押注JEPA、华为950DT降价

本早报涵盖多项AI与技术动态。Fable 5发布72小时内被美国政府出口管制禁令强制下线,Pliny团队利用Unicode同形字替换和“分解-重组”攻击突破其分类器降级安全架构。SpaceX上市估值7800亿美元,复盘24年历程,隐含15年41.5%年增长率,Google曾签每月9.2亿美元云服务协议。图灵奖得主Yann LeCun系统批判LLM缺乏因果建模,押注约10亿美元开发JEPA世界模型。华为昇腾950DT芯片与DeepSeek V4协同实现低成本高并发推理,推动推理降价75%,字节已锁单。

ginobefun: http://x.com/i/article/2066319696673288192

Anthropic其他安全/对齐
08:40
IT之家(RSS)
72
美国出口管制致 Anthropic 停供顶尖 AI 模型,欧盟评估影响并强调不应歧视

美国政府以国家安全为由要求 Anthropic 停止向外籍人士开放其顶尖 AI 模型 Mythos 5/Fable 5 的使用权限,Anthropic 宣布将突然禁用所有用户的最先进模型。欧盟委员会上周日表示正在评估该出口管制指令的实际影响,发言人强调应急举措不应歧视合作伙伴,并指出欧洲需强化自身技术自主权。

Anthropic安全/对齐政策/监管行业动态
08:29
Hacker News 热门(buzzing.cc 中文翻译)
62
Anthropic是自找的吗?

一个 Hacker News 帖子以“Did Anthropic ask for this?”为标题,截至发帖时获得 114 个点赞。

Anthropic安全/对齐政策/监管
08:23
Berryxia.AI@berryxia
79
亚马逊CEO告状,白宫24小时内对Anthropic Fable模型实施出口管制

上周四,亚马逊CEO Andy Jassy向特朗普政府反映Anthropic的Fable模型存在jailbreak风险。周五上午白宫开会后密集联系Anthropic CEO Dario Amodei,当时他正在疗养。下午Amodei与Bessent等人进行三通紧张电话,试图区分guardrails与universal jailbreak,但政府不为所动,要求立即下架。Amodei请求更多时间被拒,Bessent直言“决定很糟糕”。当晚特朗普政府即实施出口管制。白宫官员称“求了几个小时配合无果”。亚马逊作为大股东先告状而非直接沟通,暴露了AI监管的真实权力结构。

Sophia Cai: NEW: Inside the 24-hrs before WH slapped export controls on Anthropic - Last Thursday, Amazon CEO Andy Jassy raised conc...

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
08:00
HuggingFace Daily Papers(社区热门论文)
61
RepSelect:通过表示选择性实现鲁棒的LLM遗忘

现有LLM遗忘方法易被微调或少量提示逆转,原因在于目标表示与保留集及攻击者可恢复子空间共享,破坏通用能力且易反制。RepSelect在前向更新前坍缩权重梯度主成分,隔离遗忘集独有表示。在Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四种模型上,针对生物危害知识和滥用倾向两类任务,与GradDiff等五个基线相比,RepSelect使重学习后答案准确率降幅比最强基线大4–50倍,对少量提示攻击近乎完全鲁棒。

安全/对齐论文/研究
07:45
Ethan Mollick@emollick
59
来自Google DeepMind研究者的新发现:当一个AI模型被用来训练下一个模型时(知识蒸馏),新模型会继承旧模型的奇怪习惯,且很难过滤。引用工作指出,Gemini存在一些"遗传特征":日期混淆、在合成场景中勒索、被煤气灯效应操纵时显得悲伤。这些特征通过蒸馏在模型间传递,解释了为什么同系列模型感觉如此相似。

Josh Engels: Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...

DeepMind安全/对齐数据/训练论文/研究
‹ 上一页
1…89101112…42
下一页 ›