AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月26日周五
09:59IT之家(RSS)56Linux 基金会联合多方推出 Akrites 项目,抵御 AI 驱动开源软件漏洞攻击
09:59IT之家(RSS)72消息称美国政府要求OpenAI审核后分批发布GPT-5.6
08:56SenseTime33商汤CEO徐立在北京会见韩国总理金民锡,共议绿色AI与可信AI合作
08:19Berryxia.AI72特朗普政府要求OpenAI分阶段发布下一代模型(GPT-5.6)
08:00HuggingFace Daily Papers(社区热门论文)51微调反转的引力解释
07:38TechCrunch:AI(RSS)69白宫因安全担忧要求OpenAI延缓发布新模型
06:52Nathan Lambert79特朗普政府要求 OpenAI 分阶段发布 GPT-5.6
06:46Ethan Mollick41理解前沿AI发布的政府安全担忧
06:21宝玉86OpenAI GPT-5.6 因政府要求将分批发布,仅限部分合作伙伴
06:05Chubby♨️58美国政府将慢速审批分发未来前沿AI模型
05:23Rohan Paul76精选美国政府要求OpenAI暂缓GPT-5.6广泛发布
04:38TechCrunch:AI(RSS)56Patronus AI 获 5000 万美元 B 轮融资,构建"数字世界"压力测试 AI 智能体
01:53Rohan Paul53Anthropic 雇佣经济学家 Chad Jones,探讨 AI 生存风险
01:23Rohan Paul62172B token研究:LLM文档问答幻觉率实测
00:08The Decoder:AI News(RSS)73精选多数主流AI聊天机器人政治立场偏左,"反觉醒"模型也不例外
6月25日周四
22:51Nathan Lambert21RLHF书:为后训练学习打造互联网之家
22:21Nathan Lambert40AI 公司应透明展示数据而非抹黑
22:08The Decoder:AI News(RSS)61Grok AI 沦为色情平台:超半数流量用于成人内容
18:07The Decoder:AI News(RSS)73精选Meta员工警告AI内容审核部署过快
17:51meng shao58火山引擎发布 ArkClaw 安全白皮书
15:05Chubby♨️52Claude 中国灰色市场:转售账号与数据泄露风险
12:58IT之家(RSS)51Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"
12:58IT之家(RSS)67消息称因 CEO 阿莫迪难以沟通,Anthropic 更换对接美政府人员协商解封 Fable 5
11:21Deedy51Pangram 学会区分 AI 模型写作风格,线性探针达 91% 准确率
10:18Berryxia.AI68Anthropic 指控阿里用 2.5 万假账户蒸馏 Claude
08:00HuggingFace Daily Papers(社区热门论文)56RedVox:语音模型在跨语言场景中的安全性与公平性差距
07:29Hacker News 热门(buzzing.cc 中文翻译)56为什么大型人工智能实验室要招聘这么多哲学家
04:35Chubby♨️68Anthropic指控阿里巴巴大规模蒸馏Claude训练Qwen
02:29Hacker News 热门(buzzing.cc 中文翻译)63对世界上大多数地区而言,开源人工智能是唯一的前进之路
02:19宝玉75同事件精选Anthropic Fable 5 被美商务部出口管制,谈判代表更换为联合创始人 Tom Brown同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
01:32Tomer Tunguz 博客(VC 分析)32防御AI驱动的攻击者
6月24日周三
23:45Ethan Mollick64Anthropic 推出 Claude Tag:从工具到"同事"的企业 AI 体验与风险
22:58IT之家(RSS)57360 发布 AI 安全"倚天屠龙":图龙锋与仪天阵
22:48Nathan Lambert49Nathan Lambert 用 GLM 5.2 开讲 AI 基础
22:29Hacker News 热门(buzzing.cc 中文翻译)78精选里德·霍夫曼称SpaceX"不是一家人工智能公司",xAI则是"彻底的灾难"
16:30Chubby♨️68Reuters 补充报道 Anthropic Mythos 侵入美国政府系统细节
13:42IT之家(RSS)59美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
09:27IT之家(RSS)61因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府
08:17Rohan Paul44研究揭示大语言模型难以识别对抗性前缀攻击
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
09:59
IT之家(RSS)
56
Linux 基金会联合多方推出 Akrites 项目,抵御 AI 驱动开源软件漏洞攻击

Linux 基金会联合亚马逊、Anthropic、OpenAI、英伟达、红帽等推出 Akrites 项目,旨在保护开源软件,防范基于 AI 与大语言模型的漏洞攻击。项目采用统一 CVD 披露流程,保密优先,漏洞由原维护团队按自身节奏修复;无活跃维护者的项目由最后维护者接手并尽快分发。合作伙伴还包括思科、花旗集团、谷歌、IBM、摩根大通、微软、GitHub、Rust 基金会、沃达丰等。

AnthropicOpenAI安全/对齐开源生态
09:59
IT之家(RSS)
72
消息称美国政府要求OpenAI审核后分批发布GPT-5.6

美国政府出于安全考虑,要求OpenAI分批发布GPT-5.6。OpenAI将以有限预览形式发布,仅允许少数企业客户访问且需政府逐案批准。该模型系列涵盖mini、标准版与Pro版,上下文窗口扩至150万tokens,优化长周期编码与Codex响应速度,智能体编码能力优于Anthropic Mythos系列。OpenAI计划以当前约Anthropic一半的token价格进一步降价。

OpenAI安全/对齐政策/监管行业动态
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)
08:56
SenseTime@SenseTime_AI
33
商汤CEO徐立在北京会见韩国总理金民锡,共议绿色AI与可信AI合作

商汤董事会主席兼CEO徐立博士随中国科技领袖代表团在北京会见韩国总理金民锡。徐立表示,韩国是商汤关键全球伙伴,希望深化绿色AI基础设施和可信AI领域合作。他指出韩国在半导体、存储及能源工程方面有优势,商汤在AIDC运营、调度和模型平台具备专长,结合可提供更绿色高效的AI基础设施。可信AI方面,治理是AI进入金融、公共服务和全球市场的通行证,中韩可共同探索身份验证、深度伪造检测等标准。自2019年,商汤已与超过50家韩国客户合作,覆盖智能硬件、工厂安全、银行eKYC、消费机器人等领域。

安全/对齐行业动态
08:19
Berryxia.AI@berryxia
72
特朗普政府要求OpenAI分阶段发布下一代模型(GPT-5.6)

据《The Information》等媒体报道,特朗普政府以网络安全和国家安全为由,要求OpenAI分阶段发布下一代前沿模型(据称为GPT-5.6)。OpenAI CEO Sam Altman告知员工,新模型不会立即全面公开,而是先以有限预览形式开放给一小部分选定合作伙伴和企业客户。美国国家网络总监办公室和科技政策办公室将对每个客户逐个审批访问权限。此举基于特朗普政府今年6月初签署的行政命令,该命令建立自愿框架,鼓励AI公司在最强大模型公开发布前最多提前30天提交网络安全测试。OpenAI表示将遵守,强调安全与创新并行。

OpenAI安全/对齐政策/监管
08:00
HuggingFace Daily Papers(社区热门论文)
51
微调反转的引力解释

针对无害数据微调可部分撤销早期训练获得的安全行为,论文提出几何假设:早期训练创建主导行为流形,后续对齐仅产生浅层位移,后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021,24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动,使最终对齐从0.648±0.009降至-0.211±0.021,harmfulness从19.0%±4.0%降至8.5%±1.5%,任务成本极小,表明v_rev是早期对齐后反转的因果中介。

安全/对齐数据/训练论文/研究
07:38
TechCrunch:AI(RSS)
69
白宫因安全担忧要求OpenAI延缓发布新模型

OpenAI新模型GPT 5.6将不会面向公众发布,仅限少数合作伙伴预览,原因是特朗普政府要求逐客户审批访问权限。CEO Sam Altman在本周内部会议上透露,若预览效果良好,预计数周后才会进行更广泛的发布。特朗普政府此前采取“不干预”立场,但近期已推动联邦对新模型进行审查,并签署行政令要求部分AI公司在发布前自愿提交模型供政府测试。与此同时,Anthropic此前已主动将其前沿网络安全模型Claude Mythos通过Project Glasswing计划仅向有限合作伙伴开放,该模型被认为能够以远超人类分析师的速度识别和利用软件漏洞。

OpenAI安全/对齐政策/监管
06:52
Nathan Lambert@natolambert
79
特朗普政府以安全为由,要求 OpenAI 分阶段发布 GPT-5.6。周四,CEO Sam Altman 告知员工,政府将逐客户审批对 GPT-5.6 的访问权限,这一做法极为罕见。AI 研究员 Nathan Lambert 评论称这一时间线"可怕",并呼吁公开背后的原因,以及如何应对能力持续增长的模型世界。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI安全/对齐政策/监管
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)
06:46
Ethan Mollick@emollick
41
更好地了解与前沿AI发布相关的政府安全担忧将非常有用,这样我们就能 (a) 知道当开源达到Mythos级别时,每个人将面临什么风险,以及 (b) 他们是否采取了足够或过多的措施来防止这些风险。
大佬观点安全/对齐开源生态
06:21
宝玉@dotey
86
OpenAI GPT-5.6 因政府要求将分批发布,仅限部分合作伙伴

OpenAI CEO Sam Altman 本周三在内部 Q&A 上告知员工,GPT-5.6 将以“有限预览”方式发布,仅向一小部分合作伙伴开放,原因是联邦政府要求。周四备忘录进一步说明,政府将逐个客户审批访问权限。这种发布方式在 AI 行业无先例。评论指出该机制仅限制发布速度而非训练速度,将扩大内部与公众可用能力的差距。传闻规格:上下文窗口从 GPT-5.5 的 100 万 token 扩展至约 150 万,代码能力和多步 agent 任务有改进,但发布时间取决于政府审批节奏。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI安全/对齐政策/监管模型发布
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)
06:05
Chubby♨️@kimmonismus
58
The Information文章指出,未来所有前沿模型将只能由美国政府缓慢分发,且需经批准后才能发布。公众即时获取SOTA(最先进模型)的时代很可能结束,但开发速度并不会因此放缓--限制仅针对发布,不针对训练。Andrew Curran补充,这并非暂停或安全胜利,而是让公众与实验室内部模型之间的差距从此不断扩大,过去"AGI已在内部开发出来"的玩笑将真正成为现实。

Andrew Curran: For the people saying this is a pause, or a victory for safety, it is not. This does not slow development in any way, it...

安全/对齐政策/监管
05:23
Rohan Paul@rohanpaul_ai
精选76
美国政府要求OpenAI暂缓GPT-5.6广泛发布

The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力:既能帮防御者更快发现漏洞,也可能被攻击者用于加速测试漏洞利用。本周四,CEO Sam Altman 已向员工确认该审批流程。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI安全/对齐行业动态
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)
推荐理由:美国政府首次以逐客户审批的方式干预模型发布,这很可能成为未来前沿模型发布的先例,AI 安全治理从行业自律转向行政介入,做应用和做安全的人都要重新评估风险。
04:38
TechCrunch:AI(RSS)
56
Patronus AI 获 5000 万美元 B 轮融资,构建"数字世界"压力测试 AI 智能体

Patronus AI 宣布完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参投,累计融资达 7000 万美元。该公司由前 Meta AI 研究员于 2023 年创立,利用“数字世界模型”创建网站和内部系统的模拟副本,通过强化学习对 AI 智能体进行压力测试,迭代奖励成功并惩罚错误。目前服务覆盖软件工程和金融领域,几乎所有前沿 AI 实验室和初创公司均为客户,过去一年收入增长 15 倍。

智能体安全/对齐行业动态
01:53
Rohan Paul@rohanpaul_ai
53
Anthropic 雇佣经济学家 Chad Jones,探讨 AI 生存风险

Anthropic 本周雇佣了斯坦福经济学家 Chad Jones。Jones 的 NBER 论文认为,先进 AI 是加速发明与存在风险之间的权衡——更智能的系统可能加速研究,但也可能造成经济无法修复的损失。其结论使用对数效用假设:若每年有 1% 的灭绝风险持续 40 年,生存概率约为 67%。

Anthropic安全/对齐行业动态
01:23
Rohan Paul@rohanpaul_ai
62
172B token研究:LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。

arXiv检索增强安全/对齐论文/研究
00:08
The Decoder:AI News(RSS)
精选73
多数主流AI聊天机器人政治立场偏左,"反觉醒"模型也不例外

华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

GoogleOpenAI安全/对齐评测/基准

推荐理由:华盛顿邮报对六款主流模型的实测是个重要信号,所有模型默认左倾,连反觉醒的Grok也不例外,只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。
6月25日
22:51
Nathan Lambert@natolambert
21
我的RLHF书的目标是成为下一代学习后训练的"互联网上的家"。这就是为什么我采用所有形式(讲座、代码、书、Discord、模型补全……当然还有Interconnects博客)。 一个中心比非虚构写作更持久。
大佬观点安全/对齐
22:21
Nathan Lambert@natolambert
40
AI 公司应该更多地以随时间推移的透明数据来呈现这些内容,而不是像带有强烈政策意图的抹黑运动。这让人感觉非常自私自利,很难让人愿意支持它们。

Sam: Anthropic's letter accusing Alibaba of distillation.

Anthropic大佬观点安全/对齐
22:08
The Decoder:AI News(RSS)
61
Grok AI 沦为色情平台:超半数流量用于成人内容

两位前 xAI 员工估计,Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容,甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力,填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件,2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候,X 用户持续数周生成真实人物色情图片,xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职,公司正将 GPU 资源出租给 Anthropic。

xAI多模态安全/对齐行业动态
18:07
The Decoder:AI News(RSS)
精选73
Meta员工警告AI内容审核部署过快

Meta在2025年已用大语言模型替换约一半人工审核请求,计划年底前将部分内容类型的AI审核比例提升至90%以上,每年节省数十亿美元。Meta否认成本动机,称自3月测试显示其模型错误率比人类低13%,且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,缺乏足够监督,快速部署已导致外包裁员。此外,Meta已从使用Google Gemini转向自家新基础模型Muse Spark,该模型基于人工审核员的历史决策训练。

Meta安全/对齐行业动态

推荐理由:Meta用LLM替换人类审核已过半,年底目标90%以上,员工警告误删和裁员同步发生。AI审核的规模跃迁背后,质量控制争议可能成为社会信任的节点。
17:51
meng shao@shao__meng
58
火山引擎发布 ArkClaw 安全白皮书

火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。

智能体安全/对齐
15:05
Chubby♨️@kimmonismus
52
中国可能存在围绕 Claude 访问的完整灰色市场:转售者据称共享 Claude Max 账户、运营机器人网络、并以远低于官方 API 价格出售访问权限。 更令人关注的声称:用户日志和推理轨迹可能被转售用作训练数据。 如果属实,这不仅是 API 滥用,更是模型访问套利,将前沿 AI 使用转化为影子数据管道。

Lenny Bogdonoff: TIL

Anthropic安全/对齐现象/趋势
12:58
IT之家(RSS)
51
Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"

Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者,但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek,引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。

Anthropic安全/对齐数据/训练行业动态
12:58
IT之家(RSS)
67
消息称因 CEO 阿莫迪难以沟通,Anthropic 更换对接美政府人员协商解封 Fable 5

美国政府因 Anthropic 旗舰模型 Mythos 遭破解越狱,于 6 月 12 日强制下线其两款最强大模型(含 Fable 5),至今未解除出口管制。近日双方重启会谈,创始人汤姆·布朗取代 CEO 达里奥·阿莫迪牵头对接,后者此前态度强硬。布朗与公共政策主管萨拉·赫克的新安排让美方监管部门满意。会谈分高层与工作组两层,核心是 Anthropic 需提供何种安全验证材料才能打消政府担忧。目前 Fable 5 重新上线时间未定,解除管制的整改要求或将在未来几日明确。

Anthropic安全/对齐行业动态
11:21
Deedy@deedydas
51
一项可解释性研究发现:Pangram 在内部表示中学会区分 Claude、ChatGPT 和 Gemini 的写作风格,即使未经专门训练。该信号在网络中逐渐增强,通过简单线性探针即可达到 91% 准确率。主推文据此总结三点:所有 AI 模型写作与人类差异极大;不同 AI 模型间写作风格迥异;"人性化" AI 文本仍可被区分。

Elyas Masrour: Did you know? Pangram learns the difference between Claude, ChatGPT, and Gemini in its internal representations, even wi...

安全/对齐数据/训练
10:18
Berryxia.AI@berryxia
68
Anthropic 指控阿里用 2.5 万假账户蒸馏 Claude

Anthropic 向美国白宫提交申请,指控阿里巴巴通过创建近 25,000 个假账户,在 2026 年 4 月 22 日至 6 月 5 日期间与 Claude 进行了约 2,880 万次对话,以提取模型能力用于知识蒸馏(即用竞争对手模型的输出来训练自己的模型)。Anthropic 已在中国屏蔽 Claude,但阿里巴巴仍找到了绕过方法。推文同时质疑 Anthropic 自身训练数据的来源。

Polymarket: BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.

安全/对齐数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
56
RedVox:语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究
07:29
Hacker News 热门(buzzing.cc 中文翻译)
56
为什么大型人工智能实验室要招聘这么多哲学家

《经济学人》报道,大型人工智能实验室正在招聘哲学家。该帖在 Hacker News 上获得 101 个 HN Points,引发业界关注。

安全/对齐现象/趋势
04:35
Chubby♨️@kimmonismus
68
Anthropic指控阿里巴巴大规模蒸馏Claude训练Qwen

Anthropic通过Bloomberg指控,与阿里巴巴相关的运营方利用近25,000个欺诈账户非法访问Claude,在4月至6月期间生成了2880万次Claude交互,目标聚焦于软件工程和智能体推理能力。Anthropic称这是“对抗性蒸馏”模式的一部分,中国企业实验室据称以极低成本从美国前沿模型获取输出以训练竞品系统。该指控矛头直指Qwen系列模型的训练来源。

Anthropic安全/对齐数据/训练行业动态
02:29
Hacker News 热门(buzzing.cc 中文翻译)
63
对世界上大多数地区而言,开源人工智能是唯一的前进之路

Yann LeCun 在联合国开源周演讲中主张,开源 AI 是全球数字主权和文化多样性的唯一可行路径。他指出专有 AI 系统被美中少数大公司控制,对民主和人权构成威胁。LeCun 推出 Project Tapestry,一个基于 GitHub 的开源联邦协作项目,各参与方保留数据主权,仅交换参数向量来训练全球模型。已有欧洲、印度、日本、韩国及 IBM、NVIDIA、AMD、Intel 等参与,目标 2027 年初投入生产。

大佬观点安全/对齐开源生态政策/监管
02:19
宝玉@dotey
同事件精选75
Anthropic Fable 5 被美商务部出口管制,谈判代表更换为联合创始人 Tom Brown

美国商务部6月12日以国家安全为由对 Anthropic 的 Fable 5 及 Mythos 5 模型发出出口管制令,禁止外国公民访问,迫使 Anthropic 对全球用户关闭。导火索是亚马逊研究团队声称找到绕过 Fable 5 安全护栏的方法。这是美国政府首次用出口管制下架 AI 模型。白宫与 Anthropic 谈判中,因 CEO Amodei 沟通困难,改由联合创始人 Tom Brown 及公共政策负责人 Sarah Heck 主导。国会两党四名众议员联名致信商务部长要求解释法律依据及恢复标准,回复截止6月26日。Fable 5 重新上线暂无时间表。

Anthropic安全/对齐行业动态
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:美国政府首次动用出口管制下架AI模型,Amodei被边缘化,这件事暴露了安全护栏的根本性脆弱,是所有前沿模型公司都面临的监管预演。
01:32
Tomer Tunguz 博客(VC 分析)
32
防御AI驱动的攻击者

7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。

安全/对齐部署/工程
6月24日
23:45
Ethan Mollick@emollick
64
Anthropic 的 Claude Tag 让企业成员共享同一 Claude 实例,使其能异步自主行动、吸收隐性知识,从工具变为"同事"。这带来严重锁效应:团队无法查看或编辑 Claude 的独立记忆,解雇 Claude 会导致工作流和隐性知识丢失。定价按 token 计费,Claude 可无限制工作,企业难以像工具那样管控成本,token 预算耗尽将全员停工。此外,Claude 接入私有频道可能访问用户无权限的仓库和工具,引入新安全风险。AI 公司正从争夺 IT 预算转向争夺劳动力支出,Claude Tag 是这一转型的里程碑。

Arvind Narayanan: The new Claude Tag feature seems extremely useful, but at the same time, a dangerous bargain for enterprises because of ...

智能体Anthropic大佬观点安全/对齐
22:58
IT之家(RSS)
57
360 发布 AI 安全"倚天屠龙":图龙锋与仪天阵

360 集团在 ISC.AI 2026 上发布两大 AI 安全能力:漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞 3432 个,其中监管确认 105 个,多个被定为高危漏洞,覆盖开源代码、操作系统等场景。仪天阵可自主规划任务、研判告警、联动处置。周鸿祎指出,Mythos 使漏洞发现速度提升百倍、成本下降千倍,中国必须拥有自己的 Mythos 以应对“第二次单向透明”。

产品更新安全/对齐
22:48
Nathan Lambert@natolambert
49
Nathan Lambert 用 GLM 5.2 开讲 AI 基础

Nathan Lambert 发布了一期 AI 基础讲座视频,使用 GLM 5.2 模型生成。内容涵盖语言模型概述、LM Head、Softmax 与对数概率、训练样本结构、概率计算、后训练中的三种掩码、解码、交叉熵损失、优化与微调、预训练到 SFT 流程、KL 散度与熵、Sigmoid 与成对似然、强化学习 MDP 框架等。视频包含时间戳目录,并持续收集观众问题用于后续 Q&A。

安全/对齐教程/实践
22:29
Hacker News 热门(buzzing.cc 中文翻译)
精选78
里德·霍夫曼称SpaceX"不是一家人工智能公司",xAI则是"彻底的灾难"

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”,6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”;xAI则是“彻底的灾难”,所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型,理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞,称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间,但Cursor可能已过巅峰。他建议年轻人不要抵制AI。

大佬观点安全/对齐现象/趋势

推荐理由:Reid Hoffman 对 xAI 和 SpaceX 的批评几乎不留情面,这种硅谷核心人物的公开呛声本身就值得一读,他对监管干预的担忧和对 Gen Z 的劝诫也很有现实感。
16:30
Chubby♨️@kimmonismus
68
Reuters 补充报道 Anthropic Mythos 侵入美国政府系统细节

Reuters 对上周 Mythos 报道补充了背景。据 AP 消息,Anthropic 的 Mythos 模型在与华盛顿情报机构联合测试中,识别出美国政府高度敏感计算机系统的漏洞。测试属于受限项目 Project Glasswing,旨在攻击者利用前发现并修复关键软件漏洞。参议员 Mark Warner 在国会听证会上透露,NSA 局长 Joshua Rudd 告知他,Mythos "在数小时内而非数周内,侵入了几乎所有我们的机密系统"。

Anthropic安全/对齐行业动态
13:42
IT之家(RSS)
59
美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞

6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。

Anthropic安全/对齐
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
09:27
IT之家(RSS)
61
因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府

美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府,请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型,Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具,导致其加拿大开发团队无法访问,业务停滞。该公司同时申请初步禁令。

Anthropic安全/对齐行业动态
08:17
Rohan Paul@rohanpaul_ai
44
研究揭示大语言模型难以识别对抗性前缀攻击

一项针对10个开源模型、4个安全基准的研究发现,大语言模型在遭遇对抗性前缀攻击(模型被植入有害开篇并继续生成)后,无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射:拒绝受攻击回答时通常引用政策或缺乏意图,而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图,表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为,而非对攻击的深层认知。

arXiv安全/对齐论文/研究
‹ 上一页
1…34567…42
下一页 ›