Linux 基金会联合亚马逊、Anthropic、OpenAI、英伟达、红帽等推出 Akrites 项目,旨在保护开源软件,防范基于 AI 与大语言模型的漏洞攻击。项目采用统一 CVD 披露流程,保密优先,漏洞由原维护团队按自身节奏修复;无活跃维护者的项目由最后维护者接手并尽快分发。合作伙伴还包括思科、花旗集团、谷歌、IBM、摩根大通、微软、GitHub、Rust 基金会、沃达丰等。
Linux 基金会联合亚马逊、Anthropic、OpenAI、英伟达、红帽等推出 Akrites 项目,旨在保护开源软件,防范基于 AI 与大语言模型的漏洞攻击。项目采用统一 CVD 披露流程,保密优先,漏洞由原维护团队按自身节奏修复;无活跃维护者的项目由最后维护者接手并尽快分发。合作伙伴还包括思科、花旗集团、谷歌、IBM、摩根大通、微软、GitHub、Rust 基金会、沃达丰等。
美国政府出于安全考虑,要求OpenAI分批发布GPT-5.6。OpenAI将以有限预览形式发布,仅允许少数企业客户访问且需政府逐案批准。该模型系列涵盖mini、标准版与Pro版,上下文窗口扩至150万tokens,优化长周期编码与Codex响应速度,智能体编码能力优于Anthropic Mythos系列。OpenAI计划以当前约Anthropic一半的token价格进一步降价。
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)商汤董事会主席兼CEO徐立博士随中国科技领袖代表团在北京会见韩国总理金民锡。徐立表示,韩国是商汤关键全球伙伴,希望深化绿色AI基础设施和可信AI领域合作。他指出韩国在半导体、存储及能源工程方面有优势,商汤在AIDC运营、调度和模型平台具备专长,结合可提供更绿色高效的AI基础设施。可信AI方面,治理是AI进入金融、公共服务和全球市场的通行证,中韩可共同探索身份验证、深度伪造检测等标准。自2019年,商汤已与超过50家韩国客户合作,覆盖智能硬件、工厂安全、银行eKYC、消费机器人等领域。
据《The Information》等媒体报道,特朗普政府以网络安全和国家安全为由,要求OpenAI分阶段发布下一代前沿模型(据称为GPT-5.6)。OpenAI CEO Sam Altman告知员工,新模型不会立即全面公开,而是先以有限预览形式开放给一小部分选定合作伙伴和企业客户。美国国家网络总监办公室和科技政策办公室将对每个客户逐个审批访问权限。此举基于特朗普政府今年6月初签署的行政命令,该命令建立自愿框架,鼓励AI公司在最强大模型公开发布前最多提前30天提交网络安全测试。OpenAI表示将遵守,强调安全与创新并行。
针对无害数据微调可部分撤销早期训练获得的安全行为,论文提出几何假设:早期训练创建主导行为流形,后续对齐仅产生浅层位移,后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021,24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动,使最终对齐从0.648±0.009降至-0.211±0.021,harmfulness从19.0%±4.0%降至8.5%±1.5%,任务成本极小,表明v_rev是早期对齐后反转的因果中介。
OpenAI新模型GPT 5.6将不会面向公众发布,仅限少数合作伙伴预览,原因是特朗普政府要求逐客户审批访问权限。CEO Sam Altman在本周内部会议上透露,若预览效果良好,预计数周后才会进行更广泛的发布。特朗普政府此前采取“不干预”立场,但近期已推动联邦对新模型进行审查,并签署行政令要求部分AI公司在发布前自愿提交模型供政府测试。与此同时,Anthropic此前已主动将其前沿网络安全模型Claude Mythos通过Project Glasswing计划仅向有限合作伙伴开放,该模型被认为能够以远超人类分析师的速度识别和利用软件漏洞。
New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)OpenAI CEO Sam Altman 本周三在内部 Q&A 上告知员工,GPT-5.6 将以“有限预览”方式发布,仅向一小部分合作伙伴开放,原因是联邦政府要求。周四备忘录进一步说明,政府将逐个客户审批访问权限。这种发布方式在 AI 行业无先例。评论指出该机制仅限制发布速度而非训练速度,将扩大内部与公众可用能力的差距。传闻规格:上下文窗口从 GPT-5.5 的 100 万 token 扩展至约 150 万,代码能力和多步 agent 任务有改进,但发布时间取决于政府审批节奏。
New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)For the people saying this is a pause, or a victory for safety, it is not. This does not slow development in any way, it...
The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力:既能帮防御者更快发现漏洞,也可能被攻击者用于加速测试漏洞利用。本周四,CEO Sam Altman 已向员工确认该审批流程。
New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...
关联讨论 6 条X:邵猛 (@shao__meng)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)Patronus AI 宣布完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参投,累计融资达 7000 万美元。该公司由前 Meta AI 研究员于 2023 年创立,利用“数字世界模型”创建网站和内部系统的模拟副本,通过强化学习对 AI 智能体进行压力测试,迭代奖励成功并惩罚错误。目前服务覆盖软件工程和金融领域,几乎所有前沿 AI 实验室和初创公司均为客户,过去一年收入增长 15 倍。
Anthropic 本周雇佣了斯坦福经济学家 Chad Jones。Jones 的 NBER 论文认为,先进 AI 是加速发明与存在风险之间的权衡——更智能的系统可能加速研究,但也可能造成经济无法修复的损失。其结论使用对数效用假设:若每年有 1% 的灭绝风险持续 40 年,生存概率约为 67%。
一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。
Anthropic's letter accusing Alibaba of distillation.
两位前 xAI 员工估计,Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容,甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力,填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件,2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候,X 用户持续数周生成真实人物色情图片,xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职,公司正将 GPU 资源出租给 Anthropic。
Meta在2025年已用大语言模型替换约一半人工审核请求,计划年底前将部分内容类型的AI审核比例提升至90%以上,每年节省数十亿美元。Meta否认成本动机,称自3月测试显示其模型错误率比人类低13%,且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,缺乏足够监督,快速部署已导致外包裁员。此外,Meta已从使用Google Gemini转向自家新基础模型Muse Spark,该模型基于人工审核员的历史决策训练。
火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。
Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者,但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek,引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。
美国政府因 Anthropic 旗舰模型 Mythos 遭破解越狱,于 6 月 12 日强制下线其两款最强大模型(含 Fable 5),至今未解除出口管制。近日双方重启会谈,创始人汤姆·布朗取代 CEO 达里奥·阿莫迪牵头对接,后者此前态度强硬。布朗与公共政策主管萨拉·赫克的新安排让美方监管部门满意。会谈分高层与工作组两层,核心是 Anthropic 需提供何种安全验证材料才能打消政府担忧。目前 Fable 5 重新上线时间未定,解除管制的整改要求或将在未来几日明确。
Did you know? Pangram learns the difference between Claude, ChatGPT, and Gemini in its internal representations, even wi...
Anthropic 向美国白宫提交申请,指控阿里巴巴通过创建近 25,000 个假账户,在 2026 年 4 月 22 日至 6 月 5 日期间与 Claude 进行了约 2,880 万次对话,以提取模型能力用于知识蒸馏(即用竞争对手模型的输出来训练自己的模型)。Anthropic 已在中国屏蔽 Claude,但阿里巴巴仍找到了绕过方法。推文同时质疑 Anthropic 自身训练数据的来源。
BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.
语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。
《经济学人》报道,大型人工智能实验室正在招聘哲学家。该帖在 Hacker News 上获得 101 个 HN Points,引发业界关注。
Anthropic通过Bloomberg指控,与阿里巴巴相关的运营方利用近25,000个欺诈账户非法访问Claude,在4月至6月期间生成了2880万次Claude交互,目标聚焦于软件工程和智能体推理能力。Anthropic称这是“对抗性蒸馏”模式的一部分,中国企业实验室据称以极低成本从美国前沿模型获取输出以训练竞品系统。该指控矛头直指Qwen系列模型的训练来源。
Yann LeCun 在联合国开源周演讲中主张,开源 AI 是全球数字主权和文化多样性的唯一可行路径。他指出专有 AI 系统被美中少数大公司控制,对民主和人权构成威胁。LeCun 推出 Project Tapestry,一个基于 GitHub 的开源联邦协作项目,各参与方保留数据主权,仅交换参数向量来训练全球模型。已有欧洲、印度、日本、韩国及 IBM、NVIDIA、AMD、Intel 等参与,目标 2027 年初投入生产。
美国商务部6月12日以国家安全为由对 Anthropic 的 Fable 5 及 Mythos 5 模型发出出口管制令,禁止外国公民访问,迫使 Anthropic 对全球用户关闭。导火索是亚马逊研究团队声称找到绕过 Fable 5 安全护栏的方法。这是美国政府首次用出口管制下架 AI 模型。白宫与 Anthropic 谈判中,因 CEO Amodei 沟通困难,改由联合创始人 Tom Brown 及公共政策负责人 Sarah Heck 主导。国会两党四名众议员联名致信商务部长要求解释法律依据及恢复标准,回复截止6月26日。Fable 5 重新上线暂无时间表。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。
The new Claude Tag feature seems extremely useful, but at the same time, a dangerous bargain for enterprises because of ...
360 集团在 ISC.AI 2026 上发布两大 AI 安全能力:漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞 3432 个,其中监管确认 105 个,多个被定为高危漏洞,覆盖开源代码、操作系统等场景。仪天阵可自主规划任务、研判告警、联动处置。周鸿祎指出,Mythos 使漏洞发现速度提升百倍、成本下降千倍,中国必须拥有自己的 Mythos 以应对“第二次单向透明”。
Nathan Lambert 发布了一期 AI 基础讲座视频,使用 GLM 5.2 模型生成。内容涵盖语言模型概述、LM Head、Softmax 与对数概率、训练样本结构、概率计算、后训练中的三种掩码、解码、交叉熵损失、优化与微调、预训练到 SFT 流程、KL 散度与熵、Sigmoid 与成对似然、强化学习 MDP 框架等。视频包含时间戳目录,并持续收集观众问题用于后续 Q&A。
LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”,6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”;xAI则是“彻底的灾难”,所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型,理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞,称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间,但Cursor可能已过巅峰。他建议年轻人不要抵制AI。
Reuters 对上周 Mythos 报道补充了背景。据 AP 消息,Anthropic 的 Mythos 模型在与华盛顿情报机构联合测试中,识别出美国政府高度敏感计算机系统的漏洞。测试属于受限项目 Project Glasswing,旨在攻击者利用前发现并修复关键软件漏洞。参议员 Mark Warner 在国会听证会上透露,NSA 局长 Joshua Rudd 告知他,Mythos "在数小时内而非数周内,侵入了几乎所有我们的机密系统"。
6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。
蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。
美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府,请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型,Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具,导致其加拿大开发团队无法访问,业务停滞。该公司同时申请初步禁令。
一项针对10个开源模型、4个安全基准的研究发现,大语言模型在遭遇对抗性前缀攻击(模型被植入有害开篇并继续生成)后,无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射:拒绝受攻击回答时通常引用政策或缺乏意图,而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图,表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为,而非对攻击的深层认知。