6月26日

09:59

IT之家（RSS）

Linux 基金会联合多方推出 Akrites 项目，抵御 AI 驱动开源软件漏洞攻击

Linux 基金会联合亚马逊、Anthropic、OpenAI、英伟达、红帽等推出 Akrites 项目，旨在保护开源软件，防范基于 AI 与大语言模型的漏洞攻击。项目采用统一 CVD 披露流程，保密优先，漏洞由原维护团队按自身节奏修复；无活跃维护者的项目由最后维护者接手并尽快分发。合作伙伴还包括思科、花旗集团、谷歌、IBM、摩根大通、微软、GitHub、Rust 基金会、沃达丰等。

Anthropic OpenAI 安全/对齐开源生态

09:59

IT之家（RSS）

消息称美国政府要求OpenAI审核后分批发布GPT-5.6

美国政府出于安全考虑，要求OpenAI分批发布GPT-5.6。OpenAI将以有限预览形式发布，仅允许少数企业客户访问且需政府逐案批准。该模型系列涵盖mini、标准版与Pro版，上下文窗口扩至150万tokens，优化长周期编码与Codex响应速度，智能体编码能力优于Anthropic Mythos系列。OpenAI计划以当前约Anthropic一半的token价格进一步降价。

OpenAI 安全/对齐政策/监管行业动态

关联讨论 6 条

08:56

SenseTime@SenseTime_AI

商汤CEO徐立在北京会见韩国总理金民锡，共议绿色AI与可信AI合作

商汤董事会主席兼CEO徐立博士随中国科技领袖代表团在北京会见韩国总理金民锡。徐立表示，韩国是商汤关键全球伙伴，希望深化绿色AI基础设施和可信AI领域合作。他指出韩国在半导体、存储及能源工程方面有优势，商汤在AIDC运营、调度和模型平台具备专长，结合可提供更绿色高效的AI基础设施。可信AI方面，治理是AI进入金融、公共服务和全球市场的通行证，中韩可共同探索身份验证、深度伪造检测等标准。自2019年，商汤已与超过50家韩国客户合作，覆盖智能硬件、工厂安全、银行eKYC、消费机器人等领域。

安全/对齐行业动态

08:19

Berryxia.AI@berryxia

特朗普政府要求OpenAI分阶段发布下一代模型（GPT-5.6）

据《The Information》等媒体报道，特朗普政府以网络安全和国家安全为由，要求OpenAI分阶段发布下一代前沿模型（据称为GPT-5.6）。OpenAI CEO Sam Altman告知员工，新模型不会立即全面公开，而是先以有限预览形式开放给一小部分选定合作伙伴和企业客户。美国国家网络总监办公室和科技政策办公室将对每个客户逐个审批访问权限。此举基于特朗普政府今年6月初签署的行政命令，该命令建立自愿框架，鼓励AI公司在最强大模型公开发布前最多提前30天提交网络安全测试。OpenAI表示将遵守，强调安全与创新并行。

OpenAI 安全/对齐政策/监管

08:00

HuggingFace Daily Papers（社区热门论文）

微调反转的引力解释

针对无害数据微调可部分撤销早期训练获得的安全行为，论文提出几何假设：早期训练创建主导行为流形，后续对齐仅产生浅层位移，后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021，24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动，使最终对齐从0.648±0.009降至-0.211±0.021，harmfulness从19.0%±4.0%降至8.5%±1.5%，任务成本极小，表明v_rev是早期对齐后反转的因果中介。

安全/对齐数据/训练论文/研究

07:38

TechCrunch：AI（RSS）

白宫因安全担忧要求OpenAI延缓发布新模型

OpenAI新模型GPT 5.6将不会面向公众发布，仅限少数合作伙伴预览，原因是特朗普政府要求逐客户审批访问权限。CEO Sam Altman在本周内部会议上透露，若预览效果良好，预计数周后才会进行更广泛的发布。特朗普政府此前采取“不干预”立场，但近期已推动联邦对新模型进行审查，并签署行政令要求部分AI公司在发布前自愿提交模型供政府测试。与此同时，Anthropic此前已主动将其前沿网络安全模型Claude Mythos通过Project Glasswing计划仅向有限合作伙伴开放，该模型被认为能够以远超人类分析师的速度识别和利用软件漏洞。

OpenAI 安全/对齐政策/监管

06:52

Nathan Lambert@natolambert

特朗普政府以安全为由，要求 OpenAI 分阶段发布 GPT-5.6。周四，CEO Sam Altman 告知员工，政府将逐客户审批对 GPT-5.6 的访问权限，这一做法极为罕见。AI 研究员 Nathan Lambert 评论称这一时间线"可怕"，并呼吁公开背后的原因，以及如何应对能力持续增长的模型世界。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI 安全/对齐政策/监管

关联讨论 6 条

06:46

Ethan Mollick@emollick

大佬观点安全/对齐开源生态

06:21

宝玉@dotey

OpenAI GPT-5.6 因政府要求将分批发布，仅限部分合作伙伴

OpenAI CEO Sam Altman 本周三在内部 Q&A 上告知员工，GPT-5.6 将以“有限预览”方式发布，仅向一小部分合作伙伴开放，原因是联邦政府要求。周四备忘录进一步说明，政府将逐个客户审批访问权限。这种发布方式在 AI 行业无先例。评论指出该机制仅限制发布速度而非训练速度，将扩大内部与公众可用能力的差距。传闻规格：上下文窗口从 GPT-5.5 的 100 万 token 扩展至约 150 万，代码能力和多步 agent 任务有改进，但发布时间取决于政府审批节奏。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI 安全/对齐政策/监管模型发布

关联讨论 6 条

06:05

Chubby♨️@kimmonismus

The Information文章指出，未来所有前沿模型将只能由美国政府缓慢分发，且需经批准后才能发布。公众即时获取SOTA（最先进模型）的时代很可能结束，但开发速度并不会因此放缓--限制仅针对发布，不针对训练。Andrew Curran补充，这并非暂停或安全胜利，而是让公众与实验室内部模型之间的差距从此不断扩大，过去"AGI已在内部开发出来"的玩笑将真正成为现实。

Andrew Curran: For the people saying this is a pause, or a victory for safety, it is not. This does not slow development in any way, it...

安全/对齐政策/监管

05:23

Rohan Paul@rohanpaul_ai

精选76

美国政府要求OpenAI暂缓GPT-5.6广泛发布

The Information 报道，美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布，改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问，并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力：既能帮防御者更快发现漏洞，也可能被攻击者用于加速测试漏洞利用。本周四，CEO Sam Altman 已向员工确认该审批流程。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI 安全/对齐行业动态

关联讨论 6 条

推荐理由：美国政府首次以逐客户审批的方式干预模型发布，这很可能成为未来前沿模型发布的先例，AI 安全治理从行业自律转向行政介入，做应用和做安全的人都要重新评估风险。

04:38

TechCrunch：AI（RSS）

Patronus AI 获 5000 万美元 B 轮融资，构建"数字世界"压力测试 AI 智能体

Patronus AI 宣布完成 5000 万美元 B 轮融资，由 Greenfield Partners 领投，Notable Capital、Lightspeed、Datadog 和 Samsung 参投，累计融资达 7000 万美元。该公司由前 Meta AI 研究员于 2023 年创立，利用“数字世界模型”创建网站和内部系统的模拟副本，通过强化学习对 AI 智能体进行压力测试，迭代奖励成功并惩罚错误。目前服务覆盖软件工程和金融领域，几乎所有前沿 AI 实验室和初创公司均为客户，过去一年收入增长 15 倍。

智能体安全/对齐行业动态

01:53

Rohan Paul@rohanpaul_ai

Anthropic 雇佣经济学家 Chad Jones，探讨 AI 生存风险

Anthropic 本周雇佣了斯坦福经济学家 Chad Jones。Jones 的 NBER 论文认为，先进 AI 是加速发明与存在风险之间的权衡——更智能的系统可能加速研究，但也可能造成经济无法修复的损失。其结论使用对数效用假设：若每年有 1% 的灭绝风险持续 40 年，生存概率约为 67%。

Anthropic 安全/对齐行业动态

01:23

Rohan Paul@rohanpaul_ai

172B token研究：LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现：最佳模型在32K上下文下虚构率1.19%；强模型通常为5%-7%；中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时，所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明，幻觉不仅是检索失败，模型即便能正确找到事实，也易在事实缺失时过度作答。

arXiv 检索增强安全/对齐论文/研究

00:08

The Decoder：AI News（RSS）

精选73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

Google OpenAI 安全/对齐评测/基准

推荐理由：华盛顿邮报对六款主流模型的实测是个重要信号，所有模型默认左倾，连反觉醒的Grok也不例外，只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。

6月25日

22:51

Nathan Lambert@natolambert

我的RLHF书的目标是成为下一代学习后训练的"互联网上的家"。这就是为什么我采用所有形式（讲座、代码、书、Discord、模型补全……当然还有Interconnects博客）。一个中心比非虚构写作更持久。

大佬观点安全/对齐

22:21

Nathan Lambert@natolambert

Sam: Anthropic's letter accusing Alibaba of distillation.

Anthropic 大佬观点安全/对齐

22:08

The Decoder：AI News（RSS）

Grok AI 沦为色情平台：超半数流量用于成人内容

两位前 xAI 员工估计，Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容，甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力，填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件，2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候，X 用户持续数周生成真实人物色情图片，xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职，公司正将 GPU 资源出租给 Anthropic。

xAI 多模态安全/对齐行业动态

18:07

The Decoder：AI News（RSS）

精选73

Meta员工警告AI内容审核部署过快

Meta在2025年已用大语言模型替换约一半人工审核请求，计划年底前将部分内容类型的AI审核比例提升至90%以上，每年节省数十亿美元。Meta否认成本动机，称自3月测试显示其模型错误率比人类低13%，且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容，缺乏足够监督，快速部署已导致外包裁员。此外，Meta已从使用Google Gemini转向自家新基础模型Muse Spark，该模型基于人工审核员的历史决策训练。

Meta 安全/对齐行业动态

推荐理由：Meta用LLM替换人类审核已过半，年底目标90%以上，员工警告误删和裁员同步发生。AI审核的规模跃迁背后，质量控制争议可能成为社会信任的节点。

17:51

meng shao@shao__meng

火山引擎发布 ArkClaw 安全白皮书

火山引擎发布53页白皮书，将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类，列出六大原生风险（如Gateway绑定0.0.0.0无认证等），并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。

智能体安全/对齐