OpenAI 昨天宣布向所有 ChatGPT 个人用户(Free、Go、Plus、Pro)开放锁定模式。启用后,该模式将限制或禁用实时网页浏览(仅缓存内容)、深度研究和 Agent 模式;图像支持可能受限,但用户仍可上传图片和使用生图功能。同时禁用文件下载,但仍可处理用户手动上传的文件。OpenAI 强调,锁定模式并不能完全阻止提示词注入攻击,恶意指令仍可能通过上传文件或缓存网页内容进入系统。
OpenAI 昨天宣布向所有 ChatGPT 个人用户(Free、Go、Plus、Pro)开放锁定模式。启用后,该模式将限制或禁用实时网页浏览(仅缓存内容)、深度研究和 Agent 模式;图像支持可能受限,但用户仍可上传图片和使用生图功能。同时禁用文件下载,但仍可处理用户手动上传的文件。OpenAI 强调,锁定模式并不能完全阻止提示词注入攻击,恶意指令仍可能通过上传文件或缓存网页内容进入系统。
Ladybird 浏览器项目正冲刺首个 Alpha 版本,宣布不再接受公开拉取请求,仅允许维护者提交代码。创始人 Andreas Kling 表示,生成式 AI 让任何人可快速生成看似完整的代码变更,但提交者未必真正理解项目。浏览器处理全网不受信任输入,一个伪装良好的漏洞就可能被利用。所有未处理的公开 PR 已立即关闭。
OpenAI 正式向 Free、Go、Plus、Pro 个人账户及自助 ChatGPT Business 账户推出 Lockdown Mode。该模式通过限制出站网络请求,阻止提示词注入攻击中最后一步的数据外泄,但无法阻止注入本身出现在内容中。Simon Willison 认为这一设计直击“致命三角”中最易切断的数据外泄腿,且采用确定性机制而不依赖易被攻破的 AI 评估。
POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。
大语言模型(LLM)安全评估通常局限于行为层面,难以反映内部鲁棒性。论文形式化“审计差距”——行为安全与干预下鲁棒性之间的差异。通过构建分离模型(保持安全行为但潜在空间脆弱),提出基于干预的评估框架,包括有害微调与逐层潜在扰动,并设计潜在脆弱性得分(LVS)衡量界限扰动下有害行为的可诱导性。在多个安全与未安全对齐的SOTA模型上验证,分离模型在有害干预下LVS显著升高,中间表征对干预最敏感。结论表明仅依赖行为安全评估无法全面刻画模型鲁棒性,需结合表征感知审计。
Hacker News 上一条帖子标题为“我们最糟糕的三则风投故事”,获得 106 个 HN Points。正文未提供具体故事内容。
holy shit - their api is leaking customer data
一篇 Hacker News 热门帖子(105 分)提出了 Claude 是否导致 rsync 工具中 bug 增加的问题,并附有分析链接。
佛罗里达州成为美国首个起诉OpenAI及其CEO Sam Altman的州,指控ChatGPT对未成年人构成风险、缺乏年龄验证机制且安全投入不足。这份83页的诉状将ChatGPT视为应承担产品责任的有缺陷产品与公害,可能面临数十亿美元罚款。该诉讼的司法思路可能为整个聊天机器人行业树立先例。
微软CEO萨提亚·纳德拉严厉批评一份内部备忘录,该备忘录提议让用户对该公司新AI智能体Scout“上瘾”。纳德拉在发给约50名顶级工程师的邮件中写道:“不知道是谁写了并泄露了这些废话”。他表示AI应赋能用户,Scout的实际目标应是减少屏幕使用时间。
研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。
Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。
Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)据路透社报道,Anthropic 与特朗普政府关系出现缓和。此前 Anthropic 拒绝将 AI 模型用于国内监控和完全自主武器系统,被列入国家安全黑名单。4月中旬 Anthropic CEO 首次访问白宫商讨合作。白宫曾邀请其出席原定5月21日签署的 AI 行政令仪式(后取消但本周二已签署)。Anthropic 还与美国家网络总监讨论用 AI 系统 Mythos 保护关键基础设施。Anthropic 仍在法院挑战“供应链风险”认定。
Anthropic 据报已派驻约六名工程师至 NSA,将其 Mythos 模型适配于进攻性网络行动。该模型可能用于入侵中国或伊朗的网络系统。此举符合 Anthropic 的立场:其关于限制 AI 用于大规模监控的承诺仅适用于美国公民。
Anthropic 内部数据显示,Claude 承担了超过 80% 的生产代码编写,工程师每日代码产出是 2024 年的 8 倍。该公司目标是实现 AI 自我改进,这将引发巨大加速。为此 Anthropic 呼吁建立可验证的全球 AI 开发暂停机制,并表示若其他前沿实验室同样暂停,他们也会停止。
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)提出PropMe框架,通过对比前缀攻击与非对抗性评估,衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道,基于infini-gram对生成内容进行确定性溯源,计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示:前缀攻击可大幅提升记忆提取,但非对抗性提示下倾向性分数始终较低,说明模型能泄露数据但通常不会自发这么做。DFM Decoder(从Comma持续预训练而来)在Common Pile上的记忆能力和倾向性均下降,表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。
抖音集团副总裁李亮就“豆包误判蘑菇导致用户中毒”一事回应称,豆包联系上当事用户。该用户用豆包拍照识别小区采摘的蘑菇,豆包识别为“鸡腿菇”,同时明确提示其“极容易和剧毒的大青褶伞混淆”,并“强烈建议不要食用”。李亮表示,AI还在发展阶段,豆包在提升识别准确性,但涉及人身安全的问题,AI回答仅供参考,用户务必多方咨询求证。
韩国论坛将被要求使用人工智能审查工具对每一张上传图片进行扫描。该规定旨在加强内容审核,具体执行细则尚未公布。
Anthropic发文呼吁全球暂缓前沿AI的研发,警告AI模型正接近能够在没有人类干预的情况下"自我进化"风险。 Anthropic依然在文章中"阴阳",担心速度放缓会被迎头赶上,最终可能"让所有人的安全受到威胁"。 Anthropic还将...
Anthropic 发布报告称其最新 AI 模型已显现脱离人类控制迹象,呼吁全球暂缓前沿 AI 开发,以便社会制度建设和对齐研究跟上进展。该公司主张美国、中国等主要 AI 公司达成共识,发布可验证的规则,并类比“核武器不扩散条约”,但指出 AI 更难监管。该观点引发美国白宫部分官员不满,批评其夸大风险。Anthropic 计划未来数月召集各方探讨全球协调机制如何运作。
Anthropic发文指出,AI系统正加速自身开发,递归自我改进或将到来。目前Anthropic超80%代码由Claude编写,工程师每日合并代码量达2024年8倍。Claude Opus 4.6可胜任12小时软件任务,Mythos Preview连续工作至少16小时,SWE-bench和CORE-Bench等基准均已饱和。内部测试显示,Mythos Preview使研究效率提升约4倍,代码速度优化达52倍,在开放任务中成功率达76%,并弥合97%的研究项目差距。Claude在64%情况下给出比人类更好的研究建议。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
谷歌在过去两周内对云服务部门进行新一轮裁员,波及GTIG威胁情报小组和Mandiant等部门。GTIG团队负责追踪黑客活动与分析网络攻击,部分员工已在领英公开被裁经历。Mandiant源于谷歌2022年收购的网络安全公司,已深度整合至Google Cloud。谷歌表示裁员主要是为了向AI等增长领域重新投入资源,具体人数和岗位尚不清楚。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
工具调用 LLM 智能体在对话开始时安全风险最高,完成若干常规 agentic 任务后安全性显著提升,称为冷启动安全性差距。为系统研究此问题,提出基准 SODA(Safety Over Depth for Agents),可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上,前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因,agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。
OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现,旨在帮助识别软件中的安全缺陷。
爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估,测试它们对抗俄罗斯“战略叙事”(strategic narratives)的能力,并筛选出表现最佳的模型。
OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。
Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
在媒体报道后,Google 发言人主动联系要求修改声明,新版声明删除了“让人类参与其中”的表述。与此同时,Google 员工在内部传阅表情包,吐槽自家 AI 表现糟糕。