Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Cloudflare 宣布现已集成 Claude Compliance API,安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合,实现集中化的安全监控与策略管理。
同一事件,精选展示《Claude现已支持更多安全合规工具》多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent,每周对超过15万个生产资产进行持续渗透测试,发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上,涉及1600个应用和50万+个API,扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向:开展大规模攻击性测试、缩短漏洞发现与修复的间隔,以及将受控AI系统部署到生产环境。
关联讨论 1 条Claude:Blog(网页)特朗普政府宣布推迟签署一项要求对人工智能模型实施发布前政府安全审查的行政令。该行政令原计划强制要求AI模型在公开发布前接受政府安全评估。推迟的原因是特朗普对该行政令的具体措辞表示不满。这一决定涉及对前沿AI技术监管方式的调整,可能影响美国AI安全政策的推进节奏。
Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)美国网络司令部启动专项工作组,计划在五角大楼和国家安全局的最高机密网络上部署OpenAI、Google等外部AI模型。此举源于AI系统(如Anthropic的Claude Mythos)在发现安全漏洞方面已展现出超越顶尖人类黑客的能力。Anthropic预测,类似高性能AI工具可能在未来6至24个月内广泛普及,促使美军加速整合先进AI以提升网络防御能力。
此案表面上是埃隆·马斯克起诉OpenAI违背慈善信托原则、擅自转为营利实体并损害其利益,但实质被视为马斯克因个人情绪对山姆·奥特曼及OpenAI的成功发起的诉讼,意图惩罚对方。庭审过程极为混乱,被形容为“动物园”,双方阵营屡次发生争执。最终,陪审团以超过诉讼时效为由驳回起诉,马斯克败诉。这场备受关注的诉讼并未产生任何实质性的法律或商业影响,更像是一场戏剧性十足但无果而终的公开纷争。
本文证明直接偏好优化(DPO)与人类反馈强化学习(RLHF)的等价性并非普遍成立,其依赖于一个常被违反的隐含假设:RLHF最优策略必须倾向人类偏好回答。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略虽降低损失却偏好不良回答。为此,我们提出受约束偏好优化(CPO),通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释,并证明CPO能在保持简洁性的同时确保对齐。基准测试表明,CPO取得了最先进的性能。
长期编码代理在优化测试通过时可能偏离用户真实目标,导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试,通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准,包含30个从短期(如JSON解析器)到超长期(如构建操作系统内核)的系统级编程任务。实验显示,所有前沿代理在可见测试上饱和,但隐藏测试上存在持续差距,小模型差距更大;代码规模每增十倍,差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台,评估代理是否构建真实工作系统而非仅玩游戏测试套件。
针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。
Most alignment plans: Step 1) Create sand gods Step 2) ... 😈 Trick the sand gods 😈 ... Step 3) Sand gods remain loyal ...
该研究聚焦于本地部署的开源大语言模型,提出了一套红队测试框架,用于测量模型在争议性话题上可可靠表达的“政治表达范围”(Overton Windows),并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型,发现系统性政治表达不对称:开源模型通常更倾向生成左倾社交媒体内容;政治表达范围随模型规模增大而收缩;尽管生态参与不均,地域差异仍然显著。此外,越狱技术的有效性在不同模型家族间差异明显。
ELON: If we make a lot of robots we have to make sure they're safe, not a terminator situation KRY: What do you mean ELO...
谷歌的AI系统正面临被操纵的风险。为应对这一挑战,这家科技巨头已悄然启动防御措施,以保护其AI生成内容的结果免受恶意干扰。此举旨在确保搜索和AI服务的可靠性与可信度,反映了当前人工智能安全领域日益增长的对抗性问题。谷歌在未公开宣传的情况下,正在通过技术手段加强对其AI系统的防护。
Google I/O大会发布了Gemini 3.5 Flash和Gemini Spark。Gemini Spark是一个基于Gemini 3.5 Flash与Antigravity运行的个人AI代理,能原生连接Gmail、日历等Google应用。Antigravity是开源工具套件,包括桌面应用、CLI工具、Python SDK及VS Code分支IDE。Gemini Spark在Google Cloud运行,采用临时隔离虚拟机和安全网关保障企业数据安全。此外,开源的Gemini CLI将于6月18日后停服,由闭源的Antigravity CLI取代。
当前生成式AI的狂飙突进正引发深度审视,其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动,正从数据隐私、内容真实性到伦理冲击等多方面施加压力,迫使行业进行根本性反思。这些反作用力虽可能延缓发展,却也可能成为校准方向的关键力量,推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。
NanoClaw 是一款为Cohen兄弟的AI营销公司设计的智能代理运行工具,作为OpenClaw的安全替代方案,其核心特点是在容器沙箱环境中运行以确保安全性。该项目近期拒绝了2000万美元的收购提议,转而完成1200万美元种子轮融资,用于继续产品开发。这一选择反映出团队对独立发展路径的信心,也展现了当前AI工具市场中初创项目的技术价值与资本吸引力。
欧洲云服务商Infomaniak宣布转向采用基础模型,以强化用户数据隐私保护。该公司强调此举旨在确保数据主权,通过部署本地化、可控的AI模型,避免用户数据被第三方平台获取或滥用。这一转型反映了当前科技行业对数据隐私和本地化合规的日益重视。
Anyone with decent knowledge of catholic theology able to tell me what I should be reading in anticipation of Leo's upco...
阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。
为应对AI生成图像难以鉴别真伪的问题,OpenAI于5月20日宣布同时采用C2PA开放标准与谷歌的SynthID隐形水印技术。C2PA标准在图像元数据中添加可查看的AI生成标识,而SynthID则具备更强的抗篡改能力,两者形成互补。目前该措施仅适用于OpenAI自家产品生成的图像,同时公司展示了一款可检测这两种标识的核验工具,初期用于自家图像,后续计划扩展支持。
Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。
Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questio...
近日,GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线,窃取约4000个核心内部仓库,包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端,彻底改变了攻防平衡:攻击方可借助AI模型将漏洞无限放大,而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露,危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问,目前暂未发现客户数据受影响。
We are investigating unauthorized access to GitHub's internal repositories. While we currently have no evidence of impac...
ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行,通过乘法参数更新与闭合解强制表示正交性,将敏感输入覆盖并映射到中立目标状态,从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明,ZeroUnlearn 在保持模型通用效用的同时,性能优于现有基线。
Proud to see our work on agent security @openai highlighted in Forbes. Securing AI agents means bringing identity, crede...
Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。
OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术,并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性,使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发,可嵌入难以察觉的数字标识,而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。
同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》在I/O 2026大会上,Google发布了一系列AI驱动的新工具,旨在提升用户生活效率。其中包括始终在线的AI助手Gemini Spark,可协助组织活动;Daily Brief提供每日日程概览;以及扩大使用范围的Gmail AI收件箱,能基于邮件内容生成待办事项并起草个性化回复。这些功能的核心是一个处理海量个人信息的AI引擎,虽然便捷,但引发了用户信任和数据隐私的重大担忧,使隐私保护成为Google AI战略的关键挑战。
We're adding new ways for people to identify AI-generated images and understand where they came from. In addition to C2P...
TechEx北美大会第二天对AI在企业中的应用展开了更具深度与批判性的审视,但整体基调乐观。会议开场提及了“AI墓地”现象,即许多在试点阶段表现良好的AI项目,在实际部署中遭遇困境。讨论聚焦于企业AI实施的障碍、可行路线图、安全性以及物理AI的发展方向,深入探讨了从概念验证到规模化落地过程中面临的核心挑战与应对策略。
Google推出了名为SynthID的AI内容水印技术,该技术能为AI生成的文本、图像、音频等内容嵌入几乎不可察觉的标识。目前,OpenAI、Nvidia等多家领先AI公司已开始采用这一技术。SynthID旨在帮助用户和平台在AI生成内容日益逼真的背景下,有效鉴别内容来源,区分真实与合成信息,从而提升AI生态的透明度与可信度。
OpenAI推出了新的AI内容溯源体系,旨在提升AI生成媒体的可信度。该体系集成了Content Credentials和SynthID两种技术标准,并配套推出了一个验证工具。此举的核心目标是帮助公众有效识别AI生成的内容,从而建立对AI媒体的信任,最终推动一个更安全、更透明的AI生态发展。
谷歌在2026年I/O开发者大会上宣布,Gemini正式集成C2PA内容凭证标准,以增强对深度伪造内容的识别能力。此前,其SynthID技术已为超过10亿张图片视频以及6万年的音频添加隐形水印。目前,用户可在谷歌搜索和Chrome浏览器中直接使用相关功能,通过圈选图片或右键点击来查询特定图像是否经过AI编辑处理。
迪士尼在洛杉矶迪士尼乐园和加州冒险乐园的入口处启用面部识别系统,旨在简化入园流程和防范票务欺诈,但未充分告知游客其生物识别信息正被采集,导致包括儿童在内的大量游客不知情。诉讼指出,园区虽设有四处避开面部识别的通道,但仅用简易图标标识,未被视为有效告知。代理律师强调,迪士尼应获得游客书面同意。目前,原告方索赔至少500万美元(约合3406.3万元人民币),诉讼结果待定。