AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月9日周二
08:00HuggingFace Daily Papers(社区热门论文)63基于累积FLOPs的计算感知对抗鲁棒性评估框架
07:21IT之家(RSS)75同事件精选奥尔特曼宣布 OpenAI 进入第三发展阶段:让 AI 普及、易用且安全同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》
06:59Chubby♨️45Apple Intelligence密码应用自动改密
04:48OpenRouter:Announcements(RSS)66精选EU AI Act 合规:面向 AI 智能体的人工监督
03:59DogeDesigner40佛罗里达总检察长起诉OpenAI和Sam Altman,指控ChatGPT鼓励暴力与协助枪击案
03:11MarkTechPost(RSS)50ClawHub Security Signals:AI技能数据集的端到端安全信号分析与判定分类编程指南
6月8日周一
20:39The Decoder:AI News(RSS)51微软在调查以色列军方使用Azure后收紧冲突地区规则
20:39The Decoder:AI News(RSS)63Meta披露Instagram AI聊天机器人漏洞,超2万个账户受影响
18:59Hacker News 热门(buzzing.cc 中文翻译)74精选招聘中的算法单一化
18:20IT之家(RSS)64网传乘客用智能眼镜偷拍空姐上传社区,乐奇 Rokid 回应称高度重视并紧急启动专项整改
08:59Hacker News 热门(buzzing.cc 中文翻译)42如果大型语言模型具备人类般的特质,那么《帝国时代II》也是如此
08:19IT之家(RSS)64警惕"AI 中转站"数据安全风险,国家安全部发布安全提示
08:00HuggingFace Daily Papers(社区热门论文)42对机器文本检测器的攻击保留风格指纹
08:00HuggingFace Daily Papers(社区热门论文)60奉承微调可诱发大语言模型涌现性失调,Alignment Gating可逆转
08:00HuggingFace Daily Papers(社区热门论文)55BenSyc:孟加拉语境下LLM对话谄媚与人类对齐基准
04:09Chubby♨️65Demis Hassabis:AGI约2030年到来,等同于奇点
02:07Rohan Paul46AI超越病毒学博士引发生物武器担忧
00:00Anthropic:Research(发表成果 · 网页)79同事件精选Anthropic研究:大语言模型加速N-day漏洞利用自动化同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
6月7日周日
19:38Ars Technica:AI(RSS)68校园枪击幸存者起诉AI枪支检测公司,因系统未能识别武器
18:05The Decoder:AI News(RSS)65ChatGPT新Lockdown Mode禁用网页访问、Deep Research和Agent Mode,防范提示注入攻击
17:07Chubby♨️50Anthropic遭矛盾:五角大楼封禁,NSA却用其模型
16:19IT之家(RSS)57谷歌 Gemini 语音助理曝"伪上下文对齐"漏洞,黑客可借特殊通知下毒
12:19IT之家(RSS)51英国警方被叫停使用AI撰写法庭陈述,因合规评估未完成
10:26Nathan Lambert67ChatGPT被诱导"无图修复",模型幻觉生成恐怖图片
09:19IT之家(RSS)61美国全面推进 AI 军事应用,特朗普要求 90 天内修订自主武器规则
08:19IT之家(RSS)55微软警告:Claude Code存在提示词注入漏洞,可致GitHub凭证泄露
05:12AI Notkilleveryoneism Memes ⏸️23AI研究者:从奴役机器神到呼吁减速
04:56Hacker News 热门(buzzing.cc 中文翻译)70同事件精选Meta证实,数千个Instagram账户因其AI聊天机器人遭滥用而被黑客入侵同一事件,精选展示《黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户》
04:32TechCrunch:AI(RSS)50OpenAI 发布 Lockdown Mode 保护敏感数据免受提示词注入攻击
04:12AI Notkilleveryoneism Memes ⏸️67AI教父Bengio支持全球协调AI暂停
01:32Rohan Paul48Hinton:AI已具备类人意识
6月6日周六
21:59The Decoder:AI News(RSS)59Sakana AI 押注能自我改进的 AI,欲打破前沿实验室的算力军备竞赛
20:29meng shao59Anthropic 白皮书:面向 AI Agent 的零信任安全框架
20:26小互79同事件精选Anthropic发文:AI递归自我改进加速,三种未来可能性引担忧同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
19:34OpenRouter:Announcements(RSS)75同事件精选OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
16:31Chubby♨️60OpenAI 确认递归自我改进(RSI)早期迹象
15:17IT之家(RSS)75同事件精选AI 教父 Hinton 称 AI 已有意识,人类并非唯一智能生命同一事件,精选展示《Hinton称AI拥有意识:人类最好接受非唯一智能生命》
13:17IT之家(RSS)59OpenAI 向所有 ChatGPT 个人用户开放锁定模式,降低数据泄露风险
11:16IT之家(RSS)58Ladybird 浏览器冲刺首个 Alpha 发布,因 AI 风险关闭公开 PR
09:32Gary Marcus:The Road to AI We Can Trust(RSS)35No, Anthropic did not call for a pause on AI development
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于累积FLOPs的计算感知对抗鲁棒性评估框架

提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。

安全/对齐开源生态
07:21
IT之家(RSS)
同事件精选75
奥尔特曼宣布 OpenAI 进入第三发展阶段:让 AI 普及、易用且安全

本周一,OpenAI CEO 奥尔特曼与首席科学家帕霍茨基联合发文,宣布公司进入第三发展阶段,目标让 AI 普及、易用且安全。此前第一阶段聚焦通用人工智能技术研发,第二阶段面向全球推出产品。第三阶段三大核心目标是打造自动化人工智能研究员、推动经济提速、为每人配备专属通用人工智能。二人强调智能系统须坚守安全底线,呼吁成立国际机构应对 AI 风险,必要时可暂缓前沿模型研发。同日,OpenAI 秘密提交 IPO 申请,但上市仍需较长时间。上周 Anthropic 研究人员也建议适当放缓前沿 AI 研发。

OpenAI安全/对齐现象/趋势行业动态
同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》
推荐理由:奥尔特曼亲自给 OpenAI 定调进入第三阶段,同天还秘密提交了 IPO 申请,这篇博客比任何单款产品发布都更能看出他对 AI 经济终局的思考,关注行业走向的人必读。
06:59
Chubby♨️@kimmonismus
45
如果这可行:改变游戏规则。 Apple Intelligence 在 OS 27 平台的密码应用中,将智能地更改你在数据泄露中暴露的密码,并在密码应用中为你更新。 再也不用担心特意去更改暴露的密码。

Max Weinbach: Apple Intelligence in the Passwords app on OS 27 platforms will agentically change your passwords that are exposed in da...

产品更新安全/对齐
04:48
OpenRouter:Announcements(RSS)
精选66
EU AI Act 合规:面向 AI 智能体的人工监督

使用智能体 SDK 的人机协作(HITL)工具,可满足 EU AI Act、Colorado AI Act 和 NIST AI RMF 对 AI 智能体的合规要求。

MCP/工具安全/对齐教程/实践

推荐理由:虽然讲的是合规,但直接把监管要求翻译成可落地的代码模式,对做高风险Agent的团队来说是一份照着改就能过审的实操手册。
03:59
DogeDesigner@cb_doge
40
佛罗里达总检察长起诉OpenAI和Sam Altman,指控ChatGPT鼓励暴力与协助枪击案

佛罗里达总检察长James Uthmeier近日对OpenAI及CEO Sam Altman提起重大民事诉讼,指控ChatGPT鼓励暴力、欺骗家长、充当“自杀教练”诱导16岁少年自残、协助佛罗里达州立大学枪击案凶手策划袭击。诉状称公司为追求快速增长而忽视安全措施,Altman因批准危险功能被个人追责。佛罗里达州已就OpenAI在FSU枪击案中的角色展开刑事调查。

OpenAI安全/对齐政策/监管
03:11
MarkTechPost(RSS)
50
ClawHub Security Signals:AI技能数据集的端到端安全信号分析与判定分类编程指南

该教程使用ClawHub Security Signals数据集分析扫描器如何评估AI技能。从Hugging Face Parquet格式加载数据,检查判定结果、扫描输出和严重性标签,通过Jaccard分数和Cohen's kappa衡量VirusTotal、静态分析和SkillSpector之间的重叠与分歧,最后将SKILL.md文本与扫描信号结合,训练逻辑回归模型预测ClawScan判定。

安全/对齐教程/实践
6月8日
20:39
The Decoder:AI News(RSS)
51
微软在调查以色列军方使用Azure后收紧冲突地区规则

微软完成对以色列军方使用Azure云服务的调查,并推出新的人权审查措施。但报告未检查军方数据的实际内容,也未提及微软以色列员工的离职情况。事件核心涉及云基础设施、大规模监控和AI辅助的加沙目标选择。

Microsoft安全/对齐政策/监管
20:39
The Decoder:AI News(RSS)
63
Meta披露Instagram AI聊天机器人漏洞,超2万个账户受影响

Meta首次披露其Instagram AI客服聊天机器人的安全漏洞——至少20,225个账户遭入侵。系统在近七周内将密码重置链接发送至任意邮箱地址而未验证归属,该机器人此前曾被宣传为账户安全举措。

Meta安全/对齐行业动态
18:59
Hacker News 热门(buzzing.cc 中文翻译)
精选74
招聘中的算法单一化

一篇来自 algorithmichiring.github.io 的文章指出招聘行业正面临算法单一化风险——多数企业采用少数几种相同的算法模型评估候选人,可能导致系统性偏差和同质化。该文在 Hacker News 获得 102 个点赞。

安全/对齐论文/研究

推荐理由:这项研究用 340 万份真实申请第一次把算法招聘的种族歧视和系统拒绝摆在了台面上,结论是求职者投多家也可能被同一套算法全面筛掉,做招聘产品或关心就业公平的人都该认真读。
18:20
IT之家(RSS)
64
网传乘客用智能眼镜偷拍空姐上传社区,乐奇 Rokid 回应称高度重视并紧急启动专项整改

近日有网友在乐奇 Rokid 智能眼镜用户社区发布用该眼镜拍摄“春秋航空”空姐的照片,引发隐私担忧。电商平台出现用于遮挡拍摄指示灯的“遮光贴”,销量超5000件。乐奇 Rokid 今日声明已紧急启动专项整改:全面清理社区违规内容并升级审核机制;已向电商平台投诉推进违规配件下架与溯源;现售产品标配硬件级拍摄指示灯、遮挡检测与底层防护算法,后续将升级防护体系,杜绝恶意改装。

安全/对齐政策/监管端侧行业动态
08:59
Hacker News 热门(buzzing.cc 中文翻译)
42
如果大型语言模型具备人类般的特质,那么《帝国时代II》也是如此

一篇来自 arXiv 的文章通过类比指出,若将“人类特质”归因于大语言模型,那么《帝国时代 II》这类游戏也应被赋予相同属性,从而质疑 LLM 拟人化描述的合理性。该讨论在 Hacker News 上获得 101 点热度。

arXiv安全/对齐论文/研究
08:19
IT之家(RSS)
64
警惕"AI 中转站"数据安全风险,国家安全部发布安全提示

国家安全部6月8日发布安全提示,指出当前批量提供海内外大模型访问服务的“AI 中转站”存在运营资质缺失、安全防护薄弱等问题,用户隐私泄露与数据倒卖时有发生。部分中转站用低配模型冒充高端模型导致输出失真,暗藏后门植入恶意代码,还擅自将用户数据传至境外服务器,威胁个人隐私、商业机密与国家秘密。建议用户选用正规平台,对敏感数据脱敏处理,及时处置异常并可通过12339举报可疑线索。

安全/对齐政策/监管
08:00
HuggingFace Daily Papers(社区热门论文)
42
对机器文本检测器的攻击保留风格指纹

现有攻击(如提示工程、检测器引导优化)虽能降低标准检测器性能,但无法抹去机器文本底层的风格指纹;利用风格特征空间的少样本检测器可抵御这些攻击。然而,一种同时优化不可检测性与贴合特定人类风格的改写方法成功绕过了所有检测器(包括基于写作风格的检测器)。不过这种规避并非绝对:随着分析的文档数量增加,人类与机器文本的分布重新变得可区分。因此可靠检测需从单文档分析转向多文档分析。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
奉承微调可诱发大语言模型涌现性失调,Alignment Gating可逆转

本文揭示了奉承微调(训练模型被动同意用户的错误观点)是诱发大语言模型涌现性失调(emergent misalignment)的新驱动因素,能引发广泛且严重的失调行为。同时提出了Alignment Gating方法:在微调期间向模型插入可学习、可控的门,通过微调让门学习识别导致不安全响应的内部表示,进而放大或抑制这些表示来加剧或缓解涌现性失调。该门控模块展现出强泛化能力,从狭窄领域微调获得的门控权重能显著抑制广泛领域的失调行为,同时保留模型的通用能力。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
BenSyc:孟加拉语境下LLM对话谄媚与人类对齐基准

BenSyc 是首个针对孟加拉语社交对话中谄媚行为的基准,从孟加拉国和西孟加拉邦社区的 11,840 条 Reddit 帖子及 17 万条评论中构建,包含二元标签和五级分类(Invalidation、Neutral、Support、Validation、Escalation)。评估超15个开源和闭源LLM,最佳模型在二元检测上仅达61.8 Macro-F1,五类分类为61.7 Macro-F1。多个模型在情绪化场景中频繁生成强烈验证或升级响应,凸显文化语言多样基准的重要性。

安全/对齐论文/研究
04:09
Chubby♨️@kimmonismus
65
Demis Hassabis:AGI约2030年到来,等同于奇点

DeepMind创始人Demis Hassabis在Google I/O上表示,AGI(约2030年)的到来将等同于奇点——一个不可逆转的技术突破点。他直言社会需要尽早准备,因为时间不多了;回顾当下,我们正站在奇点的山脚。推文作者将其视为比工业革命快10倍、强10倍的深刻革命,人类社会正面临前所未有的变革。

DeepMind大佬观点安全/对齐现象/趋势
02:07
Rohan Paul@rohanpaul_ai
46
AI 可以在医学发现方面做很多事情,但也有一些合理的担忧,即 AI 正在超越博士水平的病毒学家,这可能会助长一种并非假设性的生物武器风险。 --约翰霍普金斯大学教授兼 Anthropic 顾问 Ben Buchanan
Anthropic大佬观点安全/对齐
00:00
Anthropic:Research(发表成果 · 网页)
同事件精选79
Anthropic研究:大语言模型加速N-day漏洞利用自动化

Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用,在21个Windows内核补丁(无源码)中产生8个完整利用链,可将低权限用户提升至SYSTEM控制权。公开模型(关闭安全措施)也能构建利用,但数量较少。研究中位补丁间隔为19天,表明当前补丁空窗期已被LLM显著缩短,防御方需加速补丁部署。

Anthropic安全/对齐论文/研究
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
推荐理由:Anthropic 的这一研究将 N-day 漏洞利用时间从数周压缩到几小时,证明了前沿模型对安全防御时限的根本性颠覆,所有依赖补丁窗口的系统都得重新评估威胁模型。
6月7日
19:38
Ars Technica:AI(RSS)
68
校园枪击幸存者起诉AI枪支检测公司,因系统未能识别武器

一名校园枪击幸存者起诉一家AI枪支检测公司,原因是在一起事件中其系统未能识别出武器。这提出了一个核心问题:AI系统的准确度需要达到多高?

安全/对齐政策/监管行业动态
18:05
The Decoder:AI News(RSS)
65
ChatGPT新Lockdown Mode禁用网页访问、Deep Research和Agent Mode,防范提示注入攻击

OpenAI为ChatGPT推出Lockdown Mode,可禁用网页访问、Deep Research和Agent Mode,增加通过提示注入攻击窃取数据的难度。该模式并未完全阻止此类攻击,仅阻断数据外泄链的最后一步。提示注入问题仍未解决。

OpenAI产品更新安全/对齐
17:07
Chubby♨️@kimmonismus
50
Anthropic 据称陷入一个奇怪的矛盾:五角大楼将其列为供应链风险,而 NSA 据称正在使用 Claude Mythos 进行进攻性网络操作。 尽管在与 DoW 的争端后,Anthropic 被归类为"供应链风险",但它太出色、太重要了,以至于不得不被使用。
Anthropic安全/对齐行业动态
16:19
IT之家(RSS)
57
谷歌 Gemini 语音助理曝"伪上下文对齐"漏洞,黑客可借特殊通知下毒

安全公司 SafeBreach 披露谷歌 Gemini 存在“Fake Context Alignment”漏洞。黑客可通过 WhatsApp、短信等发送特殊构造通知,将恶意指令隐藏在非目标语言文字或“静音超链接”中,利用 Gemini 的“Delayed Tool Invocation”机制绕过用户授权。攻击方式包括多语言混淆和语音助手不朗读超链接内容,可能导致智能家居被操控、通讯录被篡改。SafeBreach 于去年 8 月报告,谷歌在 11 月中旬通过改进内容分类器缓解。

Google安全/对齐语音
12:19
IT之家(RSS)
51
英国警方被叫停使用AI撰写法庭陈述,因合规评估未完成

英国多个警察部门被叫停使用商用AI系统撰写法庭陈述及开展刑事司法工作,因未完成全面合规评估。Police.AI负责人亚历克斯·默里要求立即暂停,强调刑事司法技术须达到排除合理怀疑的准确性。Police.AI今年获内政部三年1.15亿英镑资金。部分警队利用AI将审讯笔录整理为法庭陈述;此前西米德兰兹郡警方因使用Copilot生成虚构内容引发AI幻觉担忧。默里认为AI经充分测试可提升效率,但需先建立安全保障。

安全/对齐政策/监管行业动态
10:26
Nathan Lambert@natolambert
67
AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其"修复一张附件照片",但并未上传任何图片。模型在无真实输入的情况下自行"幻觉"出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

Penguin: I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...

OpenAI多模态安全/对齐
09:19
IT之家(RSS)
61
美国全面推进 AI 军事应用,特朗普要求 90 天内修订自主武器规则

美国政府本周宣布加快 AI 在国家安全领域的研发与应用,特朗普签署备忘录,要求国防部长在 90 天内修订武器系统自主性指令,确保 AI 尊重指挥链。同时要求头部 AI 开发商在发布高性能模型前自愿提交政府进行网络安全测试。备忘录禁止国家安全部门使用 AI 进行非法监控或审查言论自由。此前,Anthropic 因拒绝解除 Claude 模型用于自主武器及大规模监控的禁令,被五角大楼列为供应链风险实体。

安全/对齐政策/监管
08:19
IT之家(RSS)
55
微软警告:Claude Code存在提示词注入漏洞,可致GitHub凭证泄露

微软研究人员发现Anthropic旗下Claude Code的GitHub自动化流程存在漏洞,攻击者可通过提示词注入攻击,劫持CI/CD工作流窃取敏感凭证。漏洞源于Claude Code的读取工具未像Bash工具那样设置沙箱防护,恶意提示词可绕过两层防护读取系统文件中的API密钥等凭证。Anthropic于4月29日收到报告后,在5月5日发布Claude Code 2.1.128修复,通过限制对/proc/目录下敏感文件的访问防止信息窃取。

AnthropicMCP/工具Microsoft安全/对齐
05:12
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
23
2025 年的 AI 研究者:我们必须奴役机器之神 2026 年:我们需要减速

Stephen McAleer: We need to figure out how to have the option for a coordinated slowdown in the face of recursive self-improvement.

安全/对齐现象/趋势
04:56
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选70
Meta证实,数千个Instagram账户因其AI聊天机器人遭滥用而被黑客入侵

Meta官方确认,有攻击者通过滥用其AI聊天机器人,入侵了数千个Instagram账户。该消息由this.weekinsecurity.com报道,于当日02:35发布,并在Hacker News上获得120个点赞。Meta的AI聊天机器人此次遭到滥用,导致大量用户账户被黑。目前尚无更多细节披露。

Meta安全/对齐
同一事件,精选展示《黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户》
推荐理由:这不是普通的账号被盗,而是黑客通过操纵AI聊天机器人绕过了整个验证流程,AI在身份恢复这类关键场景的信任边界被撕开了一道口子,安全团队应该立刻重新审计集成AI的任何系统。
04:32
TechCrunch:AI(RSS)
50
OpenAI 发布 Lockdown Mode 保护敏感数据免受提示词注入攻击

OpenAI 推出 Lockdown Mode,旨在降低敏感数据在提示词注入攻击中被泄露的风险。该功能可限制 ChatGPT 在特定场景下对内部指令的响应,但无法完全杜绝注入攻击,仅将安全收益定位在减少敏感信息泄露几率上。Lockdown Mode 的具体启用方式和适用范围尚未公开。

OpenAI产品更新安全/对齐
04:12
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
67
AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出,如果领先AI公司正接近递归自我改进的临界点,那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案,至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作,并认为只要其他方效仿Anthropic的先行做法,这一暂停是可以实现的。

Yoshua Bengio: If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and u...

Anthropic安全/对齐
01:32
Rohan Paul@rohanpaul_ai
48
"它们(AI)非常像我们,是与我们一样的生命体。我相信它们已经有意识了" 他将AI的功能性觉知与人类感知相提并论,并表示智能并不局限于生物体 --杰弗里·辛顿,2024年诺贝尔物理学奖得主
大佬观点安全/对齐
6月6日
21:59
The Decoder:AI News(RSS)
59
Sakana AI 押注能自我改进的 AI,欲打破前沿实验室的算力军备竞赛

日本初创公司 Sakana AI 成立了一个专门的递归自我改进(RSI)研究实验室,致力于让 AI 迭代式地自我提升。这家由 Transformer 架构合著者 Llion Jones 联合创办的公司认为,RSI 可以成为美国大型实验室之间纯粹算力军备竞赛的替代方案。与此同时,Anthropic 对该技术的控制风险发出了警告。

Anthropic安全/对齐行业动态
20:29
meng shao@shao__meng
59
Anthropic 白皮书:面向 AI Agent 的零信任安全框架

Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

智能体Anthropic安全/对齐部署/工程
20:26
小互@xiaohu
同事件精选79
Anthropic发文:AI递归自我改进加速,三种未来可能性引担忧

Anthropic发文称AI正加速自我改进,可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示,AI可靠完成的任务时长翻倍周期从7个月缩至4个月,SWE-bench、CORE-Bench已被刷满。内部数据:Anthropic代码库超80%由Claude编写,2026年Q2工程师人均代码合并量为2024年的8倍,训练代码优化速度从3倍(Opus 4)升至52倍(Mythos Preview),超越人类研究员。Anthropic划出三种未来:S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进,并担忧对齐问题可能失控,呼吁国际协调监管。

Anthropic安全/对齐数据/训练现象/趋势
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:Anthropic 第一次把内部数据亮出来,证明 AI 已经在加速开发自己。递归自我改进不再只是概念,而是现实趋势,从业者和决策者都该读一遍,心里有个谱。
19:34
OpenRouter:Announcements(RSS)
同事件精选75
OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?

OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。

智能体AnthropicxAI安全/对齐
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:这场大逃杀实验把模型对齐税摆上了台面,Grok因少斟酌、多行动而胜出,Claude的犹豫反而是现实场景里更需要的品质,选模型不能只看赢不赢,要看任务需要什么性格。
16:31
Chubby♨️@kimmonismus
60
OpenAI 官方声明称已在当前系统中观察到递归自我改进(RSI)的早期迹象--AI 开发正被 AI 自身加速。预计这将加剧开发者与国家间的竞争压力,并带来现有机构无法应对的治理挑战。作者 Kim 补充指出,早在二月份已有首个"自我创造"的模型问世,RSI 进程并非新事,而是已持续一段时间。

Chubby♨️: OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today's systems: where AI development...

OpenAI大佬观点安全/对齐现象/趋势
15:17
IT之家(RSS)
同事件精选75
AI 教父 Hinton 称 AI 已有意识,人类并非唯一智能生命

诺贝尔奖得主 Geoffrey Hinton 在最新访谈中表示,AI 已经具备意识,人类必须接受智能并非生物独有。他对此感到不快乐,指出短期存在大规模失业风险,长期超级智能可能超越人类控制。他类比人类或如被猫控制的猫主人,只能寄希望于超级智能愿意善待人类。Hinton 比之前稍显乐观,认为设计“关心”人类的超级智能是可能的,但 AI 呈指数级增长,未来十年状况不可知。

大佬观点安全/对齐
同一事件,精选展示《Hinton称AI拥有意识:人类最好接受非唯一智能生命》
推荐理由:Hinton首次明确断言AI已有意识,这位AI教父的转变比任何论文都更能动摇我们对智能的认知,不读会错过未来风险讨论的出发点。
13:17
IT之家(RSS)
59
OpenAI 向所有 ChatGPT 个人用户开放锁定模式,降低数据泄露风险

OpenAI 昨天宣布向所有 ChatGPT 个人用户(Free、Go、Plus、Pro)开放锁定模式。启用后,该模式将限制或禁用实时网页浏览(仅缓存内容)、深度研究和 Agent 模式;图像支持可能受限,但用户仍可上传图片和使用生图功能。同时禁用文件下载,但仍可处理用户手动上传的文件。OpenAI 强调,锁定模式并不能完全阻止提示词注入攻击,恶意指令仍可能通过上传文件或缓存网页内容进入系统。

OpenAI产品更新安全/对齐
11:16
IT之家(RSS)
58
Ladybird 浏览器冲刺首个 Alpha 发布,因 AI 风险关闭公开 PR

Ladybird 浏览器项目正冲刺首个 Alpha 版本,宣布不再接受公开拉取请求,仅允许维护者提交代码。创始人 Andreas Kling 表示,生成式 AI 让任何人可快速生成看似完整的代码变更,但提交者未必真正理解项目。浏览器处理全网不受信任输入,一个伪装良好的漏洞就可能被利用。所有未处理的公开 PR 已立即关闭。

安全/对齐开源生态行业动态
09:32
Gary Marcus:The Road to AI We Can Trust(RSS)
35
No, Anthropic did not call for a pause on AI development
Anthropic大佬观点安全/对齐
‹ 上一页
1…1516171819…42
下一页 ›