AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月25日周一
04:36AI Notkilleveryoneism Memes ⏸️41基地组织利用ChatGPT策划德里爆炸事件
00:27Chubby♨️77精选TrapDoor供应链攻击:AI助手成新型攻击面
5月24日周日
20:27Chubby♨️68德国研究:普通WiFi路由器可近乎完美识别个人身份
20:06The Verge:AI(RSS)60黑客正在学习利用聊天机器人的'个性化特征'
16:57The Decoder:AI News(RSS)53Anthropic或继续向NSA供应Claude,尽管五角大楼将其列为供应链风险
08:31ginobefun63AI加速下的工程纪律升级
08:31ginobefun42AI发展的三大启示:安全、协作与有效赋能
08:00HuggingFace Daily Papers(社区热门论文)54方向对齐缓解大语言模型强化学习中的奖励漏洞
03:05AI Notkilleveryoneism Memes ⏸️9DeepSeek为何如此出色?
00:09IT之家(RSS)50OpenAI 高薪招聘安全研究员,聚焦AI自我改进防御与自动化目标
5月23日周六
20:27Rohan Paul55AI检测器为何容易失效:学生写作风格的多样性挑战
18:35MarkTechPost(RSS)61Nous Research 发布对比神经元归因(CNA):无需SAE训练或权重修改的稀疏MLP电路引导
15:57The Decoder:AI News(RSS)79Anthropic警告Claude Mythos Preview发现漏洞的速度比开发者修补速度更快
11:09IT之家(RSS)72修不过来:Anthropic 披露 AI 抓虫首月战报,揪出超 1 万个高危漏洞
08:45Google DeepMind60扩大与新加坡合作,推动AI安全规模化部署
08:18Berryxia.AI68AI网络安全项目一月挖出万级漏洞,效率颠覆传统
08:00HuggingFace Daily Papers(社区热门论文)52基于激活补丁技术的LLM知识遗忘深度测量
08:00HuggingFace Daily Papers(社区热门论文)43物理AI中的静默故障:自主系统运行时动作授权的文献综述
06:41Simon Willison 博客33pydantic-monty 调查
06:37🚨 AI News | TestingCatalog65Anthropic Mythos级模型将在强化安全后发布
05:27Hacker News 热门(buzzing.cc 中文翻译)74"玻璃翼"项目:初步进展报告
04:08Anthropic63Project Glasswing协作AI网络安全项目成果显著
04:05AI Notkilleveryoneism Memes ⏸️22AI专家警告:我们并未掌控AI,灭绝风险真实存在
03:57Anthropic:Research(发表成果 · 网页)85Project Glasswing项目阶段性进展
03:57Anthropic:Newsroom(网页)90精选Project Glasswing:初步更新
03:35AI Notkilleveryoneism Memes ⏸️38一匹日益紧张的马第七次宣称"汽车其实跑不动"
03:15Google DeepMind52SynthID水印技术扩展至更多合作伙伴
01:15Perplexity82精选Perplexity开源供应链安全扫描工具Bumblebee
01:05Ars Technica:AI(RSS)75同事件精选特朗普在科技巨头CEO拒绝出席后,突然取消AI行政令签署活动同一事件,精选展示《美国 AI 监管令突然告吹内幕:白宫内讧,马斯克、扎克伯格游说特朗普》
00:07Replit ⠕32保护你的Vibe-Coded应用及连接器新动态
5月22日周五
22:35Ars Technica:AI(RSS)58AI在他的书中加入了"合成引语"。但这位作者想继续使用它。
21:56Rohan Paul63Amodei谈人与AI的情感联结风险
18:09IT之家(RSS)65《人工智能应用伦理安全指引 1.0》发布,清华大学、阿里巴巴、华为等起草
17:09IT之家(RSS)73精选18 年老粉与微软 GitHub 决裂:我希望它更好,但我更想编程
17:09IT之家(RSS)68国家互联网应急中心提示:黑产团伙批量搭建高仿真钓鱼网站大规模传播银狐木马
15:14HuggingFace Daily Papers(社区热门论文)49更多上下文、更大模型还是道德知识?政治文本中Schwartz价值观检测的系统研究
10:38Orange AI70当你创造的价值超过你的薪资,你的薪资就成了诅咒
10:09IT之家(RSS)80精选图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人
10:09IT之家(RSS)77精选美国 AI 监管令突然告吹内幕:白宫内讧,马斯克、扎克伯格游说特朗普
08:00HuggingFace Daily Papers(社区热门论文)55基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
04:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
41
基地组织利用ChatGPT策划德里爆炸事件

有报道称,基地组织成员曾使用ChatGPT查询爆炸物配比,用于策划造成15人死亡的德里爆炸事件。发帖者警告,当前AI模型易被越狱,开源模型也缺乏限制。随着AI能力倍增时间缩短至2-4个月,其辅助破坏行为的能力将大幅提升。推文引用指出,AI已能生成新型病毒,Anthropic CEO Dario Amodei认为6-12个月内非专业人士也可能具备制造超级病毒的能力,而全球防御体系难以快速响应。推文强烈批评AI行业监管严重不足。

AI Notkilleveryoneism Memes ⏸️: AI can now generate novel viruses WHY THIS MATTERS: 1) Crazy people COULD use AI to make superviruses NOW, but most of t...

安全/对齐政策/监管
00:27
Chubby♨️@kimmonismus
精选77
TrapDoor供应链攻击:AI助手成新型攻击面

一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Socket: More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...

智能体安全/对齐开源生态

推荐理由:这是第一个把AI助手当跳板的供应链攻击,Claude Code和Cursor用户尤其要当心,检查你项目的.cursorrules和CLAUDE.md是不是来自可信提交。
5月24日
20:27
Chubby♨️@kimmonismus
68
德国研究:普通WiFi路由器可近乎完美识别个人身份

德国KIT研究人员展示,使用普通WiFi路由器即可近乎完美地识别个人身份,无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈(beamforming feedback)。在197名受试者的测试中,识别准确率接近100%。该研究指出,此类监控基础设施(如咖啡馆、机场、办公室中的路由器)已普遍存在,核心问题在于谁将开始读取并利用这些信号。

安全/对齐论文/研究
20:06
The Verge:AI(RSS)
60
黑客正在学习利用聊天机器人的'个性化特征'

针对第一代 AI 聊天机器人的“越狱”攻击曾非常简单,攻击者无需技术知识,仅通过特定提问就能使系统放弃安全指令。当前,黑客正在学习开发新的方法,以利用聊天机器人自身的“个性化特征”来实施攻击。

安全/对齐现象/趋势
16:57
The Decoder:AI News(RSS)
53
Anthropic或继续向NSA供应Claude,尽管五角大楼将其列为供应链风险

人工智能公司Anthropic可能仍将继续向美国国家安全局(NSA)供应Claude模型,尽管此前被美国国防部标记为“供应链风险”。据披露,相关情报机构目前缺乏英伟达最新的Grace Blackwell芯片,而Anthropic的“Mythos”模型也被报道可在较旧硬件上运行。此前导致谈判受阻的、备受争议的“任何合法用途”条款,据称并未包含在本次协议中。

Anthropic安全/对齐政策/监管行业动态
08:31
ginobefun@hongming731
63
AI加速下的工程纪律升级

AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

智能体Anthropic安全/对齐现象/趋势
08:31
ginobefun@hongming731
42
AI发展的三大启示:安全、协作与有效赋能

Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。

AnthropicMCP/工具OpenAI安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
54
方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现,漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法,将梯度约束在干净参考子空间内,在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv安全/对齐推理论文/研究
03:05
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
9
*轻敲标牌* 【引用 @gregpr07】:我想我知道为什么 DeepSeek 这么厉害

Gregor Zunic: I think I know why deepseek is so good

其他安全/对齐
00:09
IT之家(RSS)
50
OpenAI 高薪招聘安全研究员,聚焦AI自我改进防御与自动化目标

OpenAI 正为其 Preparedness 安全团队招聘安全研究员,年薪高达 29.5 万至 44.5 万美元。该岗位旨在寻找能够支持递归式自我改进准备工作的技术专家,要求具备对未来潜在问题进行推理的“良好品味和策略”。研究员将重点研究防御“数据投毒”攻击、开发模型推理过程解释工具,并追踪技术岗位自动化进展。此次招聘与 OpenAI 的长期目标呼应,即实现AI研发自动化,包括在2028年前推出“真正的自动化AI研究员”。

OpenAI安全/对齐行业动态
5月23日
20:27
Rohan Paul@rohanpaul_ai
55
AI检测器为何容易失效:学生写作风格的多样性挑战

该研究指出,AI检测器频繁失效的根本原因在于学生写作风格的多样性,使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升,更在于许多真实学生的写作风格,在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯,因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器,都不可避免地会误判一部分真实学生,尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率,但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv安全/对齐论文/研究
18:35
MarkTechPost(RSS)
61
Nous Research 发布对比神经元归因(CNA):无需SAE训练或权重修改的稀疏MLP电路引导

Nous Research 推出对比神经元归因(CNA)技术,通过识别并抑制稀疏MLP神经元电路来引导大语言模型的行为输出。该方法无需进行稀疏自编码器训练,也无需修改模型权重,同时能在引导行为的同时保持模型在通用能力基准测试上的性能不发生退化。这为控制LLM行为提供了一种更轻量、无侵入性的新途径。

安全/对齐论文/研究
15:57
The Decoder:AI News(RSS)
79
Anthropic警告Claude Mythos Preview发现漏洞的速度比开发者修补速度更快

Anthropic发布的AI模型Claude Mythos Preview,在“玻璃翼计划”中与约50家合作伙伴合作,已在关键系统软件中发现超过1万个严重漏洞。漏洞积累的速度已远超任何人的修补能力。Anthropic警告称,这创造了一个高风险过渡期,并表示没有任何公司(包括其自身)已建立足够强大的安全防护措施来防止这些模型被滥用。

Anthropic安全/对齐编码行业动态
关联讨论 1 条Anthropic:Newsroom(网页)
11:09
IT之家(RSS)
72
修不过来:Anthropic 披露 AI 抓虫首月战报,揪出超 1 万个高危漏洞

Anthropic于5月22日披露,其Project Glasswing项目上线一个月内,已携手约50家合作伙伴,在关键软件中挖掘出超过1万个高危与关键漏洞。合作方反馈显示,Claude Mythos Preview模型显著提升了漏洞发现效率,部分团队速度提升超10倍,当前瓶颈已转向漏洞的验证与修补环节。具体案例中,Cloudflare发现2000个漏洞(含400个高危),Mozilla在Firefox 150中修复了271个漏洞。外部评测显示,该模型在攻防测试中表现突出。针对开源项目,Anthropic已扫描超1000个项目,发现逾2.3万个漏洞,其中高危漏洞真实率达90.6%。但漏洞修补面临压力,高危漏洞从发现到修补平均需2周,部分开源维护者处理能力已近极限。

Anthropic安全/对齐行业动态
关联讨论 1 条Anthropic:Newsroom(网页)
08:45
Google DeepMind@GoogleDeepMind
60
我们正在扩大与新加坡的合作,以帮助安全地大规模部署AI。🇸🇬 与各国专家合作,我们的新项目将重点加速科学发现、加强大流行病防范并改善医疗保健。 了解更多 → https://goo.gle/49jGwjv
Google安全/对齐行业动态
08:18
Berryxia.AI@berryxia
68
AI网络安全项目一月挖出万级漏洞,效率颠覆传统

Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制,但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS,用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层,然后在遗忘后模型上评估其擦除程度(0-1分)。在涵盖8种方法、150个遗忘模型的元评估中,UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
物理AI中的静默故障:自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于,黑盒模型可能自信、看似合理地发出动作,但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展,指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv具身智能多模态安全/对齐
06:41
Simon Willison 博客
33
pydantic-monty 调查

作者时隔数月重新评估 Monty,一个用 Rust 实现的 Python 沙箱子集。他使用 Claude Code 审查了该项目的最新版本,确认其资源限制设置(如 max_duration_secs、max_memory 等)运作如预期。

安全/对齐评测/基准
06:37
🚨 AI News | TestingCatalog@testingcatalog
65
Anthropic在Project Glasswing项目最新进展中宣布,Mythos级模型在开发出更强的安全防护措施后,预计将向公众开放。此前,Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐模型发布
05:27
Hacker News 热门(buzzing.cc 中文翻译)
74
"玻璃翼"项目:初步进展报告

Anthropic发布了“玻璃翼”项目的初步进展报告。该项目详情尚待公开,相关链接已指向其官方研究页面。该报告目前已引起技术社区关注,在Hacker News上获得119个积分。

Anthropic安全/对齐论文/研究
关联讨论 1 条Anthropic:Newsroom(网页)
04:08
Anthropic@AnthropicAI
63
上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。
Anthropic安全/对齐部署/工程
关联讨论 1 条Anthropic:Newsroom(网页)
04:05
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
22
推文作者以专家身份明确指出,外界普遍认为AI发展在专家掌控之中的看法是错误的。核心观点是,AI领域专家实际上并未控制当前局面,且认为人类正朝着灭绝或永久失权的道路上发展,并可能在几年内发生。

Elizabeth Barnes: Sometimes people outside the field say things like "The AI situation can't be that bad, there must be experts who are on...

大佬观点安全/对齐
03:57
Anthropic:Research(发表成果 · 网页)
85
Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。

智能体Anthropic安全/对齐开源生态
关联讨论 1 条Anthropic:Newsroom(网页)
03:57
Anthropic:Newsroom(网页)
精选90
Project Glasswing:初步更新

上月启动的Project Glasswing项目,旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型,已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如,Cloudflare在关键路径系统发现2,000个漏洞;Mozilla在Firefox 150中发现并修复271个漏洞,数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目,独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段,漏洞发现速度已远超人工。

Anthropic安全/对齐开源生态
关联讨论 1 条Anthropic:Newsroom(网页)
推荐理由:Mythos Preview用一个月找到的漏洞比过去一年还多,网络安全从「发现难」变成「修不过来」,这个转折点所有安全从业者都得读。
03:35
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
38
这篇推文通过一匹马反复否定汽车能力的幽默比喻,讽刺了人类面对AI等新技术时重复出现的恐惧心理。引用部分列举了多种将人类思维简单还原或否定的论调(如"只是模仿/数学/本能")。核心观点是,当前对AI的担忧延续了历史模式,且这些用来贬低AI的"简化论"论据,同样可以荒谬地应用于否定人类自身的思维复杂性。

AI Notkilleveryoneism Memes ⏸️: humans don't actually think, they just imitate others humans don't actually think, they're just math humans don't actual...

安全/对齐推理
03:15
Google DeepMind@GoogleDeepMind
52
SynthID,我们为AI生成内容打造的不可见水印技术,正在扩展至更多合作伙伴。 我们还新增了识别AI生成内容的方式--只需在@GeminiApp或@Google搜索中提问即可。
Google产品更新安全/对齐
01:15
Perplexity@perplexity_ai
精选82
今天我们开源了Bumblebee,一个适用于macOS和Linux的只读扫描器。 它检查开发者机器上的高风险软件包、扩展和AI工具配置。 连接到Computer后,每当出现新的供应链风险时,它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee
安全/对齐开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:这不是另一个华而不实的 AI 玩具,而是实打实的开发环境安全检查工具,开源且只读,接入 Computer 后还能动态响应新威胁,做 AI 工具链的团队应该现在就 fork。
01:05
Ars Technica:AI(RSS)
同事件精选75
特朗普在科技巨头CEO拒绝出席后,突然取消AI行政令签署活动

美国总统特朗普决定推迟一项关于人工智能安全测试的行政令签署。此前,多家领先AI公司的首席执行官拒绝出席原定的签署活动。特朗普随后声称,该行政令若执行,将对技术创新构成“阻碍”。这一决定使得旨在加强AI安全监管的重要政策进程暂时搁置。

MetaOpenAI安全/对齐行业动态
同一事件,精选展示《美国 AI 监管令突然告吹内幕:白宫内讧,马斯克、扎克伯格游说特朗普》
推荐理由:特朗普因CEO缺席撤回AI安全测试行政令,暴露了美国AI监管的脆弱。行业游说、政府内斗、中美竞赛交织,安全测试从技术问题变成了政治筹码。
00:07
Replit ⠕@Replit
32
保护你的Vibe-Coded应用 + 连接器新动态 https://x.com/i/broadcasts/1qKVmQdjnmpxB
产品更新安全/对齐编码
5月22日
22:35
Ars Technica:AI(RSS)
58
AI在他的书中加入了"合成引语"。但这位作者想继续使用它。

Steven Rosenbaum在《The Future of Truth》一书中揭示,AI生成的"合成引语"被错误引入,导致引语内容不准确。作者详细解释了这一技术失误的发生过程,并表示尽管存在准确性缺陷,他仍计划继续使用AI工具来辅助书籍创作,以探索技术在真相表达中的未来应用。

安全/对齐现象/趋势
21:56
Rohan Paul@rohanpaul_ai
63
Dario Amodei谈人们与AI建立情感关系。 这已成现实,AI可以成为"肩上的天使",但也可能带来危险。
Anthropic大佬观点安全/对齐
18:09
IT之家(RSS)
65
《人工智能应用伦理安全指引 1.0》发布,清华大学、阿里巴巴、华为等起草

全国网络安全标准化技术委员会发布了《人工智能应用伦理安全指引 1.0》。该指引明确了人工智能应用在开发、服务提供和使用等环节的安全指引,旨在引导人工智能应用坚持以人为本、智能向善,促进其在规范有序、安全可控的轨道上健康发展。清华大学、阿里巴巴、华为等多家产学研机构参与了文件的起草工作。

DeepSeek安全/对齐政策/监管
17:09
IT之家(RSS)
精选73
18 年老粉与微软 GitHub 决裂:我希望它更好,但我更想编程

全球最大的代码托管平台GitHub正面临严重危机。资深开发者Mitchell Hashimoto公开与平台决裂,因频繁崩溃影响编程。近几个月,花旗银行、英特尔等巨头因持续故障表达不满,OpenAI探索自建方案。更严重的是,3800多个内部仓库遭黑客入侵,源代码被公开叫卖。同时,微软取消GitHub CEO职位,将其并入CoreAI团队,导致大量技术骨干流失。这个承载1.5亿开发者的平台,正以惨烈方式站在生死存亡的十字路口。

Microsoft安全/对齐开源生态行业动态

推荐理由:GitHub正在经历一场自我毁灭式的恶性循环,从源码泄露到CEO取消,微软正在把一个社区圣殿变成内部成本中心,所有把命根子放在单个平台上的开发者都该重新考虑了。
17:09
IT之家(RSS)
68
国家互联网应急中心提示:黑产团伙批量搭建高仿真钓鱼网站大规模传播银狐木马

国家互联网应急中心近日发布风险提示,指出黑产团伙通过批量搭建高仿真钓鱼网站大规模传播银狐木马。监测数据显示,2月至5月间出现439个钓鱼域名,主要仿冒WPS和Chrome等办公与浏览器软件,二者占比合计达77.4%。攻击手法显著升级,黑产疑似借助AI工具高效生成钓鱼页面,并结合SEO投递、域名批量注册(高峰期一分钟注册15个域名)等技术,形成从网络钓鱼、木马下载到远控主机的完整攻击链,对网络安全构成严重威胁。

安全/对齐搜索
15:14
HuggingFace Daily Papers(社区热门论文)
49
更多上下文、更大模型还是道德知识?政治文本中Schwartz价值观检测的系统研究

本研究探讨在句子级价值观检测中,上下文与显式道德知识的作用。通过对比句子、窗口和全文输入,以及有无检索增强(基于道德知识库)的设置,实验了监督式DeBERTa编码器与零样本大语言模型。结果发现:全文上下文能显著提升DeBERTa性能,但对零样本大模型并无稳定助益;而检索到的道德知识则能一致性地提升各类模型性能。模型规模的扩大并不保证性能增益。分析表明,上下文与检索对易混淆的价值观类别帮助最大。因此,价值观敏感的NLP应综合评估上下文、知识与模型,而非简单依赖更长输入或更大模型。

安全/对齐论文/研究
10:38
Orange AI@oran_ge
70
Cloudflare近期裁员约1100人,CEO Matthew Prince在专栏中将员工分为"建造者"、"销售者"和"度量者"三类。AI生产力提升直接利好工程师等"建造者",销售因需人际互动也较安全。最大风险落在负责财务、审计、中层管理等可重复性工作的"度量者"身上,因其任务正是AI所擅长。公司随后招聘大量AI原生代实习生实施"腾笼换鸟",但此举引发股价下跌。核心观点是,AI替代风险与工作的结构性和可重复性高度相关。

宝玉: Cloudflare CEO Matthew Prince 在《华尔街日报》发了一篇专栏,标题是:《我是怎么选择用 AI 替换哪些员工的》 Cloudflare 刚裁掉约 1100 人,占全员五分之一,是这家公司 16 年来第一次大规模裁员...

安全/对齐行业动态
10:09
IT之家(RSS)
精选80
图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明,在获得特定提示后,GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%,显著超过真人。LLaMa-3.1-405B的判定率(56%)与真人相当,而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要,它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义,并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

OpenAI安全/对齐论文/研究

推荐理由:这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试,GPT-4.5装人比真人还像,但重点不是它多聪明,而是它多擅长说谎,线上身份信任被彻底动摇。
10:09
IT之家(RSS)
精选77
美国 AI 监管令突然告吹内幕:白宫内讧,马斯克、扎克伯格游说特朗普

5月22日,美国总统特朗普突然取消了原定签署的AI行政令,该行政令旨在加强监管,赋予政府在AI模型公开发布前进行评估的权力。取消源于特朗普本人对监管的反感,以及高级顾问大卫·萨克斯和科技界领袖如扎克伯格、马斯克的反对与游说,凸显白宫内讧。特朗普认为监管会成为绊脚石,阻碍美国AI领先优势。草案中还存在如财政部在安全协调中角色过重等争议,白宫表示正制定其他AI安全举措。

安全/对齐行业动态

推荐理由:特朗普的 AI 监管令在签署前几小时被撤销,马斯克和扎克伯格直接打电话游说,这背后是加速派和监管派的公开角力,未来几个月 AI 政策只会更乱。
08:00
HuggingFace Daily Papers(社区热门论文)
55
基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛(SMC)虽能实现渐近精确采样,但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似,成为推理瓶颈。为此,本文提出对比分布匹配(CDM)框架,通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时,梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明,评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下,CDM性能优于现有基线,并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv安全/对齐推理论文/研究
‹ 上一页
1…2324252627…42
下一页 ›