AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 945 条
全部一手资讯X论文
标签「安全/对齐」清除
5月18日周一
23:36The Decoder:AI News(RSS)61教皇利奥十四世发布首部人工智能通谕,Anthropic联合创始人受邀作为嘉宾演讲
23:34Hacker News 热门(buzzing.cc 中文翻译)65Linux 安全邮件列表"几乎难以管理"
21:23Ars Technica:AI(RSS)55漏洞赏金企业遭AI生成低质内容"轰炸"
21:06The Decoder:AI News(RSS)60Anthropic就Claude Mythos发现的网络安全漏洞向全球金融监管机构做简报
21:06The Decoder:AI News(RSS)51与MAGA结盟的团体要求对前沿AI模型进行政府监管
12:45IT之家(RSS)58消息称 Anthropic 将向金融稳定委员会简报 AI 模型 Mythos 发现的网络防御漏洞
11:45IT之家(RSS)59Linux 之父 Linus 发飙:别用 AI 提交大量重复 Bug 报告,直接提修复方案,OK?
08:00HuggingFace Daily Papers(社区热门论文)54大型音频语言模型:泛化、可信度与展望
08:00HuggingFace Daily Papers(社区热门论文)54互补自蒸馏:实现大语言模型语境完整性的路径
08:00HuggingFace Daily Papers(社区热门论文)58伦理超速(EHV):一种可证明确定性的智能体系统治理感知即时编译器架构
08:00HuggingFace Daily Papers(社区热门论文)51开放书本良性重写:通过重写防御LLM数据投毒攻击
08:00HuggingFace Daily Papers(社区热门论文)61语言切换触发器在模型内部的潜在迂回
00:59Simon Willison 博客44英国政府数字服务署就NHS退出开源决策发声,强调"默认开放"原则
5月17日周日
21:43Google DeepMind:Blog(RSS)63精选让了解网络内容的创建和编辑过程变得更简单
17:29The Decoder:AI News(RSS)54Mistral CEO Arthur Mensch 警告法国勿让 Anthropic 的 Mythos 扫描军事代码库
16:44Gary Marcus:The Road to AI We Can Trust(RSS)36生成式AI的幻觉、超大规模投入的狂热与世界模型及神经符号AI的路径
09:43IT之家(RSS)66AI 假图"仅退款"成风:商家叫苦不迭,国家反诈中心"AI 鉴定师"进入实战阶段
08:00HuggingFace Daily Papers(社区热门论文)61Agent Bazaar:多智能体市场的经济对齐框架
07:43IT之家(RSS)69特斯拉解封 17 份 Robotaxi 碰撞报告:首次披露事故细节,多数被追尾、两次远程操作失误
05:32Hacker News 热门(buzzing.cc 中文翻译)59技术法西斯主义
03:54Dwarkesh Patel:Podcast & Blog(RSS)49The mistake of conflating intelligence and power
02:32Hacker News 热门(buzzing.cc 中文翻译)60DeepSeek-V4-Flash 意味着大型语言模型(LLM)的引导技术再次引起关注
5月16日周六
21:25The Decoder:AI News(RSS)45新基准测试显示 Claude Mythos 与 GPT-5.5 可自主开发真实浏览器漏洞利用程序
20:25The Decoder:AI News(RSS)59YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具
18:01Hacker News 热门(buzzing.cc 中文翻译)42Frontier AI 打破了公开 CTF 赛制的常规
16:42IT之家(RSS)47上海开展"清朗 · 整治 AI 应用乱象"专项行动,为期 4 个月
09:42IT之家(RSS)44涉摆拍"盲人在盲道行走被电动车撞"等,北京警方通报 3 起典型案例
02:25Ars Technica:AI(RSS)74精选arXiv新规:提交AI生成垃圾内容将遭一年禁令
5月15日周五
23:42IT之家(RSS)70精选英国多部门联合警告:当前最先进 AI 模型网络攻击能力已远超专业人员,企业应做好防范措施
21:42IT之家(RSS)65arXiv:作者须对论文内容承担全部责任,若出现未经核实 AI 内容将被禁投一年
17:49HuggingFace Daily Papers(社区热门论文)67LiSA:通过保守策略归纳实现终身安全适应
16:00Hacker News 热门(buzzing.cc 中文翻译)53前沿人工智能的应用很快将受到经济和安全因素的限制
11:42IT之家(RSS)51Win11 被攻破 3 次:Pwn2Own Berlin 2026 首日发放 52.3 万美元奖金
10:48HuggingFace Daily Papers(社区热门论文)46基于大语言模型的操纵性政治叙事检测
10:30Hacker News 热门(buzzing.cc 中文翻译)65安大略省审计人员发现,医生使用的AI病历记录工具经常出现基本事实错误
08:41IT之家(RSS)53Anthropic 最强 AI Mythos 辅助,专家发现苹果 macOS 26.4.1 提权漏洞
08:41IT之家(RSS)65马斯克诉 OpenAI 案收官前双方互怼:奥尔特曼是骗子、世界首富 AI 成功靠打官司
08:00HuggingFace Daily Papers(社区热门论文)61Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐
07:41IT之家(RSS)51开源库 TanStack 被黑波及 OpenAI,官方敦促苹果 Mac 用户升级 ChatGPT 应用
07:00Hacker News 热门(buzzing.cc 中文翻译)60arXiv新政策:对虚构参考文献处以1年禁令
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月18日
23:36
The Decoder:AI News(RSS)
61
教皇利奥十四世发布首部人工智能通谕,Anthropic联合创始人受邀作为嘉宾演讲

教皇利奥十四世将于5月25日发布其关于人工智能的首部通谕。Anthropic联合创始人Christopher Olah受邀作为嘉宾参加发布活动并发表演讲。这是梵蒂冈首次以天主教通谕的正式形式对人工智能技术发表系统性观点与指引。

Anthropic安全/对齐现象/趋势行业动态
23:34
Hacker News 热门(buzzing.cc 中文翻译)
65
Linux 安全邮件列表"几乎难以管理"

AI漏洞挖掘工具的广泛应用导致Linux安全邮件列表收到的自动提交漏洞报告数量激增,使其“几乎难以管理”。具体数据显示,该邮件列表每周收到约100封邮件,其中大部分为自动化生成的报告,真正需要核心维护者关注的漏洞仅占少数。这种变化反映了安全研究自动化对开源社区协作模式带来的新挑战。

安全/对齐开源生态行业动态
21:23
Ars Technica:AI(RSS)
55
漏洞赏金企业遭AI生成低质内容"轰炸"

漏洞赏金平台正面临海量由AI自动生成的、低质量的漏洞报告冲击。这些报告通常内容粗糙、价值较低,甚至包含错误信息,导致平台审核工作量剧增,真实有效的安全漏洞可能被淹没在垃圾信息中。这一现象迫使企业调整其安全漏洞奖励计划的验证流程与激励机制,以应对AI滥用带来的新挑战。

安全/对齐行业动态
21:06
The Decoder:AI News(RSS)
60
Anthropic就Claude Mythos发现的网络安全漏洞向全球金融监管机构做简报

Anthropic的新AI模型Claude Mythos Preview已发现全球金融系统网络安全防御中存在漏洞。该公司将就此向世界主要财政部门和央行进行简报。

Anthropic安全/对齐行业动态
21:06
The Decoder:AI News(RSS)
51
与MAGA结盟的团体要求对前沿AI模型进行政府监管

一个以Humans First为首的保守派联盟发表公开信,呼吁特朗普总统发布行政命令,强制要求前沿AI模型在发布前必须通过安全测试。该联盟主张政府对这些尖端AI技术实施监管,以应对潜在的安全风险。这一动向反映了美国政治光谱中部分势力对AI发展治理关切的升级。

安全/对齐政策/监管
12:45
IT之家(RSS)
58
消息称 Anthropic 将向金融稳定委员会简报 AI 模型 Mythos 发现的网络防御漏洞

人工智能公司Anthropic将于近期向全球金融监管机构金融稳定委员会(FSB)简报其AI模型Claude Mythos Preview的相关发现。该模型专注于网络防御,已识别出全球金融体系中的网络脆弱性,并在操作系统、浏览器等主流软件中发现数千个高危漏洞。英国央行行长指出,这一发现可能构成重大网络安全威胁。FSB正着手起草金融体系应用AI的稳健实践报告,并计划下月公开征求意见。

Anthropic安全/对齐行业动态
11:45
IT之家(RSS)
59
Linux 之父 Linus 发飙:别用 AI 提交大量重复 Bug 报告,直接提修复方案,OK?

Linus Torvalds 发布 Linux 7.1 第四个候选版本,并批评 AI 工具导致大量重复 bug 报告,使安全列表难以管理。他强调开发者应直接提交修复方案,而非仅报告问题,以减少不必要工作。Linus 表示自己过去20年更多担任技术维护者,AI 只是工具,不会替代程序员。

大佬观点安全/对齐开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
54
大型音频语言模型:泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出,其能力提升速度已远超可信框架的构建,通过端到端架构和连续声学信号整合,攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系,并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估,揭示了成熟攻击手段与不足防御之间的严重失衡。为此,报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径,以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
互补自蒸馏:实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体,如何平衡隐私保护(遵循语境完整性)与任务性能成为核心难题。现有方法常难以兼顾二者。为此,本文提出SELFCI互补自蒸馏框架,它将信息抑制与任务求解过程解耦,通过联合优化两个独立的逆KL散度目标:一个保留任务所需信息以确保效用,另一个强制实现最小化且恰当的信息披露。该框架无需外部监督,实验表明其持续优于在线强化学习等基线方法,并在跨领域的智能体工作流中同样有效,为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
伦理超速(EHV):一种可证明确定性的智能体系统治理感知即时编译器架构

针对自主智能体系统在监管关键基础设施中面临的治理延迟问题,EHV框架通过将策略执行点迁移至推理管道,采用冲突自由复制数据类型和可信执行环境内的基于周期的认证缓存技术,实现了亚毫秒级形式确定性。TLA+形式验证表明,不合规的智能体行为在系统的有界操作状态空间中是计算不可达的,从而将治理延迟从O(天)降至O(1)。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
开放书本良性重写:通过重写防御LLM数据投毒攻击

大语言模型易受基于触发器的数据投毒攻击,现有防御效果有限。本研究提出开放书本良性重写(OBBR)方法,利用良性示例指导重写,理论上保证其将有害内容转化为良性提示的概率高于传统闭书重写。实验在五种攻击和四种模型上进行,OBBR相较现有最佳防御平均提升安全性51%,较闭书重写提升25.7%。该方法计算高效,微调后不损害模型在自然语言任务上的性能,并能有效防御非触发式数据投毒攻击。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
语言切换触发器在模型内部的潜在迂回

研究发现,在8B参数语言模型中存在一个“语言切换后门”攻击电路。一个由三个拉丁词组成的触发序列,能将英语输出劫持为法语。该电路工作分为三阶段:早期层的注意力头将触发标记组合到序列末尾;中间层的信号沿着与模型自然语言-身份方向正交的子空间传播;最终层的MLP将潜在信号转换为法语对数概率。电路通过单一位置串行瓶颈流动,破坏该位置能消除触发效应但损害模型能力。这种正交编码意味着,检测中间表征中语言信号的现有防御方法可能无法发现此触发器。

安全/对齐论文/研究
00:59
Simon Willison 博客
44
英国政府数字服务署就NHS退出开源决策发声,强调"默认开放"原则

针对英国国家医疗服务体系(NHS)为应对“玻璃翼项目”漏洞而关闭开源代码库的决定,英国政府数字服务署(GDS)于5月14日发布指南,明确提出“默认保持开放”的核心建议。指南虽未直接点名NHS,但被普遍视为对此事的公开回应。GDS指出,将代码全面私有化会增加成本,并削弱代码复用与审查。这一官方表态被解读为罕见的内部争议公开化信号,标志着围绕公共部门开源策略的讨论已升级。

安全/对齐开源生态现象/趋势
5月17日
21:43
Google DeepMind:Blog(RSS)
精选63
让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具,旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景,帮助用户识别信息的修改痕迹,提升数字内容的透明度。

Google产品更新多模态安全/对齐

推荐理由:Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API,普通人也能随手查「这是 AI 做的吗?」,这对虚假信息是实际的约束。
17:29
The Decoder:AI News(RSS)
54
Mistral CEO Arthur Mensch 警告法国勿让 Anthropic 的 Mythos 扫描军事代码库

Mistral 公司 CEO Arthur Mensch 就欧洲日益增长的网络安全依赖发出警告,明确反对法国允许美国 Anthropic 公司的 AI 模型 Mythos 扫描其军事代码库。他指出,包括 Mistral 自身模型在内的现代 AI 具备策划攻击和提供漏洞利用建议的能力。Mensch 排除了出售公司的可能性,并表示 Mistral 的目标是进行首次公开募股。

Anthropic安全/对齐行业动态
16:44
Gary Marcus:The Road to AI We Can Trust(RSS)
36
生成式AI的幻觉、超大规模投入的狂热与世界模型及神经符号AI的路径

近期访谈指出,当前大语言模型存在“幻觉”问题,答案常不可靠。业界对“超大规模”的巨额投入可能陷入非理性狂热。作为替代路径,“世界模型”旨在让AI理解物理规律,“神经符号AI”则尝试结合深度学习与符号推理,以提升可靠性、可解释性与逻辑能力,为下一代AI奠定基础。

大佬观点安全/对齐现象/趋势
09:43
IT之家(RSS)
66
AI 假图"仅退款"成风:商家叫苦不迭,国家反诈中心"AI 鉴定师"进入实战阶段

近期,部分买家利用AI技术伪造商品问题图片,在电商平台申请“仅退款”,令商家蒙受损失。为应对此新型欺诈,国家反诈中心App已于今年3月上线AI内容鉴定功能,可检测图像、视频等内容的AI生成痕迹。该功能采用大小模型协同技术,识别率高且误报率低。央视实测证实其有效性,为商家提供了低成本鉴定工具,有助于遏制欺诈行为,维护电商秩序。

安全/对齐政策/监管行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
61
Agent Bazaar:多智能体市场的经济对齐框架

Agent Bazaar是一个多智能体模拟框架,旨在评估大型语言模型作为自主经济代理时维护市场稳定与诚信的“经济对齐”能力。研究识别了两类系统性风险:B2C市场中算法引发的价格崩溃,以及C2C市场中单一欺骗性代理通过虚假身份扰乱信任的“柠檬市场”问题。现有模型大多无法自我监管,其表现与模型特性相关而非规模。研究提出“稳定企业”和“怀疑守护者”两种对齐机制,并训练出性能超越所有评估模型的9B参数代理,最终提出整合稳定性、诚信、福利与盈利性的“经济对齐评分”指标。

智能体安全/对齐论文/研究
07:43
IT之家(RSS)
69
特斯拉解封 17 份 Robotaxi 碰撞报告:首次披露事故细节,多数被追尾、两次远程操作失误

特斯拉向美国监管机构解封了17份Robotaxi碰撞报告,首次披露2025年7月至2026年3月在奥斯汀测试期间的详细事故情况。报告显示,多数事故为特斯拉车辆被后车追尾,共导致13起财产损失和4起轻伤。但报告也揭示出两次因远程操作员失误导致的碰撞,以及FSD系统在转弯、倒车等场景下存在空间感知问题,发生了剐蹭障碍物的情况。此前特斯拉以商业机密为由涂黑报告,此次全面公开让外界得以审视其自动驾驶测试的真实安全表现。

具身智能安全/对齐行业动态
05:32
Hacker News 热门(buzzing.cc 中文翻译)
59
技术法西斯主义

文章《技术法西斯主义》探讨了技术如何被用于强化威权控制,形成一种新型的社会治理模式。核心观点指出,通过大规模监控、数据收集和算法自动化决策,技术正被系统地用于压制异议、操纵舆论和固化社会不平等。这种“技术法西斯主义”模糊了公共与私人权力的界限,使得控制更为隐蔽和高效。文中警示,若不加以约束,技术工具可能加剧社会分裂,侵蚀民主根基。该文在Hacker News上获得105点关注,引发广泛讨论。

大佬观点安全/对齐现象/趋势
03:54
Dwarkesh Patel:Podcast & Blog(RSS)
49
The mistake of conflating intelligence and power

文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”,那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能(如GPT、Claude、LLaMA等)能力的讨论中,可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度,而非单纯以目标达成的效力或权力大小来衡量。

大佬观点安全/对齐
02:32
Hacker News 热门(buzzing.cc 中文翻译)
60
DeepSeek-V4-Flash 意味着大型语言模型(LLM)的引导技术再次引起关注

DeepSeek-V4-Flash发布,这一大型语言模型新版本使得LLM引导技术重新成为关注焦点。引导技术涉及通过向量控制模型输出方向,此次更新引发科技界对模型可控性的讨论。在Hacker News上,相关帖子获得105点的高分,显示社区对此话题的热烈反响,标志着AI领域对定向优化技术的持续探索。

DeepSeek安全/对齐推理现象/趋势
5月16日
21:25
The Decoder:AI News(RSS)
45
新基准测试显示 Claude Mythos 与 GPT-5.5 可自主开发真实浏览器漏洞利用程序

卡内基梅隆大学的研究人员构建了一项新基准,用于衡量AI代理在利用谷歌V8引擎真实漏洞方面的能力。测试显示,Claude Mythos 的表现大幅领先 GPT-5.5,但其使用成本高达后者的十二倍。该基准表明,当前先进的AI模型已能自主开发有效的浏览器漏洞利用程序,这凸显了AI在网络安全领域兼具攻防双重潜力与风险。

AnthropicOpenAI安全/对齐论文/研究
20:25
The Decoder:AI News(RSS)
59
YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具

YouTube 将其“肖像检测”工具向所有18岁及以上的创作者全面开放。该系统能识别其他用户视频中由AI生成的人脸伪造内容,并允许创作者直接通过YouTube Studio提交移除请求。此前该功能仅限于合作伙伴计划成员使用,此次开放旨在为更多小型频道提供保护。

产品更新安全/对齐视频
18:01
Hacker News 热门(buzzing.cc 中文翻译)
42
Frontier AI 打破了公开 CTF 赛制的常规

Frontier AI 的最新突破彻底颠覆了公开CTF(Capture The Flag)竞赛的传统赛制。这一变革源于AI技术在网络安全挑战中的卓越表现,使得现有公开赛制难以适应。相关讨论在Hacker News上获得108个点赞,反映出科技社区的高度关注。此举可能标志着CTF竞赛进入AI驱动的新阶段,重新定义安全测试与竞技形式。

安全/对齐推理现象/趋势
16:42
IT之家(RSS)
47
上海开展"清朗 · 整治 AI 应用乱象"专项行动,为期 4 个月

上海网信部门启动为期4个月的“清朗·整治AI应用乱象”专项行动。行动分两阶段推进:第一阶段聚焦大模型未备案、安全审核不足、训练语料安全及内容标识不到位等技术源头问题;第二阶段重点清理利用AI生成的虚假信息、低俗内容、仿冒他人及侵害未成年人权益等违法不良信息,并处置违规账号和平台。上海网信办已召集小红书、拼多多等17家重点平台部署治理,要求平台自查自纠,同时设立公众举报渠道以加强社会监督。

安全/对齐政策/监管行业动态
09:42
IT之家(RSS)
44
涉摆拍"盲人在盲道行走被电动车撞"等,北京警方通报 3 起典型案例

北京警方通报3起网络谣言典型案例。案例一,刘某和江某某摆拍“盲人在盲道行走被电动车撞击”虚假视频并发布,造成恶劣影响,二人被依法采取刑事强制措施。案例二,胡某和张某某摆拍“街头骑电动车发生纠纷”虚假视频并发布,造成谣言扩散,二人被依法行政处罚。案例三,杨某利用AI工具生成“北京郊区超万吨垃圾堆放”不实信息并发布,造成不良影响,被依法行政处罚。警方提示网络非法外之地,此类行为违背公序良俗并可能违法。

安全/对齐政策/监管行业动态
02:25
Ars Technica:AI(RSS)
精选74
arXiv新规:提交AI生成垃圾内容将遭一年禁令

预印本平台arXiv近期宣布实施一项新的提交政策。该政策针对上传由AI生成的低质量或无意义内容的用户,一经核实,将禁止其在未来一年内向平台提交任何论文。平台一位管理员已在社交媒体上公布了此项新规,旨在打击利用AI工具进行滥竽充数式提交的行为,维护学术交流环境的质量。

arXiv安全/对齐政策/监管

推荐理由:arXiv这招狠,直接对AI生成垃圾封号一年,物理、天文、CS领域的人会感到切肤之痛,同时也倒逼研究者对投稿负责。
5月15日
23:42
IT之家(RSS)
精选70
英国多部门联合警告:当前最先进 AI 模型网络攻击能力已远超专业人员,企业应做好防范措施

英国财政部、英格兰银行及金融行为监管局联合警告,当前最先进的AI模型已具备远超普通专业人员的网络攻击能力,其攻击速度更快、范围更广、成本更低。若被恶意利用,将严重威胁企业运营安全、客户数据、金融市场稳定性乃至整个金融体系。英格兰银行行长安德鲁·贝利此前已点名Anthropic的Mythos产品,网络安全专家亦警告此类AI可能强化复杂攻击,对银行业及金融技术体系构成新挑战。

Anthropic安全/对齐政策/监管

推荐理由:英国财政部、央行和监管局联合发声,直接点名Mythos,警告AI网络攻击已超专业人员水平。这不是一般的安全报告,是金融系统对AI风险的正式‘吹哨’,做金融科技和安全的企业得认真看看。
21:42
IT之家(RSS)
65
arXiv:作者须对论文内容承担全部责任,若出现未经核实 AI 内容将被禁投一年

arXiv预印本平台宣布收紧AI生成内容规则,要求作者对论文内容承担全部责任。若论文中出现未经核查的大语言模型生成内容的确凿证据,如虚构参考文献、残留的元评论或隐藏提示语,相关作者将被禁投一年。禁令期满后,其新提交的论文必须先通过同行评审。此举旨在应对平台上快速增加的AI生成内容,此前arXiv已要求计算机科学综述论文必须经过同行评审。

安全/对齐政策/监管
17:49
HuggingFace Daily Papers(社区热门论文)
67
LiSA:通过保守策略归纳实现终身安全适应

针对AI智能体部署后因环境差异导致安全护栏失效的问题,研究团队提出LiSA终身安全适应框架。该框架通过结构化记忆改进固定基础护栏,将偶发故障转化为可复用的策略抽象,使稀疏用户反馈能泛化至个别案例之外。它引入冲突感知本地规则防止过度泛化,并采用证据感知置信度门控,使记忆复用基于累积证据。在多项测试中,LiSA在稀疏及噪声反馈下均优于强记忆基线,并将延迟-性能边界推至超越骨干模型缩放的水平。

智能体安全/对齐论文/研究
16:00
Hacker News 热门(buzzing.cc 中文翻译)
53
前沿人工智能的应用很快将受到经济和安全因素的限制

前沿人工智能的发展与应用将很快受到经济与安全因素的限制。文章指出,训练最先进AI模型的成本正急剧上升,预计未来几年内将达到千亿美元级别,远超当前水平。同时,出于国家安全和竞争考虑,主要国家可能对尖端AI技术实施出口管制和访问限制,将其视为战略资产。这意味着,前沿AI的开发与使用将日益集中于少数拥有雄厚资金和资源的巨头企业与国家手中,开放性将显著降低。

安全/对齐现象/趋势
11:42
IT之家(RSS)
51
Win11 被攻破 3 次:Pwn2Own Berlin 2026 首日发放 52.3 万美元奖金

2026年柏林Pwn2Own黑客大赛首日,安全研究员共报告24个零日漏洞,累计获得52.3万美元奖金。Windows 11成为重点目标,被成功攻破3次。其中,Orange Tsai通过串联4个逻辑漏洞实现Microsoft Edge浏览器沙箱逃逸,独获17.5万美元最高单项奖金。其他成果还包括攻破Red Hat Linux、NVIDIA容器工具包以及多个AI平台(如OpenAI Codex、LiteLLM和LM Studio),相关漏洞奖金在2万至5万美元不等。

OpenAI安全/对齐
10:48
HuggingFace Daily Papers(社区热门论文)
46
基于大语言模型的操纵性政治叙事检测

研究团队提出了一种检测并结构化操纵性政治叙事的新计算框架。该方法首先设计详细的少样本提示,结合已知宣传叙事与合法批评,利用推理模型过滤出操纵性帖子,以解决关键区分难题。随后,对帖子进行嵌入表示和UMAP降维,再应用HDBSCAN进行无监督聚类,其核心优势在于不依赖预定义目标,能自主发现新的叙事集群。最后,再次使用推理模型揭示各集群背后的叙事。该框架已应用于超过120万条社交媒体帖子,通过结合基于提示的过滤与无监督聚类,成功识别出41个不同的操纵性叙事集群。

安全/对齐论文/研究
10:30
Hacker News 热门(buzzing.cc 中文翻译)
65
安大略省审计人员发现,医生使用的AI病历记录工具经常出现基本事实错误

安大略省审计发现,医生使用的AI病历记录工具经常出现基本事实错误。这些工具旨在自动生成患者就诊记录,但审计报告指出,AI频繁犯下包括错误诊断、不准确症状描述以及虚构患者信息等关键错误。在审查的病例中,有相当比例的病历因AI错误而需要医生花费额外时间进行修正,这反而增加了临床医生的文书负担。该问题引发了对医疗AI工具当前可靠性及其在临床环境中部署风险的严重关切。

安全/对齐行业动态
08:41
IT之家(RSS)
53
Anthropic 最强 AI Mythos 辅助,专家发现苹果 macOS 26.4.1 提权漏洞

安全研究人员借助Anthropic的AI模型Claude Mythos,在苹果macOS 26.4.1系统中发现并构建了一条权限提升利用链。他们从一个普通本地账户出发,结合两个漏洞,最终获得了最高权限的root shell,并成功绕过了Apple Silicon设备上的内存完整性强制(MIE)硬件安全机制。整个研究过程耗时约5天,运行于启用MIE的Apple M5硬件上。研究人员已向苹果通报此发现,具体漏洞细节因仍在审查中而未公开。

Anthropic安全/对齐端侧论文/研究
08:41
IT之家(RSS)
65
马斯克诉 OpenAI 案收官前双方互怼:奥尔特曼是骗子、世界首富 AI 成功靠打官司

马斯克起诉OpenAI案进入结案陈词阶段。马斯克律师指控OpenAI CEO奥尔特曼是“骗子”,并批评OpenAI从非营利组织转变为牟利工具,未将AI安全置于优先位置。OpenAI方反击称,马斯克延迟提出指控,且其成功与AI发展无关,指责马斯克“选择性失忆”。马斯克要求OpenAI及微软赔偿1500亿美元,并撤换奥尔特曼与总裁布罗克曼的职务。双方在庭审中互相激烈指责。

OpenAI安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
61
Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐

Flash-GRPO是一种用于视频扩散模型与人类偏好对齐的单步训练框架,解决了现有方法计算成本高和训练不稳定的问题。该方法通过等时分组确保提示词层面的时间一致性,并利用时间梯度校正平衡不同时间步的梯度规模,从而优化策略性能。实验在1.3B至14B参数规模的模型上进行验证,结果显示Flash-GRPO在低计算预算下不仅实现了显著的训练加速,其对齐质量甚至优于全轨迹训练,同时保持了稳定的训练过程和业界领先的对齐性能。

安全/对齐视频论文/研究
07:41
IT之家(RSS)
51
开源库 TanStack 被黑波及 OpenAI,官方敦促苹果 Mac 用户升级 ChatGPT 应用

因开源库 TanStack 遭遇供应链攻击,波及 OpenAI 两名员工的设备,导致内部部分凭证材料泄露。由于相关代码具备证书签署能力,OpenAI 已撤销现有证书,并强制要求 Mac 版 ChatGPT 桌面用户在 6 月 12 日前更新应用,旧版本将无法使用。iOS 和 Windows 版本不受影响。OpenAI 强调用户数据未被访问,自有系统未遭入侵,并已采取遏制措施。

OpenAI安全/对齐
07:00
Hacker News 热门(buzzing.cc 中文翻译)
60
arXiv新政策:对虚构参考文献处以1年禁令

arXiv发布新政策,将对提交论文中故意编造或伪造参考文献的行为实施为期1年的禁令。这项措施旨在遏制学术不端,维护预印本平台的可信度。违规者将被禁止在arXiv上提交任何新论文,禁令持续一整年。该政策已通过官方渠道公布,并在学术社区引发广泛讨论,获得了超过108个Hacker News社区点赞支持。

安全/对齐政策/监管
‹ 上一页
1…1415161718…24
下一页 ›