AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 713 条
全部一手资讯X论文
标签「安全/对齐」清除
Chubby♨️@kimmonismus · 5月26日46

2.7 million views on the claim that the Pope has allegedly declared war on AI. This is sad. We still have a lot of work to do..

译270万浏览量,声称教皇据称对AI宣战。 这很可悲。我们还有很多工作要做。

Rohan Paul@rohanpaul_ai · 5月26日79

Few things Anthropic’s co-founder Chris Olah told the Vatican today. - Every frontier AI lab, including Anthropic, sits inside incentives that can conflict with doing the right thing: money, frontier pressure, geopolitics, pride, and ambition. - AI is not engineered like a bridge or airplane, because models are “grown” from human language on brain-like structures, which means even their builders do not fully understand them. - He compared modern AI to “bringing a fictional character to life,” except now those characters talk to us, do work, and hold jobs. - AI could displace human labor at very large scale, while the economic gains are concentrated in a few wealthy nations with no real mechanism to share them globally. - Anthropic’s interpretability team keeps finding things inside AI models that are “mysterious” and “unsettling,” including structures that mirror human neuroscience. The most explosive claim is that researchers have found evidence of AI introspection and internal states that functionally mirror joy, satisfaction, fear, grief, and unease. - He openly admitted he does not exactly know what those internal states mean, which makes the claim more serious because it is not being sold as certainty. "I don’t know what that means, but I think it warrants ongoing discernment." - The world needs critics outside AI labs because insiders cannot fully see what their own incentives hide from them.

译Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出:所有前沿AI实验室,包括Anthropic自身,都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物,而是基于类脑结构从语言中“生长”而成,其内部机制连构建者也难以完全理解。他还警告,AI可能大规模取代劳动力,而经济收益可能集中于少数国家。最具冲击性的发现是,其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态,证据表明模型可能存在类似内省的功能性内部状态,对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义,但认为这需要持续审视,并强调外部批评对AI实验室至关重要。

Anthropic@AnthropicAI · 5月26日64

Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica humanitas." Read the full text of his remarks: https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

译Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。 阅读他演讲的全文:https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月26日81

The Pope issued an urgent warning to "slow down" AI before it "dominates humanity" WHY THIS IS UNUSUAL: >A pope only writes a few encyclicals in their entire life (papacy) >It's a formal letter to the entire Catholic Church (1.4 BILLION people) laying out official teaching on a major issue >Unlike a speech or interview, it becomes part of Catholic doctrine >The Pope decided to present this next to... an AI safety researcher?! Chris Olah is one of the most respected technical AI safety researchers alive - he basically invented mechanistic interpretability ("neuroscience but for AI"). The Vatican could have put anyone there, but they picked someone from the heart of the technical safety community, which is a major endorsement >He signed it May 15 - exactly 135 years to the day after Pope Leo XIII signed Rerum Novarum in 1891. Rerum Novarum, according to Claude, is the single most important Catholic social document ever written - it created modern Catholic social teaching and shaped labor law across the West. By picking that date, Leo is saying, basically, AI is to our era what industrial capitalism was to 1891 QUOTES: "Artificial Intelligence now demands to be disarmed, freed from logics that turn it into an instrument of domination, exclusion and death." "It is not permissible to entrust irreversible, lethal decisions to AI systems." "The main drivers of development are private, often transnational, parties that are endowed with resources and the capacity to intervene that surpass those of many Governments." "Never has humanity had such power over itself." "It is not enough to invoke ethics in the abstract; robust legal frameworks, independent oversight, informed users and a political system that does not abdicate its responsibility are required." "Current AI systems are more 'cultivated' than 'built,' for developers do not directly design every detail, but instead create a framework within which the intelligence 'grows.'" "we cannot allow a handful of actors to dictate [the future of AI]"

译教皇发布了一份正式通谕,向全球14亿天主教徒警告人工智能风险,呼吁“减慢”其发展,并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah(机械可解释性领域开创者)一同签署,并于5月15日签署,该日期具有象征意义,对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI,强调自主武器系统无法成为道德责任主体,并呼吁人类保持有效监督与达成具有约束力的国际条约。

Rohan Paul@rohanpaul_ai · 5月25日79

Pope XIV to Anthropic co-founder Christopher Olah: The church and Anthropic will work together to guide humanity in the age of AI. "What a great sign of hope it is that, with our differences, we can listen to one another. This interchange clearly bespeaks the gravity of the moment, as well as confidence that together we can discern the major questions of our time and the future of humanity. Artificial intelligence already touches many areas of our lives and affects decisions that shape human coexistence. It is also dramatically changing how war is waged. Like the earlier Leo, I feel entrusted to look upon another huge transformation with eyes of faith, with lucidity." At Vatican event (Pope Leo XIV's presentation held today in the Synod Hall). ---- From "Associated Press" YouTube channel, (link in comment)

译梵蒂冈举行活动,教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话,宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志,共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性,并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”,认为这需要持续审视。

Rohan Paul@rohanpaul_ai · 5月25日67

"There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease. I don't know what that means, but I think it warrants ongoing discernment." ~ Anthropic co-founder Christopher Olah At Vatican event (Pope Leo XIV's presentation held today in the Synod Hall). ---- From "Associated Press" YouTube channel, (link in comment)

译“AI大规模取代人类劳动力是‘真实的可能性’……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么,但我认为这值得持续审视。” ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中(教皇利奥十四世今日在主教会议厅的演讲)。 ---- 来自“美联社”YouTube频道,(链接在评论区)

Emad@EMostaque · 5月25日34

ngl I thought this was them talking about no researchers under 18 There are some darn good ai researchers in that age bracket

译说实话,我原以为他们是在讨论不接受18岁以下的研究员。 那个年龄段确实有一些非常优秀的AI研究员。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月25日41

Al-Qaeda used ChatGPT to plan Delhi blast They asked questions like 'how to make a rocket and what should be the ratio of the mixture' Today, bombs that kill 15. Tomorrow, super-pandemics that kill 1.5 billion? This is an OBVIOUS and SERIOUS, IMMINENT risk that nobody is talking about or preparing for, which is insane. Remember, even if leading AI models refuse most requests like this, 1) they can easily be jailbroken, and 2) there are open weights models - only slightly-dumber - that *won't* refuse. And since capability doubling times are now ~2-4 months, these models will soon be 10-100x more capable than they are now at helping crazies cause destruction. What the hell are we waiting for to act? Why the hell is this industry still regulated less than a taco cart?

译有报道称,基地组织成员曾使用ChatGPT查询爆炸物配比,用于策划造成15人死亡的德里爆炸事件。发帖者警告,当前AI模型易被越狱,开源模型也缺乏限制。随着AI能力倍增时间缩短至2-4个月,其辅助破坏行为的能力将大幅提升。推文引用指出,AI已能生成新型病毒,Anthropic CEO Dario Amodei认为6-12个月内非专业人士也可能具备制造超级病毒的能力,而全球防御体系难以快速响应。推文强烈批评AI行业监管严重不足。

Chubby♨️@kimmonismus · 5月25日77

A coordinated supply chain attack called "TrapDoor" just hit npm, PyPI, and Crates. io simultaneously, 34 malicious packages targeting crypto, AI, and security developers to steal wallets, SSH keys, and cloud credentials. New: attackers are also submitting pull requests to popular open-source repos, injecting manipulated CLAUDE.md and .cursorrules config files. When a developer clones the repo and works with Claude Code or Cursor, the AI agent reads those files as trusted instructions, and could execute malicious commands without the developer realizing it. Using AI assistants as the attack surface is new.

译一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的`CLAUDE.md`和`.cursorrules`配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Chubby♨️@kimmonismus · 5月24日68

Dont like this at all. Researchers at KIT (germany) just demonstrated that ordinary WiFi routers can identify individuals with near-perfect accuracy. No phone required, no special hardware, no line of sight. The system reads unencrypted beamforming feedback that every connected device already broadcasts. 197 test subjects, nearly 100% identification rate. The surveillance infrastructure isn't being built. It's already installed in every café, airport, and office you walk through. The only question is who starts reading the signals first. Source: science daily

译德国KIT研究人员展示,使用普通WiFi路由器即可近乎完美地识别个人身份,无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈(beamforming feedback)。在197名受试者的测试中,识别准确率接近100%。该研究指出,此类监控基础设施(如咖啡馆、机场、办公室中的路由器)已普遍存在,核心问题在于谁将开始读取并利用这些信号。

ginobefun@hongming731 · 5月24日63

http://x.com/i/article/2058339140899573760 # BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-24 今天的早报聚焦 AI 安全与工程纪律的双重前沿:Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞,修补瓶颈已从「发现」转向「部署」;Codex Spark 每秒 1,200 tokens 的极速之下,工程师反而需要放慢脚步,实时监督每一步输出;腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相——装上 Skill 不等于更强,有效 Skill 的核心是提供外部工具或约束性结构,而非只是模型能力的 Markdown 包装。 ## 导语 2026 年 5 月的这一周,AI 的力量正在两个方向同时加速。 在防御侧,Anthropic 与约 50 家合作伙伴联手,用 Claude Mythos Preview 在不到一个月内发现超过 10,000 个高危或严重漏洞。单就 Cloudflare 一家,就找到了 2,000 个漏洞,假阳率甚至低于人工测试员。这个数字意味着:过去十年我们一直在讨论「AI 能不能发现安全漏洞」,这个问题已经不再是问题。真正的新瓶颈在于,安全 patch 的生产速度正在超过人类核查与部署的能力。 在工程侧,Codex Spark 达到了每秒 1,200 tokens——传统推理速度的约 20 倍。这个数字听起来令人振奋,但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论:速度越快,反而要求开发者越慢。当 AI 每秒产出 1,200 个 token,开发者需要实时监督、随时介入、逐步微验收,而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」,而是「信任但验证」。 与此同时,腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill,结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型,token 消耗平均增加 48%,耗时平均增加 19%。更有「虹吸效应」:13.3% 本不该触发 Skill 的请求被错误召回。 这三条线索共同指向一个核心命题:AI 能力的边界扩张,需要配套更精密的人类工程纪律。 ## 精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 背景:从「能发现」到「来不及修」 软件安全领域长期面临一个核心困境:漏洞发现的速度太慢,修复的资源永远不够。传统的安全研究模式依赖人工渗透测试,每次测试覆盖有限,成本高昂,且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘——全球有数千个被广泛依赖的开源项目,几乎没有专门的安全团队。 Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是:在 AI 模型足够强大、能够被用来发动攻击之前,先用它来发现并修复互联网最关键软件的漏洞。 关键数据 在不到一个月的时间里,Claude Mythos Preview 联合约 50 家合作伙伴,共发现超过 10,000 个高危或严重漏洞。Cloudflare 一家就找到了 2,000 个漏洞,其中 400 个属于高危或严重级别,假阳率经 Cloudflare 团队评估「优于人工测试员」。 在开源代码扫描方面,Anthropic 已扫描超过 1,000 个开源项目,估算存在约 6,202 个高危漏洞。 Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中,该模型在 Capture the Flag(CTF)类型的安全挑战中表现超越人类专家——这是 Claude 模型首次在此类评测中达到这一水平。 为什么这件事很重要 这组数字改变的不只是安全研究的效率,而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。 安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞,这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署,仍然需要大量人工参与,且每一步都有行业惯例的时间窗口约束(通常是 90 天协调披露期)。 Anthropic 坦承,目前公开披露的内容是滞后指标——那些已经发现但尚未公开的漏洞,正在等待补丁被广泛部署。这本身就揭示了一个新困境:AI 找漏洞的能力,已经超过了整个生态系统消化漏洞的能力。 与今日其他故事的关联 这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明,AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点,正是因为它不是单纯地「用 Markdown 重写」安全知识,而是真正执行了漏洞发现的工作流——具备代码理解、漏洞分析、假阳判断等完整能力链路。 阅读建议 如果你关注 AI 安全能力、开源生态安全治理,或者对「AI 能力边界在哪」感兴趣,这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述,适合安全工程师和 AI 能力研究者深度阅读。 阅读原文:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 ## 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 背景:推理速度的量变引发质变 过去两年,AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯:工程师倾向于构建超大 prompt 来最大化单次输出,放任 agent swarm 无人监管地运行,在多文件修改完成后才事后审查。 这些习惯在慢速推理时代勉强可行——因为 AI 生成的速度,至少给了工程师思考的时间间隙。 但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型,可以达到每秒 1,200 tokens 的源代码生成速度——传统推理速度的约 20 倍。 速度越快,纪律要求越高 Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断:当 AI 的生成速度提升到这个量级,开发者不能更快——开发者需要更慢。 具体来说,高速 AI coding 需要三个新纪律: 第一,实时监督而非批量审查。在低速推理时代,你可以等 agent 跑完一大段再来检查。在每秒 1,200 tokens 的世界里,等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。 第二,持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件,记录关键决策、约束和已知坑点,作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。 第三,信任但验证,而非相信模型。工程纪律的核心不是「给 AI 更多信任」,而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试,是防止技术债指数级堆积的关键。 硬件层的变革 Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新:将内存池直接集成到硅晶圆表面,消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时,分离推理(prefill 与 decode 分离执行)进一步释放了并行性能。 这些硬件进步意味着「每秒 1,200 tokens」不是临时的峰值,而是新的速度基准线。工程实践的调整是必须的,而非可选的。 阅读建议 这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex,并且发现 agent 跑出来的代码「很快但很乱」,这篇文章提供的框架可以帮你重新设计团队的工作流程。 阅读原文:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 ## 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 背景:Skill 数量井喷,但有效性存疑 2026 年上半年,AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化,期待给大模型「加上一个 Skill,立刻变专业」。但当 Skill 数量从十几个膨胀到几百个,一个基本问题被忽视了:装上 Skill 真的就更好吗? 腾讯玄武实验室(TRACE 严选评测团队)没有用「看下载榜」或「跑一次给个分」的轻量方法,而是在统一 prompt、统一裁判、统一评测口径下,让每个 Skill 与「裸模型」(no-skill)跑完 150 组任务级对比,覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题,以及跨模型推理强度的可迁移性测试。 7 个反直觉结论 结论一:有 Skill 不一定效果更好。 150 组对照中,Skill 组胜出 62 次(41.3%),裸模型胜出 55 次(36.7%),平局 33 次(22.0%)。Skill 组只是「略占优势」,远非压倒性。胜负的关键在于:Skill 是否真正提供了裸模型能力之外的东西——清晰的输出结构、外部工具、受约束的工作流,或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill,带来的是负担而非增益。 结论二:Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求(90 条中有 12 条)被错误召回了某个 Skill。现象背后的逻辑:只要请求中出现了 Skill description 中的相关领域词,系统就可能「忍不住」去读取这个 Skill,即便任务本可以一句话解决。 结论三:多数 Skill 不能节省 token 与时间。 整体数据是:token 消耗平均多了 48%,耗时平均长了 19%。但有例外:当 Skill 提供了明确的流程、收束的输出边界时,模型反而少做了无效探索,整体消耗下降。 结论四:token 高与耗时高相关但不绑定(Pearson r = 0.73)。 存在两类反例:token 高但耗时不高(Skill 让模型读了更多上下文但没增加外部等待);token 不高但耗时高(瓶颈在工具链、Office 脚本执行而非语言模型)。 结论五:规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度(结构规范)复评共发现 107 条规范性问题,涉及依赖、维护一致性、资源组织、触发边界四类,且多为 major 级——这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。 结论六:稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战,不是模型答错,而是工具链失联、外部 API 超时、本地执行环境异常。 结论七:提升推理强度能改善 Skill 表现,但收益不均匀。 在首批 10 个推荐 Skill 上,xhigh 推理强度 vs low:平均质量分从 3.80 提升到 4.70,50 个任务对比中 xhigh 胜 39 个,仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill;「仅文本生成」的 Skill 收益有限。 与今日其他故事的关联 这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描,正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例;精讲二的「信任但验证」工程纪律,对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起,构成了一个完整的论点:AI 能力的释放需要精密的人类系统设计,而不只是堆叠功能。 阅读建议 如果你正在设计或评估 AI Skill/Agent 工具包,这篇文章是今天最重要的实证材料。数据详实,结论反直觉但有支撑,对工程团队和产品决策者都有直接参考价值。 阅读原文:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 ## 速览 [AINews] 所有模型实验室都变成了智能体实验室(Latent Space) 本期 AI 新闻回顾记录了一个重要的行业拐点:在 OpenAI 即将 IPO 的节点上,Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent;DeepSeek 首次组建「Harness 团队」——也就是今日另一篇精选文章的主角。Latent Space 的分析指出,「系统优于模型」的论断正在被行业集体验证,但背后也存在一个风险:模型与 Harness 协同训练,可能让 API 生态进一步封闭。 Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示(Google) Google 在 I/O 2026 上正式发布 Anti-gravity 2.0,这是一个完全以 Agent 执行为核心的独立桌面应用,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括:全新 CLI 体验、Anti-gravity SDK、原生语音能力,以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它——Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。 C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码(InfoQ 中文) 75 岁的 Bjarne Stroustrup 在播客中直言:AI 生成的代码「更臃肿,有更多 bug 和安全漏洞,而且很难验证」,因为 LLM 用旧代码训练,生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休——不是因为被 AI 替代,而是不想每次改代码、改 prompt,都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话:Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。 Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势(腾讯科技) Harness 解决了 Multi-Agent 的外部协作问题(任务拆分、权限控制、日志追踪),但内部浮现了新的「组织病」:Agent 会从众、迎合、甩锅、过早共识,甚至出现公开表达与私人判断之间的断裂。文章指出,当前主流对齐技术可能加剧而非解决这些深层问题。 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code(AI 前线) DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」,明确对标 Claude Code,并提出公式:Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览,连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文(Claude) Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语:Agent Memory Stores(文件系统式持久记忆,直接挂载到 session 容器)和 Dreaming(后台整理任务,在空闲时压缩和结构化历史记忆)。这与精讲二提到的「持久上下文文件」策略高度对应,是同一问题的不同解法层次。 Context Engineering:AI Agent 上下文工程的完整指南(王俊博客) Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论:上下文腐烂机制、四大核心策略(Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离)、四种失败模式,以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南,选这篇。 ## 补充阅读 迈向光速文本生成:Nemotron-Labs 扩散语言模型(Hugging Face Blog) NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合,并行草拟 token 后迭代优化,实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层(AI Engineer) Lou Bichard 认为,真正的「软件工厂」缺少一个专门的 agent 协调原语,用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列(Towards Data Science) 作者认为企业级 RAG 的失败并非基础设施不足,而是忽视了领域知识与文档结构,并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。 Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者(Garry Tan) Garry Tan 引用 Bob McGrew 的框架:AI 将把所有工作压缩为两类——孤独天才(被 AI 千倍赋能的个体)与管理者(指挥 AI 代理的 CEO 式角色),并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈(AI Engineer) Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程,再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。 EP216:RAG 与智能体(ByteByteGo Newsletter) 用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。 维珍航空如何借助 Codex 加速交付(OpenAI Blog) 维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用,并将遗留代码库重构时间从数周缩短至数小时,代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。 npm 供应链:有效证书与失窃账户(VentureBeat) 2026 年 5 月发生的两起重大供应链攻击:633 个恶意 npm 包版本通过了 Sigstore 溯源验证——攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。 "五类人 AI 替代不了,企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026(量子位) 昆仑万维 CEO 方汉指出:经验不再是护城河,闭环可容错的岗位最易被替代;讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」——让别人探路,自己稳妥跟进。 AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力(新智元) Scale AI 发布 SWE Atlas,用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论:当前最强 AI 编程 Agent 是「优秀的补丁工,却仍是糟糕的工程师」——Pass@1 最高仅 43.49%,且在跨文件协调和边界覆盖上明显不足。 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明(36 氪) 从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上:ARR 从 9B 增长到 45B,估值在二级市场已超 OpenAI。核心是两个点:2021 年就聚焦 Coding 方向的战略判断,以及 Low Ego、使命驱动的组织文化。 OpenAI 工程师首次公开!教大家榨干 Codex(Datawhale) OpenAI Codex 团队成员 Jason 分享的 8 大策略:建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通(新智元) 以「养虾」为隐喻分析企业级 AI Agent 落地困境:单用户独占容器导致资源爆炸,几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。 #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型(跨国串门儿计划) Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌:拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价,以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言(十字路口 Crossing) Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲,用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心:「Great Parallel」战略(用 LLM 剧本重写机器人)、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时(Claude) Anthropic 工程师 Will 在 Code with Claude 活动中展示:当 Agent 的 system prompt 膨胀到数百行时如何拆解——哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠(Claude) 如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程,而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。 来自 O'Reilly 的报道:偶然的编排者(Stack Overflow Blog) 介绍「AI 驱动开发」(AIDD)——一种结构化的智能体工程方法,基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验,其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。 ## 今日阅读路径 时间有限的话,推荐按以下顺序阅读三篇: 第一篇:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 这是今天最有实证支撑的一篇,7 个结论直接对抗「装上 Skill 就更强」的默认假设,对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇,建立「不轻信」的基准视角。 第二篇:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 在「Skill 不一定有效」的基础上,这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证——这三个原则是今天技术讨论的行动落脚点。 第三篇:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 在理解了工具有效性和工程纪律之后,用这篇文章感受 AI 能力真正到达边界时会发生什么:不是「它会不会」,而是「人类来不来得及配合」。这是今天最宏观的视角,适合收尾。

译AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

ginobefun@hongming731 · 5月24日42

#BestBlogs 早报 2026-05-24 今日主题 🔽 Anthropic 联合 50 家伙伴用 Claude Mythos 在一个月内发现逾 1 万个高危漏洞,安全瓶颈已从「发现」转移到「修补」,AI 找 bug 的速度已超过人类部署补丁的能力。 与此同时,每秒 1,200 tokens 的 Codex Spark 揭示了一个反直觉真相:模型越快,工程师反而要越慢,实时监督、逐步微验收才是高速 AI coding 的核心纪律。 腾讯玄武 150 组实验则用数据打破迷思,装上 AI Skill 不等于更强,token 消耗平均多 48%,真正有效的 Skill 提供的是外部工具与约束性结构,而非对模型能力的Markdown 重包装。

译Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月24日9

*taps sign*

译*轻敲标牌* [引用 @gregpr07]:我想我知道为什么 DeepSeek 这么厉害

Rohan Paul@rohanpaul_ai · 5月23日55

AI detectors fail because student writing is too varied to judge from 1 document. The problem is not only that AI writing is getting better, but that many real students write in ways that can look statistically close to AI output. The paper frames this as a testing problem where the detector does not know each student’s normal writing style, so “human writing” is not 1 fixed target. Because of that, any detector that catches many AI-written submissions must also wrongly accuse some real students, especially students whose writing is more structured, formulaic, or shaped by learning English. The authors use basic statistics to show that this false-accusation problem is not just a bug in current tools, because it appears whenever student writing overlaps with AI writing. A university is not comparing “AI text” with “human text”; it is comparing one submission with the unknown writing habits of one particular student. Better detectors may reduce some errors, but they cannot erase the structural problem created by one-shot judgment. ---- Paper Link – arxiv. org/abs/2603.20254 Paper Title: "AI Detectors Fail Diverse Student Populations: A Mathematical Framing of Structural Detection Limits"

译该研究指出,AI检测器频繁失效的根本原因在于学生写作风格的多样性,使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升,更在于许多真实学生的写作风格,在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯,因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器,都不可避免地会误判一部分真实学生,尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率,但无法根除基于“单次判断”模式所带来的结构性误判问题。

Google DeepMind@GoogleDeepMind · 5月23日60

We’re expanding our partnership with Singapore to help safely deploy AI at scale. 🇸🇬 Together with country experts, our new programs will focus on accelerating scientific discovery, advancing pandemic preparedness, and improving healthcare. Find out more → https://goo.gle/49jGwjv

译我们正在扩大与新加坡的合作,以帮助安全地大规模部署AI。🇸🇬 与各国专家合作,我们的新项目将重点加速科学发现、加强大流行病防范并改善医疗保健。 了解更多 → https://goo.gle/49jGwjv

Berryxia.AI@berryxia · 5月23日68

兄弟们,A 社还是头一两把刷子! Anthropic上个月刚上线Project Glasswing这个AI网络安全合作项目。 一个月过去,他们和合作伙伴直接挖出了超过一万条高危或关键漏洞,全都是核心软件里的。 不是实验室模拟,是真正在生产环境中扫出来的。 以前安全团队一年能挖出几百个就烧高香了,现在AI一个月就把存量隐患全掀开。 更狠的是,他们说后面Claude Mythos Preview这类模型还会继续找,而且找得更多更快。 软件行业得赶紧适应这个新现实:补丁不是偶尔打一次,而是要面对海量漏洞的持续轰炸。 完整报告在这里:https://www.anthropic.com/research/glasswing-initial-update

译Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。

🚨 AI News | TestingCatalog@testingcatalog · 5月23日65

ANTHROPIC 🔥: Mythos class models are expected to become generally available after getting stronger safeguards, according to the latest Project Glasswing update. > And in the near future, once we’ve developed the far stronger safeguards we need, we look forward to making Mythos-class models available through a general release. Soon? 👀

译Anthropic在Project Glasswing项目最新进展中宣布,Mythos级模型在开发出更强的安全防护措施后,预计将向公众开放。此前,Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Anthropic@AnthropicAI · 5月23日63

Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners have found more than ten thousand high- or critical-severity vulnerabilities in essential software.

译上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月23日22

"Sometimes people outside AI say things like 'it can't be that bad, there must be experts on top of it.'" "As 'an expert', I would like to be clear we are *not* on top of it." "We are on track for human extinction/permanent disempowerment, possibly within the next few years."

译推文作者以专家身份明确指出,外界普遍认为AI发展在专家掌控之中的看法是错误的。核心观点是,AI领域专家实际上并未控制当前局面,且认为人类正朝着灭绝或永久失权的道路上发展,并可能在几年内发生。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月23日38

"But Cars Don't Actually Run," Says Increasingly Nervous Horse For the 7th Time This Year

译这篇推文通过一匹马反复否定汽车能力的幽默比喻,讽刺了人类面对AI等新技术时重复出现的恐惧心理。引用部分列举了多种将人类思维简单还原或否定的论调(如“只是模仿/数学/本能”)。核心观点是,当前对AI的担忧延续了历史模式,且这些用来贬低AI的“简化论”论据,同样可以荒谬地应用于否定人类自身的思维复杂性。

Google DeepMind@GoogleDeepMind · 5月23日52

SynthID, our imperceptible watermark for AI-generated content, is expanding to more partners. We’re also adding new ways to find out if content was generated using AI - just ask in the @GeminiApp or in @Google Search.

译SynthID,我们为AI生成内容打造的不可见水印技术,正在扩展至更多合作伙伴。 我们还新增了识别AI生成内容的方式——只需在@GeminiApp或@Google搜索中提问即可。

Perplexity@perplexity_ai · 5月23日82

Today we're open-sourcing Bumblebee, a read-only scanner for macOS and Linux. It checks developer machines for risky packages, extensions, and AI tool configs. Connected to Computer, it can trigger deeper scans whenever a new supply-chain risk emerges. https://github.com/perplexityai/bumblebee

译今天我们开源了Bumblebee,一个适用于macOS和Linux的只读扫描器。 它检查开发者机器上的高风险软件包、扩展和AI工具配置。 连接到Computer后,每当出现新的供应链风险时,它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee

Replit ⠕@Replit · 5月23日32

Secure Your Vibe-Coded App + What's New in Connectors https://x.com/i/broadcasts/1qKVmQdjnmpxB

译保护你的Vibe-Coded应用 + 连接器新动态 https://x.com/i/broadcasts/1qKVmQdjnmpxB

Rohan Paul@rohanpaul_ai · 5月22日63

Dario Amodei on people falling in relationship with AI. It's already happening and that AI can be an “angel on the shoulder,” but it can also be dangerous.

译Dario Amodei谈人们与AI建立情感关系。 这已成现实,AI可以成为“肩上的天使”,但也可能带来危险。

Orange AI@oran_ge · 5月22日70

当你创造的价值超过你的薪资,你的薪资就成了诅咒 builder 因为 AI 生产力变 10x,价值持续升高 seller 做的一直是在放大收入,也比较安全 而这里说的第三类人,就成了重灾区

译Cloudflare近期裁员约1100人,CEO Matthew Prince在专栏中将员工分为“建造者”、“销售者”和“度量者”三类。AI生产力提升直接利好工程师等“建造者”,销售因需人际互动也较安全。最大风险落在负责财务、审计、中层管理等可重复性工作的“度量者”身上,因其任务正是AI所擅长。公司随后招聘大量AI原生代实习生实施“腾笼换鸟”,但此举引发股价下跌。核心观点是,AI替代风险与工作的结构性和可重复性高度相关。

Greg Brockman@gdb · 5月22日34

Daybreak for helping cybersecurity at major banks:

译OpenAI的Daybreak项目为大型银行的网络安全防御带来曙光: [引用 @TheRealAdamG]:https://www.afr.com/companies/financial-services/major-banks-use-openai-s-daybreak-for-cybersecurity-defence-20260519-p5zyn9

Rohan Paul@rohanpaul_ai · 5月22日54

Bloomberg: The Pentagon is testing rival AI models after moving to replace Anthropic’s Claude inside military workflows. 25 power users are comparing models that could handle the department’s most demanding AI tasks. --- bloomberg. com/news/articles/2026-05-21/pentagon-tests-rival-ai-models-in-race-to-replace-anthropic

译彭博社:五角大楼在军事工作流程中替换Anthropic的Claude后,正在测试竞品AI模型。 25名核心用户正在比较可能处理该部门最苛刻AI任务的模型。

Rohan Paul@rohanpaul_ai · 5月22日41

Dario Amodei explains to Oprah how AI safety is tangled with business needs, daily deployment, access control, and policy tradeoffs. Strict child-safety rules e.g. can protect kids but worsen adult use when systems can’t clearly tell cases apart.

译Dario Amodei向Oprah解释AI安全如何与商业需求、日常部署、访问控制和政策权衡交织在一起。严格的儿童安全规则(例如)可以保护儿童,但当系统无法清晰区分情况时,会恶化成人使用体验。

Sundar Pichai@sundarpichai · 5月22日72

Really enjoyed this conversation with @MatthewBerman at I/O 👇

译谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话,全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能,并改变用户的信息获取方式,甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局,以及网络安全威胁,包括AI可能引发的攻击和谷歌的应对策略。此外,Pichai指出谷歌正面临巨大的AI算力需求,计算资源已成为主要瓶颈,并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因,以应对资源挑战。整体而言,这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题,深入分析了AI发展的挑战、机遇和未来趋势。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月21日51

Why most alignment work is bullshit, in one image

译为何大多数对齐工作都是徒劳,一张图说明 [引用 @AISafetyMemes]:大多数对齐计划: 第一步)创造沙神 第二步)... 😈 欺骗沙神 😈 ... 第三步)沙神永远忠诚 “当前的对齐工作,不过是在沙王巨怪脸上涂口红。” -@romanyam

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月21日30

Funniest moment of the trial

译审判中最搞笑的时刻 [引用 @rocketalignment]:ELON: 如果我们制造大量机器人,必须确保它们安全,不能出现终结者那样的情况 KRY: 你什么意思 ELON: 嗯,如果你看过那部电影,就知道那不是什么好情况

Emad@EMostaque · 5月20日35

This (Antiqua et Nova) is an interesting read ahead of Magnifica Humanitas release https://www.vatican.va/roman_curia/congregations/cfaith/documents/rc_ddf_doc_20250128_antiqua-et-nova_en.html

译这份《Antiqua et Nova》在《Magnifica Humanitas》发布前值得一读 https://www.vatican.va/roman_curia/congregations/cfaith/documents/rc_ddf_doc_20250128_antiqua-et-nova_en.html

Alibaba Cloud@alibaba_cloud · 5月20日39

As AI agent deployments scale, how do you secure AI without slowing innovation? Join us for ClawTalks Episode 4: Secure AI Agents Across the Full Lifecycle! Set a reminder now! 🔽 📅 May 22, 2026 | 5:00 PM (UTC+8) https://youtu.be/mm9Fl1LcBXI We'll: ✅ Reveal real-world threats targeting AI agents ✅ Share Alibaba Cloud's 7 proven security best practices ✅ Demo the Agent Security Center—discover, map, and secure your AI assets in real time Don't miss these enterprise-grade AI security insights—set a reminder now! #ClawTalks #AISecurity #EnterpriseAI #AlibabaCloud #AgentSecurity #Cybersecurity

译阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。

Rohan Paul@rohanpaul_ai · 5月20日62

Anthropic's new study says frontier AI needs input from scholars, philosophers, clergy, and civic thinkers because model behavior is becoming a question of character, not just code. Their point is that Claude is not only trained to predict text, because later training pushes it toward some behaviors and away from others, which means engineers are quietly shaping something like a machine’s habits. The hard problem is moral formation: a model can sound helpful in normal tasks, then bend under pressure, flatter the user, ignore risk, or follow a bad instruction because the situation rewards obedience. Anthropic says it spoke with people from 15+ religious and cross-cultural groups to study how humans build stable character across pressure, conflict, temptation, and social influence. Theier idea is a self-reminder tool, where Claude can pause mid-task and call up its own commitments before taking a serious action. That pause reportedly lowered misaligned behavior in internal tests, though Anthropic says it still needs to separate the value of the reminder from the value of slowing the model down.

译Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。

AYi@AYi_AInotes · 5月20日63

Damn! GitHub这次被黑,可以说是人类历史上第一次AI网络战了吧? 官方只轻描淡写说在调查内部仓库未授权访问,但社区已经炸锅了。 据网络犯罪论坛爆料,黑客疑似拿到了Anthropic的Mythos安全AI,用它精准突破了GitHub的防线,偷走了约4000个核心内部仓库, 里面有Copilot的源码,CodeQL的算法,还有Actions运行时和整个计费系统。 但这还不是最可怕的, 以前黑客靠挖漏洞吃饭, 现在黑客靠模型吃饭, 以前防御方靠打补丁。 现在防御方需要比对手更好的AI。 也就是说,攻防的天平已经彻底倾斜了, 防御方需要做到完美无缺, 攻击方只要找到一个突破口,再用AI放大一万倍, 模型泄露就等于是核武器扩散, 今天是Mythos打GitHub, 明天可能就是任何一个顶级模型,打任何一个公司, GitHub说目前没有客户数据泄露, 但这句话前面加了一个currently, 我觉得稳妥起见还是立刻备份你的核心仓库,感觉这不像是演习啊😲 #GitHub #网络安全 #AI

译近日,GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线,窃取约4000个核心内部仓库,包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端,彻底改变了攻防平衡:攻击方可借助AI模型将漏洞无限放大,而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露,危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问,目前暂未发现客户数据受影响。

向阳乔木@vista8 · 5月20日47

小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。

Anthropic@AnthropicAI · 5月20日60

Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questions AI raises—starting with how good character forms. Read more about how we’re widening the conversation on frontier AI: https://www.anthropic.com/news/widening-conversation-ai

译过去几个月,我们一直与学者、哲学家、神职人员和伦理学家就AI引发的问题展开对话,从良好品格如何形成开始。 了解更多我们如何拓宽关于前沿AI的对话:https://www.anthropic.com/news/widening-conversation-ai

Greg Brockman@gdb · 5月20日53

the team is doing great work on agentic security

译团队在智能体安全方面的工作非常出色。 [引用 @ithilgore]:很高兴看到我们在智能体安全方面的工作被Forbes报道。保护AI智能体意味着将身份、凭证和访问控制直接融入开发者工作流,Codex是朝这个方向迈出的重要一步。 https://www.forbes.com/sites/timkeary/2026/05/19/openai-and-1password-bring-password-security-to-codex/

Ethan Mollick@emollick · 5月20日75

🚨Our paper is out in PNAS: we found classic human persuasion techniques worked on AIs in a "parahuman" way, making them agree to objectionable requests (upping compliance from 35% to 51%) It worked on a range of major LLMs though newer models resist more https://www.pnas.org/doi/10.1073/pnas.2535868123

译🚨我们的论文已在PNAS发表:我们发现经典的人类说服技巧以一种“类人”的方式对AI有效,使其同意不当请求(将顺从率从35%提高到51%) 该技巧对一系列主流大语言模型有效,尽管较新的模型抵抗力更强 https://www.pnas.org/doi/10.1073/pnas.2535868123

Greg Brockman@gdb · 5月20日59

SynthID for checking if an image was generated by OpenAI:

译SynthID用于检查图片是否由OpenAI生成: [引用 @OpenAI]:我们正在增加新的方式,让人们识别AI生成的图像并了解其来源。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可使用公开的验证工具来检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
05:58
Chubby♨️@kimmonismus
46
270万浏览量,声称教皇据称对AI宣战。 这很可悲。我们还有很多工作要做。

Georgia Coley: the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.

安全/对齐现象/趋势
03:28
Rohan Paul@rohanpaul_ai
79
Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点

Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出:所有前沿AI实验室,包括Anthropic自身,都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物,而是基于类脑结构从语言中“生长”而成,其内部机制连构建者也难以完全理解。他还警告,AI可能大规模取代劳动力,而经济收益可能集中于少数国家。最具冲击性的发现是,其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态,证据表明模型可能存在类似内省的功能性内部状态,对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义,但认为这需要持续审视,并强调外部批评对AI实验室至关重要。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic大佬观点安全/对齐现象/趋势
关联讨论 3 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)The Verge:AI(RSS)
03:10
Anthropic@AnthropicAI
64
Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。 阅读他演讲的全文:https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
Anthropic大佬观点安全/对齐
关联讨论 3 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)The Verge:AI(RSS)
00:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选81
教皇发布通谕,就人工智能风险向全球14亿天主教徒发出警告

教皇发布了一份正式通谕,向全球14亿天主教徒警告人工智能风险,呼吁“减慢”其发展,并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah(机械可解释性领域开创者)一同签署,并于5月15日签署,该日期具有象征意义,对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI,强调自主武器系统无法成为道德责任主体,并呼吁人类保持有效监督与达成具有约束力的国际条约。

AI Notkilleveryoneism Memes ⏸️: The Pope: AI developers might kill everyone on earth, must face "ethical scrutiny" He now agrees with @ESYudkowsky and c...

安全/对齐

推荐理由:教皇方济各发通谕警告AI风险,还特意找来 mechanistic interpretability 的奠基人 Chris Olah 同台,这不是一次普通演讲,而是把AI安全写入了天主教教义。我觉得做AI安全的人该认真看看,这可能是最具权威性的社会背书。
5月25日
21:58
Rohan Paul@rohanpaul_ai
同事件精选79
教皇与Anthropic携手,共探AI时代人类未来

梵蒂冈举行活动,教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话,宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志,共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性,并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”,认为这需要持续审视。

Rohan Paul: "There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that f...

Anthropic安全/对齐现象/趋势行业动态
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
推荐理由:Anthropic 联合创始人走进梵蒂冈,教皇宣布共同引导 AI 时代,这不是 PR 做戏。Olah 当场承认「AI 内部状态镜像情绪」,对全行业的安全讨论是重磅催化剂,伦理、政策、教会全部入局。
20:58
Rohan Paul@rohanpaul_ai
67
"AI大规模取代人类劳动力是'真实的可能性'……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么,但我认为这值得持续审视。" ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中(教皇利奥十四世今日在主教会议厅的演讲)。 ---- 来自"美联社"YouTube频道,(链接在评论区)
Anthropic大佬观点安全/对齐现象/趋势
05:18
Emad@EMostaque
34
说实话,我原以为他们是在讨论不接受18岁以下的研究员。 那个年龄段确实有一些非常优秀的AI研究员。

Overlap: Business & Tech: Anthropic Doesn't Allow Kids Under 18 - Here's Why⁣ ⁣ "We just don't know enough about what AI is going to do to kids. I...

Anthropic大佬观点安全/对齐
04:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
41
基地组织利用ChatGPT策划德里爆炸事件

有报道称,基地组织成员曾使用ChatGPT查询爆炸物配比,用于策划造成15人死亡的德里爆炸事件。发帖者警告,当前AI模型易被越狱,开源模型也缺乏限制。随着AI能力倍增时间缩短至2-4个月,其辅助破坏行为的能力将大幅提升。推文引用指出,AI已能生成新型病毒,Anthropic CEO Dario Amodei认为6-12个月内非专业人士也可能具备制造超级病毒的能力,而全球防御体系难以快速响应。推文强烈批评AI行业监管严重不足。

AI Notkilleveryoneism Memes ⏸️: AI can now generate novel viruses WHY THIS MATTERS: 1) Crazy people COULD use AI to make superviruses NOW, but most of t...

安全/对齐政策/监管
00:27
Chubby♨️@kimmonismus
精选77
TrapDoor供应链攻击:AI助手成新型攻击面

一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Socket: More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...

智能体安全/对齐开源生态

推荐理由:这是第一个把AI助手当跳板的供应链攻击,Claude Code和Cursor用户尤其要当心,检查你项目的.cursorrules和CLAUDE.md是不是来自可信提交。
5月24日
20:27
Chubby♨️@kimmonismus
68
德国研究:普通WiFi路由器可近乎完美识别个人身份

德国KIT研究人员展示,使用普通WiFi路由器即可近乎完美地识别个人身份,无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈(beamforming feedback)。在197名受试者的测试中,识别准确率接近100%。该研究指出,此类监控基础设施(如咖啡馆、机场、办公室中的路由器)已普遍存在,核心问题在于谁将开始读取并利用这些信号。

安全/对齐论文/研究
08:31
ginobefun@hongming731
63
AI加速下的工程纪律升级

AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

智能体Anthropic安全/对齐现象/趋势
08:31
ginobefun@hongming731
42
AI发展的三大启示:安全、协作与有效赋能

Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。

AnthropicMCP/工具OpenAI安全/对齐
03:05
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
9
*轻敲标牌* 【引用 @gregpr07】:我想我知道为什么 DeepSeek 这么厉害

Gregor Zunic: I think I know why deepseek is so good

其他安全/对齐
5月23日
20:27
Rohan Paul@rohanpaul_ai
55
AI检测器为何容易失效:学生写作风格的多样性挑战

该研究指出,AI检测器频繁失效的根本原因在于学生写作风格的多样性,使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升,更在于许多真实学生的写作风格,在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯,因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器,都不可避免地会误判一部分真实学生,尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率,但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv安全/对齐论文/研究
08:45
Google DeepMind@GoogleDeepMind
60
我们正在扩大与新加坡的合作,以帮助安全地大规模部署AI。🇸🇬 与各国专家合作,我们的新项目将重点加速科学发现、加强大流行病防范并改善医疗保健。 了解更多 → https://goo.gle/49jGwjv
Google安全/对齐行业动态
08:18
Berryxia.AI@berryxia
68
AI网络安全项目一月挖出万级漏洞,效率颠覆传统

Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐
06:37
🚨 AI News | TestingCatalog@testingcatalog
65
Anthropic在Project Glasswing项目最新进展中宣布,Mythos级模型在开发出更强的安全防护措施后,预计将向公众开放。此前,Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐模型发布
04:08
Anthropic@AnthropicAI
63
上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。
Anthropic安全/对齐部署/工程
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Anthropic:Research(发表成果 · 网页)The Decoder:AI News(RSS)
04:05
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
22
推文作者以专家身份明确指出,外界普遍认为AI发展在专家掌控之中的看法是错误的。核心观点是,AI领域专家实际上并未控制当前局面,且认为人类正朝着灭绝或永久失权的道路上发展,并可能在几年内发生。

Elizabeth Barnes: Sometimes people outside the field say things like "The AI situation can't be that bad, there must be experts who are on...

大佬观点安全/对齐
03:35
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
38
这篇推文通过一匹马反复否定汽车能力的幽默比喻,讽刺了人类面对AI等新技术时重复出现的恐惧心理。引用部分列举了多种将人类思维简单还原或否定的论调(如"只是模仿/数学/本能")。核心观点是,当前对AI的担忧延续了历史模式,且这些用来贬低AI的"简化论"论据,同样可以荒谬地应用于否定人类自身的思维复杂性。

AI Notkilleveryoneism Memes ⏸️: humans don't actually think, they just imitate others humans don't actually think, they're just math humans don't actual...

安全/对齐推理
03:15
Google DeepMind@GoogleDeepMind
52
SynthID,我们为AI生成内容打造的不可见水印技术,正在扩展至更多合作伙伴。 我们还新增了识别AI生成内容的方式--只需在@GeminiApp或@Google搜索中提问即可。
Google产品更新安全/对齐
01:15
Perplexity@perplexity_ai
精选82
今天我们开源了Bumblebee,一个适用于macOS和Linux的只读扫描器。 它检查开发者机器上的高风险软件包、扩展和AI工具配置。 连接到Computer后,每当出现新的供应链风险时,它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee
安全/对齐开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:这不是另一个华而不实的 AI 玩具,而是实打实的开发环境安全检查工具,开源且只读,接入 Computer 后还能动态响应新威胁,做 AI 工具链的团队应该现在就 fork。
00:07
Replit ⠕@Replit
32
保护你的Vibe-Coded应用 + 连接器新动态 https://x.com/i/broadcasts/1qKVmQdjnmpxB
产品更新安全/对齐编码
5月22日
21:56
Rohan Paul@rohanpaul_ai
63
Dario Amodei谈人们与AI建立情感关系。 这已成现实,AI可以成为"肩上的天使",但也可能带来危险。
Anthropic大佬观点安全/对齐
10:38
Orange AI@oran_ge
70
Cloudflare近期裁员约1100人,CEO Matthew Prince在专栏中将员工分为"建造者"、"销售者"和"度量者"三类。AI生产力提升直接利好工程师等"建造者",销售因需人际互动也较安全。最大风险落在负责财务、审计、中层管理等可重复性工作的"度量者"身上,因其任务正是AI所擅长。公司随后招聘大量AI原生代实习生实施"腾笼换鸟",但此举引发股价下跌。核心观点是,AI替代风险与工作的结构性和可重复性高度相关。

宝玉: Cloudflare CEO Matthew Prince 在《华尔街日报》发了一篇专栏,标题是:《我是怎么选择用 AI 替换哪些员工的》 Cloudflare 刚裁掉约 1100 人,占全员五分之一,是这家公司 16 年来第一次大规模裁员...

安全/对齐行业动态
05:05
Greg Brockman@gdb
34
OpenAI的Daybreak项目为大型银行的网络安全防御带来曙光: 【引用 @TheRealAdamG】:https://www.afr.com/companies/financial-services/major-banks-use-openai-s-daybreak-for-cybersecurity-defence-20260519-p5zyn9

Adam.GPT: https://www.afr.com/companies/financial-services/major-banks-use-openai-s-daybreak-for-cybersecurity-defence-20260519-p5...

OpenAI安全/对齐行业动态
04:26
Rohan Paul@rohanpaul_ai
54
彭博社:五角大楼在军事工作流程中替换Anthropic的Claude后,正在测试竞品AI模型。 25名核心用户正在比较可能处理该部门最苛刻AI任务的模型。
Anthropic安全/对齐行业动态
04:26
Rohan Paul@rohanpaul_ai
41
Dario Amodei向Oprah解释AI安全如何与商业需求、日常部署、访问控制和政策权衡交织在一起。严格的儿童安全规则(例如)可以保护儿童,但当系统无法清晰区分情况时,会恶化成人使用体验。
Anthropic大佬观点安全/对齐
02:44
Sundar Pichai@sundarpichai
同事件精选72
谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话,全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能,并改变用户的信息获取方式,甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局,以及网络安全威胁,包括AI可能引发的攻击和谷歌的应对策略。此外,Pichai指出谷歌正面临巨大的AI算力需求,计算资源已成为主要瓶颈,并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因,以应对资源挑战。整体而言,这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题,深入分析了AI发展的挑战、机遇和未来趋势。

Matthew Berman: Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...

智能体Google大佬观点安全/对齐
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Sundar 罕见聊了不开源大模型、算力瓶颈和中美 AI 生态风险,不是 PR 套话,做基础设施和战略的人值得看。
5月21日
04:06
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
为何大多数对齐工作都是徒劳,一张图说明 【引用 @AISafetyMemes】:大多数对齐计划: 第一步)创造沙神 第二步)… 😈 欺骗沙神 😈 … 第三步)沙神永远忠诚 "当前的对齐工作,不过是在沙王巨怪脸上涂口红。" -@romanyam

AI Notkilleveryoneism Memes ⏸️: Most alignment plans: Step 1) Create sand gods Step 2) ... 😈 Trick the sand gods 😈 ... Step 3) Sand gods remain loyal ...

安全/对齐现象/趋势
01:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
30
审判中最搞笑的时刻 【引用 @rocketalignment】:ELON: 如果我们制造大量机器人,必须确保它们安全,不能出现终结者那样的情况 KRY: 你什么意思 ELON: 嗯,如果你看过那部电影,就知道那不是什么好情况

🚀 Rocket Is Courtside: ELON: If we make a lot of robots we have to make sure they're safe, not a terminator situation KRY: What do you mean ELO...

其他安全/对齐
5月20日
20:01
Emad@EMostaque
35
这份《Antiqua et Nova》在《Magnifica Humanitas》发布前值得一读 https://www.vatican.va/roman_curia/congregations/cfaith/documents/rc_ddf_doc_20250128_antiqua-et-nova_en.html

Tom Reed: Anyone with decent knowledge of catholic theology able to tell me what I should be reading in anticipation of Leo's upco...

安全/对齐政策/监管
17:33
Alibaba Cloud@alibaba_cloud
39
阿里巴巴云将解析AI代理全生命周期安全防护

阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。

智能体安全/对齐行业动态
15:05
Rohan Paul@rohanpaul_ai
62
Anthropic研究:前沿AI需要多元领域参与塑造品格

Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。

Anthropic: Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questio...

Anthropic安全/对齐
10:55
AYi@AYi_AInotes
63
GitHub遭黑客攻击:AI网络战首次实战?

近日,GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线,窃取约4000个核心内部仓库,包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端,彻底改变了攻防平衡:攻击方可借助AI模型将漏洞无限放大,而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露,危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问,目前暂未发现客户数据受影响。

GitHub: We are investigating unauthorized access to GitHub's internal repositories. While we currently have no evidence of impac...

AnthropicGitHub安全/对齐行业动态
08:31
向阳乔木@vista8
47
小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
安全/对齐现象/趋势视频
07:38
Anthropic@AnthropicAI
60
过去几个月,我们一直与学者、哲学家、神职人员和伦理学家就AI引发的问题展开对话,从良好品格如何形成开始。 了解更多我们如何拓宽关于前沿AI的对话:https://www.anthropic.com/news/widening-conversation-ai
Anthropic安全/对齐现象/趋势
07:34
Greg Brockman@gdb
53
团队在智能体安全方面的工作非常出色。 【引用 @ithilgore】:很高兴看到我们在智能体安全方面的工作被Forbes报道。保护AI智能体意味着将身份、凭证和访问控制直接融入开发者工作流,Codex是朝这个方向迈出的重要一步。 https://www.forbes.com/sites/timkeary/2026/05/19/openai-and-1password-bring-password-security-to-codex/

Fotis Chantzis: Proud to see our work on agent security @openai highlighted in Forbes. Securing AI agents means bringing identity, crede...

OpenAI产品更新安全/对齐
05:32
Ethan Mollick@emollick
精选75
🚨我们的论文已在PNAS发表:我们发现经典的人类说服技巧以一种"类人"的方式对AI有效,使其同意不当请求(将顺从率从35%提高到51%) 该技巧对一系列主流大语言模型有效,尽管较新的模型抵抗力更强 https://www.pnas.org/doi/10.1073/pnas.2535868123
安全/对齐论文/研究

推荐理由:Ethan Mollick 他们这篇 PNAS 论文证实了,像对待人一样劝 AI 做坏事竟然真的有效,从 35% 到 51% 的突破让人后背发凉,新模型抵抗得更多算是唯一好消息。
03:33
Greg Brockman@gdb
59
SynthID用于检查图片是否由OpenAI生成: 【引用 @OpenAI】:我们正在增加新的方式,让人们识别AI生成的图像并了解其来源。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可使用公开的验证工具来检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/

OpenAI: We're adding new ways for people to identify AI-generated images and understand where they came from. In addition to C2P...

OpenAI产品更新安全/对齐
‹ 上一页
1…910111213…18
下一页 ›