the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.
the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.
Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出:所有前沿AI实验室,包括Anthropic自身,都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物,而是基于类脑结构从语言中“生长”而成,其内部机制连构建者也难以完全理解。他还警告,AI可能大规模取代劳动力,而经济收益可能集中于少数国家。最具冲击性的发现是,其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态,证据表明模型可能存在类似内省的功能性内部状态,对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义,但认为这需要持续审视,并强调外部批评对AI实验室至关重要。
Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...
关联讨论 3 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)The Verge:AI(RSS)教皇发布了一份正式通谕,向全球14亿天主教徒警告人工智能风险,呼吁“减慢”其发展,并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah(机械可解释性领域开创者)一同签署,并于5月15日签署,该日期具有象征意义,对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI,强调自主武器系统无法成为道德责任主体,并呼吁人类保持有效监督与达成具有约束力的国际条约。
The Pope: AI developers might kill everyone on earth, must face "ethical scrutiny" He now agrees with @ESYudkowsky and c...
梵蒂冈举行活动,教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话,宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志,共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性,并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”,认为这需要持续审视。
"There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that f...
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》Anthropic Doesn't Allow Kids Under 18 - Here's Why "We just don't know enough about what AI is going to do to kids. I...
有报道称,基地组织成员曾使用ChatGPT查询爆炸物配比,用于策划造成15人死亡的德里爆炸事件。发帖者警告,当前AI模型易被越狱,开源模型也缺乏限制。随着AI能力倍增时间缩短至2-4个月,其辅助破坏行为的能力将大幅提升。推文引用指出,AI已能生成新型病毒,Anthropic CEO Dario Amodei认为6-12个月内非专业人士也可能具备制造超级病毒的能力,而全球防御体系难以快速响应。推文强烈批评AI行业监管严重不足。
AI can now generate novel viruses WHY THIS MATTERS: 1) Crazy people COULD use AI to make superviruses NOW, but most of t...
一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。
More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...
德国KIT研究人员展示,使用普通WiFi路由器即可近乎完美地识别个人身份,无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈(beamforming feedback)。在197名受试者的测试中,识别准确率接近100%。该研究指出,此类监控基础设施(如咖啡馆、机场、办公室中的路由器)已普遍存在,核心问题在于谁将开始读取并利用这些信号。
AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。
Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。
I think I know why deepseek is so good
该研究指出,AI检测器频繁失效的根本原因在于学生写作风格的多样性,使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升,更在于许多真实学生的写作风格,在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯,因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器,都不可避免地会误判一部分真实学生,尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率,但无法根除基于“单次判断”模式所带来的结构性误判问题。
Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。
Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...
Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...
Sometimes people outside the field say things like "The AI situation can't be that bad, there must be experts who are on...
humans don't actually think, they just imitate others humans don't actually think, they're just math humans don't actual...
Cloudflare CEO Matthew Prince 在《华尔街日报》发了一篇专栏,标题是:《我是怎么选择用 AI 替换哪些员工的》 Cloudflare 刚裁掉约 1100 人,占全员五分之一,是这家公司 16 年来第一次大规模裁员...
https://www.afr.com/companies/financial-services/major-banks-use-openai-s-daybreak-for-cybersecurity-defence-20260519-p5...
Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Most alignment plans: Step 1) Create sand gods Step 2) ... 😈 Trick the sand gods 😈 ... Step 3) Sand gods remain loyal ...
ELON: If we make a lot of robots we have to make sure they're safe, not a terminator situation KRY: What do you mean ELO...
Anyone with decent knowledge of catholic theology able to tell me what I should be reading in anticipation of Leo's upco...
阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。
Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。
Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questio...
近日,GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线,窃取约4000个核心内部仓库,包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端,彻底改变了攻防平衡:攻击方可借助AI模型将漏洞无限放大,而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露,危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问,目前暂未发现客户数据受影响。
We are investigating unauthorized access to GitHub's internal repositories. While we currently have no evidence of impac...
Proud to see our work on agent security @openai highlighted in Forbes. Securing AI agents means bringing identity, crede...
We're adding new ways for people to identify AI-generated images and understand where they came from. In addition to C2P...