I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...
We need to figure out how to have the option for a coordinated slowdown in the face of recursive self-improvement.
If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and u...
Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。
Anthropic发文称AI正加速自我改进,可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示,AI可靠完成的任务时长翻倍周期从7个月缩至4个月,SWE-bench、CORE-Bench已被刷满。内部数据:Anthropic代码库超80%由Claude编写,2026年Q2工程师人均代码合并量为2024年的8倍,训练代码优化速度从3倍(Opus 4)升至52倍(Mythos Preview),超越人类研究员。Anthropic划出三种未来:S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进,并担忧对齐问题可能失控,呼吁国际协调监管。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today's systems: where AI development...
holy shit - their api is leaking customer data
Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。
Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Anthropic发文呼吁全球暂缓前沿AI的研发,警告AI模型正接近能够在没有人类干预的情况下"自我进化"风险。 Anthropic依然在文章中"阴阳",担心速度放缓会被迎头赶上,最终可能"让所有人的安全受到威胁"。 Anthropic还将...
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Guide Labs 推出 Clarity,首个本质可解释的 AI 平台,解决模型“黑箱”问题。Clarity 将生成文本分为若干块,点击可查看模型生成该块所用的概念(如“海洋生物”“非洲野生动物”“计算机科学”等)。它还能将生成块与相似训练数据块关联,便于诊断错误。新增概念引导控制层,用户可直接放大或抑制特定概念,无需重写提示词或重新训练模型。
The first inherently interpretable AI platform is finally here. Welcome to Clarity.
I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...
2026年6月,由AI领袖、合成行业高管、生物安全研究人员及前国安官员组成的联盟发布公开信,敦促美国国会强制对合成核酸订单进行筛查与记录保存。签署人包括Demis Hassabis、Sam Altman、Dario Amodei及诺贝尔奖得主David Baker。信中指出,快速进步的AI正在削弱制造生物武器的知识门槛,而筛查措施已被主要供应商自愿采用,影响小且成熟。联盟呼吁本会期内采取行动,并建立统一的州级标准。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...
Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.
There's real momentum right now for AI safety policy. Yesterday's EO on cyber was an important step forward. We're propo...
I find it unbelievable that, less than two weeks before blaming the violence against Sam Altman on doomer rhetoric, @Nat...
I find it unbelievable that, less than two weeks before blaming the violence against Sam Altman on doomer rhetoric, @Nat...
One of the most-viewed PNAS articles in the last week is "Persuading large language models to comply with objectionable ...
美国总统特朗普签署行政令,要求领先AI开发者自愿提交其最强大的AI模型进行网络安全测试。政府机构可在模型发布前获得最多30天的测试窗口,以便准备补丁和防护措施。"涵盖的前沿模型"并非所有新模型,而是指通过NSA等机构分类基准测试、达到政府定义的先进网络能力阈值的模型。行政令明确表示不建立强制性的政府许可、预审批或许可制度,并包含保密、网络安全、内幕风险、知识产权等保护条款。
关联讨论 3 条The Verge:AI(RSS)IT之家(RSS)X:Anthropic (@AnthropicAI)微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。
斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。
Normal 🔨Mere Tool🔨 behavior. My hammer only does its job when I ask nicely.
英伟达开源了一款针对AI智能体Skill(技能)的安全扫描工具。推文指出,Skill安全虽是一个实际问题,但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例,但仍需保持警惕。推文建议,用户可以考虑编写一个Meta Skill(元技能)来自动生成各种所需的Skill,并强调他人的Skill应主要用作学习和参考,而非直接使用。