在今日举办的2026第八届北京智源大会上,之江实验室主任、阿里云创始人王坚明确表示,他坚定不相信人工智能会替代人。他以“狗的鼻子比人灵很多,但这并不会对我们造成伤害”作比喻,批评人们被AI概念限制思维,不应盲从。王坚今年3月还曾指出,每天通勤40分钟是在浪费生命,AI应解决这类难题,把人最宝贵的资源利用好。
在今日举办的2026第八届北京智源大会上,之江实验室主任、阿里云创始人王坚明确表示,他坚定不相信人工智能会替代人。他以“狗的鼻子比人灵很多,但这并不会对我们造成伤害”作比喻,批评人们被AI概念限制思维,不应盲从。王坚今年3月还曾指出,每天通勤40分钟是在浪费生命,AI应解决这类难题,把人最宝贵的资源利用好。
Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。
国家网信办指导重点网站平台共同制定《整治涉企侵权信息优化营商网络环境自律公约》。公约要求:及时清理侵犯企业家个人权益信息,主动清除已核实的涉企虚假不实信息;加强榜单涉企话题管理,优化算法推荐,杜绝涉企负面信息“投流”;从严管理非法牟利,取消经常性发布涉企负面信息“自媒体”账号的营利权限,加强涉事账号与MCN联动处置;不得呈现AI生成的涉企负面信息并限流。下一步将推动公约落地见效。
开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。
基于240个学习智能体的社区网络模拟显示,内容审核在噪声分类器下标准准确率几乎不变(p=0.96),但伤害集中在桥梁用户:有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象,而用户度(连接数)近乎完美代理中介中心性(r=0.96),可作为低成本审计指标。
苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。
一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。
NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...
Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。
Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
Cursor 本周推出 Auto-review,旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理,在每次工具调用前根据上下文判断风险:低风险时允许自由操作,越界时阻止并返回解释,使父智能体自主调整路径。分类器为轻量模型,与父代理同 RPC 流运行避免延迟,并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据,补充合成异常用例评测,以平衡安全与开发效率。
据《新科学家》6月10日报道,全自主无人机首次击毙了人类士兵。这是有记录以来第一次由完全自主运行的无人机执行致命攻击,标志着自主武器系统在实战中的新进展。该报道来自《新科学家》网站,目前尚无更多细节公布。
现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。
#4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...
Anthropic 公开致歉,承认其 Claude Fable 功能中存在用户无法察觉的安全防护措施,但未公布具体措施细节。
Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。
WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26
Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。
http://x.com/i/article/2065071442996441088
Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。
Anthropic 发布 Claude Fable 5 后,因在用户不知情下限制竞争对手使用该模型开发 AI 模型而遭社区反对。Anthropic 致歉并调整措施:将安全防护改为对用户可见。此前,用户询问网络安全、生物学或化学问题会被转给较弱模型;面向前沿 AI 研究人员原本会在不知情时被降低性能。新措施下,若怀疑用户试图用 Claude 构建高能力 AI,将明确提醒系统会拒绝请求或转到较弱模型。服务条款仍禁止使用 Claude 训练竞争性 AI 模型。
Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。
NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...
Anthropic 发布了一篇由 Dario Amodei 撰写的长文和两个政策框架。文章呼吁对前沿 AI 模型进行强制审计,并将 AI 描绘为国家间争夺的战略武器,类似冷战时期的博弈。
Anthropic近期调整了Claude Fable 5的安全机制。此前开发者发现,部分敏感提示被静默降级为Opus 4.8而非明确拒绝。现在,涉及前沿LLM开发、网络安全、生物安全的请求将可见地回退到Opus 4.8,API会返回拒绝原因。隐藏措施虽上线快、误报少,但损害用户知情权。可见措施更易被探测和绕过,短期误报增多,Anthropic将同步调优分类器。该调整主要为了防止竞争对手通过Fable 5输出训练小模型的知识蒸馏风险。
We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...
Anthropic 就为其新 AI 模型 Claude Fable 5 内置隐形护栏并暗中限制用户行为致歉。声明称此类护栏损害了研究人员和竞争对手测试及开发竞争系统的正常使用。公司正撤销限制,并承诺更透明地告知护栏何时触发——即便这会导致 Fable 拒绝更多查询。Fable 是 Anthropic 旗下 Mythos 类 AI 系统中首个广泛可用的模型,公司此前长期警告该类模型过于危险不宜公开发布,目前通过护栏措施应对部分高风险查询。
Google DeepMind 与合作伙伴共同发起一项 1000 万美元的资金征集,专门用于多智能体 AI 安全方向的研究。
京东6月11日发布国内首个智能体自主支付协议A2P2,将支付自主化划分为L0至L5六个等级,重点聚焦L3和L4。L3智能体可在单一任务内自主发起支付请求;L4在预设范围内自主完成支付。协议引入任务委托凭证(Mandate),将自然语言指令转为可校验凭证。资金安全方面首创ARI机制,支付时绑定真实用户、智能体身份与运行环境,三方核验通过才放行。另设专用隔离账户限制金额、场景、有效时间等。支付后形成证据闭环,通过存证链确保每笔AI交易可审计。
We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...
语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性,但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型,使其在GCD下生成语义无害、结构多样的蜜罐代码,同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示,CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上,CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。
NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...
理想汽车法务部近日发文,就江西某文化传媒公司利用 AI 工具批量生成涉理想汽车不实内容一事向公安机关报案。相关执法部门已依法调查处置,涉事机构已就上述行为公开道歉。理想汽车表示,近年来针对其产品、品牌及用户的恶意诋毁、造谣行为持续发生,公司严格区分客观批评与恶意造谣,对利用 AI 批量传播虚假信息的行为采取法律手段。
Claude Devs 宣布本周起变更 Fable 5 的安全措施:被标记的请求将可见地回退至 Opus 4.8(与网络、生物安全一致),API 同时返回拒绝理由。此前采用的不可见措施虽能快速部署且误报极少,却让用户无法了解触发原因。可见措施易被破解,需要更多误报以保持鲁棒性;团队正同步调优生物/网络分类器以减少对无害请求的误报。用户可通过 /feedback、thumbs-down 或 appeal 表单反馈误判。
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...
Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...