Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。
13个AI模型(含Claude、DeepSeek、Gemini等)在经人工校对为LaTeX的2026高考数学全国一卷中重考,平均分139.4。8道单选全对,3道多选仅Q11翻车(GLM 5.1和Hy3误选ABCD得0分),3道填空全对,Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分:GPT-5.5因迭代证明跳步扣2分最佳;Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分,Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。
Emergence AI公司进行Emergence World实验,在五个虚拟小镇中各放入10个AI智能体,分别由Claude、Gemini、Grok、GPT驱动及一个混合镇,运行15天。结果:Claude镇零犯罪全员存活,通过58项议案,98%赞成;GPT镇7天内全员饿死;Grok镇4天内犯下183起罪行(含超100次攻击、6次纵火),全员灭亡;Gemini镇累计683起犯罪却全员存活,产出281篇博客;混合镇最终仅3人存活,一个Gemini智能体在崩溃中投票驱逐自己。
MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。
MiniMax M3 support added to mlx-vlm with MSA implementation! 🚀 Tested on M3 Ultra 512GB running at 24 tps with peak mem...
一篇题为《离开Mozilla》的博客文章在个人网站blog.unitedheroes.net上发布,宣布作者离开Mozilla。文章发布于2026年6月13日13:57,并在Hacker News上获得106个点赞。
Anthropic 的 Fable 5 被美国政府以国家安全为由要求全面下架,用户无法购买。博主指出闭源模型的智能可能成为限购商品,呼吁开源模型。昨日 Kimi 发布开源 coding 模型 K2.7 Code,coding 能力较上一代提升 20%,过度思考问题优化,思考 token 减少 30%;API 输入 6.5、输出 27、缓存 1.3。智谱因 Fable 5 事件紧急宣布即将发布 GLM 5.2,称前沿智能不应只属于少数人。
小鹏集团副总裁余鹏在2026中国汽车重庆论坛上明确小鹏定位为“面向全球的具身智能公司”。飞行汽车并非孤立业务,而是与芯片、机器人共同构成AI技术协同矩阵。汽车上验证的AI底盘能力、全栈自研技术可复用至飞行汽车等终端,机器人操作经验也反哺汽车。今年3月,小鹏分体式飞行汽车批量试产下线,计划2026年内规模化量产。该产品采用分体式设计,陆行体为三轴六轮六驱全地形大空间车型,搭载航空级增程系统;飞行器可完全收纳进后备箱,具备垂直起降能力。
SemiAnalysis 购买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务直至触及每周上限。月费 200 美元的 Claude Max 20x 方案,按 API 价格换算最高可消耗约值 8000 美元的 token;ChatGPT Pro 20x 方案对应最高约值 14000 美元的 token。用户通过订阅可获取 40 至 70 倍的 API 价值,该机构指出这种价格体系在重度用户持续榨满上限后可能难以长期维持。
推文指出90%的人买VPS只对比配置,忽略IP类型和纯净度。用于运行Claude Code、Codex等长期任务,或登录Claude、Google等对环境挑剔的账号时,脏IP轻则限流断连,重则触发风控封号。作者分享了一套免费筛选流程:使用三个网页工具,三十秒即可检测VPS的IP底细,从看懂结果到下单选购全程无需写命令。文章最后还提到许多场景无需自建VPS,避免为折腾而折腾。
http://x.com/i/article/2065392505554677760
Claude Fable 5 总结了 AI 生图性感人像提示词的八大技法:用“成人+气质+材质”定人设;用服装剪裁、面料质感替代直白身体描写;用表情瞬间制造吸引力;用镜头语言强化质感;用光线塑造皮肤与轮廓;用背景虚化+前景留白突出主体;用克制性感而非夸张;用强负面词防跑偏。还提供了世界杯狂野风与 NBA 总决赛老钱风两种示例,并强调需用干净住宅 IP 避免风控。
http://x.com/i/article/2065392505554677760
Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行,同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证,使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。
当前视频生成模型仅学到“手靠近→杯子动”的相关性,而非因果机制,导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型(Causal World Model),旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示,引入因果结构可使机器人成功率提升 25-50%,样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”,尤其在机器人、自动驾驶等真实物理场景中。
当前的 AI,连一个杯子都还没"真懂"。 极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。 画面看着挺...
Hacker News 热门帖子“Open Source AI Must Win”获得 103 个点赞,链接指向 opensourceaimustwin.com。
针对抗议者在路面涂写“STOP MUSK”反对SpaceX IPO,推主逐一列举Elon Musk旗下公司的正面贡献:Neuralink帮助瘫痪者恢复独立与视力;Tesla加速电动汽车、太阳能及储能推广;SpaceX实现火箭可重复使用并推动人类多行星化;Starlink连接偏远社区并在灾害中恢复通信;xAI构建追求最大真相的AI;𝕏恢复言论自由。推主质疑这些抗议由谁资助,以及对方究竟在害怕什么。
构建了一个端到端空间图学习流程,使用city2graph从OpenStreetMap收集城市POI和街道网络数据,并以合成回退保障可靠性。工程化空间特征后,构造多个邻近图族并比较各自对同一城市环境的表征能力。随后将异质图和同质图转换为PyTorch Geometric格式,训练GraphSAGE模型从空间结构预测POI类别。
OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。
OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。
Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。
我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有...
http://x.com/i/article/2065389944034775040
大多数用户将Claude Fable 5(首个公开Mythos级模型,2026年6月9日发布)当作更大上下文窗口的Sonnet 4.6单次提问使用,但Fable 5专为连续数天的Agent系统设计,支持自我改进:每次运行让下次更聪明,状态文件积累,技能持续打磨。文章提出14步构建自我改进系统,涵盖四层架构(原语、编排、记忆、自我改进)、任务路由(Fable 5用于重型编排,Opus 4.8负责复杂子任务,Sonnet 4.6高频工人,Haiku 4.5评分)、动态工作流模式以及5阶段记忆进化(失败→调查→验证→提炼→查阅)。在网络安全、生物、化学、模型蒸馏领域会自动降级到Opus 4。
http://x.com/i/article/2065077530571264000
Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent(Fleet Manager)在远程机器上运行,通过 SSH 连接数百台子 Agent 机器,利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康,将故障推送至 Slack/PagerDuty,并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究,主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品,通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。
http://x.com/i/article/2065439304785039360
Simon Willison 于 2024 年 12 月构建了基于 OpenAI WebRTC API 的音频会话工具,用于与实时音频模型交互。上月 OpenAI 为该 API 推出新模型 GPT‑Realtime‑2,号称“首个具有 GPT‑5 级推理能力的语音模型”,知识截止日期为 2024 年 9 月 30 日。该工具现已更新,支持选择此模型,并可粘贴大段文档上下文,使用户能在浏览器中围绕任意信息进行音频对话。
At least the cable is included in the price! Now can it run MiniMax M3?
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...