OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。
OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。
OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。
Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。
6 月 12 日,华为云基于昇腾算力为 MiniMax 原生多模态旗舰模型 M3 提供 Tokens 支持,并完成开源首发适配。M3 采用 MSA 架构,支持 1M 超长上下文及图片、视频输入,可操作电脑桌面。在 SWE-Bench Pro 上超 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;SVG-Bench 超 Opus 4.7;OmniDocBench 超 Gemini 3.1 Pro;Claw-Eval 获最高分。华为云完成 MSA 算子适配与 MOE 均衡优化,确保大规模推理稳定。
Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。
在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。
交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。
截至今年,抗议活动已成功阻止价值约1300亿美元的AI数据中心项目。反对者通过组织行动阻碍了多地的开发计划,称这一胜利让参与者“尝到了政治权力的滋味”。抗议主要针对数据中心带来的能源消耗、水资源占用和环境影响,部分项目已被政府暂停或重新审查。
SpaceX上市首日高开29%,募资750亿美元创全球最大IPO纪录,跻身全球第6大上市公司,马斯克成首位万亿富豪。高盛总裁沃尔德伦称,这表明投资者愿为AI和太空基建买单,预示IPO浪潮,Anthropic和OpenAI均可能今年上市。他还预计2026年并购交易将创纪录,全球并购规模达3.1万亿美元,同比增35.2%。
SpaceX 于周五进行首次公开募股(IPO),公众首次可以购买这家融合火箭、AI 和社交媒体业务的公司股票。此次融资规模巨大,可能使埃隆·马斯克成为首位万亿富翁,其估值基于将 AI 数据中心发射到太空的业务前景。此外,SpaceX 还获得了一份价值 40 亿美元的合同,用于建造导弹追踪卫星“金穹”。
金山云因全球AI算力需求攀升、硬件成本上涨,将AI算力相关产品服务价格上调约15%-50%,文件存储相关产品服务价格上调约30%-50%。调整于北京时间2026年7月12日00:00:00生效,存量订单在当前计费周期内不受影响。今年Q1金山云营收27.0亿元,同比增长37.2%,其中智算云账单收入达10.0亿元,同比增长90.1%,占公有云收入比重50.1%。
日产社长伊万·埃斯皮诺萨透露,新车研发周期将缩短至原来的一半。计划2026年冬季推出的新款Skyline研发时间从55个月压缩至2年多。他表示中国在技术、成本和研发周期方面正成为行业标杆,日产要向中国学习。2025年4月推出的纯电动车型N7研发周期已缩短至两年,很大程度上得益于AI应用,提升了设计和测试效率。日产还将推行平台与核心零部件通用化,将多款同平台车型整合为“家族”同步开发,计划2026财年内推广至9成车型。
联想AI主机Mini于6月12日在京东开启预约,售价2999元。该迷你主机搭载此芯P1(CD8180)处理器,6nm制程,集成12核Armv9.2 CPU、10核Immortalis G720 GPU及30TOPS算力NPU,综合算力45TOPS。配备8GB LPDDR5内存和256GB固态硬盘。支持一键部署、零门槛配置,可安装Skills技能,接入QQ、微信、飞书等聊天工具,容纳多个Claw并支持多成员共享。接口包括USB 3.2 Type-A×2、全功能Type-C×2、DP 1.4、HDMI 1.4、USB 2.0×2及2.5GbE网口,支持开发者模式,兼容Ubuntu系统。
Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。
亚马逊 AWS 宣布去年发布的 Graviton5 处理器全面可用,基于其的 EC2 M9g 实例较上代 M8g 提供 25% 计算性能提升;数据库性能提升 30%,Web 应用性能提升 35%,ML 工作负载性能提升 35%。Graviton5 拥有 192 个内核,支持 DDR5-8800 内存与 PCIe Gen6,L3 缓存是 Graviton4 的 5 倍,每核心 L2 缓存是 Graviton4 的 2.6 倍。采用台积电 3nm 工艺,基于 Arm Neoverse V3,每核心 1MB L3,支持 12 通道内存、96 条 PCIe 通道,D2D 互联带宽 420GB/s。
据韩联社6月12日报道,SK 海力士 CEO 郭鲁正在昨天会议中表示,公司正评估引入外部生成式 AI 模型方案,包括采用 Microsoft 365 和 Copilot,并从安全性与系统架构角度评估 ChatGPT。公司计划先在无关核心技术的领域引入外部 AI 服务,再逐步扩大应用范围。SK 海力士已有基于开源方案的 AI 服务,引入外部平台后将让员工使用更丰富的 AI 模型。
钉钉ONE项目产品经理在7.5万字离职信《置身钉内》引发争议后再次发文回应。她指出AI开发存在不限于钉钉的共同困境——新老交替、产品形态探索期,但许多探索经验可帮助节约成本。AGI的本质一是放大文明能力解决现有难题,二是把人从机械重复工作中解放出来,让时间留给创意与情感。她认为长期来看重复工作将减少,创意工作不拼工时,无效的形式化工时既消耗人力,也与技术发展的初衷相悖。
新增 wheelScrollAccelerationEnabled 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow tool 子智能体缺失归属头;预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。
Anthropic 已签署十多份美国数据中心初步租约,总容量超 1GW,同时寻求谷歌母公司 Alphabet 提供财务担保,传闻谷歌将为其共同设计芯片。2026 年 4 月,谷歌决定向 Anthropic 投资 100 亿美元,承诺后续再投 300 亿美元。作为协议部分,Anthropic 承诺五年内向谷歌云支出高达 2000 亿美元。此外,亚马逊此前已投资 40 亿美元,Anthropic 将在十年内从 AWS 采购超 1000 亿美元算力。
Squeeze-Release 提出精确结构改写(minimization),将带掩码网络转换为更小密集网络,前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化,中间释放步骤将压缩张量中原置零位置重置为小校准噪声,使容量重新可训练,后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm,将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39,ConvNeXt-Tiny 达 1/14.8,准确率相当,并可扩展至 Transformer 架构。
OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。
缺少 LLM 网关时,供应商中断会直接变成用户可见的错误,AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。
LLM Gateway 能防止 API 提供商故障变成用户端可见错误,并让 AI 费用变得透明。通过路由、合规性和设置时间等维度,可以对比市面上最佳的网关方案。
asyncinject 0.7 发布,这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库,曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。
BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。
OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。
关联讨论 1 条X:小北 (@frxiaobei)OpenRouter指出,企业不应只依赖一家LLM供应商,而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%,新模型Fable定价$10/M输入、$50/M输出,OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务,平台3月至4月新增90个模型。OpenRouter作为统一市场,通过标准化API消除切换成本,使路由成为“一等公民”。
关联讨论 1 条OpenRouter:Announcements(RSS)可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。
Meta效仿特斯拉的做法,在帐篷内建设数据中心。该消息在 Hacker News 上获得 100 HN Points。
本部分将手写 matmul-add 对替换为 nn.Linear(bias=True),堆叠三层 Linear 与激活函数构成多层感知机(MLP)块,在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm,将 bias 加法作为 epilogue 融合进矩阵乘法核,避免额外 HBM 访问;transpose 操作(aten::t)仅改写 CPU 端张量元数据(shape 和 stride),不启动 GPU 核。
阿里云今日推出 Meoo(秒悟)开源命令行工具 Meoo CLI,面向开发者,支持 Claude Code、Codex、Cursor 等本地 AI 编程助手。通过调用阿里云云端能力,可自动完成数据库接入、用户登录、文件存储及项目发布,将本地项目一键部署上线并生成可分享的访问链接。该工具定位为本地 Agent 与秒悟云端能力的连接入口,已开放下载,支持主流 Linux、macOS 及 Windows 平台。
腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。
微软 CEO 萨提亚·纳德拉在《纽约时报》播客《Hard Fork》中承认,公司内部算力堆砌现象普遍,员工习惯用最强模型解决所有问题。他呼吁按实际需求匹配模型,避免浪费,并举例 Copilot 自动模式能按任务自动选择最合适模型。纳德拉还透露自己用 AI 快速开发了一款工具:它能跟踪工作沟通、持续维护软件项目,在员工讨论调整需求时自动生成方案并更新代码,无需他参会。他强调非前沿问题无需用顶尖前沿模型,微软正在收紧 AI 成本管控。去年10月他更换了商业业务负责人,11月聘请新 AI 顾问,推动22万员工向 AI 时代转型。
台积电 CoPoS(玻璃基板 FOPLP 2.5D 封装)预计 2028 年下半年量产,目标提升 9.5 倍光罩尺寸以上大型异构集成系统的量产经济性。NVIDIA 的 Feynman AI GPU 可能成为首个试水产品。CoPoS 载板由玻璃芯层和两侧 ABF 增层构成,芯片位于 ABF 增层表面,互连由芯片侧 RDL 与 ABF 增层承担,临时载体亦应用玻璃材料。
分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。
OpenAI 与 Oracle 合作,用户可利用现有 Oracle 云服务承诺(commitment)额度,在 Oracle 云上访问 OpenAI 模型和 Codex,用于构建和部署 AI 应用,同时获得企业级安全与治理能力。
实现了一个端到端的 Microsoft SkillOpt 仪表化工作流,包括设置仓库、连接 OpenAI 兼容模型、配置优化器和目标模型。以原始种子技能为基线,运行包含 rollout、reflection、aggregation、selection、更新和验证门控的优化循环,检查训练历史,可视化准确率、编辑预算行为和 token 用量,并将进化后的技能与基线进行比较。
甲骨文发布2026财年(2025年6月–2026年5月)年报及第四财季报告。全年营业总收入673.57亿美元,同比增长17.35%;归母净利润169.84亿美元,同比增长36.50%。云业务总营收340亿美元,同比增长39%,其中云基础设施(IaaS)营收同比增长77%。第四财季营收191.84亿美元,同比增长20.63%,云业务营收99亿美元,同比增长47%。AI驱动下,Multicloud AI数据库第四季度营收同比增长404%。剩余履约义务达6380亿美元。展望2027财年全年,总营收指引为900亿美元,非-GAAP每股收益指引上调至8.05美元,同比增长18%。
Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。
关联讨论 1 条OpenRouter:Announcements(RSS)