在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。
在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。
Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。
新增 wheelScrollAccelerationEnabled 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow tool 子智能体缺失归属头;预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。
缺少 LLM 网关时,供应商中断会直接变成用户可见的错误,AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。
LLM Gateway 能防止 API 提供商故障变成用户端可见错误,并让 AI 费用变得透明。通过路由、合规性和设置时间等维度,可以对比市面上最佳的网关方案。
BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。
OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。
关联讨论 1 条X:小北 (@frxiaobei)OpenRouter指出,企业不应只依赖一家LLM供应商,而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%,新模型Fable定价$10/M输入、$50/M输出,OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务,平台3月至4月新增90个模型。OpenRouter作为统一市场,通过标准化API消除切换成本,使路由成为“一等公民”。
关联讨论 1 条OpenRouter:Announcements(RSS)本部分将手写 matmul-add 对替换为 nn.Linear(bias=True),堆叠三层 Linear 与激活函数构成多层感知机(MLP)块,在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm,将 bias 加法作为 epilogue 融合进矩阵乘法核,避免额外 HBM 访问;transpose 操作(aten::t)仅改写 CPU 端张量元数据(shape 和 stride),不启动 GPU 核。
腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。
OpenAI 与 Oracle 合作,用户可利用现有 Oracle 云服务承诺(commitment)额度,在 Oracle 云上访问 OpenAI 模型和 Codex,用于构建和部署 AI 应用,同时获得企业级安全与治理能力。
Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。
6 月 10 日,eToro 宣布其 AI 智能体 Tori 集成来自 SpaceXAI 的文本模型,能够从 X 平台实时读取市场情绪变化、追踪信号并分析信息。Tori 现已在 eToro 的投资流程中嵌入该能力,支持用户以自然语言查询和解读市场情绪。eToro 拥有超过 4000 万注册用户,覆盖 75 个国家。该功能基于 SpaceXAI API 构建,其他开发团队也可通过 API 控制台在数分钟内搭建类似应用,如研究助手或情绪看板。
Anthropic 推出 Claude Managed Agents,一套可组合 API 套件,用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK,再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制,Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化,无需自建基础设施。
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。
关联讨论 6 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行,以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接,将 GitHub Actions 的 job 转为临时自托管运行器:GitHub App 监听 workflow_job.queued webhook,dispatcher Space 验证后启动对应硬件(CPU 或 t4-small、h200 等 GPU)的 HF Job,由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地,CPU 作业时间减少约 30%,并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。
Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。
在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标反推布局约束实现界面还原。实验采用“分阶段注入约束→逐层验收→带错纠正”的闭环控制系统:任务拆分为规划、架构、编码等阶段,验收覆盖静态检查、编译自检(0 error)、路由完整性(Web 端 34 条路由全部可达)、功能扫描及真机冷启动冒烟。失败时错误文本自动注入下一轮重试,使模型数小时内收敛。移动端产出可安装 APK,Web 端 typecheck 与构建均通过。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。
关联讨论 3 条X:小米 MiMo (@XiaomiMiMo)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》Claude Code v2.1.168 版本发布,更新内容仅为错误修复和可靠性改进。因原文较短,无法达成 50-100 字。
Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。
同一事件,精选展示《Claude Code v2.1.163 发布》开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。
Google 推出 Colab 命令行界面(CLI),允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时,实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本,并检索工件日志或模型(如微调后的 Gemma 3 适配器)。工具可直接集成到标准终端环境,可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。
关联讨论 1 条MarkTechPost(RSS)Cloudflare AI Gateway新增实时消费限制功能,防止跨多个AI提供商的token账单失控。通过与Cloudflare Access集成,企业可以使用基于身份的预算和策略管理AI使用成本。
Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。
Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。
Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。
Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。
在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为“先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。
关联讨论 2 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)OpenAI 的 Codex 新增了插件、站点和注释等功能。这些新功能旨在帮助分析师、营销人员、设计师、投资者等各类团队,利用 AI 完成更多工作。Codex 进一步拓展其作为 AI 编码工具的应用场景,以支持更广泛的角色、集成更多工具并优化现有工作流。
关联讨论 5 条X:Rohan Paul (@rohanpaul_ai)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。
OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。
OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)OpenAI在密歇根州启动了名为Stargate的1GW数据中心项目。作为AI基础设施建设的一部分,该项目旨在扩大人工智能技术的可及性、为当地创造就业机会并支持社区发展。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。
同一事件,精选展示《OpenRouter 5月发布亮点》OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。
同一事件,精选展示《OpenRouter 5月发布亮点》