商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。
商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。
Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。
阿里云本周在法国启用了首个数据中心,这是继德国和英国之后的第三个欧洲节点,计划今年下半年在该地区推出智能体AI服务。此举正值欧盟委员会6月3日发布《云计算和AI发展法案》,该法案明确指出“有限的数据中心容量”威胁欧洲数字独立。欧洲的数据主权推动旨在减少对美国云巨头AWS、Azure、Google Cloud的依赖。目前阿里云在欧洲的扩张尚未遇到重大政治阻力。
汇丰银行与Google Cloud签署多年合作协议,将在财富管理、金融犯罪风险管理和内部决策支持中部署AI工具,采用Gemini模型和Gemini Enterprise Agent平台。合作预计两年内支持超过200个AI用例,部分有望带来超1亿美元直接收益或效率提升。汇丰现有600多个AI用例,涵盖欺诈检测、交易监控、客户服务等。金融犯罪检测系统自2021年试点已发现2-4倍犯罪行为,每月筛查12亿笔交易,新协议下干预速度提升2倍。财富管理结合AI洞察;AI决策助手减少行政时间至分钟级;超2万名开发者使用编码助手,效率提升15%。汇丰于4月任命首位首席AI官。
长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。
三大运营商推出 Token 套餐,但实测一句“你好”消耗约 5 万 Token(约 0.125 元),15 元套餐不到 1 小时用尽。开发者称月成本是主流 AI 订阅套餐的五六倍。多地营业厅工作人员对套餐茫然。中国移动江苏 LITE 套餐 5 元/月(250 万 Token),上海有 1 元/包(40 万 Token)。中国电信推出轻享版(9.9 元/1000 万)、畅享版(29.9 元/4000 万)、尊享版(49.9 元/8000 万)每月。三大运营商营收增速均低于 1%,Token 套餐被视为新增长点。
应用材料于6月17日推出面向AI智能眼镜的全集成视觉系统SENZ,集成光波导、光引擎、传感器、视觉矫正、电子调光技术,旨在解决供应链破碎问题,降低设备制造复杂性,让市场参与者无需在性能与尺寸间取舍,专注用户体验优化。关键合作伙伴包括格罗方德(光波导量产)、高通(Snapdragon START白牌计划)、依视路陆逊梯卡(光学系统与商业化战略合作)。
小米超级电机 V8s EVO 最高转速 28000rpm,借助 AI 拓扑优化模拟超 100 万种硅钢片结构,无需碳纤维缠绕即扛住离心力,单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流,电控峰值功率密度 120kW/L,电机功率提升 5.9%。峰值效率 98.38%,0.15mm 超薄硅钢片使铁损降 18.7%,X-Pin 绕组降铜损 3.6%,为 YU7 GT 带来 6.4km CLTC 续航提升。双电机(V8s EVO + V6s Plus)合计 1003PS,极速 300km/h,0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。
一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。
MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。
台积电在6月11日日本JPCA Show 2026展示玻璃核心载板投影片,宣布与Ibiden及群创合作,用于CoPoS的oS,结构为玻璃上下各黏合ABF的三层设计。单价较现有ABF载板高出数倍,除Nvidia外另有2家美系客户表达高度兴趣。技术方面,由250x250mm切割,ABF增层采用GL107混搭ABF-GCP,以24–28层测试,电源完整性改善可提升AI算力。TGV为核心know-how,由台积电与群创掌握。目标4Q28–1Q29量产。
台积电在JPCA Show 2026公开玻璃核心基板,与Ibiden、Innolux合作,采用玻璃芯夹两层ABF的三层结构,用于CoPoS的“oS”部分。基板单位成本数倍于现有ABF,Innolux处理的玻璃最贵。客户包括Nvidia和两家美国公司。验证显示其解决了力学与电学难题,显著改善电源完整性。目前切割自250×250mm基板,ABF层24-28层,对应2027–2028年AI芯片主流规格。CoW测试车辆已验证复合材料机械结构瓶颈已突破。
🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...
昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署,围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一;专为长程任务设计,支持 1M 上下文,表现介于 Claude Opus 4.7 与 4.8 之间,为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配,单位 token FLOPs 降至 2.9 倍。
cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。
美国司法部近日保护 xAI 位于密西西比州的 AI 数据中心,认为高速 AI 基础设施属于美国国家安全基础。司法部将 Grok 及其系统视为关键技术而非普通消费软件,因先进模型可支持国防行动。此举反映政策转变:美国不希望战略 AI 工作负载依赖脆弱供应链、缓慢审批流程或外国控制算力。AI 算力正成为国防资源,可用电力、数据中心规模、模型能力与运营准备度紧密关联。
联想百应 AI 主机 300 今日上架,搭载 AMD 锐龙 AI Max+ 395 处理器,配备 128GB 内存、2TB SSD,支持 2.5GbE 有线网卡与 Wi-Fi 7 无线网卡,到手价 26999 元。该机型内置百应 Clow 智能体协同平台,Skill 广场提供超 2000 个技能,支持自主进化、多级记忆,适用于 AI 短剧制作、专利/销售/经营管理、金融分析、广告营销等场景。
设置三个环境变量即可将Claude Code连至OpenRouter,无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控,支持Anthropic Skin原生协议,保留Thinking、工具调用、流式输出。可为Opus(架构推理)、Sonnet(日常编码)、Haiku(快速转换)分别指定模型。Fast Mode最高2.5倍速度,仅限Claude Opus 4.6/4.7/4.8,需Claude Code v2.1.96+。团队场景:一个OpenRouter密钥统一计费、设置每密钥限额,活动仪表板查看会话成本。
关联讨论 1 条OpenRouter:Announcements(RSS)苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。
Vercel 发布开源 Agent 框架 Eve,核心设计“Agent 即目录”:通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话(可 checkpoint)、沙箱隔离(本地 Docker/Vercel Sandbox)、Human-in-the-loop 审批(不占算力)、MCP/OpenAPI 连接(鉴权由框架代理)、多 Channel 支持(HTTP/Slack/Discord)、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI,部署为普通 Vercel 项目,不中断进行中会话。内部已验证:d0 月 3 万+ 查询,Lead Agent 年成本约 $5k 回报 32 倍,Vertex 约 92% 工单自动解决。
Introducing eve, an agent framework. agent/ agent.ts instructions.md tools/ skills/ sandbox/ schedules/ Like Next.js, fo...
Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。
Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。
We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...
.@grok Build is on DigitalOcean Marketplace. 🆕☁️🤖 SSH in. Run grok. Build. @xAI's coding agent, pre-configured on Digi...
Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。
Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。
Trendforce报告显示AMD正积极采购锁定CW激光器供应。此前NVIDIA已与Lumentum/Coherent签订多年协议锁死核心产能,西方独立产能仅剩Sivers、AAOI等少数厂商,Lumentum自身受限可能外包至日本产线,后者已满负荷。CPO+硅光子成AI标配,InP基板持续紧缺。AMD是第一张多米诺骨牌,Amazon、Microsoft等云厂商大概率跟进。但CPO大规模放量或要到2026-2028年,期间存在预期已涨、小盘波动大、LPO技术替代、扩产良率瓶颈及宏观不确定性等风险。
Trendforce reports that $AMD is actively trying to secure CW laser supply with multiple major procurement orders... Is p...
SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。
Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。
TensorDyne 发布 AI 推理机架 Napier,声称在 DeepSeek-R1 上基于内部模拟达到 363,000 tokens/s(用户速度 210 tokens/s),是 NVIDIA NVL72 GB300(27,400 tokens/s)的 13 倍。Napier 在对数空间中运算,将乘法转为加法,从而降低芯片面积与功耗,更多晶体管用于 SRAM,每 token 能耗更低、推理密度更高。此举改变 AI 推理经济学,不再单纯比拼 FLOPS,而是转向功率、内存局部性、互连延迟与 token 服务成本。
1. as a mental model it is more correct to think of fable+ class models as english -> code interpreters - converts your ...
Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。
GLM-5.2 now available in Go text · 1M context · same pricing as 5.1
Grok is now available on Amazon Bedrock. AWS developers can now build with Grok 4.3, the industry leader in hallucinatio...
Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。