本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
据韩媒报道,SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E,首批样品最快本月出货,最迟不晚于下个月。HBM4E 计划明年正式量产,预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上,SK 展出了 HBM4E 晶圆,黄仁勋参观并留言“请多生产一些”。
富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。
pi + DeepSeek 画的,才发现这个技能不需要生图模型,是通过 LLM 将自然语言描述转为结构化 JSON → Node.js 渲染器用纯几何算法生成 SVG → 注入自包含 HTML。 https://github.com/tt-...
三星造船事业部设计了一座功率达50兆瓦的海上浮动AI数据中心,从零开始建造专用船舶。该设施停靠近海时可通过海底电缆接入电网,驶往远海后借助液化天然气燃料电池自主发电,并直接抽取海水为服务器降温。三星已携手超微在真实河道与海洋环境中对高性能硬件进行极限测试。设计方案已获国际海事监管机构初步审批,去年秋季与OpenAI签署合作意向书。希腊航运企业Capital Clean Energy Carriers提供资金支持并协助选址。
Simon Willison 为 Datasette 探索了三种方案,使其能对任意 SQL 查询结果补充源表列信息。他使用 Claude Code(Opus 4.8)发现:利用 apsw 库、通过 ctypes 调用 SQLite 内部未暴露的 sqlite3_column_table_name() C 函数,以及分析 EXPLAIN 输出。这些方法可程序化识别 select users.name, orders.total from users join orders on orders.user_id = users.id 等查询中每个结果对应的源表.列,并支持 JOIN 和 CTE 等复杂语法。
Pyodide 314.0 发布后,开发者可将为 Pyodide 编译的 Python 包以 wheel 格式发布到 PyPI 并在运行时通过 micropip 安装。此前逾 300 个包需由 Pyodide 维护者统一构建托管。作者用 Codex + GPT-5.5 xhigh 将 Luau 的 WebAssembly 版本打包为 luau-wasm 并上传至 PyPI,wheel 仅 276KB,展示了完整流程。截至发布,已有 28 个 PyPI 包使用新 pyemscripten_202*_wasm32 标签。
Last call for the 2026 AI Engineering Survey 👀 https://ntn.so/ai-survey Excited to be partnering with @NotionHQ and @ve...
Made some improvements on the decode path for MiniMax M3 by @MiniMax_AI on MLX-VLM Faster decode, slightly lighter footp...
使用 RTX 5080 和 RTX 3090 组合硬件,在 Qwen 3.6 27B Q8 模型推理中获得 80 Tok/s 的速度。
该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。
Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。
6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。
Meta 在一份面向 6000 名员工的内部备忘录中透露,仅内部使用 AI 的成本就将达到数十亿美元。从 2027 年起,预算、配额以及名为“AI Gateway”的中央仪表板将管控 token 消耗。CTO Andrew Bosworth 直言:“并非所有行动都是进步,单凭 token 使用量不能衡量任何影响。”
SpaceX完成IPO,首日收涨超19%,市值达2.11万亿美元,马斯克成全球首位万亿富豪。英伟达发文祝贺,马斯克回应称将把合作“提升到新水平”。SpaceX已公布首款AI计算卫星AI1,峰值计算载荷最高150千瓦,配备液冷散热器与微流星体防护。IPO前夕,SpaceX与谷歌签署云服务协议,获得相当于11万块英伟达GPU的计算能力,月费9.2亿美元;近期还与Anthropic签署协议,提供22万块H100、H200、GB200等GPU使用权限,月费12.5亿美元。
微软本周三在 GitHub 开源 SwiftStreamingMarkdown,面向 iOS 平台,专为大语言模型聊天场景的逐字流式渲染优化。采用 MIT 许可证,通过 Swift Package Manager 集成约增加 3 MB 体积,可避免主线程过载。支持 CommonMark 与 GFM 核心子集(标题、段落、粗斜体、删除线、行内代码、链接、代码块、引用块、列表、表格、LaTeX 公式及 LLM 溯源标记),图片仅显示替代文本,未实现语法降级为可读文本。内置过渡动画、数学公式渲染、可配置主题、上下文菜单及交互追踪钩子。在 iPhone XS 高负载测试中,主线程控制优于同类库。
6 月 12 日,MiniMax 新一代原生多模态模型 M3 开源,同日摩尔线程完成 MTT S5000 智算卡的 Day-0 适配。该卡凭借硬件级原生 FP8 加速,单卡稠密算力达 1000 TFLOPS,配备 80GB 显存与 1.6TB/s 带宽,支撑百万 token 级长序列。通过 MUSA C++ 与 Triton-MUSA 抽象层实现新算子快速迁移,同步拉起 vLLM 与 SGLang 推理框架,覆盖 FP8 至 FP64 全精度。开发者可基于 MUSA 软件栈与双框架部署。
OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。
OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。
Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。
6 月 12 日,华为云基于昇腾算力为 MiniMax 原生多模态旗舰模型 M3 提供 Tokens 支持,并完成开源首发适配。M3 采用 MSA 架构,支持 1M 超长上下文及图片、视频输入,可操作电脑桌面。在 SWE-Bench Pro 上超 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;SVG-Bench 超 Opus 4.7;OmniDocBench 超 Gemini 3.1 Pro;Claw-Eval 获最高分。华为云完成 MSA 算子适配与 MOE 均衡优化,确保大规模推理稳定。
Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent(Fleet Manager)在远程机器上运行,通过 SSH 连接数百台子 Agent 机器,利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康,将故障推送至 Slack/PagerDuty,并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究,主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品,通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。
http://x.com/i/article/2065439304785039360
NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。
Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。
在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。
Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。
交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。
截至今年,抗议活动已成功阻止价值约1300亿美元的AI数据中心项目。反对者通过组织行动阻碍了多地的开发计划,称这一胜利让参与者“尝到了政治权力的滋味”。抗议主要针对数据中心带来的能源消耗、水资源占用和环境影响,部分项目已被政府暂停或重新审查。
Anthropic正从租用云算力转向自建数据中心,计划在美国部署超1GW容量,Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁,包括与Google的2000亿美元协议,以及Akamai、AWS、CoreWeave、Fluidstack的大型合作(含500亿美元Fluidstack合作、AWS Trainium硬件)。此外,Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间,并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。
Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...
SpaceX上市首日高开29%,募资750亿美元创全球最大IPO纪录,跻身全球第6大上市公司,马斯克成首位万亿富豪。高盛总裁沃尔德伦称,这表明投资者愿为AI和太空基建买单,预示IPO浪潮,Anthropic和OpenAI均可能今年上市。他还预计2026年并购交易将创纪录,全球并购规模达3.1万亿美元,同比增35.2%。
SpaceX 于周五进行首次公开募股(IPO),公众首次可以购买这家融合火箭、AI 和社交媒体业务的公司股票。此次融资规模巨大,可能使埃隆·马斯克成为首位万亿富翁,其估值基于将 AI 数据中心发射到太空的业务前景。此外,SpaceX 还获得了一份价值 40 亿美元的合同,用于建造导弹追踪卫星“金穹”。
This month is, unsurprisingly, Cost Reduction Month. In our data from the last 3 yrs, we commonly see major cost crunche...
指南强调IP成色比配置更重要,提供3个免费网页的验货SOP:Scamalytics查Fraud Score(实测0分,Low Risk,黑名单全No);ipinfo查AS Type(实测为ISP,连接类型dsl,VPN/Proxy/Tor/Hosting均为No);check-host查全球丢包和延迟(所有节点4/4零丢包,美境内延迟8-59ms)。推荐VoyraCloud住宅IP VPS(华盛顿节点),年中促销(6/9-6/30)年付7折、半年付8折。提醒:IP干净不是免死金牌,账号行为同样重要;普通建站无需住宅IP。
金山云因全球AI算力需求攀升、硬件成本上涨,将AI算力相关产品服务价格上调约15%-50%,文件存储相关产品服务价格上调约30%-50%。调整于北京时间2026年7月12日00:00:00生效,存量订单在当前计费周期内不受影响。今年Q1金山云营收27.0亿元,同比增长37.2%,其中智算云账单收入达10.0亿元,同比增长90.1%,占公有云收入比重50.1%。
日产社长伊万·埃斯皮诺萨透露,新车研发周期将缩短至原来的一半。计划2026年冬季推出的新款Skyline研发时间从55个月压缩至2年多。他表示中国在技术、成本和研发周期方面正成为行业标杆,日产要向中国学习。2025年4月推出的纯电动车型N7研发周期已缩短至两年,很大程度上得益于AI应用,提升了设计和测试效率。日产还将推行平台与核心零部件通用化,将多款同平台车型整合为“家族”同步开发,计划2026财年内推广至9成车型。