6 月 23 日,OpenAI 宣布“修补地球”计划,与网络安全公司 Trail of Bits 合作,协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险,结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例,并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力,但长期运行模式尚未明确。
6 月 23 日,OpenAI 宣布“修补地球”计划,与网络安全公司 Trail of Bits 合作,协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险,结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例,并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力,但长期运行模式尚未明确。
OpenAI 联合安全公司 Trail of Bits 启动“Patch the Planet”计划,帮助开源项目修复安全漏洞。Trail of Bits 工程师将直接与维护者合作,利用 OpenAI 的 Codex Security 等工具审查代码、开发补丁和测试,旨在减少维护者的安全报告处理负担,而非增加工作量。开源软件是商业基础但常因分散化而存在漏洞,OpenAI 此举也被视为对 Anthropic 安全工具 Mythos 的竞争回应。
Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》SpaceX 与开源 AI 初创企业 Reflection AI 签署算力合作协议,最高价值 63 亿美元。Reflection 将立即获得英伟达 GB300 AI 芯片使用权,自 2026 年 7 月 1 日至 2029 年底每月支付 1.5 亿美元。合约生效满三个月后任一方可提前 90 天终止。SpaceX 此前已与 Anthropic、谷歌和 Cursor 达成合作,马斯克旗下公司正收购 Cursor。Reflection 专注于开源模型,正与美国能源部“创世纪计划”合作并参与五角大楼 AI 计划。
Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2,6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型,匹配 Opus 4.8 无思考模式;在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布,GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布(2025 年 11 月 24 日)到 GLM-5.2 发布(2026 年 6 月 16 日)间隔约 6.8 个月。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》Mitchell Hashimoto 家庭宣布再向 Zig 软件基金会(ZSF)捐赠 40 万美元,分两年每年 20 万美元,加上 2024 年首次捐赠,累计捐赠总额达 70 万美元。Zig 项目在语言和编译器开发上稳步推进,其严格禁止 LLM 贡献的政策近期引发公开讨论。Hashimoto 表示自己大量使用 AI,但尊重 ZSF 的选择,认为开源项目有权保持独立文化和边界。Ghostty 终端模拟器的成功很大程度上得益于 Zig。
最新开源 GLM-5.2(Z.ai,MIT 许可,1M token 上下文,输出定价 $4.4/百万 token)与 Claude Opus 4.8 在单次提示构建 3D WebGL 平台游戏任务上对比。Opus(Claude Code)用时 33 分 30 秒,成本约 $21.92;GLM-5.2(Pi/OpenRouter)用时 1 小时 10 分 40 秒,成本仅 $5.39。Opus 游戏更干净、能自检视觉输出(GLM-5.2 纯文本),但 GLM-5.2 价格低且开源权重可下载,始终可用。
微软CEO纳德拉向OpenAI、Anthropic等AI巨头发出警告,反对少数公司垄断AI价值并以此索取无限资源。他主张下一阶段AI应转向价格更低的模型,赋予用户更大选择权,并以更可信方式阐述AI社会价值。纳德拉批评前沿模型开发商一边渲染安全风险和失业,一边要求建设大量数据中心。他明确表示,微软不希望AI未来完全由这些公司决定,而应让AI成为企业的知识引擎,由企业灵活调用多种模型,在自有机器内实现持续改进。
2026年6月,Claude和GPT在Artificial Analysis智能排行榜上领先,但Claude推出ID验证促使作者重新评估。开放模型可通过本地或OpenRouter等第三方部署,虽存在隐私、成本与速度问题,但性能与顶级闭源模型仅差几个月,类似2008年Linux与Windows的差距但更小。作者认为转向开放模型的生产力损失是短期且可接受的,并非不可逾越的障碍。
智谱港股总市值首次突破1万亿港元,年内涨超2000%,6月22日盘中涨超35%至1.27万亿港元。公司6月17日开源GLM-5.2,该模型在全球百万用户盲测的前端开发评估系统Code Arena上取得可用模型第一。特斯拉CEO马斯克6月19日预测中国大模型可能要到2027年第一季度达到Anthropic Fable水平,智谱联合创始人唐杰回应称“不需要那么久”。
RaysUp是一个超轻量、任务无关且与视觉基础模型无关的特征上采样框架,通过将重建提升至几何感知光线域,在任意分辨率下重建高分辨率特征图。核心组件包括空间解耦引导编码器、任意分辨率交叉注意力机制、基于6D Plücker射线坐标的RayPE(射线位置编码)和几何感知邻域注意力模块。在多种密集预测任务中取得SOTA性能,参数量仅为AnyUp的16%,推理速度提升约7倍。代码已开源。
ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。
瑞士AI倡议(EPFL、苏黎世联邦理工学院、CSCS合作)推出完全开放的基础模型Apertus,公开训练数据、代码、权重、方法和对齐原则。模型符合欧盟AI法案要求,支持1000+种语言,提供8B和70B参数版本。同时发布Apertus Mini,含16个小模型用于演示知识蒸馏与量化技术。技术报告已被ACL 2026接收。针对提契诺州微调的版本已用于内部AI翻译。瑞士电信为战略合作伙伴。
6月21日,在2026年APEC工商领导人中国论坛上,京东创始人刘强东宣布,京东所有AI技术即日起向包括亚太地区在内的海外合作伙伴开放。他表示不希望任何企业或国家制造技术壁垒,认为技术壁垒本质上是剥削。他还呼吁企业、研究机构和政府尽早就AI和机器人时代开展国际化合作。刘强东透露,京东近期提出“涅槃计划”,计划将70万快递员等蓝领工人送往学校进行技术培训,以应对AI冲击。
25岁创业者徐子文(Ziwen Xu)启动自制《GTA6》项目GT-Caliber,使用Anthropic旗下Claude Max 20x大模型,配合多款AI智能体循环运行,实时收集社区需求并自动生成代码。开发首周先后从Godot引擎迁移至虚幻引擎,最终选定Unity。九天进展包括路人NPC自主行走、道路交通、武器系统及仿Instagram游戏手机,第七日生成洛杉矶风格居民区。项目开源托管于GitHub,无发行商支持。R星官方已公布《GTA6》预购6月25日开启,11月19日登陆PS5、Xbox Series X|S。
Nous Research 为其开源 AI 智能体框架 Hermes Agent 新增 Blank Slate 设置模式。该模式默认仅开启 provider & model、File Operations 和 Terminal 三项,Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件及 MCP 等全部禁用。配置被写入 platform_toolsets.cli 和 agent.disabled_toolsets 并固化到磁盘,即使执行 hermes update 也不会静默启用未选工具。用户可在极简基线后选择完全禁用或逐项启用。该模式适用于安全敏感部署、可复现团队设置和教学审计场景。本地运行要求模型至少 64K 上下文窗口。
广东省人民政府6月19日印发《广东省推进服务业扩能提质实施方案》,在软件和信息技术服务业方面,将加快开源生态建设,依托省开源鸿蒙适配中心,在制造业、能源、交通、海洋、泛家居等领域推进多行业示范应用和规模化适配。今年5月28日,开源鸿蒙开发者大会2026上,该适配中心技术指导委员会(TSC)正式授牌成立,由19名专家组成,涵盖科研院所、龙头企业、高校、行业协会四大领域。
新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。
OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
Datasette 发布新插件 datasette-apps,允许托管自包含 HTML+JavaScript 应用。应用在严格沙箱中运行(sandbox 属性和 CSP 头),无法访问 cookies、localStorage 或外部 HTTP 请求,防止数据泄露。应用可用 JavaScript 对 Datasette 数据执行只读 SQL 查询,若配置存储查询还可写入。应用与父窗口通过 postMessage 或 MessageChannel 通信。灵感来自 Claude Artifacts,为 HTML 前端提供 Datasette 后端。试用需 GitHub 登录 agent.datasette.io 演示实例。
RTK获得60k GitHub星标,宣称能“削减60–90%模型token用量,支付1/10的价格”,但实际API账单并未同比例下降——它仅裁剪Bash原始输出,忽略文件读取、仓库上下文、系统提示词和模型内部推理token。公开issues指出终端输出会被静默截断或丢失,且AI智能体无法感知压缩,导致关键信息缺失。RTK从未公布任务成功率(如SWE-bench类基准),其节省量更像营销指标。从架构看,rtk引入脆弱的外部依赖,解析git、cargo、npm、grep等CLI工具的stdout/stderr格式,一旦工具更新格式便可能静默失败。本质上这是CLI原生可实现的feature,而非独立产品,将其放入生产agent关键路径存在高风险。
蔡崇信昨日在 VivaTech 2026 上表示,AI 的总潜在市场规模达 50 万亿美元,对标人类生产力,阿里巴巴正全面投入 AI。其全栈 AI 优势包括:中国高效低成本的能源供给,提前布局的云计算和芯片,全球最受欢迎的开源模型千问(Qwen),以及覆盖电商、即时零售等丰富应用场景。他同时指出,当前全球 AI 开源的主要推动力量来自中国企业,阿里巴巴团队在推动前沿模型开源方面做出巨大贡献。
本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。
为调和开源权重与敏感能力控制,论文提出分层语言模型(TLM)。一套权重支持多个能力层级:默认公共配置行为与常规LLM一致;紧凑密钥通过指定少量参数的排列,在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后,密钥配置可获取新语言、指令跟随和私有事实记忆能力,而公共配置完全不展现。该方法自然扩展至多层级,且因授权基于权重结构,可抵抗微调式提取和密钥部分泄露。
前Google研究员、Transformer架构共同作者诺姆·沙齐尔在X上宣布,他将加入OpenAI,并期待与那里的卓越团队合作。沙齐尔表示这是一个艰难的决定,同时对Google团队及其共同取得的成果感到无比自豪。
关联讨论 8 条IT之家(RSS)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Jason Liu (@jxnlco)X:Yuchen Jin (@Yuchenj_UW)X:歸藏 (@op7418)X:Sam Altman (@sama)TechCrunch:AI(RSS)Canonical 公布 Project Myna,为 Ubuntu 桌面打造的本地语音转文字工具,首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能:用户按下键盘快捷键后说话,转录文字直接插入当前应用,屏幕显示视觉反馈。所有识别在本地运行,下载模型后无需联网;麦克风仅在激活时被访问,音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境,架构采用模块化设计,源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。
6月18日,Rust基金会宣布OpenAI以白金会员身份加入,并提供总计60万美元(约406.5万元人民币)的资金支持,涵盖入会费用、额外拨款及生态系统维护。该资金将用于Rust Project Goals、Rust Innovation Lab等计划,为开源项目维护者提供系统化支持。Rust基金会是由AWS、谷歌、微软等联合创立的独立非营利组织。
一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。
6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。
美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。
Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
苹果 GPTK 4 引入 Agentic AI 能力,通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示,在 M3 Max MacBook Pro(48GB 内存/40 核 GPU)上,《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%;《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》,GPTK 4 平均 35fps,较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃,现可运行至 60–70fps(1080p/中画质/FSR 质量),但每次启动需等待 20 分钟着色器编译。
智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。
关联讨论 8 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)