DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。
DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。
Adam 是一个开源 AI CAD 工具,可将自然语言和图像输入转化为 3D 模型。它完全在浏览器中运行(基于 WebAssembly),提供参数化滑块调节和实时预览(Three.js),支持导出 .STL、.SCAD、.DXF 格式,内置 BOSL、BOSL2 和 MCAD 库。基准测试显示,从单一提示词即可生成全参数化 OpenSCAD 模型,包括 V8 发动机、9 缸径向航空发动机、高旁通比涡轮风扇发动机等复杂多部件机器,以及六角扭曲花瓶、M12 螺栓与螺母等参数化零件,每个模型附带可调节维度和颜色数量。
智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API(POST /search),使智能体运行时通过自然语言搜索发现能力,无需预装。Hugging Face 推出参考实现 Discover Tool,集成 Hub 语义搜索与 Agent Skills,覆盖数千个 Skills、ML 应用和 MCP 服务器;支持 CLI(hf discover search)、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。
企查查数据显示,DeepSeek 于 2026 年 6 月 16 日完成首轮外部融资,规模约 510 亿元,估值近 4000 亿元。投资方包括创始人梁文锋、腾讯、宁德时代、网易、京东、Monolith 砺思资本、IDG 资本、正心谷投资、拾象科技及国家人工智能产业投资基金。DeepSeek 成立于 2023 年 7 月,主营大语言模型及多模态 AI 技术研发,此前由幻方量化全资支持。本轮融资将用于扩展 AI 基础设施、加强研发、提供股权激励及加快商业化。国家人工智能产业投资基金直接入股并享有投票权,其余投资者均不享有投票权且设有五年锁定期。
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 Interconnects AI, LLC 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。
智谱发布新一代开源旗舰模型GLM-5.2,百度智能云同步实现Day0全栈适配。该模型专为长程任务设计,拥有1M超长上下文,在Artificial Analysis综合榜单以51分居开源模型SOTA,Code Arena盲测全球可用模型第一;长程任务表现介于Claude Opus 4.7与4.8之间。百度百舸基于昆仑芯硬件完成适配,实现KV缓存命中率超90%,64K序列TTFT下降6.2倍,已建成3.2万卡昆仑芯P800集群。千帆以预置服务形式开放API,视频云和Comate同步接入,覆盖长视频创作、多模态互动及工程开发等场景。
AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。
GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。
关联讨论 7 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)Hacker News 热门(buzzing.cc 中文翻译)GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
关联讨论 7 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)Hacker News 热门(buzzing.cc 中文翻译)MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。
蚂蚁 inclusionAI 在 GitHub 上公开了新的 ASystem 仓库,项目托管于 asystem-ai.io。最近一次提交于 6 月 24 日,内容为更新 AReno 静态站点文档。仓库当前无标签、无发布版本。
蚂蚁集团在 GitHub 上新建仓库 inclusionAI/asystem。目前仓库仅包含 docs、.nojekyll 和 CNAME 等基础文件,尚无代码或详细说明,具体功能与项目目标尚未披露。
Mozilla发布路线图,核心是推动2026年最大视觉功能重塑Project Nova落地。最新Firefox 152稳定版新增安卓标签页分组功能(iOS年内推出),重新设计设置界面,并加入“已拦截追踪器”小部件。未来规划包括自定义键盘快捷键、PDF拆分合并编辑、Multi-Account Containers原生集成、免费内置VPN(移动端)、AI驱动的Quick Answers语音问答、Smart Window隐私AI浏览体验,以及省电模式。
智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。
TNO 联合 SURF 和荷兰法医研究所(NFI)正构建独立荷兰语言模型 GPT‑NL,旨在增强荷兰与欧洲的数字自主权。该模型完全从零训练,避免数据溯源不清和版权风险;数据收集严格保护知识产权、去除个人数据、排除机密和有害内容。GPT‑NL 强调开放透明,公开源代码,模型权重在受控许可下发布。项目获荷兰企业局(RVO)1350 万欧元公共资金,致力于在治理、隐私和价值观上实现主权与可信的 AI。
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。
MiniMax M3模型正式开源,支持原生多模态和百万token上下文。发布两周以来,M3在Artificial Analysis综合智能指数排行榜上取得全球开源模型最高排名。
东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。
Anthropic 举办的 Built with Opus 4.7 Claude Code 黑客马拉松公布三位获奖者。第一名 Medkit(Bedirhan Keskin 构建)是模拟真实诊疗场景的医学训练工具,已获三所医学院和一家制药公司试点。第二名 Wrench Board(Alexis Chapellier 开发)可解析电路原理图和板视图,定位故障点,依赖 Opus 4.7 的视觉理解能力。第三名 Maieutic(Paula Vásquez-Henríquez 创建)旨在帮助学生理解自己生成的代码。
一篇讨论欧洲是否具备自持计算能力以训练前沿AI模型的文章在Hacker News引发关注。文章围绕欧洲现有算力基础设施能否支撑前沿模型训练展开,未提及具体模型、参数规模或 benchmark 数据。
美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》巴西里约市政府旗下IplanRIO推出的开源模型Rio-3.5-Open-397B在多项基准测试取得SOTA,被称为拉美AI新势力。不到24小时,上海创智学院Nex团队指控其套壳阿里千问Qwen3.5和Nex N2 Pro的权重混合版本。Nex展示证据:不提供初始系统提示时模型自称“Nex N2 Pro”并提及“上海创智学院”。IplanRIO在Hugging Face致歉,称因操作失误上传了合并基线版本,将重新上传蒸馏与后训练的正式版。
MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。
Sarvam宣布完成2.34亿美元融资,投后估值15亿美元,成为印度最新AI独角兽。HCLTech作为战略投资者领投1.5亿美元,Bessemer Venture Partners及现有投资者跟投。该公司定位全栈AI,专为印度语言和场景设计。其对话AI平台每日处理超200万次交互,推理平台日均约1000万次API调用,语音模型月均转录超50万小时音频,文档AI系统已数字化超3500万页记录。多语言语音代理已为印度农业部从1700万农民收集数据,并为一家头部保险公司支持4500万保单持有人续保。新资金将用于下一代聚焦智能体、编码和网络安全的模型研发及计算基础设施扩展。
腾讯入股由阿里通义千问前负责人林俊旸创立的新AI实验室,首轮出资2000万美元。该轮融资总额达数亿美元,投后估值约20亿美元,由高榕资本和红杉中国各出资1亿美元领投。刚完成本轮融资,林俊旸已在寻求启动新一轮融资。公开资料显示,1993年出生的林俊旸曾是阿里最年轻的P10技术专家,与智谱AI创始人唐杰、月之暗面创始人杨植麟、腾讯首席AI科学家姚顺雨并称“基模四杰”,今年3月从阿里巴巴离职。
昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。
松延动力在华为开发者大会 HDC 2026 上展出 OpenHarmony 版 N2 人形机器人,定位行业首款开源鸿蒙消费级产品。针对生态孤岛、跨设备开发繁琐、系统占用率高等痛点,N2 凭借开源鸿蒙微内核及 AI 智能体实现语音交互和长程任务自规划,可与手机、智慧屏、智能家居等终端联动,充当家庭管家或教育陪伴角色。同步启动“百人百机”计划,为 100 位开发者提供 N2 及原生 SDK,支持 Ubuntu 与开源鸿蒙生态。
人工智能本质上是代码,不能通过提示词来使其变得更智能。提示只能调用模型已有的能力,无法创造或提升智能水平。
小米新媒体高级工程师 @小米_邹師傅 今日再发文谈大模型,称过去一年国内大模型行业最令他兴奋的是开始靠作品说话——开源代码放GitHub、论文挂arXiv、模型让开发者使用。他认为大模型的核心评委只有开发者,而非媒体或榜单。他期望赛道竞争回归技术本身,比拼代码质量、推理速度和开源贡献,而不是比嗓门或预算。同时澄清上述为个人观点,不代表公司立场,并希望大模型成为“一方净土”,让研发人员专注开发。
小米公司新媒体高级工程师 @小米_邹師傅 今日发文,表示对某个大模型重新出山持欢迎态度,但担忧部分公司会刷榜、刷水军、捆绑国产算力芯片与家国情怀,把技术赛道打成营销战场。他称国内大模型圈过去一年已形成“靠作品说话”的氛围(DeepSeek开源、MiMo论文、Qwen开发者口碑),这片净土来之不易;若新选手以舆论轰炸加有组织拉踩入场,那叫污染。他预判国内大模型将进入血雨腥风的内部厮杀和站队。据IT之家此前报道,小米 MiMo-V2.5 系列于今年4月开启公测,5月宣布 API 永久降价,最高降幅达 99%。
Simon Willison 为 Datasette 探索了三种方案,使其能对任意 SQL 查询结果补充源表列信息。他使用 Claude Code(Opus 4.8)发现:利用 apsw 库、通过 ctypes 调用 SQLite 内部未暴露的 sqlite3_column_table_name() C 函数,以及分析 EXPLAIN 输出。这些方法可程序化识别 select users.name, orders.total from users join orders on orders.user_id = users.id 等查询中每个结果对应的源表.列,并支持 JOIN 和 CTE 等复杂语法。
Pyodide 314.0 发布后,开发者可将为 Pyodide 编译的 Python 包以 wheel 格式发布到 PyPI 并在运行时通过 micropip 安装。此前逾 300 个包需由 Pyodide 维护者统一构建托管。作者用 Codex + GPT-5.5 xhigh 将 Luau 的 WebAssembly 版本打包为 luau-wasm 并上传至 PyPI,wheel 仅 276KB,展示了完整流程。截至发布,已有 28 个 PyPI 包使用新 pyemscripten_202*_wasm32 标签。
GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论,帖子获得 111 个 HN 积分。页面包含一张发布图片,但未提供具体功能或更新内容。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》Paca 是一款面向人类与 AI 智能体协作场景的轻量级项目管理工具,旨在替代 Jira。项目已开源并托管于 GitHub,支持团队通过直观界面协同管理任务,特别针对 AI 参与工作流进行了优化。
英特尔将 AI 加速开源项目 BigDL 列入终止清单,最终归档日期定为 2026 年 6 月 30 日。BigDL 专注于在英特尔全系 XPU 上低延迟运行大语言模型,集成了 TensorFlow、Keras、PyTorch、Apache Spark/Flink 等主流框架,支持 CPU 和 GPU 加速,并借助英特尔 SGX 与 TDX 技术保护大数据与 AI 安全,覆盖从酷睿 Ultra 笔记本到云端硬件。该项目此前仍在定期提交代码,终止原因与英特尔开源策略转向、企业重组及成本削减有关。
华为在 HDC 2026 期间发布 DevEco Code,这是一款面向 HarmonyOS 开发场景的 AI Agent 工具,支持代码编写、编译构建、设备运行、文档查阅、运行时调试及 ArkTS 问题修复。DevEco Code 基于开源项目 OpenCode 扩展,保留了其终端交互、配置体系、Provider / MCP / Skill / Plugin 等能力,并针对 HarmonyOS 工程新增了 DevEco Studio、Hvigor、HDC、Skill、HarmonyOS 知识库、ArkTS 检查和设备调试集成。集成的工具包括 build_project、start_app、hdc_log、verify_ui、check_ets_files、arkts_knowledge_search、switch_cwd 等。