7月1日

12:00

公众号：龙猫LongCat（美团）

精选82

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码

关联讨论 9 条

推荐理由：国产算力上首个全流程自训的万亿开源模型，1M上下文和动态专家架构直指Agentic Coding场景，OpenRouter调用量已经冲到前三，不是Demo是生产力。

07:08

Ethan Mollick：One Useful Thing（RSS）

聊天机器人的黄昏

前沿AI模型能力加速提升，美国实验室发布速度加快，但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程，token成本$251。中国开源模型落后前沿6-12个月，但性能也快速提升，在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体，OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示，领域经验比职业属性更决定使用效果，专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体 Anthropic OpenAI 大佬观点

关联讨论 24 条

6月29日

01:26

Nathan Lambert：Interconnects（RSS）

精选60

Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元，参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs；科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机；产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16，采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+（05-2026-bf16），这是一款 218B-A25B MoE 模型，具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由：这篇文章把开源模型玩家拆成三类，清晰解释了不同动机，Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号，关注开源的值得一读。

6月27日

18:41

OpenRouter：Announcements（RSS）

2026年6月值得关注的开放权重模型

一批来自中美新玩家的开放权重模型已发布。截至2026年6月，有四个最值得关注的开放权重模型，并给出了各自的最佳使用场景。

开源生态评测/基准

6月26日

12:00

公众号：龙猫LongCat（美团）

精选69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由：美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准，实验发现最强模型得分也刚过0.5，做Agent和推荐系统的值得跑一遍。

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

6月24日

16:30

公众号：面壁智能（MiniCPM）

面壁智能曾国洋出席APEC中小企业工商论坛，以"高效+开源"加速大模型普惠

6月24日，面壁智能联合创始人兼CTO曾国洋在APEC中小企业工商论坛指出，大模型产业已从拼参数规模转向拼能力密度与落地实效。高效端侧大模型契合中小企业轻量化、低成本、高安全需求。他强调开源开放能降低技术门槛与试错成本，加速AI普惠。面壁智能MiniCPM系列模型在GitHub、Hugging Face等平台累计下载量突破3000万次，已在汽车、智能手机、AI PC、智能家居等领域实现规模化落地。

开源生态行业动态

03:43

GitHub Blog

精选56

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟，呼吁对加州 AI 透明度法案（SB 942，拟由 SB 1000 修正）进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要，已有直接监管和执法机制，并建议参考欧盟 AI 法案的透明度实践规范，以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正，以在保持透明度目标的同时兼容开源开发模式。

GitHub 开源生态政策/监管

推荐理由：GitHub 联合 Hugging Face 等开源玩家公开呼吁修正加州 AI 透明法案，核心矛盾是许可撤销条款与开源许可的‘永久不可撤销’冲突，对开源开发者是个明确的政策信号，值得留意。

02:26

Hugging Face：Blog（RSS）

精选64

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选82

恶意CDN仍潜伏GitHub Pages，AI让情况恶化

UC Berkeley研究人员发现，近2000个GitHub Pages站点（18000+页面，累计530K+星标）仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.（现更名Triad Nexus）运营，2024年被出售后开始条件性注入恶意载荷，劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io，1191个加载其他Funnull CDN。更严峻的是，所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL，包括CyC2018/CS-Notes（184K⭐）、microsoft/AirSim（18K⭐）等知名项目及多所大学课程页面。

GitHub 安全/对齐开源生态编码

推荐理由：polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点，更可怕的是所有测试的AI模型都还会推荐这些链接，AI编码的便利正在变成供应链投毒的加速器。

6月23日

21:20

Hugging Face：Blog（RSS）

精选73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

智能体 GitHub MCP/工具产品更新

推荐理由：CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

同事件精选64

OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划，AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划，利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究，经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞，合并数十个补丁，并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如，通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室，而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI 安全/对齐开源生态

同一事件，精选展示《OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》

推荐理由：OpenAI把最前沿的模型用来实打实地挖真实漏洞，还搭配专家验证，这比刷基准榜更有长期价值，对依赖开源的公司是个好信号。

6月22日

23:05

Nathan Lambert：Interconnects（RSS）

同事件精选67

GLM-5.2：开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2，6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型，匹配 Opus 4.8 无思考模式；在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布，GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布（2025 年 11 月 24 日）到 GLM-5.2 发布（2026 年 6 月 16 日）间隔约 6.8 个月。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2是第一个真正能打的开放编码代理模型，社区反应堪比DeepSeek R1时刻，对依赖Claude Code的开发者是个好消息，开放模型的竞争力又前进了一大步。

6月20日

04:26

OpenRouter：Announcements（RSS）

精选68

OpenRouter vs LiteLLM：如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关，无需管理基础设施，收取 5.5% 平台费（前 100 万次请求免费），支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理（Docker/PostgreSQL/Redis），数据不离开内网，免费开源，但需承担基础设施成本（生产部署约数百美元/月）。当模型月支出超过约 $3,600（基础设施 $200/月）或 $9,100（基础设施 $500/月）时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由；OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由：OpenRouter 这份官方对比很坦诚，把成本、延迟、合规的权衡掰开了讲，自建 LiteLLM 和托管谁更划算的算术也给清楚了，做 LLM 网关选型的直接看这篇就够了。

6月19日

21:59

Nathan Lambert：Interconnects（RSS）

精选56

禁止开源AI将是一个错误

近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制，可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值，在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中，开源（尤其开放权重）是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全，更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反，美国初创公司正依赖包括中国在内的开源模型提升效率。

大佬观点开源生态政策/监管

推荐理由：在华盛顿弥漫监管 AI 空气的当下，这篇文章是对‘禁止开源 AI’冲动的清晰反驳。它系统梳理了开源在教育、创新和竞争中不可替代的价值，尤其适合对政策走向摇摆不定的人阅读。

08:00

OpenRouter：Announcements（RSS）

精选73

DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示，V4 发布后其 token 份额从年初的9%增长至6月初的18%，自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型，到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18，远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型，DeepSeek 是主要驱动力。

智能体 DeepSeek 开源生态现象/趋势

推荐理由：OpenRouter 独家数据展示了代际转折：DeepSeek V4 靠性价比吃下代理负载，中国模型 token 份额首次超过美国，这个信号比任何 benchmark 排名都真实，做应用选型的人该重新算账了。

6月18日

12:00

公众号：龙猫LongCat（美团）

美团智能创作团队海报生成技术体系：PosterCraft/PosterOmni/PosterReward

美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft（ICLR 2026）通过四阶段级联优化实现端到端高美感海报生成，文字渲染准确率接近顶级闭源商业系统；PosterOmni（CVPR 2026）以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务；PosterReward（CVPR 2026）是首个专门面向海报质量的奖励模型，在专项评测基准上达86%准确率。三者相互协同，已全部开源至MeiGen-AI仓库，并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。

图像生成开源生态教程/实践评测/基准

10:40

公众号：通义实验室（千问）

精选75

首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源，是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B（1B参数）在六大科学任务上匹配或超越领域专用方法：口袋条件配体生成纯序列范式首次超越3D扩散模型，超越NatureLM（8×7B）；逆合成预测Top-1准确率74.8%；口袋位点识别仅靠序列达58.5% Top-n准确率；MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token，通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致，跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

关联讨论 1 条

推荐理由：LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架，纯序列建模就干过了专用扩散模型，参数量却只有NatureLM的1/56，做AI4S的得认真看一眼。

00:43

Hugging Face：Blog（RSS）

ARD 规范发布：让智能体搜索工具、技能与其他智能体

微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API（POST /search），使智能体运行时通过自然语言搜索发现能力，无需预装。Hugging Face 推出参考实现 Discover Tool，集成 Hub 语义搜索与 Agent Skills，覆盖数千个 Skills、ML 应用和 MCP 服务器；支持 CLI（hf discover search）、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。

Hugging Face MCP/工具产品更新开源生态

关联讨论 1 条

6月17日

23:07

Nathan Lambert：Interconnects（RSS）

博客现状，2026年中

Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标：为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音，避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议，以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万，付费约 900 人；运营实体 Interconnects AI, LLC 已成立，但银行账户数月余额接近零，收入再投入业务，近期不打算全职运营。

大佬观点开源生态

20:30

公众号：百度智能云（文心）

智谱GLM-5.2发布，百度智能云Day0全栈适配

智谱发布新一代开源旗舰模型GLM-5.2，百度智能云同步实现Day0全栈适配。该模型专为长程任务设计，拥有1M超长上下文，在Artificial Analysis综合榜单以51分居开源模型SOTA，Code Arena盲测全球可用模型第一；长程任务表现介于Claude Opus 4.7与4.8之间。百度百舸基于昆仑芯硬件完成适配，实现KV缓存命中率超90%，64K序列TTFT下降6.2倍，已建成3.2万卡昆仑芯P800集群。千帆以预置服务形式开放API，视频云和Comate同步接入，覆盖长视频创作、多模态互动及工程开发等场景。

开源生态编码行业动态

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

17:38

Hugging Face：Blog（RSS）

GLM-5.2：为长周期任务而生

GLM-5.2 发布，支持 1M token 上下文，采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器，将 1M 上下文下每 token FLOPs 降低 2.9 倍；MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上，FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%；PostTrainBench 仅次于 Opus 4.8；SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分（GLM-5.1 为 63.5），接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可，无地域限制。

开源生态推理模型发布编码

关联讨论 7 条

16:09

智谱：研究（网页内嵌数据）

精选59

GLM-5.2 上线并开源：专注 Coding 与长程任务

GLM-5.2 已发布并开源，采用 MIT 协议，支持 1M 上下文窗口。Coding 方面能承载项目级上下文，长程任务执行更稳定，遵循生产级工程规范，并支持客户端与移动端真机调试闭环。通过极致 Infra 优化，发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

开源生态模型发布编码

关联讨论 7 条

推荐理由：智谱这次升级很务实，1M 上下文和 MIT 协议对做长程任务的开发者很实用，但官方没给出量化 benchmark，实际提升还得自己上手测。

15:36

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/ASystem GitHub 仓库上线

蚂蚁 inclusionAI 在 GitHub 上公开了新的 ASystem 仓库，项目托管于 asystem-ai.io。最近一次提交于 6 月 24 日，内容为更新 AReno 静态站点文档。仓库当前无标签、无发布版本。

其他开源生态

15:36

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁集团 GitHub 新建仓库 inclusionAI/asystem，内容暂未公开

蚂蚁集团在 GitHub 上新建仓库 inclusionAI/asystem。目前仓库仅包含 docs、.nojekyll 和 CNAME 等基础文件，尚无代码或详细说明，具体功能与项目目标尚未披露。

开源/仓库开源生态

6月16日

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

05:36

Claude：Blog（网页）

Built with Opus 4.7 Claude Code 黑客马拉松获奖者揭晓

Anthropic 举办的 Built with Opus 4.7 Claude Code 黑客马拉松公布三位获奖者。第一名 Medkit（Bedirhan Keskin 构建）是模拟真实诊疗场景的医学训练工具，已获三所医学院和一家制药公司试点。第二名 Wrench Board（Alexis Chapellier 开发）可解析电路原理图和板视图，定位故障点，依赖 Opus 4.7 的视觉理解能力。第三名 Maieutic（Paula Vásquez-Henríquez 创建）旨在帮助学生理解自己生成的代码。

Anthropic 开源生态行业动态

00:47

Tomer Tunguz 博客（VC 分析）

同事件精选61

AI 应用黄金时代已至：Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin

美国政府关闭 Anthropic 的 Fable 访问，开源和本地模型成必备；Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统；Salesforce 以 36 亿美元收购 Fin（前 Intercom），Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点：在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择；设计智能体系统的 hill-climbing 循环；持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。

智能体大佬观点开源生态

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Tunguz 认为模型不再是护城河，系统设计才是，他提的三个新学科，选模型、设计循环、评估性能，对做 Agent 的团队是实用的框架，值得一读。

6月15日

13:10

公众号：昆仑万维（天工）

智源大会|Skywork首席科学家成宇：SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video（With Audio）与Image to Video（With Audio）双赛道第一，超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性，以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术，实现段落级文本控制与母带级混音，在旋律性（7.25）、表现力（6.89）等维度排名第一。此外，昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频

6月13日

21:30

公众号：面壁智能（MiniCPM）

面壁智能李大海：全栈突破×场景落地，端侧AI加速AGI征程

面壁智能李大海在智源大会上表示，端侧智能是实现物理世界AGI的必由之路。MiniCPM端侧模型已落地汽车（长安马自达、吉利等）、手机、AIPC、具身智能、智能家居等领域。公司开源发布周展示全栈技术：UltraData数据治理体系、MiniCPM5-1B模型以1/200参数逼近两年前GPT-4o、ForgeTrain框架对比英伟达Megatron节省10%资源、BitCPM-CANN在国产算力跑通三值训练（推理节省6倍内存）、开源PilotDeck多智能体操作系统。面壁选择全栈开源，共建端侧生态。

具身智能大佬观点开源生态端侧

17:54

公众号：龙猫LongCat（美团）

WBench：面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench，首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次，覆盖导航、主体动作、事件编辑、视角切换四种交互方式，从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）。核心发现：无全能模型，导航能力与画质无关；多轮交互后所有模型性能下降，导航平均分下降 33 点；开源模型 HY-World 1.5 导航能力突出；视角切换最难（平均分 30.7）。WBench 已开源。

arXiv GitHub 开源生态视频

17:54

公众号：智谱（GLM）

同事件精选70

智谱 GLM-5.2 全量开放，支持 1M 上下文且下周开源

GLM-5.2 是智谱迄今能力最强的开源模型，支持真正可用的 1M 上下文，在长程任务中继续保持领先，并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放（覆盖 Lite、Pro、Max、团队版）。API 将于下周上线，模型下周正式开源，遵循 MIT 协议。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：智谱把最强大模型全量开放且开源，这事本身就在打脸那些收回权限的闭源模型，做中文编码的开发者可以认真看看。

00:00

Hugging Face：Blog（RSS）

精选74

olmo-eval：面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台，专为 LLM 持续开发中的反复评测场景设计。相比 OLMES，它减少了新增评测的实现工作量，支持 agentic 和多轮评测作为一等用例，并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构，模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同，olmo-eval 聚焦开发阶段快速迭代，可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face 产品更新开源生态评测/基准

推荐理由：做模型训练的人会感谢这个工具，它把评估从一次性打分变成能持续对比的流程，按题对比两个 checkpoint 的功能很实用，但如果你不训模型，这篇可以跳过。

6月11日

10:50

公众号：小米 MiMo

精选74

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议。内置限时免费MiMo-V2.5多模态模型，性能比肩Claude Sonnet 4.6；支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统（项目记忆、会话检查点、任务进度）和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化，SWE-Bench Pro达62%（Claude Code 57%），Terminal Bench 2达73%（68%）。内置语音输入和/dream命令，每7天自动合并记忆。终端输入mimo即可使用，所有设置中文汉化。

智能体产品更新开源生态编码

关联讨论 3 条

推荐理由：小米悄悄发了MiMo Code，开源且免费，用记忆系统和Compose模式解决了AI编程两大顽疾：健忘和跑偏，实测比同模型Claude Code更强，开发者现在就能装上试。

00:40

Google DeepMind：Blog（RSS）

精选72

DiffusionGemma：文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma，采用文本扩散技术，突破自回归逐 token 生成方式，每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数，量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，速度提升 4 倍。具备双向注意力和自我修正能力，面向内联编辑、代码填充等本地交互工作流，以 Apache 2.0 许可证开放。

Google 开源生态推理模型发布

关联讨论 6 条

推荐理由：DiffusionGemma 虽为实验性质，但它把文本生成从“串行打字机”变成了“并行印刷机”，本地推理速度 4 倍提升，对需要实时交互的开发者是个值得关注的方向。