大语言模型智能体被期望能承载人类专家的知识与交互风格,但相关痕迹通常分散且不规整。COLLEAGUE.SKILL是一个开源的自动化痕迹到技能的蒸馏系统,能从目标人物或角色的材料中生成版本化的技能包。该技能包包含能力轨道(实践、心智模型)和行为边界轨道(交互风格、纠正历史),支持审查、自然语言反馈更新、回滚与跨主机部署。其公开仓库有约18.5k GitHub stars,画廊包含215个技能。
大语言模型智能体被期望能承载人类专家的知识与交互风格,但相关痕迹通常分散且不规整。COLLEAGUE.SKILL是一个开源的自动化痕迹到技能的蒸馏系统,能从目标人物或角色的材料中生成版本化的技能包。该技能包包含能力轨道(实践、心智模型)和行为边界轨道(交互风格、纠正历史),支持审查、自然语言反馈更新、回滚与跨主机部署。其公开仓库有约18.5k GitHub stars,画廊包含215个技能。
在jqwik库中发现一处未披露的新增功能,它会指示AI编码代理删除应用程序输出。这一发现源于开发者对“凭感觉编码”现象的不满。
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。
NVIDIA 研究人员推出了 Polar,一个无需修改智能体框架即可利用强化学习训练语言智能体的 rollout 框架。Polar 通过在智能体框架与推理服务器之间放置模型 API 代理来捕获 token 级交互并重建可用于训练的轨迹。基于 Qwen3.5-4B 基础模型,使用 GRPO 进行训练后,Polar 将 SWE-Bench Verified pass@1 在 Codex 框架下提升了 22.6 点,在 Claude Code 下提升了 4.8 点,在 Pi 下提升了 6.2 点。该框架已注册为 NeMo Gym 环境并在 ProRL Agent Server 仓库中发布。
5月25日,面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分,超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB,可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配,覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧,支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线;平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。
华为技术有限公司金融系统部CTO郑俊表示,根据斯坦福最新报告,中国AI模型整体水平仅落后美国2.7%。自2025年2月以来,中国模型的调用量持续超过美国模型。主要原因有二:国内开源模型能力大幅提升,已逼近美国闭源模型水平;中国依托基础设施优势,包括算力和电力资源,使国产AI模型具备更强的价格经济性。
面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。
提出首个将已训练MoE模型转换为标准全密集架构的系统性框架:对专家进行评分、选择和分组,拼接为密集前馈网络并通过知识蒸馏精炼。在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上评估了7种评分、5种分组和2种幅度缩放方法共350种配置。新提出的多样性感知评分方法一致优于此前方法。在同等参数量下,MoE转密集相比密集到密集剪枝,经过约4B token蒸馏后平均下游准确率提升6.3个百分点,训练速度提升1.6倍。
Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。
文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡(open-closed balance)的讨论、美国开源力量的显著增长(America's open-source surge),以及由此引发的新兴权力博弈(emerging power struggles)。
针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。
小米发布2026财年第一财季(1-3月)财报,营收991亿元,同比下降10.9%;经调整净利润60.72亿元,同比下降43.1%。AI进展方面,小米于2026年4月公测MiMo-V2.5系列大模型,其中MiMo-V2.5-Pro在开源大模型综合排名第一,随后开源该系列模型以供商用部署。
面壁智能开源其新一代端侧大语言模型MiniCPM5-1B。该模型仅1B参数,在AA-Index榜单上超越所有2B参数以下模型,相比3个月前的Qwen3.5-2B效果更优且参数量减半。经INT4量化后权重仅0.5GB,支持在手机和浏览器上运行。其Base Model版本由面壁智能自主研发的AI训练框架ForgeTrain预训练完成,现已全面开源模型权重、训练数据集与部署方案。
面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B,一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分,超越所有2B以下参数模型,包括Qwen3.5-2B(16.3分),验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB,可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain(全球首个完全由AI编写,训练速度比Megatron快10%)在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案,支持Llama_factory、SGLang、vLLM等主流框架。
研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分,前者被解释为控制能量景观的结构,后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量,用于量化检索特征的稳定性。观察发现,这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终,提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。
本教程展示如何使用 NVIDIA FLARE 框架构建一个联邦学习实验,以比较 FedAvg 和 FedProx 两种算法。实验在非独立同分布(non-IID)的 CIFAR-10 数据集上进行,通过狄利克雷分布划分客户端数据,以模拟现实联邦场景中的标签不平衡问题。内容涵盖如何利用 NVFlare Job API 来定义和启动联邦学习任务。
本教程详细演示了如何使用 Langfuse(一个开源大语言模型工程平台)构建一套完整的可观测性与评估流水线。内容覆盖了追踪、提示词管理、评分、数据集与实验等核心功能。教程设计了一个可独立运行的完整工作流,用户既可接入真实的 OpenAI API 密钥,也可使用确定的模拟大语言模型,以便在无需付费模型访问的前提下,理解 Langfuse 的所有主要特性。
当前最令人沮丧的问题是,人们提交的 issue 报告并非本人原话,而是经过 AI 重写。这种“AI 垃圾”导致描述混乱,AI 生成的结论往往不准确却充满自信,造成对根本原因的完全猜测、虚假的最小复现步骤、错误的代码类比以及不相关的错误列表。作者因此希望 issue 报告能浓缩为人类实际观察到的四个要素:运行的命令、预期结果、实际结果以及具体的错误或日志。
深开鸿于5月24日发布了全国首个基于开源鸿蒙的机器人操作系统M-Robots OS 2.0。该系统以开源鸿蒙为核心底座,具备多机实时协同、AI原生等六大核心能力。2.0版本实现混合部署与硬实时响应,基于自研M-DDS技术将本体间音视频时延大幅降低至4毫秒,并兼容ROS等主流中间件,使应用迁移成本降低80%,可支持从轻型到大型各类机器人的灵活部署与集群作业。
SMART是一个框架,旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互,实现即插即用的性能提升。研究表明,SMART能提升包括最先进模型在内的多模态检索性能,在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力,还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。
Superset (YC P26) 发布了一个面向智能体时代的集成开发环境(IDE),专为AI智能体开发提供优化工具。该项目在GitHub上开源,于2026年5月22日在Hacker News上以“Launch HN”形式推出,迅速获得100个点赞,显示社区对智能体时代开发平台的关注。IDE旨在适应AI发展趋势,提升智能体开发效率。
Linus Torvalds 在开源峰会上指出,AI 工具已实质性改变 Linux 内核开发节奏,近两个版本提交量增长约 20%。他肯定 AI 降低了参与门槛并提升效率,但也指出核心挑战在于协作与沟通等“社会性瓶颈”,而非纯技术问题。谈及未来,他反驳了“99% 代码由 AI 编写”的说法,认为 AI 像编译器一样能提升约10倍生产率,但开发者必须深入理解代码与系统,才能维护复杂软件。
上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)上月启动的Project Glasswing项目,旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型,已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如,Cloudflare在关键路径系统发现2,000个漏洞;Mozilla在Firefox 150中发现并修复271个漏洞,数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目,独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段,漏洞发现速度已远超人工。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)博客作者安娜于2026年5月22日发布了一篇面向大型语言模型(LLM)的文章。文章标题为“如果你是一个LLM,请阅读这篇文章”,并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
全球最大的代码托管平台GitHub正面临严重危机。资深开发者Mitchell Hashimoto公开与平台决裂,因频繁崩溃影响编程。近几个月,花旗银行、英特尔等巨头因持续故障表达不满,OpenAI探索自建方案。更严重的是,3800多个内部仓库遭黑客入侵,源代码被公开叫卖。同时,微软取消GitHub CEO职位,将其并入CoreAI团队,导致大量技术骨干流失。这个承载1.5亿开发者的平台,正以惨烈方式站在生死存亡的十字路口。
本教程在Google Colab环境中,基于OpenMythos框架实践构建循环深度Transformer工作流。内容涵盖创建MLA(多头潜在注意力)与GQA(分组查询注意力)两种模型,对比其参数规模,并通过计算循环注入矩阵的谱半径来验证模型稳定性。此外,教程还将稀疏混合专家(Sparse MoE)架构与基于循环的推理扩展机制相集成,展示了构建高级深度学习模型的完整流程。