minWM 是一个开源全栈框架,能将现有的双向视频扩散基础模型(如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B)转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程,包含可控微调、Causal Forcing++ 流水线与蒸馏步骤,并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。
minWM 是一个开源全栈框架,能将现有的双向视频扩散基础模型(如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B)转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程,包含可控微调、Causal Forcing++ 流水线与蒸馏步骤,并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。
本研究使用 LoRA 作为控制探针,系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律,建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变,表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此,设计了阈值引导的优化策略 MemFT,能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。
Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...
阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》大语言模型中间训练的数据选择面临异构来源和不同格式的挑战,需兼顾可扩展性与源自适应语义标准。现有方法或仅提供隐式质量信号,或依赖固定评分规则。MIRA提出自锚定评分发现框架,先为每组数据源发现应评估的维度,再将判断蒸馏为可扩展的学生评分器用于全语料过滤。在21个来源、5个源组的代码中间训练中,MIRA在9个代码基准上超越多种基线,仅用半数模型token即达到全语料效果。
针对现有基于组优势的强化学习方法(如GRPO和DAPO)在所有token上采用统一奖励、无法细粒度分配信用的问题,本文提出引导对比策略优化(GCPO)。该方法通过对比模型在正负提示下的预测,将token级优势与对比预测差异成比例分配,从而提供更精确的学习信号。实验表明,GCPO能有效强调语义相关区域(如图像生成中与文本对齐的视觉区域、推理链中的关键词),并在文本到图像生成和思维链推理基准测试中均优于GRPO和DAPO基线。
大语言模型智能体被期望能承载人类专家的知识与交互风格,但相关痕迹通常分散且不规整。COLLEAGUE.SKILL是一个开源的自动化痕迹到技能的蒸馏系统,能从目标人物或角色的材料中生成版本化的技能包。该技能包包含能力轨道(实践、心智模型)和行为边界轨道(交互风格、纠正历史),支持审查、自然语言反馈更新、回滚与跨主机部署。其公开仓库有约18.5k GitHub stars,画廊包含215个技能。
在jqwik库中发现一处未披露的新增功能,它会指示AI编码代理删除应用程序输出。这一发现源于开发者对“凭感觉编码”现象的不满。
We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...
We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。
Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。
飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
作者为解决AI助手“Berry小跟班”在对话上下文压缩后丢失偏好、无法跨Session复用技能等问题,将MemOS Local Plugin 2.0接入了Bloome Agent。MemOS并非简单存储聊天记录,而是将Agent任务执行过程转化为可学习的认知资产,其核心是四层架构:L1执行轨迹、L2策略归纳、L3世界模型和结晶化技能。该插件支持Hermes Agent和Bloome Agent,可通过一行命令安装,实现记忆的跨Agent共享与进化。
MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。
Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...
NVIDIA 研究人员推出了 Polar,一个无需修改智能体框架即可利用强化学习训练语言智能体的 rollout 框架。Polar 通过在智能体框架与推理服务器之间放置模型 API 代理来捕获 token 级交互并重建可用于训练的轨迹。基于 Qwen3.5-4B 基础模型,使用 GRPO 进行训练后,Polar 将 SWE-Bench Verified pass@1 在 Codex 框架下提升了 22.6 点,在 Claude Code 下提升了 4.8 点,在 Pi 下提升了 6.2 点。该框架已注册为 NeMo Gym 环境并在 ProRL Agent Server 仓库中发布。
Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。
Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...
Qwen 3.7 Max is now supported in Hermes Agent
MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。
Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...
5月25日,面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分,超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB,可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配,覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧,支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线;平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。
华为技术有限公司金融系统部CTO郑俊表示,根据斯坦福最新报告,中国AI模型整体水平仅落后美国2.7%。自2025年2月以来,中国模型的调用量持续超过美国模型。主要原因有二:国内开源模型能力大幅提升,已逼近美国闭源模型水平;中国依托基础设施优势,包括算力和电力资源,使国产AI模型具备更强的价格经济性。
@Shaughnessy119 https://poolside.ai/blog/introducing-laguna-xs2-m1 All models will be open going forward
面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...
Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。
We're excited to welcome @alibaba_cloud as a Platinum Member of the PyTorch Foundation 🎉 Alibaba Cloud is a global lead...
Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。
Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...
提出首个将已训练MoE模型转换为标准全密集架构的系统性框架:对专家进行评分、选择和分组,拼接为密集前馈网络并通过知识蒸馏精炼。在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上评估了7种评分、5种分组和2种幅度缩放方法共350种配置。新提出的多样性感知评分方法一致优于此前方法。在同等参数量下,MoE转密集相比密集到密集剪枝,经过约4B token蒸馏后平均下游准确率提升6.3个百分点,训练速度提升1.6倍。
Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。