小米开源 MiMo-V2.5 系列模型,同时启动 Orbit 百万亿 Token 计划,携手全球开发者与 Agent 框架共建开源繁荣生态。
小米开源 MiMo-V2.5 系列模型,同时启动 Orbit 百万亿 Token 计划,携手全球开发者与 Agent 框架共建开源繁荣生态。
阿里巴巴视频生成模型 HappyHorse1.0 开启灰度测试,支持生成15秒多镜头叙事视频,具备多画幅适配和1080P超分输出功能。官网720P视频生成刊例价为0.9元/秒,千问App上体验价格低至0.44元/秒。大众用户可通过千问App使用,还能创作粤语、英语、法语、韩语等多种语言的剧情短片。该模型此前登顶AI Video Arena排行榜,并将于5月份正式发布商用。
OpenAI开源了15亿参数的PII脱敏模型Privacy Filter,采用混合专家设计,每次仅激活约5000万参数,可在笔记本电脑等设备上运行。它能根据上下文识别姓名、地址等八类敏感信息,在基准测试中F1分数达97.43%。该模型作为本地预过滤层,帮助用户在文本发送至云端AI前脱敏数据,但高敏感场景仍需结合人工审核。
小米宣布未来三年在AI领域的投入将超过600亿元。其基座大模型MiMo开始收费后用户留存率超过35%,即将开源的MiMo-V2.5模型在AA智能与Agent指数上位列全球开源大模型并列第一,并几乎适配国内所有芯片。小米首代机器人VLA大模型团队仅用6个月完成开发,并判断机器人的“GPT3时刻”将在未来1-2年到来。在企业效率方面,小米预计通过全面拥抱Agent技术,整体效率将提升500%。此外,小米的智能助理Miclaw未来将与小爱同学全面融合,并贯通人车家全生态设备。
Nemotron 3 Nano Omni是该系列最新模型,首次原生支持音频、文本、图像和视频输入。通过架构、训练数据及方法的改进,其在所有模态上的准确性均超越前代Nemotron Nano V2 VL,尤其在真实文档理解、长音视频理解和智能体计算机使用方面表现领先。该模型基于高效的Nemotron 3 Nano 30B-A3B骨干网络,并融入创新的多模态令牌缩减技术,实现了比同类规模模型更低的推理延迟和更高的吞吐量。为促进后续研发,团队发布了BF16、FP8和FP4格式的模型检查点,以及部分训练数据和代码库。
阿里巴巴新发布的开源模型 Qwen3.6-27B 在多项编程基准测试中超越了其前代模型。该模型仅拥有 270 亿参数,而其前代模型的参数量是其 15 倍。这一结果表明,模型在代码能力上实现了显著的效率提升,以更小的规模取得了更优的性能。
该项目致力于通过开源与开放科学推动人工智能的发展与普及。团队正持续推进技术民主化进程,旨在让更广泛的群体能够接触并利用先进AI工具。其核心路径是依托开放协作模式,降低技术门槛,促进创新生态的构建。
美团新一代基础大模型LongCat-2.0-Preview已开放邀请测试,其总参数规模突破万亿,采用混合专家架构,整体能力被认为对标GPT-4。关键突破在于该模型完全基于国产化算力集群训练完成,标志着美团在此领域取得领先。此前,美团创始人王兴已披露公司持续投入数十亿美元保障算力供应。去年9月,美团曾开源基于相同架构、拥有5600亿参数的首款自研大模型LongCat-Flash。
蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。
小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。
DeepSeek发布新一代模型DeepSeek-V4,其核心突破在于实现了长达百万token的上下文窗口,并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命,标志着大模型在长上下文理解和实际应用方面迈出重要一步。
关联讨论 3 条Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)尽管GPT-5.5的官方API尚未发布,但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制,通过反向工程开源Codex CLI,开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例,展示了其使用效果,并指出高推理强度设置能显著提升输出质量,但耗时更长。目前,OpenAI表示正与合作伙伴制定API大规模服务的安全要求。
关联讨论 1 条IT之家(RSS)针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。
inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
该模型由 inclusionAI 发布,属于 DR-Venus 系列,参数量为 40 亿,采用强化学习训练并已转换为 GGUF 格式,便于在本地设备高效运行。其推出延续了通过开源与开放科学推动人工智能技术发展与普及的使命,旨在降低先进 AI 技术的使用门槛,促进更广泛的社区参与和创新应用。
inclusionAI 团队开源了 DR-Venus-4B-RL 模型。这是一个基于强化学习技术微调的 40 亿参数语言模型,旨在通过开源与开放科学的方式推动人工智能的发展与普及。该模型的发布为研究社区提供了一个中等规模、经过指令与人类偏好对齐的可用模型,延续了其促进 AI 民主化的目标。
该团队正致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。其核心目标是降低AI技术的门槛,促进更广泛的参与和创新,使先进AI工具能够被更多开发者和研究者所使用。这一举措旨在构建一个开放、协作的AI生态系统。
DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。
通义千问发布 Qwen3.6-Max-Preview 预览版,相比 Qwen3.6-Plus 在多项基准上显著提升:智能体编程(SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8)、世界知识(SuperGPQA +2.3、QwenChineseBench +5.3)、指令遵循(ToolcallFormatIFBench +2.8)。新版本支持 preserve_thinking,可在消息中保留前序轮次思维内容,避免多步任务上下文丢失,官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话,或通过阿里云百炼(即将上线)调用 API。
OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。
LLaDA2.0-Uni是一个统一的多模态模型,具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息,实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务,标志着多模态人工智能向更通用、统一的方向演进。
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
Google 推出 Gemini 3.1 Flash TTS 文本转语音模型,支持超过70种语言的自然语音合成。该模型引入音频标签功能,允许用户精确控制输出语音的风格、语速和语调,显著提升了语音合成的表现力和可控性,适用于多语言内容创作场景。
OpenAI 正式发布 GPT-5.4-Cyber,这是一款专门为防御性网络安全场景训练和优化的专用模型。与通用大模型不同,该模型专注于网络安全防御任务,目前访问权限受到严格限制,仅向经过身份验证的安全领域专家开放,普通用户暂无法使用。
MiniMax M2.7 与 Hermes Agent 结合,构建可自我进化的 AI 智能体工作流。
GLM-5.1在LMArena Code Arena登顶开源第一、全球第三。它继承上一代的SOTA编码能力,并在长程任务突破:8小时构建Linux桌面、655次迭代优化向量数据库、1000轮工具调用优化机器学习模型。METR榜下,它是唯一达8小时级持续工作的开源模型(除Claude Opus 4.6外)。
腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型,在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。
inclusionAI团队发布了TC-AE项目,旨在通过开源与开放科学推动人工智能技术的进步与民主化。该项目致力于降低AI技术的使用门槛,促进更广泛的社区参与和创新。核心变化在于构建了一个可访问的AI开发框架,强调协作与知识共享。此举预期将加速AI工具在多元领域的应用,并推动技术发展的透明性与包容性。
智谱推出开源模型GLM-5.1,支持独立工作长达8小时。模型可直接部署使用,无需人工频繁干预,适用于长周期自动化任务场景。
关联讨论 2 条公众号:智谱(GLM)IT之家(RSS)