AIHOT

精选全部 AI 动态 AI 日报 Agent 接入关于更新日志反馈信源提报

AI HOT

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月29日

10:37

Chubby♨️@kimmonismus

Mistral Medium 即将到来。唯一相关的欧洲AI公司将发布另一个模型。

开源生态模型发布

09:38

ginobefun@hongming731

NVIDIA发布多模态模型Nemotron 3 Nano Omni

NVIDIA发布了多模态模型Nemotron 3 Nano Omni，专为处理长上下文设计，能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中，Nemotron 3 Nano Omni均展现出领先的准确性和效率。

多模态模型发布端侧

09:35

阿绎 AYi@AYi_AInotes

精选76

蚂蚁发布Ling-2.6系列模型，以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型，通过MoE架构与Fast-Thinking机制，将推理激活率降至7%，在实现接近GPT-5.4非推理水平综合智能的同时，大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先，旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源，推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务，在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

关联讨论 6 条X：阿易 AI Notes (@AYi_AInotes)X：Artificial Analysis (@ArtificialAnlys)蚂蚁百灵：Developer Blog（网页）IT之家（RSS）蚂蚁 inclusionAI：HuggingFace 新模型X：蚂蚁百灵 (@AntLingAGI)

推荐理由：把 token 成本砍到对手四分之一而智能分不降，Agent 规模化终于有了真正的成本解决方案，做 Agent 的必看。

09:33

IT之家（RSS）

蚂蚁集团百灵大模型开源 Ling-2.6-flash，提供 BF16、FP8、INT4 等版本

蚂蚁集团百灵大模型宣布开源Ling-2.6-flash，提供BF16、FP8、INT4等多个版本供开发者灵活选用。该模型总参数量104B，激活参数7.4B，是一款Instruct模型。官方基于开发者反馈优化了中英文切换及主流编程框架适配效果。其核心优势包括：采用混合线性架构，在4卡H20上推理速度最快达340 tokens/s；通过Token效率优化，在评测中消耗的tokens仅为同类模型的约1/10；针对Agent场景增强了工具调用与任务执行能力，在多项评测中达到先进水平。模型已在Hugging Face和ModelScope平台开源。

智能体开源生态模型发布

09:00

公众号：蚂蚁百灵（Ling）

精选57

Ling-2.6-flash 正式开源

Ling-2.6-flash 今日正式开源，同步提供 BF16、FP8、INT4 等多个版本。该模型两周前以匿名身份登陆 OpenRouter，一周前正式发布并开放为期一周的免费 API 调用服务。过去两周内，团队基于开发者反馈进行多轮优化，改善了中英文自然切换能力，并提升了主流 Coding 框架的适配效果。开发者可通过 Hugging Face 和 ModelScope 获取模型。

开源/仓库开源生态模型发布

推荐理由：蚂蚁的 Ling-2.6-flash 正式开源，BF16/FP8/INT4 多版本可选，轻量模型对开发者落地挺友好，可惜这个是 38 天前的消息，现在看到已经不算新闻了。

08:38

Berryxia.AI@berryxia

OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型，实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流，无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash，并专为边缘AI设计，支持完全离线运行，提供Windows/macOS一键安装（仅需12G显存），保障100%数据隐私，同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布

08:33

IT之家（RSS）

英伟达推出 Nemotron 3 Nano Omni 模型：采用 30B-A3B 混合 MoE 架构，吞吐量最高提升 9.2 倍

英伟达发布开源全模态推理模型Nemotron 3 Nano Omni，采用30B‑A3B混合MoE架构，集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链，降低推理成本与编排复杂度。在多项基准测试中表现领先，尤其在视频推理任务中，其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍，文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放，支持开发者在各类环境中定制部署。

智能体多模态推理模型发布

07:38

Berryxia.AI@berryxia

由前GitHub CTO Jason Warner创立的Poolside AI团队开源了其首个权重模型Laguna XS.2。该模型采用33B总参数、3B激活参数的MoE架构，专为Agentic Coding和长时序任务设计，可在单张GPU上运行，并采用Apache 2.0开源协议。团队同时发布了当前最强版模型Laguna M.1以及Agent Harness，标志着其在智能编码代理赛道成为新的竞争者。

poolside: Today we're releasing Laguna XS.2, Poolside's first open-weight model. It's a 33B total / 3B active MoE model built for ...

智能体开源生态模型发布编码

07:38

Berryxia.AI@berryxia

NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布！🚀 Nemotron 3 Nano Omni 多模态开源模型来了！ 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型（语言+视觉+语音+视频+音频一体化） 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源（权重 + 数据 + 配方），领跑多项榜单可通过 NVIDIA NIM API 免费试用！完美驱动多代理工作流。

NVIDIA AI: Meet Nemotron 3 Nano Omni 👋 Our latest addition to the Nemotron family is the highest efficiency, open multimodal model...

智能体多模态开源生态模型发布

关联讨论 3 条HuggingFace Daily Papers（社区热门论文）Nathan Lambert：Interconnects（RSS）X：OpenRouter (@OpenRouter)

05:39

AK@_akhaliq

Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

多模态开源/仓库端侧

02:11

The Decoder：AI News（RSS）

一个对1930年后世界一无所知的LLM如何想象2026年

名为“Talkie”的130亿参数语言模型仅使用1931年前的文本训练，其对未来世界的预测呈现出强烈的时代局限性。该模型怀疑第二次世界大战是否会发生，并将2026年想象成一个仍以蒸汽船、铁路和廉价小说为主导的世界。这直观揭示了训练数据的时间范围如何从根本上限制大语言模型对现实发展的认知与预测能力。

数据/训练现象/趋势论文/研究

01:38

Ant Ling@AntLingAGI

推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调，token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争，该模型采用MIT许可，具备104B/7.4B激活参数，并创新性地结合了1：7 MLA与Lightning Linear混合注意力机制。其性能表现突出：推理速度高达340 tok/s，并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型，展现出其作为高效协作伙伴的潜力。

Adina Yakup: Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...

开源生态推理模型发布

01:35

阿绎 AYi@AYi_AInotes

蚂蚁发布Ling-2.6-1T模型，以token效率革新生产级AI

蚂蚁集团AGI团队发布Ling-2.6-1T模型，其核心创新在于聚焦token效率而非参数规模。该模型采用MoE架构，每次推理仅激活7.4B参数，结合Linear Attention与Multi-Token Prediction技术，在保持接近GPT-5.4非推理水平的高智能同时，将token成本降至可比模型的四分之一。在Artificial Analysis评测中以极低消耗获得高分，并在SWE-bench等硬核Agent场景领先。该模型专为处理海量真实生产请求设计，旨在为高频Agent应用提供高效、低成本的解决方案，并通过免费API策略加速生态布局，预示AI竞赛重心正向真实生产成本效率转移。

智能体模型发布部署/工程

01:08

AK@_akhaliq

SenseNova U1 已在 Hugging Face 发布 https：//huggingface.co/collections/sensenova/sensenova-u1

Hugging Face开源生态模型发布

01:03

Ant Ling@AntLingAGI

AntLingAGI宣布将其模型Ling-2.6-flash正式开源，该模型此前在OpenRouter平台上曾以"Elephant Alpha"为名提供API服务。目前，模型已在Hugging Face和ModelScope平台全面开放，供公众自由使用与构建。模型关键参数为总参数量1040亿，激活参数量74亿，在Artificial Analysis基准测试中输出速度约为每秒215个token，并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs，以及lmsysorg的SGLang团队和vllm项目的技术支持。

Novita AI: Ling-2.6-flash is now officially open-sourced 🚀 (from @AntLingAGI) Was "Elephant Alpha" on OpenRouter. Now fully open f...

开源/仓库模型发布端侧

00:53

Ant Ling@AntLingAGI

vLLM项目团队宣布对Ling-2.6-flash模型提供Day-0首发支持，体现了开源生态系统构建者之间的高效协同。Ling-2.6-flash是一个专为需要快速响应和强大执行力的现实世界智能体设计的即时指令MoE模型。其核心特点包括：1040亿总参数与74亿激活参数的高度稀疏混合专家架构，结合了1：7 MLA与Lightning Linear注意力机制，支持262K上下文长度，并具备原生工具调用能力，可无缝接入Claude Code、Kilo Code、Qwen Code、Hermes、OpenClaw等主流框架。

vLLM: 🎉 Day-0 vLLM support for Ling-2.6-flash from @AntLingAGI! Ling-2.6-flash is an instant (instruct) MoE model built for r...

智能体开源生态模型发布

00:37

Hugging Face：Blog（RSS）

精选70

介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型，这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据，旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中，提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

关联讨论 3 条HuggingFace Daily Papers（社区热门论文）Nathan Lambert：Interconnects（RSS）X：OpenRouter (@OpenRouter)

推荐理由：NVIDIA 把多模态长上下文塞进 Nano 级别模型，文档、音频、视频 Agent 通吃，做端侧多模态应用的团队值得认真看看这个架构思路。

00:01

NVIDIA Technical Blog（开发者技术博客 · RSS）

NVIDIA Nemotron 3 Nano Omni：在单一高效开源模型中赋能多模态智能体推理

NVIDIA开源模型Nemotron 3 Nano Omni发布，它能在一个模型内处理视觉、音频和文本，专为多模态AI智能体设计。该模型旨在解决当前依赖多个独立模型导致的推理步骤多、成本高、跨模态上下文一致性弱等问题。

智能体多模态模型发布

4月28日

23:51

Ant Ling@AntLingAGI

精选62

AntLingAGI与SGLang团队合作，正式推出Ling-2.6-flash（亦称Elephant-alpha）即时指令模型，并在SGLang平台上实现了首发支持。该模型总参数量达104B，但活跃参数仅7.4B，专为低延迟的智能体工作流优化，能够实现即时响应。它在编码、文档处理和智能体任务中展现出极高的token效率，所用token数量显著减少。尽管活跃参数较少，其模型质量仍与当前SOTA水平相当，兼具速度与执行力，适合需要快速响应的生产级智能体应用。团队强调，快速且稳定的推理是提升用户体验的关键。

LMSYS Org: 🎉 Meet Ling-2.6-flash from @AntLingAGI, an instant instruct model with 104B total params (7.4B active). Day-0 support i...

智能体模型发布部署/工程

推荐理由：104B 总参但只激活 7.4B，蚂蚁这步棋是冲着 Agent 场景的低延迟去的，做 Agent 产品的人值得跑一下看看实际体感。

23:19

Ant Ling@AntLingAGI

灵码2.6-flash模型正式开源，专为高效智能体工作流打造

灵码2.6-flash模型现已开源，这是一个专为现实世界智能体工作流构建的快速、高效的指令模型。该模型总参数量达1040亿，激活参数量为74亿，并提供BF16、FP8和INT4多种量化版本以适应不同部署需求。其核心优势包括：生成速度高达每秒215个token，在完整评估中仅消耗1500万token，效率突出；在代码、文档处理和轻量级智能体工作流等实际任务中表现强劲；同时，其中英文切换能力及与主流编程框架的兼容性也得到了进一步改善。

智能体开源/仓库模型发布编码

23:15

OpenRouter@OpenRouter

精选64

@poolsideai 的首批公开基础模型刚刚在 OpenRouter 上发布！ Laguna M.1 和 Laguna XS.2。专为智能体编码和长周期工作从头构建。限时免费 ⬇️

智能体模型发布编码

推荐理由：Poolside 终于把自家模型放出来了，主打长上下文 agentic coding，免费期是薅羊毛窗口。做 coding agent 的团队值得拿 Laguna 跑一轮自己的 benchmark，看看和 Claude、Codex 的真实差距。

20:36

Chubby♨️@kimmonismus

Microsoft 推出 "TRELLIS.2"：一个开源的、40亿参数的图像转3D模型，可生成高达15363的PBR纹理资产。基于原生3D VAES，具有16倍空间压缩能力，提供高效、可扩展、高保真的资产生成。说实话，相当酷！

Microsoft多模态开源生态模型发布

20:25

SenseTime@SenseTime_AI

SenseNova U1 Lite系列开源，统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构，原生统一了多模态理解与生成能力。其核心优势包括：在开源模型中具备领先的效率，紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益；支持原生的图像-文本交织生成，单一模型即可在单次流程中生成连贯交织的图文内容，适用于制作指南等实用场景；并拥有高密度信息渲染能力，擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布