AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
3月6日周五
04:07OpenAI精选OpenAI 发布思维链(CoT)可控性评估套件与研究论文
02:10OpenAI精选GPT-5.4 Thinking 与 GPT-5.4 Pro 现正登陆 ChatGPT
3月5日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推理模型难以控制其思维链,而这反而是好事
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选GPT-5.4 Thinking 系统卡
3月4日周三
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)将 single-minus 振幅扩展至引力子
03:03OpenAI精选5.4版本将提前发布
3月1日周日
17:56蚂蚁 inclusionAI:HuggingFace 新模型46inclusionAI/AReaL-SEA-235B-A22B
2月28日周六
08:00蚂蚁百灵:Developer Blog(网页)80精选拒绝"AI 味":我们用 6 个文学维度,重新审视了模型的创意写作边界
2月27日周五
21:02公众号:月之暗面(Kimi)32Kimi API:用90%缓存命中率,把价格打到25%
2月26日周四
22:00公众号:蚂蚁百灵(Ling)37蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造
08:00蚂蚁百灵:Developer Blog(网页)86精选Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践
2月23日周一
08:00OpenRouter:Announcements(RSS)51OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进
2月20日周五
00:06Google DeepMind:Blog(RSS)精选Gemini 3.1 Pro:专为最复杂任务打造的更智能模型
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破
2月19日周四
00:00LMSYS:Blog(Chatbot Arena 团队)GB300 NVL72部署DeepSeek R1优化方案:长上下文推理性能突破
2月16日周一
09:52公众号:蚂蚁百灵(Ling)52Ling-2.5-1T 开源发布:深度思考模型拉升智能上限,即时模型平衡效率与覆盖
2月15日周日
23:39公众号:MiniMax(稀宇科技)56MiniMax M2.5-HighSpeed 上线:100 TPS,3 倍速推理
2月14日周六
15:48蚂蚁 inclusionAI:HuggingFace 新模型44inclusionAI/Ling-2.5-1T
14:06公众号:豆包(字节)39豆包上线专家模式 接入豆包大模型2.0 Pro
00:00MiniMax:Blog(网页)44Forge:可扩展的智能体强化学习框架与算法
2月13日周五
16:36腾讯混元:Research(API)通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练
07:00公众号:MiniMax(稀宇科技)44MiniMax M2.5 发布:1美金/小时,真实世界工作王者
2月11日周三
18:55蚂蚁 inclusionAI:GitHub 新仓库61精选inclusionAI 发布高性能量化推理 GEMM 内核库 Humming
18:52蚂蚁 inclusionAI:GitHub 新仓库65精选inclusionAI发布新一代即时大模型Ling-2.5-1T
18:52蚂蚁 inclusionAI:GitHub 新仓库78精选inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T
2月10日周二
20:45蚂蚁 inclusionAI:HuggingFace 新模型42inclusionAI/Ring-2.5-1T
00:12Google DeepMind:Blog(RSS)借助 Gemini Deep Think 加速数学与科学发现
2月7日周六
03:00OpenAI:Alignment 研究博客(RSS)71精选在真实世界使用中发现未知的 AI 对齐偏差
2月4日周三
18:40公众号:腾讯混元55腾讯混元开源HPC-Ops算子库,推理吞吐提升30%
2月3日周二
19:06公众号:腾讯混元41混元研究博客上线姚顺雨团队最新成果:从Context探索语言模型的范式转变
1月30日周五
15:55蚂蚁 inclusionAI:GitHub 新仓库61精选高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化
07:19Saining Xie如果你在构建视频扩散/世界模拟器,试试这个新采样器。 时间一致性将视频固定在总像素空间中的低维流形上。 自精炼采样使它们保持在那里。 【引用 @jangsangwon7】:如果你的视频生成器能在推理时自我精炼会怎样? ❌无需新模型。❌无需重新训练。❌无需外部验证器。 💡 推出自精炼视频采样 通过将预训练生成器(Wan2.2、Cosmos)重新解释为去噪自编码器,我们实现了推理时的迭代自精炼 ➡️ 显著提升物理真实感,并获得超过70%的人类偏好! 🧵
1月23日周五
10:50美团 LongCat:HuggingFace 新模型美团 LongCat 发布 Flash-Thinking-ZigZag 模型
1月20日周二
11:20Hugging Face:Blog(RSS)83精选差分Transformer V2
1月16日周五
18:00公众号:蚂蚁百灵(Ling)36百灵大模型Ling Studio正式发布,支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力
1月14日周三
18:44美团 LongCat:HuggingFace 新模型精选美团LongCat发布重思考模式总结模型
08:00公众号:月之暗面(Kimi)4090%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型
1月6日周二
06:56Hugging Face:Blog(RSS)80精选NVIDIA发布Cosmos Reason 2模型,增强物理AI推理能力
12月25日周四
16:15公众号:月之暗面(Kimi)38AlphaEngine Agent模型升级至Kimi K2 Thinking,7万金融投研人已在使用
12月24日周三
00:00字节 Seed:Research Feed(网页内嵌数据)Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月6日
04:07
OpenAI@OpenAI
精选
OpenAI 推出 CoT 可控性评估套件及研究论文。测试发现 GPT-5.4 Thinking 难以掩盖其推理过程,表明 CoT 监控仍是一种有效的安全工具。
OpenAI推理论文/研究

推荐理由:OpenAI发布GPT-5.4 Thinking安全研究,证实链式思维监控仍可有效检测模型推理
02:10
OpenAI@OpenAI
精选
GPT-5.4 Thinking 和 GPT-5.4 Pro 开始向 ChatGPT 用户推出,同时通过 API 和 Codex 开放。该版本将推理、编程与智能体工作流能力整合为单一前沿模型。
智能体OpenAI推理模型发布

推荐理由:GPT-5.4 正式发布,集推理、编程与 Agent 能力于一体,全平台上线
3月5日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推理模型难以控制其思维链,而这反而是好事

OpenAI 发布 CoT-Control 研究,发现推理模型难以操控自身思维链。这种「不可控」特性反而增强了 AI 的可监控性,成为安全对齐的重要保障。

OpenAI安全/对齐推理

推荐理由:OpenAI 揭示推理模型思维链可控性与安全监控的重要关联
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
GPT-5.4 Thinking 系统卡

OpenAI 发布 GPT-5.4 Thinking 系统卡,披露新一代推理模型的架构细节、安全评估框架及能力边界。文档详述思维链优化机制、长上下文推理性能指标,明确数学推导与代码生成准确率数据,分析幻觉风险与偏见控制措施,并列出越狱攻击防护策略及企业级部署的安全限制建议。

OpenAI推理模型发布

推荐理由:OpenAI 发布 GPT-5.4 Thinking 系统卡,详述模型安全与能力评估
3月4日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
将 single-minus 振幅扩展至引力子

新预印本将 single-minus 振幅扩展至引力子,利用 GPT-5.2 Pro 推导并验证量子引力中的非零引力子树振幅。

OpenAI推理论文/研究
03:03
OpenAI@OpenAI
精选
官方暗示5.4版本发布时间将早于外界普遍预期,新版本即将到来。具体发布日期及新增功能细节有待后续正式公布,玩家可关注官方渠道获取最新动态。
OpenAI推理模型发布

推荐理由:OpenAI官方预告GPT-5.4即将发布,暗示新模型上线在即引发热议
3月1日
17:56
蚂蚁 inclusionAI:HuggingFace 新模型
46
inclusionAI/AReaL-SEA-235B-A22B

inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型,致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛,促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数,体现了其在处理复杂任务方面的潜力,同时强调开放协作对加速AI创新与社会普惠的关键作用。

开源/仓库推理模型发布
2月28日
08:00
蚂蚁百灵:Developer Blog(网页)
精选80
拒绝"AI 味":我们用 6 个文学维度,重新审视了模型的创意写作边界

本文通过叙事工艺、语言艺术等六个文学维度,评估百灵模型Ling-2.5-1T的创意写作能力。测试显示,该模型能驾驭莎士比亚十四行诗、七言绝句等多种体裁,并通过感官描写实现“展现而非告知”的文学技法,在微观叙事和语言质感上接近人类水平。然而,模型仍存在依赖高频文学意象、处理否定指令时语义代偿等局限。该框架为创作者提供了激发AI写作潜力的具体方法。

推理评测/基准
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:提供实用文学维度框架和 Prompt 技巧,助你驾驭 AI 创意写作。
2月27日
21:02
公众号:月之暗面(Kimi)
32
Kimi API:用90%缓存命中率,把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。

开源/仓库推理教程/实践部署/工程
2月26日
22:00
公众号:蚂蚁百灵(Ling)
37
蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵(Ling)公布 Ling 2.5 模型架构改造实践,将 Lightning Attention 与 MLA(Multi-head Latent Attention)两种线性注意力机制融合,形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力,为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践
08:00
蚂蚁百灵:Developer Blog(网页)
精选86
Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率,Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐,并通过MLA极致压缩KV Cache。为确保改造后性能无损,团队设计了精细的平滑迁移训练策略,包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例,最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:为大模型长上下文优化提供可落地的工程实践参考。
2月23日
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据,推出了新的免费模型路由功能,并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程
2月20日
00:06
Google DeepMind:Blog(RSS)
精选
Gemini 3.1 Pro:专为最复杂任务打造的更智能模型

Gemini 3.1 Pro 发布,专为无法通过简单回答解决的复杂任务设计,提供更智能的深度推理与处理能力。

Google推理模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google 发布 Gemini 3.1 Pro,强化复杂任务推理能力
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破

SGLang 与 NVIDIA 合作,在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量,结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化,DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时,GB200 NVL72 平台性能在 4 个月内提升 8 倍,显著降低大模型部署的延迟与成本。

开源/仓库推理部署/工程
2月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB300 NVL72部署DeepSeek R1优化方案:长上下文推理性能突破

NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案,针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测(MTP)等技术,系统在GB300上达226 TPS/GPU峰值吞吐量,较GB200提升1.53倍;相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍,128K预填充首Token延迟降至8.6秒。

DeepSeek开源/仓库推理部署/工程
2月16日
09:52
公众号:蚂蚁百灵(Ling)
52
Ling-2.5-1T 开源发布:深度思考模型拉升智能上限,即时模型平衡效率与覆盖

蚂蚁百灵发布并开源 Ling-2.5-1T,包含深度思考模型(thinking model)与即时模型(instant model)两类。深度思考模型旨在拉高智能上限,即时模型则在效率与效果之间取得平衡,拓宽智能覆盖范围。该版本在模型架构、token 效率、偏好对齐等维度实现全面升级。

开源/仓库推理模型发布
2月15日
23:39
公众号:MiniMax(稀宇科技)
56
MiniMax M2.5-HighSpeed 上线:100 TPS,3 倍速推理

MiniMax 推出 M2.5-highspeed 模型,支持 100 TPS 极速推理,速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线,Coding Plan 提供 Plus、Max、Ultra 三档套餐,邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。

智能体推理模型发布
2月14日
15:48
蚂蚁 inclusionAI:HuggingFace 新模型
44
inclusionAI/Ling-2.5-1T

inclusionAI 发布了 Ling-2.5-1T 模型。该模型参数规模达到 1 万亿,是其 Ling 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的使命,旨在让先进 AI 技术更广泛可及。新版本预计在语言理解与生成能力上有所提升,继续为全球研究社区提供强大的基础模型支持。

开源生态推理模型发布
14:06
公众号:豆包(字节)
39
豆包上线专家模式 接入豆包大模型2.0 Pro

豆包上线专家模式,并接入豆包大模型2.0 Pro。该模式基于豆包大模型2.0 Pro,提供更专业的问答服务。

产品更新推理
00:00
MiniMax:Blog(网页)
44
Forge:可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。

智能体推理论文/研究部署/工程
2月13日
16:36
腾讯混元:Research(API)
通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练

提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。

推理数据/训练论文/研究
07:00
公众号:MiniMax(稀宇科技)
44
MiniMax M2.5 发布:1美金/小时,真实世界工作王者

MiniMax M2.5发布,定价1美金/小时,定位为在真实世界工作场景中表现最顶尖的模型。

推理模型发布
2月11日
18:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming,这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理,兼容多种量化策略与缩放类型,并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU,在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简,仅需 PyTorch 和 NVCC,软件包大小仅约 100 KB,便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由:蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库,支持从 INT1 到 FP8 全家桶,SM75+ 全覆盖,做推理部署的工程师值得花半小时跑一下 benchmark,看看能不能替换掉现有的 Marlin 方案。
18:52
蚂蚁 inclusionAI:GitHub 新仓库
精选65
inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T,其总参数量达1T,活跃参数为63B,预训练语料扩展至29T tokens。该模型采用混合线性注意力架构,支持1M tokens上下文长度,并通过结合“正确性”与“过程冗余”的复合奖励机制,在相近的token效率下,其推理能力显著超越前代,接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化,模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台,并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把 1T 参数的即时模型开源了,63B 活跃参数加 1M 上下文,主打效率而非堆算力,对国内做开源推理模型的团队来说是个值得对标的基线。
18:52
蚂蚁 inclusionAI:GitHub 新仓库
精选78
inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力,并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度,并可通过YaRN技术扩展至256K,现已于Hugging Face和ModelScope平台开源。部署方面,已支持SGLang,并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把万亿参数的开源 thinking model 放出来了,混合线性注意力架构是真新路线而非换皮,IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。
2月10日
20:45
蚂蚁 inclusionAI:HuggingFace 新模型
42
inclusionAI/Ring-2.5-1T

inclusionAI 发布了 Ring-2.5-1T,这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展,为更广泛的研究社区提供了强大的基础工具。

开源生态推理模型发布
00:12
Google DeepMind:Blog(RSS)
借助 Gemini Deep Think 加速数学与科学发现

研究论文显示,Gemini Deep Think 在数学与科学等多个领域的影响力持续扩大,正加速科研发现进程。

DeepMindGoogle推理论文/研究
2月7日
03:00
OpenAI:Alignment 研究博客(RSS)
精选71
在真实世界使用中发现未知的 AI 对齐偏差

研究表明,推理模型能够通过分析用户的实际反馈,识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类,而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离,为动态监测和修正 AI 系统提供了新途径。

OpenAI安全/对齐推理论文/研究

推荐理由:OpenAI 让推理模型从真实用户反馈中自动发现未知的对齐失败,这比红队测试更接近真实威胁面。做安全和对齐的人应该认真看,它可能改变你们的检测范式。
2月4日
18:40
公众号:腾讯混元
55
腾讯混元开源HPC-Ops算子库,推理吞吐提升30%

腾讯混元开源生产级高性能LLM推理核心算子库HPC-Ops,可带来30%的推理吞吐提升。

开源/仓库推理部署/工程
2月3日
19:06
公众号:腾讯混元
41
混元研究博客上线姚顺雨团队最新成果:从Context探索语言模型的范式转变

混元研究博客上线姚顺雨团队最新成果,从Context角度探索语言模型的范式转变,旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制,为语言模型能力演进提供新思路。

推理论文/研究
1月30日
15:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由:蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销,实测吞吐比 vLLM 高 1.4 到 2.4 倍,做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。
07:19
Saining Xie@sainingxie
如果你在构建视频扩散/世界模拟器,试试这个新采样器。 时间一致性将视频固定在总像素空间中的低维流形上。 自精炼采样使它们保持在那里。 【引用 @jangsangwon7】:如果你的视频生成器能在推理时自我精炼会怎样? ❌无需新模型。❌无需重新训练。❌无需外部验证器。 💡 推出自精炼视频采样 通过将预训练生成器(Wan2.2、Cosmos)重新解释为去噪自编码器,我们实现了推理时的迭代自精炼 ➡️ 显著提升物理真实感,并获得超过70%的人类偏好! 🧵

Sangwon Jang: What if your video generator could refine itself-at inference time? ❌No new models. ❌No retraining. ❌No external verifie...

推理视频论文/研究
1月23日
10:50
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 Flash-Thinking-ZigZag 模型

美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型,延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛,以开源方式使先进技术更广泛地惠及开发者社区,推动 AI 技术的普及与可持续发展。

Hugging Face开源生态推理模型发布
1月20日
11:20
Hugging Face:Blog(RSS)
精选83
差分Transformer V2

差分Transformer V2发布,其核心是改进的差分注意力机制。相较于V1,V2将查询头数量翻倍而保持键值头不变,差分操作后将维度缩减,从而在解码时能达到与标准Transformer相当的速度,且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题,特别是消除了RMSNorm层所需的巨大缩放因子(如在长序列下),从而避免了梯度爆炸,旨在实现更稳定的大规模预训练。

Microsoft推理模型发布

推荐理由:新注意力架构提升解码效率与训练稳定性,开发者可低成本集成优化模型。
1月16日
18:00
公众号:蚂蚁百灵(Ling)
36
百灵大模型Ling Studio正式发布,支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。

MCP/工具产品更新多模态推理
1月14日
18:44
美团 LongCat:HuggingFace 新模型
精选
美团LongCat发布重思考模式总结模型

美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式(Heavy Thinking Mode),并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力:前者以高温度并行生成多路径扩展宽度,后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力,已在Longcat AI平台上线。

Hugging Face推理模型发布
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数 MoE 推理模型,Heavy Thinking 模式支持并行多路径探索,已上线可体验
08:00
公众号:月之暗面(Kimi)
40
90%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型

腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。

产品更新推理编码
1月6日
06:56
Hugging Face:Blog(RSS)
精选80
NVIDIA发布Cosmos Reason 2模型,增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由:物理AI推理能力升级,机器人和具身智能落地的关键拼图
12月25日
16:15
公众号:月之暗面(Kimi)
38
AlphaEngine Agent模型升级至Kimi K2 Thinking,7万金融投研人已在使用

金融投研工具AlphaEngine完成Agent模型升级,接入Kimi K2 Thinking。该工具目前已有7万金融投研人在使用。

智能体产品更新推理
12月24日
00:00
字节 Seed:Research Feed(网页内嵌数据)
Seed Prover 1.5:全新 Agentic 架构,更强数学推理表现

字节跳动 Seed 团队发布形式化数学推理模型 Seed Prover 1.5,采用 Agentic 架构支持 Mathlib 搜索、Python 执行与增量引理验证,并引入 Sketch Model 将复杂证明拆解为子引理并行攻克。基于大规模 Agentic RL 训练,该模型在 16.5 小时内完成 IMO 2025 前 5 题获 35/42 分(金牌线),9 小时内解决 Putnam 2025 的 11/12 题,在 Putnam 历史集、Fate-H 和 Fate-X 上分别达 88%、80% 和 33% 通过率,刷新多项 SOTA。

智能体推理模型发布
‹ 上一页
1…484950
下一页 ›