AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 301 条
全部一手资讯X论文
标签「推理」清除
4月30日周四
08:30公众号:智谱(GLM)47Scaling Pain:智谱GLM超大规模Coding Agent推理实践
01:34Dwarkesh Patel:Podcast & Blog(RSS)55精选Reiner Pope - 大语言模型训练与服务的数学原理
00:36Tomer Tunguz 博客(VC 分析)57精选AI推理市场的专业化分化
4月29日周三
19:07公众号:通义实验室(千问)53FlashQLA:让 Qwen 的注意力层跑得更快
08:00Apple Machine Learning Research(RSS)51Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考
4月28日周二
08:00Apple Machine Learning Research(RSS)62精选LaDiR:潜在扩散模型增强 LLM 的文本推理能力
4月27日周一
17:55公众号:通义实验室(千问)34搜对≠答对:EAPO用"证据奖励"让大模型不再靠猜
4月24日周五
09:00公众号:蚂蚁百灵(Ling)51Ling-2.6-1T 发布:万亿旗舰"快思考"模型,对标 GPT-5.4
4月22日周三
21:00公众号:通义实验室(千问)59Qwen3.6-27B 开源发布:270亿稠密参数,编程能力超越前代MoE旗舰
00:49Google Research:Blog(网页)ReasoningBank:让智能体从经验中学习
4月21日周二
05:48BAIR:Berkeley AI Research Blog面向长程世界模型的梯度规划方法
4月20日周一
17:31蚂蚁 inclusionAI:GitHub 新仓库69精选DR-Venus:基于开放数据的边缘级深度研究智能体
15:40公众号:通义实验室(千问)59通义千问发布 Qwen3.6-Max-Preview
4月16日周四
22:49Dwarkesh Patel:Podcast & Blog(RSS)本周所学--预训练并行策略、蒸馏能否被阻止、Mythos与网络安全平衡、流水线强化学习、预训练运行失败原因分析
13:46EleutherAI:Blog基于推理插值的奖励黑客早期指标
4月10日周五
00:00LMSYS:Blog(Chatbot Arena 团队)HiSparse:分层内存系统加速稀疏注意力
4月8日周三
18:00公众号:蚂蚁百灵(Ling)42cuLA:用 CUDA 重写线性注意力
4月7日周二
17:32公众号:通义实验室(千问)40FIPO:精准追踪2%的Token,突破大模型推理瓶颈!
4月6日周一
20:00Cursor Blog66精选通过warp decode提升MoE模型推理效率
4月2日周四
19:58公众号:龙猫LongCat(美团)37LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要"算得对",更要"证得严"
4月1日周三
00:00Meta Engineering Blog(RSS)81精选Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务
3月23日周一
03:39Nathan Lambert:Interconnects(RSS)精选有损自我改进
3月21日周六
00:00Dwarkesh Patel:Podcast & Blog(RSS)陶哲轩--开普勒、牛顿与数学发现的本质
3月20日周五
12:04美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Prover
3月18日周三
00:03Google DeepMind:Blog(RSS)衡量AGI进展的认知框架
3月16日周一
09:47Gary Marcus:The Road to AI We Can Trust(RSS)精选Sam Altman 承认:实现 AGI 需要超越规模扩展的重大突破
00:00Mistral AI:News(网页)93研究 ## 推出 Mistral Small 4 模型
3月13日周五
17:00BAIR:Berkeley AI Research Blog面向 LLM 的大规模交互作用识别
3月10日周二
18:00公众号:小红书技术(dots.llm)43ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解
08:00Hugging Face:Blog(RSS)83精选保持令牌流动:16个开源强化学习库的教训
3月7日周六
00:14蚂蚁 inclusionAI:HuggingFace 新模型46inclusionAI/AReaL-tau2-merge-sft-235B 发布
3月5日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推理模型难以控制其思维链,而这反而是好事
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选GPT-5.4 Thinking 系统卡
3月4日周三
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)将 single-minus 振幅扩展至引力子
3月1日周日
17:56蚂蚁 inclusionAI:HuggingFace 新模型46inclusionAI/AReaL-SEA-235B-A22B
2月28日周六
08:00蚂蚁百灵:Developer Blog(网页)80精选拒绝"AI 味":我们用 6 个文学维度,重新审视了模型的创意写作边界
2月27日周五
21:02公众号:月之暗面(Kimi)32Kimi API:用90%缓存命中率,把价格打到25%
2月26日周四
22:00公众号:蚂蚁百灵(Ling)37蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造
08:00蚂蚁百灵:Developer Blog(网页)86精选Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践
2月23日周一
08:00OpenRouter:Announcements(RSS)51OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
08:30
公众号:智谱(GLM)
47
Scaling Pain:智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。

推理教程/实践部署/工程
01:34
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由:Reiner Pope 把训模型背后的数学摊开讲,听完能反推出大厂在做什么,做训练的人不可多得的一课。
00:36
Tomer Tunguz 博客(VC 分析)
精选57
AI推理市场的专业化分化

AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由:Tomer 把推理市场跟数据库市场做类比,碎片化的逻辑讲得很透,做 AI 基础设施的朋友能直接用来梳理自己的赛道,普通人知道这么回事就行。
4月29日
19:07
公众号:通义实验室(千问)
53
FlashQLA:让 Qwen 的注意力层跑得更快
开源/仓库推理部署/工程
08:00
Apple Machine Learning Research(RSS)
51
Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。

推理论文/研究
4月28日
08:00
Apple Machine Learning Research(RSS)
精选62
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
4月27日
17:55
公众号:通义实验室(千问)
34
搜对≠答对:EAPO用"证据奖励"让大模型不再靠猜
检索增强推理教程/实践
4月24日
09:00
公众号:蚂蚁百灵(Ling)
51
Ling-2.6-1T 发布:万亿旗舰"快思考"模型,对标 GPT-5.4

蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。

智能体开源生态推理模型发布
4月22日
21:00
公众号:通义实验室(千问)
59
Qwen3.6-27B 开源发布:270亿稠密参数,编程能力超越前代MoE旗舰

Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。

多模态推理模型发布编码
00:49
Google Research:Blog(网页)
ReasoningBank:让智能体从经验中学习

Google Cloud提出ReasoningBank智能体记忆框架,突破传统方法仅记录动作轨迹或成功经验的局限,从成败经验中提炼可泛化的高层推理策略。该框架通过LLM-as-judge自评估构建检索-提取-整合闭环,特别利用失败案例生成预防性策略,并创新提出Memory-aware Test-Time Scaling技术将测试时计算转化为高质量记忆。在网页浏览与软件工程基准测试中,该系统显著提升任务成功率并减少执行步骤。

智能体Google推理论文/研究
4月21日
05:48
BAIR:Berkeley AI Research Blog
面向长程世界模型的梯度规划方法

GRASP是一种面向世界模型长程规划的梯度优化新方法。通过将轨迹映射至虚拟状态实现跨时间并行优化,引入状态迭代的随机噪声增强探索能力,并重塑梯度以避免高维视觉模型中的病态信号传播。该技术解决了长程规划中的优化病态、局部最优和高维潜在空间失效等问题,使基于学习动力学的复杂任务规划更加稳定高效。

智能体推理论文/研究
4月20日
17:31
蚂蚁 inclusionAI:GitHub 新仓库
精选69
DR-Venus:基于开放数据的边缘级深度研究智能体

DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。

智能体开源/仓库推理模型发布

推荐理由:4B 参数、仅用 1 万条公开数据就能在多个 deep research benchmark 上碾压 8B 对手,蚂蚁 inclusionAI 这次证明了小模型做 Agent 的关键不在参数量而在数据管线,做端侧 Agent 的团队值得拆一下它的 SFT+RL 流程。
15:40
公众号:通义实验室(千问)
59
通义千问发布 Qwen3.6-Max-Preview

通义千问发布 Qwen3.6-Max-Preview 预览版,相比 Qwen3.6-Plus 在多项基准上显著提升:智能体编程(SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8)、世界知识(SuperGPQA +2.3、QwenChineseBench +5.3)、指令遵循(ToolcallFormatIFBench +2.8)。新版本支持 preserve_thinking,可在消息中保留前序轮次思维内容,避免多步任务上下文丢失,官方推荐用于智能体开发。用户可登录 Qwen Studio 直接对话,或通过阿里云百炼(即将上线)调用 API。

智能体推理模型发布编码
4月16日
22:49
Dwarkesh Patel:Podcast & Blog(RSS)
本周所学--预训练并行策略、蒸馏能否被阻止、Mythos与网络安全平衡、流水线强化学习、预训练运行失败原因分析

文章探讨了大规模预训练中的并行计算策略优化方案,分析模型蒸馏技术是否可被检测或阻止及其对AI生态的影响;介绍 Mythos 系统在维护网络安全平衡中的应用,阐述流水线强化学习(Pipeline RL)的架构设计与效率提升,并总结预训练任务失败的常见技术瓶颈与排查方法,为分布式训练提供实践参考。

大佬观点推理数据/训练
13:46
EleutherAI:Blog
基于推理插值的奖励黑客早期指标

研究团队提出一种基于推理插值的早期检测方法,利用重要性采样结合微调供体前缀技术,在模型训练过程中预测奖励黑客行为的出现。该方法通过分析模型推理路径的插值变化,在奖励黑客完全形成前识别其风险迹象,为语言模型安全训练提供关键的预警指标。

安全/对齐推理数据/训练
4月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
HiSparse:分层内存系统加速稀疏注意力

LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。

开源/仓库推理部署/工程
4月8日
18:00
公众号:蚂蚁百灵(Ling)
42
cuLA:用 CUDA 重写线性注意力
推理教程/实践
4月7日
17:32
公众号:通义实验室(千问)
40
FIPO:精准追踪2%的Token,突破大模型推理瓶颈!

FIPO方法通过精准追踪仅占2%的关键Token,有效缓解大模型强化学习中的“蝴蝶效应”,从而突破推理性能瓶颈。

推理数据/训练论文/研究
4月6日
20:00
Cursor Blog
精选66
通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由:Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元,Blackwell 上吞吐涨 1.84 倍还顺带提精度,这种同时赢性能和精度的内核优化极其罕见,做推理引擎的值得逐行读。
4月2日
19:58
公众号:龙猫LongCat(美团)
37
LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要"算得对",更要"证得严"
推理模型发布
4月1日
00:00
Meta Engineering Blog(RSS)
精选81
Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。

Meta产品更新推理部署/工程

推荐理由:Meta的工程实践展示了如何优化LLM规模模型的推理效率,对AI系统设计有参考价值。
3月23日
03:39
Nathan Lambert:Interconnects(RSS)
精选
有损自我改进

自我改进机制虽客观存在,但受限于"有损"特性,难以推动AI能力的递归式爆发。该论述指出,大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈,这种非完美的迭代模式打破了"快速起飞"(fast takeoff)的技术假设。与理想化的指数级自我增强不同,实际发展将呈现渐进、受限的增长轨迹,AI安全研究需重新评估递归自我改进的风险阈值。

大佬观点安全/对齐推理

推荐理由:AI自我改进虽真实但存在损耗上限,挑战'快速起飞'的普遍担忧,为AGI发展节奏提供新视角
3月21日
00:00
Dwarkesh Patel:Podcast & Blog(RSS)
陶哲轩--开普勒、牛顿与数学发现的本质

陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。

大佬观点推理
3月20日
12:04
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Prover

美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。

Hugging Face推理模型发布
3月18日
00:03
Google DeepMind:Blog(RSS)
衡量AGI进展的认知框架

本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。

Google推理论文/研究
3月16日
09:47
Gary Marcus:The Road to AI We Can Trust(RSS)
精选
Sam Altman 承认:实现 AGI 需要超越规模扩展的重大突破

OpenAI CEO Sam Altman 坦言,仅靠扩大模型规模无法达到 AGI,必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向,承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了",暗示基于 Transformer 的现有技术路径难以通向通用人工智能,行业需要颠覆性技术突破而非单纯堆砌算力与参数。

OpenAI大佬观点推理
关联讨论 1 条Dwarkesh Patel:Podcast & Blog(RSS)
推荐理由:OpenAI CEO 罕见承认纯扩展不足以实现 AGI,行业技术路线或迎转折
00:00
Mistral AI:News(网页)
93
研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4,首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构,拥有119B总参数和256k上下文窗口,支持图文输入及可配置的推理强度。性能上,其端到端延迟降低40%,吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源,并加入 NVIDIA Nemotron 联盟,优化了在 vLLM 等框架上的推理效率,适用于聊天、编码和复杂任务处理。

多模态推理模型发布
3月13日
17:00
BAIR:Berkeley AI Research Blog
面向 LLM 的大规模交互作用识别

伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。

推理数据/训练论文/研究
3月10日
18:00
公众号:小红书技术(dots.llm)
43
ICLR 2026|小红书多模态推理大模型 Vision-R1 :实现图文内容的深度逻辑推理与理解

小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著提升了复杂推理能力。

多模态推理论文/研究
08:00
Hugging Face:Blog(RSS)
精选83
保持令牌流动:16个开源强化学习库的教训

同步强化学习训练中,数据生成是主要瓶颈,如在320亿参数模型上生成3.2万令牌样本需数小时,导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池,通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库,从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现:Ray在编排层占主导(8/16库使用),NCCL广播是默认权重传输方式,LoRA训练支持普遍不足,而分布式MoE支持正成为新差异化特性。

推理论文/研究部署/工程

推荐理由:异步RL训练架构对比,助开发者优化训练效率与库选型。
3月7日
00:14
蚂蚁 inclusionAI:HuggingFace 新模型
46
inclusionAI/AReaL-tau2-merge-sft-235B 发布

inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿,采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化,致力于让先进AI技术更广泛可及。

开源/仓库推理模型发布
3月5日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推理模型难以控制其思维链,而这反而是好事

OpenAI 发布 CoT-Control 研究,发现推理模型难以操控自身思维链。这种「不可控」特性反而增强了 AI 的可监控性,成为安全对齐的重要保障。

OpenAI安全/对齐推理

推荐理由:OpenAI 揭示推理模型思维链可控性与安全监控的重要关联
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
GPT-5.4 Thinking 系统卡

OpenAI 发布 GPT-5.4 Thinking 系统卡,披露新一代推理模型的架构细节、安全评估框架及能力边界。文档详述思维链优化机制、长上下文推理性能指标,明确数学推导与代码生成准确率数据,分析幻觉风险与偏见控制措施,并列出越狱攻击防护策略及企业级部署的安全限制建议。

OpenAI推理模型发布

推荐理由:OpenAI 发布 GPT-5.4 Thinking 系统卡,详述模型安全与能力评估
3月4日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
将 single-minus 振幅扩展至引力子

新预印本将 single-minus 振幅扩展至引力子,利用 GPT-5.2 Pro 推导并验证量子引力中的非零引力子树振幅。

OpenAI推理论文/研究
3月1日
17:56
蚂蚁 inclusionAI:HuggingFace 新模型
46
inclusionAI/AReaL-SEA-235B-A22B

inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型,致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛,促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数,体现了其在处理复杂任务方面的潜力,同时强调开放协作对加速AI创新与社会普惠的关键作用。

开源/仓库推理模型发布
2月28日
08:00
蚂蚁百灵:Developer Blog(网页)
精选80
拒绝"AI 味":我们用 6 个文学维度,重新审视了模型的创意写作边界

本文通过叙事工艺、语言艺术等六个文学维度,评估百灵模型Ling-2.5-1T的创意写作能力。测试显示,该模型能驾驭莎士比亚十四行诗、七言绝句等多种体裁,并通过感官描写实现“展现而非告知”的文学技法,在微观叙事和语言质感上接近人类水平。然而,模型仍存在依赖高频文学意象、处理否定指令时语义代偿等局限。该框架为创作者提供了激发AI写作潜力的具体方法。

推理评测/基准
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:提供实用文学维度框架和 Prompt 技巧,助你驾驭 AI 创意写作。
2月27日
21:02
公众号:月之暗面(Kimi)
32
Kimi API:用90%缓存命中率,把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。

开源/仓库推理教程/实践部署/工程
2月26日
22:00
公众号:蚂蚁百灵(Ling)
37
蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵(Ling)公布 Ling 2.5 模型架构改造实践,将 Lightning Attention 与 MLA(Multi-head Latent Attention)两种线性注意力机制融合,形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力,为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践
08:00
蚂蚁百灵:Developer Blog(网页)
精选86
Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率,Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐,并通过MLA极致压缩KV Cache。为确保改造后性能无损,团队设计了精细的平滑迁移训练策略,包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例,最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:为大模型长上下文优化提供可落地的工程实践参考。
2月23日
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据,推出了新的免费模型路由功能,并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程
‹ 上一页
123456…8
下一页 ›