MiniMax M3 模型已上线 HuggingFace 并集成至 InferenceX。M3 总参数量约 428B,激活参数约 23B。得益于 Inferact 工程支持,M3 在 NVIDIA B300 Blackwell Ultra 上通过 vLLM 实现 Day 0 优化推理。Inferact 还发布了 EAGLE3 heads 以进一步加速。团队正在 InferenceX 上基准测试 Day 0 MI355X 性能。
该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。
当前视频生成模型仅学到“手靠近→杯子动”的相关性,而非因果机制,导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型(Causal World Model),旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示,引入因果结构可使机器人成功率提升 25-50%,样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”,尤其在机器人、自动驾驶等真实物理场景中。
当前的 AI,连一个杯子都还没"真懂"。 极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。 画面看着挺...
🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
Artificial Analysis 发布新基准 AA-AgentPerf,首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell(GB300、B300)、Hopper(H200)及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数(要求 20 tokens/s 且 TTFT≤10s):GB300(机架级解耦)达 61,354,B300(单节点解耦)21,053,MI355X 3,551,H200 2,594。基准使用真实编码 agent 轨迹(最多 200 轮、序列超 100K tokens),允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍,且代际大幅领先 Hopper;MI355X 配置较早且未稳定启用推测解码,仍有优化空间。
Google DeepMind新论文提出从通用人工智能到超级智能的四条路径:持续扩展(计算、模型规模、数据、测试时推理)、算法范式革新(超越Transformer架构)、递归自我改进(AI加速自身研发)、多智能体集体智能(众多专业AI智能体协作出超人类智能)。扩展可能遇到数据、算力、能源瓶颈;递归改进最不确定;多智能体路径最易被低估,通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁,而是AI辅助创造更好AI的加速链。
🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
@MiniMax_AI M3 is live on Telnyx Inference 🚀 M3 is the first open-weight model combining frontier coding & agent capabi...
MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...
What can a neuron compute? Real biological neurons are complex, but how capable are they? Using a new method, we found t...
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》DeepSeek-V4支持1M上下文,显存约10GB(对比DeepSeek-V3.2约84GB)。FlashMemory论文进一步将显存压至1.3GB,并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器(小模型),通过预测所需历史片段按需加载,实现注意力降噪。训练采用解耦双编码器架构,无需加载DeepSeek-V4基座模型,训练成本大幅下降。论文:arxiv.org/abs/2606.09079;项目:github.com/libertywing/FlashMemory-Deepseek-V4。
单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...
karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。
@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。
Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...
PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...
用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。
发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。
阿里云宣布Qwen模型上线欧洲AI网关Eden AI。Eden AI拥有超20万开发者,企业可通过其统一API访问Qwen开放权重模型(用于推理、编程和AI应用),构建多模型工作流并避免供应商锁定。庆祝上线期间,所有Qwen模型享35%折扣。下周VivaTech阿里云AI创新峰会(7.3区Workshop A)将举办特别见面会,Eden AI CEO与CPTO出席。
用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。
http://x.com/i/article/2064536412670562304
Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。
DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...