atomic.chat通过为LLaMA.cpp引入多令牌预测技术，大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案，由主模型进行验证。在MacBook Pro M5 Max上测试时，使Gemma 4 26B模型的令牌生成速度加快约40%，整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位，为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

atomic.chat: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...

开源/仓库推理教程/实践端侧

推荐理由：在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升，atomic.chat 把 MTP 带入 LLaMA.cpp 生态，本地 AI 玩家可以直接拿去用。

07:39

meng shao@shao__meng

OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体 OpenAI 多模态推理

07:36

OpenAI Developers@OpenAIDevs

精选76

正在用GPT-Realtime-2构建语音应用？我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体，以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

OpenAI 推理教程/实践语音

推荐理由：官方出了 Realtime-2 的提示工程指南，从调参到工具调用都给了清晰路径，做语音产品的同学值得认真翻一遍，能省几周摸索时间。

06:21

Berryxia.AI@berryxia

OpenAI推出GPT-Realtime-2，将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI 推理模型发布语音

04:35

Artificial Analysis@ArtificialAnlys

OpenAI发布GPT-Realtime-2语音模型，在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

OpenAI 推理模型发布语音

03:36

Rohan Paul@rohanpaul_ai

精选77

冻结大语言模型隐藏状态中仍存可读行为信号，新技术大幅提升准确性

Proprioceptive AI开发的Cygnus技术，通过为冻结的大语言模型添加自感知适配器，使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间，分离出包含主要精度信号的“暗模式”，从而无需重新训练即可显著提升模型性能。例如，仅用一张RTX 3090显卡，就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型，服务节点可支持5万用户并发，预计本周末上线。相关设计论文已公开。

Logan Matthew Napolitano: Final adverserial testing is wrapping up now on small models, GPU's arriving daily, 1TB ram so far, 128 VRAM and adding....

产品更新推理论文/研究

推荐理由：用Lie代数揪出模型内部的“黑暗模式”，在ARC上狂涨12个点还只要一张3090，如果真能泛化到其他任务，这或许是今年最巧妙的模型增强方案，但单基准提升仍需更多验证。