MiMo-V2.5 系列模型(包括 MiMo-V2.5 和 MiMo-V2.5-Pro)采用混合滑动窗口注意力(Hybrid SWA)架构,将 KVCache 存储压缩至全注意力的约1/7。为将架构优势转化为实际收益,团队重新设计了 KVCache 管理、分层缓存和前缀缓存树,并优化了 SWA KVCache 处理、调度及 Prefill/Decode 流水线。经真实生产流量验证,这些优化将有效 KVCache 容量提升近5倍,主流框架下服务器端缓存命中率达93%-95%。结合 MoE 配置调优与多模态推理优化,提升了长上下文推理效率,是近期 API 降价的基础。
When we go from GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5, the number incrementing goes with improvements in capabilities and...
路透社报道称,字节跳动正开发自研数据中心CPU芯片,以支持TikTok规模的AI智能体运行。此举受Groq的“语言处理单元”启发,旨在应对当前服务器处理器短缺问题。公司正在测试Arm和RISC-V两种架构,以比较成熟商业设计与可控开放指令集。由于CPU价格季度性上涨10%-35%且供应链延迟,开发自研芯片已成为一项成本与供应链策略,旨在减少对受限外国AI硬件的依赖并降低单次查询推理成本。AI智能体的推理对CPU依赖远大于传统模型,因单个用户请求可能触发多个步骤。据报道,字节跳动可能依赖外部合作伙伴进行芯片设计与制造。
本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。
陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。
AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...
I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around th...
With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...
@MomoseReina 选择Max 挽弓当挽强、用人当用长,你的时间比什么都宝贵
Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。
由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。
据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。
这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。
Artificial intelligences do not undergo experiences, do not possess a body, do not feel joy or pain, do not mature throu...
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 13 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度:在 8× AMD MI300X 上达到 3,000 tokens/s,在 8× NVIDIA H200 上达到 2,100 tokens/s(FP16,无推测解码),而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题,通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览,提供 2B 编码模型,并计划后续支持大型前沿 MoE。
🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...
This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...
Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 13 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型,而是根据任务复杂度选择标准(standard)、生产(prime)或极致(max)三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API,后端模型可根据价格与质量动态变化,从而优化成本。作者曾用Hermes Agent在本地测试,通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段,声称通过供应商竞价可使AI API成本降低最高80%,并为新用户提供首200M tokens免费额度。
The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...
Mathematician reacts to OpenAI's recent proof:
Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 13 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 13 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Boris Cherny (@bcherny)Hacker News 热门(buzzing.cc 中文翻译)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...