在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。
在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。
Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...
Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...
👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...
AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。
🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...
Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...
小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。
FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。
FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。
GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...
AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。
蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。
说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...
Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...
蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。
后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...
GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...
Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...
Sonar 2 from Perplexity. 👀 @testingcatalog @btibor91
A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...
Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。
23 yaşında bi genç 60 yıldır çözülemeyen Erdös problemlerinden birini chatgpt 5.4 pro ile çözmüş. hem de tek atışta. cha...
这是你们说的:Claude 开始会说人话了吗?🤔
本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数,性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法,实现线性推理加速。此外,Skill-RAG等研究也展示了领域的快速进展。
http://x.com/i/article/2048081731584933888
62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2
there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools
阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is...
腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...
DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...
Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...
卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。
OpenAI发布ChatGPT Images 2.0,凭借推理模式(reasoning mode)解决了AI图像生成在文本渲染与复杂布局上的历史短板。新系统不仅能生成逼真视觉,更能精确处理字母排版、多部分指令和特殊比例,直接产出可立即用于广告、海报等商业场景的设计稿。这标志着行业评估标准已从单纯追求照片级真实感,转向结构准确性、文本可用性与实际经济价值,AI图像生成正式进入可用化新阶段。
Introducing ChatGPT Images 2.0 A state-of-the-art image model that can take on complex visual tasks and produce precise,...
Does an LLM keep the same judgment when you swap the answer order? New LLM Position Bias Benchmark! Judge models compare...