This is the strongest ARC-AGI-2 performance to date by an open-source model.
This is the strongest ARC-AGI-2 performance to date by an open-source model.
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...
OpenAI 发布首颗自研 AI 芯片 "Jalapeño",专为 LLM 推理设计,与 Broadcom 合作生产。从设计到流片仅 9 个月,且由自身 AI 模型辅助设计。首批样片已到手,性能功耗比显著优于当前顶级加速器,Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU,同时成本降低约一半。目标 2026 年底实现吉瓦级部署,推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品,标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI发布首款自研AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计,由Broadcom生产。从设计到流片仅用9个月,借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器,Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU,成本减半。若2026年底实现吉瓦级部署,推理成本有望降低约50%。Jalapeño仅针对推理,训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...
OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño(ASIC),专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下,Jalapeño比NVIDIA GPU更便宜、更快,通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率,能效更优。该芯片从设计到流片仅用9个月,OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈(模型、软件、服务器、网络、芯片)的战略转变。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI与博通合作,九个月内完成首款自研AI芯片Jalapeño的设计到流片。该芯片专为大语言模型推理场景打造,用于ChatGPT、Codex、API及未来智能体产品,每瓦性能优于当前最先进水平。推理成本可降低30%–50%,为日常持续消耗大头。传统芯片设计周期2–3年,Jalapeño通过AI辅助设计跑通“AI造AI硬件”自循环。OpenAI意图走全栈路线,摆脱对英伟达依赖,掌握底层算力定价权。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 推出首款自研 AI 芯片 Jalapeño,专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月,ChatGPT 参与了芯片设计,堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工,针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗,成功运行 GPT-5.3-Codex-Spark 等 ML 负载;性能功耗比显著优于当前 SOTA,详细基准后续公布。部署计划于 2026 年底启动,战略上旨在减少对外部 GPU 依赖,加强对算力经济的控制。
OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving dee...
OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño,9 个月完成流片,专为 LLM 推理优化,能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署,用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节,通过自研芯片构建飞轮:更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性,是 AI 触达用户的环节。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 推出其首款自研 AI 芯片 Jalapeño,与 Broadcom 和 Celestica 合作构建,针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载,包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平,详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖,增强对计算经济的控制,并强化模型、产品、收入与基础设施之间的飞轮效应。
https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。
微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。
Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...
VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。
该论文提出“热力学智能”概念,将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率,而论文指出大脑、大语言模型、控制器等智能体的共同点:系统将自身纳入世界模型,并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量,衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点:智能是物理层面的概率转移过程,而非测试分数或类人行为标签。
博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。
MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。
全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...
作者将流传的“白毛股神”投资叙事(英伟达CPO需求驱动硅光子、SIVE是最纯标的)交给具备自动溯源核证能力的AI,逐条交叉验证公开资料。五条核心声称中有四条缺乏依据,唯一站住脚的一条也被夸大。作者进一步人工复核硬事实后确认结论。推文警示:AI精确引用术语、逐条出处、语气笃定的“伪正确”叙事比明显胡诌更危险,可能诱导投资者盲目跟单。
http://x.com/i/article/2069024565901119488
Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。
智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
SemiAnalysis发布CUDA MOAT警报:在不到70天内,通过纯软件优化,Kimi架构(与xAI的Cursor Composer 2.5相同模型架构)在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel,作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板,带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。
Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,用户仅需调用单个模型 API。其 Fugu Ultra 版本在工程、科学、推理等硬核基准上性能匹敌 Fable 和 Mythos。系统内部自主拆解任务、挑选最优模型、递归调用自身或其他智能体、验证结果并合成答案,用户无需关心底层编排。关键优势在于动态编排全球各类模型,天然避开单一供应商的出口管制风险,将多智能体从复杂工程变为开箱即用的产品形态。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Sakana AI 是 2023 年成立于东京的 AI 公司,由前 Google Brain 的 David Ha(CEO)、Transformer 论文共同作者 Llion Jones(CTO)及前日本外交官 Ren Ito(主席)联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险,被视为将多智能体从复杂工程变为开箱即用的产品形态。
这个是小日子搞的嘛?Fugu? 今天被刷屏了很多次! Sakana直接发布了一个能匹配Fable和Mythos性能的多智能体编排系统,而且还是通过单个API调用。 地址:https://sakana.ai/fugu 他们推出的Sakana ...
关联讨论 1 条MarkTechPost(RSS)买MacStudio运行大模型性价比不高。以M3 Ultra 96G(32999元)为例,运行Qwen3.6-27B 4bit量化版并开投机解码,速度约65 token/s。设备成本换算成API调用(GLM-5.2,每百万token 28元)可买约1178M token,需连续运行209天才能回本。512G版(108749元)运行量化GLM-5.2速度仅17 token/s,回本约7年。模型每1.5个月更新,建议普通用户买coding plan或租卡。已有Mac或显卡者,闲置时跑模型才划算。
郭明錤产业调查显示,Google 在 TPU v9 (Humufish) 基础上开发升级版晶片 Triggerfish,由联发科独家代工。升级包括:SRAM 容量提升至 Humufish 的 2–3 倍、新增 simulation die(聚焦强化学习与 AI 代理协作)、内存升级至 HBM4E。Google 额外追加 100–200 万颗订单,单价较 Humufish 高约 30%。预计 2027 年底开始生产,2028 年放量。Humufish 生命周期出货量 400–500 万颗预估不变。
郭明錤爆料,Google基于TPU v9 / Humufish开发升级版芯片Triggerfish,由MediaTek独家代工。相比Humufish,Triggerfish的SRAM容量提升2-3倍,新增模拟die(用于强化学习和AI智能体协同),内存升级至HBM4E(Humufish为HBM4),强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗,Triggerfish追加订单100-200万颗,预计2027年底试产、2028年放量,单价高约30%,有望推动联发科2028年业绩增长。
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。
A new, more capable version of Anthropics Mythos has emerged from training. In itself, this is nothing out of the ordina...