People were flabbergasted by Fable 5, rightly so. But those who also think this will remain the best AI for a long time ...
People were flabbergasted by Fable 5, rightly so. But those who also think this will remain the best AI for a long time ...
科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。
智谱 GLM 5.2 在 Design Arena 单轮 HTML 网页设计评测中首次登顶总分第一,超越 Claude Fable 5、Opus 4.6 和 Opus 4.7,比前代 GLM 5.1 提升 5 个名次。推理价格每百万 tokens 为 1.40/4.40 美元,远低于 Fable 5 的 10/50 美元。模型高效调用 chart.js、three.js 等第三方库,使用这些库的会话胜率提升 6.0 个百分点;91% 会话使用 TailwindCSS,51% 使用 font‑awesome,交互设计使胜率提升 1.2 个百分点(Fable 5 仅 57% 使用 TailwindCSS)。在布局、排版、视觉动画方面表现出色。
新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。
Liquid AI 本周发布两款 350M 参数检索模型:稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base,通过将因果注意力改为双向注意力实现双向编码,支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上,ColBERT 版 NDCG@10 为 0.605,Embedding 版为 0.577,均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens,文档调优至 512 tokens。提供 GGUF 格式,MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。
6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。
豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。
GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...
OpenAI 升级 ChatGPT 医疗能力,新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平,成本大幅降低。该模型对所有免费用户开放(有使用限制),其回答在准确性、清晰度和完整性上优于医生书写的回答,过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Greg Brockman (@gdb)If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...
OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...
Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....
关联讨论 2 条xAI:News(网页)X:xAI (@xai)OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...
🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。
Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...
火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。
Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)vLLM 团队与 NVIDIA 合作,为 MiniMax M3 模型提供开箱即用的 day 0 体验,并集成 Inferact 的 EAGLE3 推测解码。当前工作包括:NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理(PR 45879),Inferact 团队启用 FlashInfer M3 MoE 内核(PR 45723),落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量,并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等,性能有望进一步提升。
📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...
🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...
6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。
智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。
Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。
Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...
GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。
GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 `fmha_sm100`(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 `torch.topk` 快 5.1 倍。
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)IT之家(RSS)Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...
OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...