在第五届国际地层学大会上,中国发布首个地层学AI大模型及智能全球地层剖面对比系统,旨在为地球46亿年历史建立全球共享数据库。中国科学院院士沈树忠介绍将借助时间轴整合地质记录。目前中国已发现11颗“金钉子”,为地球演化标定国际刻度。本次大会首次走出欧洲落地亚洲,共33国700余名专家参加。
在第五届国际地层学大会上,中国发布首个地层学AI大模型及智能全球地层剖面对比系统,旨在为地球46亿年历史建立全球共享数据库。中国科学院院士沈树忠介绍将借助时间轴整合地质记录。目前中国已发现11颗“金钉子”,为地球演化标定国际刻度。本次大会首次走出欧洲落地亚洲,共33国700余名专家参加。
Interfaze 开源了 diffusion-gemma-asr-small,据称是首个开源多语言扩散 ASR 模型。该模型使用 DiffusionGemma 的离散扩散解码器(26B MoE 骨干,4B 激活参数,128 专家 top-8 路由)进行非自回归语音转文本。仅训练约 42M 参数适配器,冻结 backbone;采用 frozen whisper-small 编码器提取 1500 帧 768 维特征,经可训练投影器(约 19M 参数)压缩为 188 个 2816 维音频 token 注入提示槽,解码器双向并行去噪约 16 步。单适配器支持六种语言。在 LibriSpeech test-clean 上 WER 6.6%,优于同类扩散模型 Whisfusion(8.3%),但落后自回归 Whisper。去噪步数从 8 增至 48 仅提升约 0.1 个 WER 点,8 步时达 14.9 倍实时速度。适配器以 Apache-2.0 开源,DiffusionGemma 和 whisper-small 需单独加载。
Anthropic 于 2026 年 7 月 1 日至 7 月 7 日推出 Claude Fable 5 限时推广,Pro、Max、Team 及 Enterprise premium seats 订阅用户可免费使用每周限额的 50%。支持网页、移动端、桌面端、Cowork、Code(需 v2.1.170+)、Design、Microsoft 365、Teams 及 Tag。超出免费额度后可购买 usage credits 或切换其他模型。API、Enterprise 标准座及 usage-based 计划不参与。
葡萄牙政府7月1日宣布开源大语言模型AMALIA正式发布,这是首个基于欧洲葡萄牙语开发的模型。由60余位研究人员历时18个月开发,先期投资550万欧元,使用了Deucalion、MareNostrum 5等算力基础设施。第一阶段利用约4万亿个葡语单词训练出9B规模模型,后续多模态升级后具备理解文本、图像、声音的能力。今年内还将新增22B版本并获得智能体能力,需追加150万欧元投资。
美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。
NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Google Research 发布 TabFM v1.0.0,一种面向表格数据的零样本基座模型,无需针对特定数据集训练、调参或特征工程即可进行分类和回归。TabFM 将整个数据集作为统一提示,通过上下文学习在单次前向传播中生成预测。其架构融合 TabPFN 风格的行/列交替注意力与 TabICL 风格的行压缩和上下文学习。模型在数亿个由结构因果模型动态生成的合成数据集上训练。在 TabArena 基准(38 个分类、13 个回归数据集,样本量 700 至 15 万)上,TabFM 及添加交叉特征和 SVD 特征、采用 32 路集成的 TabFM-Ensemble 均优于经过深度调优的监督算法。模型已开源在 Hugging Face 和 GitHub,Google BigQuery 即将通过 AI.PREDICT SQL 命令集成。
美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Leanstral 1.5 是 Lean 4 形式证明工程模型的更新版,专为自动定理证明和自动形式化优化。总参数量 119B,激活参数 6.5B,上下文窗口 256k,免费使用。支持 Chat Completions、Function Calling、Agents、Structured Outputs、OCR、Embeddings 等 API 功能。
Anthropic 推出 Claude Sonnet 5,称其为 Sonnet 系列中智能体能力最强的模型,能制定计划、调用浏览器和终端等工具并自主运行。已上线 Claude Code 和 Claude Platform,API 指定“claude-sonnet-5”。优惠期(至 2026 年 8 月 31 日)每百万 tokens 输入 2 美元、输出 10 美元;之后分别涨至 3 美元和 15 美元。性能在 BrowseComp、OSWorld-Verified 等评测中较 Sonnet 4.6 显著提升,部分接近 Opus 4.8。安全方面,整体不良行为发生率低于 Sonnet 4.6,在拒绝恶意请求、抵抗提示注入、幻觉率和迎合性上均有改善。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)谷歌发布新款 AI 图像与视频生成模型 Nano Banana 2 Lite,可在 4 秒内生成一张图像,延迟较此前明显下降。每生成 1000 张图像收费 0.034 美元(约合 0.23 元人民币),主打速度和批量处理能力,面向高频、大规模的内容生产流程。该模型现已登陆谷歌 AI Studio、Gemini API 和 Gemini Enterprise Agent Platform,并将取代初代 Nano Banana。
Gemini 3.1 Flash Lite Image(API 名 gemini-3.1-flash-lite-image,代号 Nano Banana 2 Lite)发布,被描述为“最快最便宜的 Gemini 图像模型”,专为速度和规模优化。作者在 AI Studio 中测试生成“寻找浣熊”风格的图像,效果优于此前 Nano Banana 模型,但存在拼写错误。
Anthropic 今日发布 Claude Sonnet 5,性能接近 Opus 4.8 但定价更低。系统卡指出其网络任务能力远弱于 Mythos 5,安全措施与 Opus 4.7/4.8 相当。API 不再支持 temperature、top_p、top_k 参数;拥有 100 万 token 上下文窗口和 12.8 万最大输出 token;工具集与 Sonnet 4.6 相同;自适应思考默认开启。定价与 Sonnet 4.6 一致(输入 $3/百万 token,输出 $15/百万 token),8 月 31 日前享折扣价 $2/$10。新分词器使相同输入文本产生约 30% 更多 token,等效提价约 30%。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。
Anthropic 发布 Claude Sonnet 5,称其为最智能体的 Sonnet 版本,能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6:SWE-bench Pro 达 63.2%,Terminal-Bench 2.1 为 80.4%,知识工作基准 GDPval-AA v2 得分 1618,略超 Opus 4.8。模型即日起在所有计划上线,开发者可通过 Claude Code 和 API 使用,支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日,输入价格 $2/百万 token,输出 $10/百万 token,之后恢复至 $3/$15。模型未针对网络安全任务训练,默认启用实时网络防护,幻觉和谄媚行为较前代减少。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Google 推出 Nano Banana 2 Lite,号称最快、最高效的 Gemini 图像模型,以最低成本实现高速生成和编辑。模型延迟显著降低,适合大规模图像生成,同时不牺牲质量,支持角色一致性、精确视觉编辑和真实世界知识。目前可通过 Google AI Studio 试用,并在 Space Lift、Gridscape、Peek-A-Word 和 Anywhere 等应用中展示了能力。
Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Google DeepMind 发布 Nano Banana 2 Lite(正式名 Gemini 3.1 Flash Lite Image),默认低思考模式下约4秒生成一张图像,标准 Nano Banana 需约20秒。API 价格为每1000张图像 $0.034,输入 token $0.25/1M,输出 token $1.50/1M,是 Nano Banana 2 的一半,输出成本为 Nano Banana Pro 的八分之一。用户 Arena.ai Elo 评分接近非 Lite 版本,但在文本处理、小字和角色一致性上较弱。所有输出图像均带有 SynthID 水印。即日起可通过 Google AI Studio、API 及 Gemini(选择 Flash-Lite 选项)使用。
Anthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。
Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)美团发布LongCat-2.0,参数规模达1.6万亿,完全基于超5万颗国产AI ASIC芯片集群训练,覆盖35万亿模型token。该模型在SWE-bench Pro(59.5)和SWE-bench Multilingual(77.3)上超越Gemini 3.1 Pro和GPT-5.5,但落后于Claude Opus 4.7和4.8。在IFEval(90.0)、IMO-AnswerBench(81.8)和GPQA-diamond(88.9)上则与Gemini、GPT-5.5存在差距。美团未透露具体芯片厂商,模型暂未在HuggingFace开放,独立验证困难。项目团队始于2023年,首个模型于去年底交付。
Meta AI 近日发布 Brain2Qwerty v2,一种基于非侵入式脑磁图(MEG)信号的实时脑到文本解码管线,无需植入或手术。系统在 9 名志愿者约 22,000 句打字数据上训练(每人 10 小时),平均词准确率 61%(WER 39%),最高参与者达 78%,超过半数句子错误不超过一个词。管线由卷积编码器、Transformer 和字符级语言模型组成,并微调大语言模型提取语义表征,用 AI 智能体自动化改进解码流程但最终配置由人工选定。Meta 同时以 CC BY-NC 4.0 协议开源 v1 和 v2 训练代码。
LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)华为 openPangu-2.0-Flash 模型(总参数量 92B,激活参数量 6B)于 6 月 30 日正式开源上线,支持 512K 上下文。该模型为 openPangu 2.0 系列的两个版本之一,另一版本 Pro(505B 总参数,18B 激活参数)计划 7 月开源。openPangu 2.0 将从 6 月 30 日起陆续开源 7 大组件,包括模型权重、基础推理代码、训推算子等。
美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)Vibe coding 平台 Base44 近日推出自研大语言模型 Base1,基于平台数千万真实用户交互数据训练。创始人 Maor Shlomo 表示,自有模型可优化延迟、成本和效率,让客户更快更便宜地使用。此举正值 AI 圈讨论依赖外部模型的防御性之际。Base44 一年前被 Wix 以 8000 万美元收购(当时仅 8 人团队),现年化收入 1 亿美元,低于竞品 Lovable 的 5 亿美元。通过垂直整合数据、分发和基础设施,Base44 试图构建护城河。
Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。
Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。
DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。
DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。
小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。
中国智谱发布开源权重模型GLM-5.2,研究人员称其在某些漏洞发现和网络安全场景下能匹敌Anthropic的Mythos。尽管GLM在通用任务上仍落后于Anthropic和OpenAI的模型,但在漏洞发现能力上中美差距已显著缩小。作为开源权重模型,GLM-5.2可在普通硬件上自由下载运行,灵活性高但易被滥用。美国政府此前已限制中国获取Mythos、Fable等先进模型及训练硬件,此番进展引发进一步担忧。
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
Liquid AI 推出 LFM2.5-230M,230M 参数开源文本模型,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理,内存占用 293–375 MB。Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先 Qwen3.5-0.8B(59.94)和 Gemma 3 1B IT(63.49);CaseReportBench 临床数据提取得分 22.51。上下文窗口 32768 tokens,预训练于 19 万亿 tokens。专为数据提取和工具调用设计,不适用于数学推理、代码生成或创意写作。