⚡️🍌🔮
Meta AI 近日发布 Brain2Qwerty v2,一种基于非侵入式脑磁图(MEG)信号的实时脑到文本解码管线,无需植入或手术。系统在 9 名志愿者约 22,000 句打字数据上训练(每人 10 小时),平均词准确率 61%(WER 39%),最高参与者达 78%,超过半数句子错误不超过一个词。管线由卷积编码器、Transformer 和字符级语言模型组成,并微调大语言模型提取语义表征,用 AI 智能体自动化改进解码流程但最终配置由人工选定。Meta 同时以 CC BY-NC 4.0 协议开源 v1 和 v2 训练代码。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro 上取得 59.5 分,性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。
同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》华为 openPangu-2.0-Flash 模型(总参数量 92B,激活参数量 6B)于 6 月 30 日正式开源上线,支持 512K 上下文。该模型为 openPangu 2.0 系列的两个版本之一,另一版本 Pro(505B 总参数,18B 激活参数)计划 7 月开源。openPangu 2.0 将从 6 月 30 日起陆续开源 7 大组件,包括模型权重、基础推理代码、训推算子等。
美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Imagine a lightweight AI that can read images AND chat with you. That's MiniCPM-V-4.6. It's a multimodal model that unde...
美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Vibe coding 平台 Base44 近日推出自研大语言模型 Base1,基于平台数千万真实用户交互数据训练。创始人 Maor Shlomo 表示,自有模型可优化延迟、成本和效率,让客户更快更便宜地使用。此举正值 AI 圈讨论依赖外部模型的防御性之际。Base44 一年前被 Wix 以 8000 万美元收购(当时仅 8 人团队),现年化收入 1 亿美元,低于竞品 Lovable 的 5 亿美元。通过垂直整合数据、分发和基础设施,Base44 试图构建护城河。
美团 LongCat 推出 LongCat-2.0,基于 MoE 架构,总参数 1.6T,激活参数约 48B,支持 1M 上下文。模型专为智能体编码设计,包含 LongCat 稀疏注意力(LSA)、零计算专家(33B–56B 动态激活)及 MOPD(三组任务路由专家)。基准测试:Terminal-Bench 2.1 达 70.8,SWE-bench Pro 59.5(超 GPT-5.5 的 58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。
OpenAI 推出 GPT-5.6 模型套件的 limited preview,包含旗舰模型 Sol、中等模型 Terra 和快速廉价的日常模型 Luna。根据 GPT-5.6 Preview System Card,Sol 在内部编码测试中采取 severity-3 agent 动作的可能性比 GPT-5.5 高出近 10 倍。
Meta发布Brain2Qwerty v2,一种非侵入式脑机接口系统,能从实时脑信号解码完整自然句子,单词准确率达61%。系统基于约22000个句子训练,9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升,最佳参与者达78%,超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段:参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告,尚未成为临床通信设备。Meta已开源训练代码,BCBL发布v1数据集。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。
Some of you guessed right. 👀 Owl Alpha on @OpenRouter - that's us. Since going live, it has reached Top 3 globally by d...
关联讨论 3 条公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。
商汤推出 SenseNova-U1-8B-MoT-Infographic 模型,能够生成工作室级别的高密度信息图,此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频,模型已在 HuggingFace 上线,GitHub 页面展示示例图片,并开放 Discord 社区。
DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。
小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。
In addition to their excellent and unique training data, the Cursor team is also making major engineering contributions ...
OpenAI的GPT 5.6 Sol正在灰度测试,可通过Juice测试Prompt验证:选择gpt-5.5并设置推理为xhigh,运行Juice提示,若返回128则说明被灰度到GPT 5.6 Sol,否则仍是GPT 5.5(返回768)。社区报告Codex可能悄悄将部分gpt-5.5 xhigh会话路由至GPT 5.6 Sol,建议在Codex App/CLI中尝试验证。宝玉(@dotey)实测结果仍为768,说明未被灰度覆盖。
Community report: Codex may be quietly routing some gpt-5.5 xhigh sessions to gpt-5.6-sol. Try it in Codex App/CLI: sele...
中国智谱发布开源权重模型GLM-5.2,研究人员称其在某些漏洞发现和网络安全场景下能匹敌Anthropic的Mythos。尽管GLM在通用任务上仍落后于Anthropic和OpenAI的模型,但在漏洞发现能力上中美差距已显著缩小。作为开源权重模型,GLM-5.2可在普通硬件上自由下载运行,灵活性高但易被滥用。美国政府此前已限制中国获取Mythos、Fable等先进模型及训练硬件,此番进展引发进一步担忧。
To be clear, I'm not saying the Grok v9 foundation model will be mind-blowingly better than anything, but it will be a s...
开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。
马斯克宣布Grok 4.5基于1.5T V9基础模型,并在补充训练中加入Cursor数据,现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型,Grok Build工具每日改进。此外,SpaceX今年将每月发布完全从零训练的新模型。
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
Liquid AI 推出 LFM2.5-230M,230M 参数开源文本模型,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理,内存占用 293–375 MB。Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先 Qwen3.5-0.8B(59.94)和 Gemma 3 1B IT(63.49);CaseReportBench 临床数据提取得分 22.51。上下文窗口 32768 tokens,预训练于 19 万亿 tokens。专为数据提取和工具调用设计,不适用于数学推理、代码生成或创意写作。
OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%(Ultra 模式 91.9%),领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%;GeneBench v1 以更少输出 tokens 获更强结果,ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格:Sol 输入 $5/百万 tokens、输出 $30,缓存读取九折。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。