16:32
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
12:00
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
02:02
Claude Sonnet 5 发布Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。
关联讨论 13 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
00:08
Google DeepMind:Blog(RSS)
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni FlashGoogle DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
01:26
Nathan Lambert:Interconnects(RSS)
Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。
推荐理由:这篇文章把开源模型玩家拆成三类,清晰解释了不同动机,Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号,关注开源的值得一读。
16:10
新浪开源VibeThinker-3B:推理可压缩,事实知识不能新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
推荐理由:VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型,推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。
01:02
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 预览新一代模型 GPT-5.6 SolOpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:GPT-5.6 Sol 不是一次常规升级,它把推理推到新高度,还引入了子代理模式。但美国政府要求有限预览,让这次发布多了点政治味道。
00:19
Berryxia.AI@berryxia Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
关联讨论 1 条X:Kim (@kimmonismus)
推荐理由:Ornith-1.0 不是又刷 benchmark,而是第一次把‘任务脚手架’的生成也纳入 RL 优化,这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF,本地党可以立刻跑起来。
12:42
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。
推荐理由:Bidi 1 让 ChatGPT 语音从回合制变成双向并行,打断后能立即响应,这是语音交互真正的升维,普通人很快就能感受到对话自然感的质变。
11:54
Qwen-AgentWorld:面向通用智能体的语言世界模型Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
03:21
Hao AI Lab@haoailab FastWan-QAD:单卡5090上1.8秒生成5秒视频Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
22:24
Mistral OCR 4Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
19:10
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。
推荐理由:网易有道把语音克隆的门槛压到了 3 秒,跨 14 种语言还能保持无口音,而且全量开源、商用无限制,对多语种配音和短剧出海是直接可用的工具。
14:10
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
豆包音频生成模型1.0发布,重新定义AI音频创作火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
12:39
字节 Seed:Research Feed(网页内嵌数据)
Seed2.1 正式发布,深入 AI 生产力字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克公众号:火山引擎X:卡兹克 (@Khazix0918)
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
22:11
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5MPP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。
推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
18:40
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。
推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
11:43
HuggingFace Daily Papers(社区热门论文)
Sumi:从头训练的7B开源均匀扩散语言模型Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
10:40
首个统一科学大模型 LOGOS 正式开源LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
关联讨论 1 条IT之家(RSS)
推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
03:48
Grok 4.3 在 Amazon Bedrock 正式可用6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。
推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
23:43
MolmoMotion:语言引导的3D运动预测模型MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。
推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
16:09
GLM-5.2 上线并开源:专注 Coding 与长程任务GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
关联讨论 9 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)Hugging Face:Blog(RSS)
推荐理由:智谱这次升级很务实,1M 上下文和 MIT 协议对做长程任务的开发者很实用,但官方没给出量化 benchmark,实际提升还得自己上手测。
12:39
Qwen-RobotWorld:具身智能体的无界世界Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
关联讨论 5 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)公众号:通义实验室(千问)MarkTechPost(RSS)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
10:00
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
推荐理由:Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒,比标准版便宜一半,对做大批量电商素材和 UGC 的团队是个实际信号,值得等 API 开放后看实测。
01:25
LMSYS:Blog(Chatbot Arena 团队)
下一代投机解码:DFlash 与 Spec V2Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
01:59
Hacker News 热门(buzzing.cc 中文翻译)
里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7里约热内卢市政府开发的 AI 模型 Rio3.5,在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子,指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。
推荐理由:一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7,这让人重新审视谁在参与前沿模型竞争。如果结果可复现,可能是今年最意外的黑马。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
01:17
Hacker News 热门(buzzing.cc 中文翻译)
DeepSeek-R1 的开源实现DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。
推荐理由:Hugging Face 把 DeepSeek-R1 的完整训练管线拆解得清清楚楚,从数据蒸馏到 GRPO 强化学习都开源了,还放出了复现的模型和数据集。想理解或自己训练推理模型的开发者,这大概是目前最实用的路线图。
12:10
Midjourney V8.1 已成为默认模型Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升,HD 模式也已支持。
关联讨论 2 条X:Midjourney (@midjourney)Midjourney:Updates(RSS)
推荐理由:虽然V8.1不是大版本,但设为默认后所有用户自动升级,尤其是文本和复杂提示词的理解增强,做设计的朋友值得重新测试一下关键词。
00:40
Google DeepMind:Blog(RSS)
DiffusionGemma:文本生成速度提升4倍的开源扩散模型Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。
关联讨论 6 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)Google Developers Blog(RSS)
推荐理由:DiffusionGemma 虽为实验性质,但它把文本生成从“串行打字机”变成了“并行印刷机”,本地推理速度 4 倍提升,对需要实时交互的开发者是个值得关注的方向。
16:28
摩尔线程开源 MusaCoder 代码大模型,9B/27B 参数基于国产 GPU 全链路训练摩尔线程发布并开源 MusaCoder 代码大模型,含 9B 和 27B 两个参数规模,是业内首个基于国产 GPU 算力底座完成全链路训练与验证的开源模型。后训练流程在基于 MTT S5000 的夸娥智算集群上完成,支持从 PyTorch 标准算子自动生成高性能 CUDA/MUSA 原生 Kernel 代码。在 KernelBench 评测中,MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.60% 超越 Claude Opus、DeepSeek-V4 Pro、GLM-5.1、Kimi K2.6 等主流 SOTA 代码模型。
推荐理由:摩尔线程这个模型直接瞄准GPU底层算子,KernelBench分数压过了不少主流大模型,虽然场景窄,但在国产硬件自建软件生态的路上,迈出了挺关键一步。
04:55
Cohere发布North Mini Code:面向开发者的开源编码模型Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。
推荐理由:Cohere的新编码模型North Mini Code以30B参数MoE架构,在SWE-bench pass@1达到61%,Apache 2.0开源,是小模型在agent coding领域真正可用的信号。
01:04
Claude Fable 5 和 Claude Mythos 5Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
11:40
小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。
关联讨论 3 条X:小米 MiMo (@XiaomiMiMo)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
推荐理由:万亿模型首次在通用GPU上突破1000 tokens/s,不是专用硬件的胜利而是模型与系统Codesign的胜利,做实时AI应用的都应该盯紧这一套方案。