AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 586 条
全部一手资讯X论文
6月23日周二
13:07IT之家(RSS)64字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
10:07IT之家(RSS)66字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级
08:00HuggingFace Daily Papers(社区热门论文)68Wan-Streamer v0.1: 端到端实时交互基础模型
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
6月22日周一
23:05Nathan Lambert:Interconnects(RSS)67同事件精选GLM-5.2:开放智能体的阶跃变化同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
22:05IT之家(RSS)63生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片
18:05IT之家(RSS)69百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测
17:05IT之家(RSS)71同事件精选让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
15:05IT之家(RSS)62阿里巴巴发布视频生成模型 HappyHorse 1.1
07:37Hacker News 热门(buzzing.cc 中文翻译)62Apertus:面向主权人工智能的开放式基础模型发布
6月20日周六
14:59IT之家(RSS)62OpenAI 最强 AI 模型:GPT-5.6 系列有望下周登场
08:59IT之家(RSS)64超越Claude Fable 5:智谱GLM 5.2登顶Design Arena网页设计AI榜单
06:24MarkTechPost(RSS)68VibeThinker-3B:基于Qwen2.5-Coder-3B的3B密集推理模型,开源MIT
6月19日周五
18:51MarkTechPost(RSS)62Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型
16:16IT之家(RSS)67全球首个人形机器人通用小脑 GPT 模型:银河通用发布 AstraBrain-WBC 0.5
03:23The Decoder:AI News(RSS)73OpenAI 升级 ChatGPT 医疗能力:GPT-5.5 Instant 达到 Thinking 模型水平,免费可用
6月18日周四
18:40公众号:火山引擎72精选火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
13:14IT之家(RSS)71阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM
11:43HuggingFace Daily Papers(社区热门论文)74精选Sumi:从头训练的7B开源均匀扩散语言模型
10:40公众号:通义实验室(千问)75精选首个统一科学大模型 LOGOS 正式开源
08:13Simon Willison 博客75GLM-5.2:可能是最强大的纯文本开源权重大语言模型
03:48xAI:News(网页)61精选Grok 4.3 在 Amazon Bedrock 正式可用
01:47The Decoder:AI News(RSS)76同事件精选智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
17:38Hugging Face:Blog(RSS)83GLM-5.2:为长周期任务而生
16:09智谱:研究(网页内嵌数据)59精选GLM-5.2 上线并开源:专注 Coding 与长程任务
16:05MarkTechPost(RSS)70同事件精选MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
15:05IT之家(RSS)41ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型
13:05IT之家(RSS)58Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
12:05IT之家(RSS)66大晓机器人开源 ACE-Ego 具身操作 VLA 模型
10:03IT之家(RSS)73智谱开源GLM-5.2模型:1M无损上下文,Code Arena全球可用模型第一
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
06:56Hacker News 热门(buzzing.cc 中文翻译)69SubQ 1.1 Small
06:26Hacker News 热门(buzzing.cc 中文翻译)71Qwen-Robot Suite:一套面向物理世界智能的基础模型套件
00:53MarkTechPost(RSS)76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
13:07
IT之家(RSS)
64
字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布,豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段,预计7月初正式上线。该模型支持单段原生30秒视频直接生成,用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台,周星驰为首批合作对象,用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段,相关模板当日创作量已突破十万次。

多模态模型发布
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
10:07
IT之家(RSS)
66
字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro

推理模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
68
Wan-Streamer v0.1: 端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。

多模态模型发布视频语音
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
6月22日
23:05
Nathan Lambert:Interconnects(RSS)
同事件精选67
GLM-5.2:开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2,6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型,匹配 Opus 4.8 无思考模式;在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布,GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布(2025 年 11 月 24 日)到 GLM-5.2 发布(2026 年 6 月 16 日)间隔约 6.8 个月。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:GLM-5.2是第一个真正能打的开放编码代理模型,社区反应堪比DeepSeek R1时刻,对依赖Claude Code的开发者是个好消息,开放模型的竞争力又前进了一大步。
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
22:05
IT之家(RSS)
63
生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片

6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。

多模态模型发布视频
18:05
IT之家(RSS)
69
百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测

6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准
17:05
IT之家(RSS)
同事件精选71
让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:京东开源了首个全栈实时视频交互模型,让大模型能持续观察并主动响应,开发者可以直接用代码搭建安防、导购等实时AI助手,实用性很强。
15:05
IT之家(RSS)
62
阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。

多模态模型发布视频
07:37
Hacker News 热门(buzzing.cc 中文翻译)
62
Apertus:面向主权人工智能的开放式基础模型发布

瑞士AI倡议(EPFL、苏黎世联邦理工学院、CSCS合作)推出完全开放的基础模型Apertus,公开训练数据、代码、权重、方法和对齐原则。模型符合欧盟AI法案要求,支持1000+种语言,提供8B和70B参数版本。同时发布Apertus Mini,含16个小模型用于演示知识蒸馏与量化技术。技术报告已被ACL 2026接收。针对提契诺州微调的版本已用于内部AI翻译。瑞士电信为战略合作伙伴。

开源生态模型发布
6月20日
14:59
IT之家(RSS)
62
OpenAI 最强 AI 模型:GPT-5.6 系列有望下周登场

科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。

AnthropicOpenAI推理模型发布
08:59
IT之家(RSS)
64
超越Claude Fable 5:智谱GLM 5.2登顶Design Arena网页设计AI榜单

智谱 GLM 5.2 在 Design Arena 单轮 HTML 网页设计评测中首次登顶总分第一,超越 Claude Fable 5、Opus 4.6 和 Opus 4.7,比前代 GLM 5.1 提升 5 个名次。推理价格每百万 tokens 为 1.40/4.40 美元,远低于 Fable 5 的 10/50 美元。模型高效调用 chart.js、three.js 等第三方库,使用这些库的会话胜率提升 6.0 个百分点;91% 会话使用 TailwindCSS,51% 使用 font‑awesome,交互设计使胜率提升 1.2 个百分点(Fable 5 仅 57% 使用 TailwindCSS)。在布局、排版、视觉动画方面表现出色。

模型发布编码
06:24
MarkTechPost(RSS)
68
VibeThinker-3B:基于Qwen2.5-Coder-3B的3B密集推理模型,开源MIT

新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。

开源生态推理模型发布
6月19日
18:51
MarkTechPost(RSS)
62
Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型:稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base,通过将因果注意力改为双向注意力实现双向编码,支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上,ColBERT 版 NDCG@10 为 0.605,Embedding 版为 0.577,均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens,文档调优至 512 tokens。提供 GGUF 格式,MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face检索增强搜索模型发布
16:16
IT之家(RSS)
67
全球首个人形机器人通用小脑 GPT 模型:银河通用发布 AstraBrain-WBC 0.5

6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。

具身智能数据/训练模型发布
03:23
The Decoder:AI News(RSS)
73
OpenAI 升级 ChatGPT 医疗能力:GPT-5.5 Instant 达到 Thinking 模型水平,免费可用

OpenAI 升级 ChatGPT 医疗能力,新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平,成本大幅降低。该模型对所有免费用户开放(有使用限制),其回答在准确性、清晰度和完整性上优于医生书写的回答,过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。

OpenAI模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)
6月18日
18:40
公众号:火山引擎
精选72
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测

火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
13:14
IT之家(RSS)
71
阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM

6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。

开源生态数据/训练模型发布
11:43
HuggingFace Daily Papers(社区热门论文)
精选74
Sumi:从头训练的7B开源均匀扩散语言模型

Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。

arXivHugging Face开源生态数据/训练

推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
10:40
公众号:通义实验室(千问)
精选75
首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
08:13
Simon Willison 博客
75
GLM-5.2:可能是最强大的纯文本开源权重大语言模型

智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。

图像生成开源生态模型发布编码
关联讨论 5 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:智谱 Z.ai (@Zai_org)公众号:智谱(GLM)
03:48
xAI:News(网页)
精选61
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
01:47
The Decoder:AI News(RSS)
同事件精选76
智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分,加上1M稳定上下文,是当前最强的开源编码模型,做agentic coding的可以上手试试。
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
17:38
Hugging Face:Blog(RSS)
83
GLM-5.2:为长周期任务而生

GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。

开源生态推理模型发布编码
关联讨论 5 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:智谱 Z.ai (@Zai_org)公众号:智谱(GLM)
16:09
智谱:研究(网页内嵌数据)
精选59
GLM-5.2 上线并开源:专注 Coding 与长程任务

GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

开源生态模型发布编码
关联讨论 5 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:智谱 Z.ai (@Zai_org)公众号:智谱(GLM)
推荐理由:智谱这次升级很务实,1M 上下文和 MIT 协议对做长程任务的开发者很实用,但官方没给出量化 benchmark,实际提升还得自己上手测。
16:05
MarkTechPost(RSS)
同事件精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
15:05
IT之家(RSS)
41
ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。

OpenAI模型发布语音
13:05
IT之家(RSS)
58
Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒

6 月 17 日,xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频,单次生成同时输出音效、环境音和对话,语音清晰度和口型同步效果提升。运动连贯性增强,减少了肢体扭曲和物体漂浮,更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒,较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。

xAI模型发布视频
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
12:05
IT之家(RSS)
66
大晓机器人开源 ACE-Ego 具身操作 VLA 模型

6 月 17 日,大晓机器人联合香港中文大学发布并开源具身操作 VLA 模型 ACE-Ego。在 RoboCasa GR1 TableTop 基准上,ACE-Ego 以 72.8% 平均成功率刷新纪录,超越英伟达 GR00T 等模型;在 RoboTwin 2.0 强域随机化测试中成功率达 90.62%。该模型已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期复杂零售操作。

具身智能模型发布
10:03
IT之家(RSS)
73
智谱开源GLM-5.2模型:1M无损上下文,Code Arena全球可用模型第一

智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。

开源生态模型发布编码
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 5 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:智谱 Z.ai (@Zai_org)公众号:智谱(GLM)
06:56
Hacker News 热门(buzzing.cc 中文翻译)
69
SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布
06:26
Hacker News 热门(buzzing.cc 中文翻译)
71
Qwen-Robot Suite:一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型:Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域;Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿,在超3.81万小时开源语料上实现跨具身操作对齐;Qwen-RobotWorld 以自然语言为动作接口,联合训练20余种具身,预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布
关联讨论 2 条Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)
00:53
MarkTechPost(RSS)
同事件精选76
Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
‹ 上一页
12345…15
下一页 ›