AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
6月23日周二
14:33数字生命卡兹克782026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
13:13HuggingFace Daily Papers(社区热门论文)55UniverSat: 分辨率和模态无关的Transformer用于地球观测
13:11歸藏(guizang.ai)65Seedance 2.0 4K 视频上线即梦,15 秒 1200 积分
13:10Orange AI43豆包 Seed Audio 1.0:声音模型的 Seedance 时刻
13:07IT之家(RSS)64字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:15小互59字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台
12:14Berryxia.AI58Seedance 2.5 发布:30 秒原生视频 + 50 全模态素材
12:10meng shao57字节跳动发布Seedream 5.0 Pro与Seedance 2.5
11:14Berryxia.AI63百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干
10:07IT之家(RSS)66字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级
08:13Berryxia.AI73百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析
08:00HuggingFace Daily Papers(社区热门论文)68Wan-Streamer v0.1: 端到端实时交互基础模型
05:06🚨 AI News | TestingCatalog70OpenAI 推出 GPT-5.5-Cyber 模型更新及 Daybreak 安全扩展计划
04:41Rohan Paul75OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5,扩大 Daybreak 网络安全计划
04:40Tibo57OpenAI 发布 GPT-5.5-Cyber 与代码安全更新
03:07elvis52Sakana Fugu Ultra发布,性能匹配Fable和Mythos
02:35Sam Altman45GPT-5.5-Cyber完整版发布,安全工具上线
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
01:12Berryxia.AI66百度开源Unlimited-OCR:可一次性处理数百页文档
6月22日周一
23:09Nathan Lambert56GLM-5.2:开放智能体的DeepSeek时刻
23:05Nathan Lambert:Interconnects(RSS)67同事件精选GLM-5.2:开放智能体的阶跃变化同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
22:56Chubby♨️55GPT-5.6、5.6 Pro及双向语音模型周四发布
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
22:05IT之家(RSS)63生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片
21:26Chubby♨️38Sonnet 5 首次测试已启动
19:40Alibaba Cloud48阿里云HappyHorse 1.1正式上线
18:05IT之家(RSS)69百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测
17:05IT之家(RSS)71同事件精选让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
16:05🚨 AI News | TestingCatalog64Sakana AI 发布 Fugu 和 Fugu Ultra 多智能体编排系统
15:05IT之家(RSS)62阿里巴巴发布视频生成模型 HappyHorse 1.1
11:36meng shao20GLM-5.2 引热议:最强开源,接近Claude Fable 5
10:04IT之家(RSS)61智谱市值突破1万亿港元,GLM-5.2开源登顶Code Arena
07:37Hacker News 热门(buzzing.cc 中文翻译)62Apertus:面向主权人工智能的开放式基础模型发布
6月21日周日
21:35Rohan Paul50Cursor新Composer模型算力提升10-20倍
20:56Chubby♨️41GLM-5.2 表现出色,创始人称今年可推 Mythos 级模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
13:13
HuggingFace Daily Papers(社区热门论文)
55
UniverSat: 分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。

GitHub多模态数据/训练模型发布
13:11
歸藏(guizang.ai)@op7418
65
Seedance 2.0 4K 视频上线即梦,15 秒 1200 积分

Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本,15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M,主要面向商业片和商业短剧制作公司。

模型发布视频
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
13:07
IT之家(RSS)
64
字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布,豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段,预计7月初正式上线。该模型支持单段原生30秒视频直接生成,用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台,周星驰为首批合作对象,用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段,相关模板当日创作量已突破十万次。

多模态模型发布
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
12:15
小互@xiaohu
59
字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
12:10
meng shao@shao__meng
57
字节跳动发布Seedream 5.0 Pro与Seedance 2.5

字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。

图像生成模型发布视频
11:14
Berryxia.AI@berryxia
63
百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek多模态开源/仓库模型发布
10:07
IT之家(RSS)
66
字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro

推理模型发布编码
08:13
Berryxia.AI@berryxia
73
百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
68
Wan-Streamer v0.1: 端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。

多模态模型发布视频语音
05:06
🚨 AI News | TestingCatalog@testingcatalog
70
OpenAI 宣布 GPT-5.5-Cyber 模型更新,在 CyberGym 基准上得分 85.6%(早期版本为 81.9%)。Codex 新增 Security 插件,可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分,完整版 GPT-5.5-Cyber 模型面向可信防御者;Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品;Patch the Planet 项目与维护者合作保护关键开源项目。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI安全/对齐模型发布编码
04:41
Rohan Paul@rohanpaul_ai
75
OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5,扩大 Daybreak 网络安全计划

OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5,该基准测试 AI 智能体复现已知软件漏洞的能力,对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划,包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);GPT-5.5-Cyber 完整版(供受信任防御者使用);Cyber Partner Program(赋能安全公司构建基于 OpenAI 能力的安防产品);Patch the Planet(与维护者合作保护关键开源项目)。本轮模型和计划属于“Trusted Access for Cyber”项目,不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人,自动扫描代码、确认漏洞真实可达、编写补丁并测试,

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI安全/对齐模型发布编码
关联讨论 2 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)
04:40
Tibo@thsottiaux
57
Let's Patch The Planet. Codex 安全更新和新 GPT-5.5-Cyber。 网络防御加速的庆祝日。
OpenAI安全/对齐模型发布
03:07
elvis@omarsar0
52
Sakana AI 推出 Fugu 多智能体编排系统,通过单个模型 API 即可访问。其 'Fugu Ultra' 模型性能匹配 Fable 和 Mythos,提供前沿能力且无出口管制风险。在生成程序化地形(Three.js)的对比中,Fugu Ultra 在一次生成(one-shotted)下表现突出。更多示例即将分享。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体模型发布
02:35
Sam Altman@sama
45
我们希望帮助所有公司变得安全,与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布;在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题,而不仅仅是发现它们。
OpenAI安全/对齐模型发布
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 2 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
01:12
Berryxia.AI@berryxia
66
百度开源Unlimited-OCR:可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeekHugging Face多模态开源/仓库
6月22日
23:09
Nathan Lambert@natolambert
56
GLM-5.2 应该是智能体的"DeepSeek 时刻"。我们进入一个新世界,开放模型中拥有了顶尖智能体能力。 如果你关心开放,现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Interconnects: GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...

智能体开源生态模型发布
23:05
Nathan Lambert:Interconnects(RSS)
同事件精选67
GLM-5.2:开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2,6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型,匹配 Opus 4.8 无思考模式;在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布,GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布(2025 年 11 月 24 日)到 GLM-5.2 发布(2026 年 6 月 16 日)间隔约 6.8 个月。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:GLM-5.2是第一个真正能打的开放编码代理模型,社区反应堪比DeepSeek R1时刻,对依赖Claude Code的开发者是个好消息,开放模型的竞争力又前进了一大步。
22:56
Chubby♨️@kimmonismus
55
据X用户Kim消息,本周四将发布多个新GPT模型,包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出,5.6 Pro在正确提示词下可完成任意任务,GPT-Bidi-1知识截止于2025年8月,自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试,预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI多模态模型发布
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
22:05
IT之家(RSS)
63
生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片

6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。

多模态模型发布视频
21:26
Chubby♨️@kimmonismus
38
Sonnet 5 首次亮相。模型速度极快,且未使用参考图。看来下周会很忙。Kim 评论称,若测试确认,这将是一次很棒的发版。

Jayden Davis: BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...

Anthropic图像生成多模态模型发布
19:40
Alibaba Cloud@alibaba_cloud
48
🚀 推出 HappyHorse 1.1 - 现已正式在阿里云模型工作室上线! 所有 HappyHorse 1.1 功能均可通过 API 获取,为企业客户和开发者提供完整的集成解决方案。此次发布带来了生产级视频合成,已在核心内容生成场景中系统优化。 🔥 发布促销:前两周享受全场 40% 折扣!立即优化您的集成成本。
模型发布视频
18:05
IT之家(RSS)
69
百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测

6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准
17:05
IT之家(RSS)
同事件精选71
让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:京东开源了首个全栈实时视频交互模型,让大模型能持续观察并主动响应,开发者可以直接用代码搭建安防、导购等实时AI助手,实用性很强。
16:05
🚨 AI News | TestingCatalog@testingcatalog
64
Sakana AI 发布 Fugu 和 Fugu Ultra 多智能体编排系统

Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型,训练用于操控其他 LLM,通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5,并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务,但暂不支持 EEA 地区。推文指出,编排式多模型系统将超越单一模型,使小型实验室和企业更易构建,并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体MCP/工具模型发布
15:05
IT之家(RSS)
62
阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。

多模态模型发布视频
11:36
meng shao@shao__meng
20
GLM-5.2 引热议:最强开源,接近Claude Fable 5

GLM-5.2 已在 X 平台讨论多日,被称作最强开源模型,性能接近 Claude Fable 5。作者下载了类似 Codex 的 Zcode 工具,可免费试用(无需充值 Coding Plan),但第二条消息即遭遇限制或故障。

其他模型发布
10:04
IT之家(RSS)
61
智谱市值突破1万亿港元,GLM-5.2开源登顶Code Arena

智谱港股总市值首次突破1万亿港元,年内涨超2000%,6月22日盘中涨超35%至1.27万亿港元。公司6月17日开源GLM-5.2,该模型在全球百万用户盲测的前端开发评估系统Code Arena上取得可用模型第一。特斯拉CEO马斯克6月19日预测中国大模型可能要到2027年第一季度达到Anthropic Fable水平,智谱联合创始人唐杰回应称“不需要那么久”。

开源生态模型发布行业动态
07:37
Hacker News 热门(buzzing.cc 中文翻译)
62
Apertus:面向主权人工智能的开放式基础模型发布

瑞士AI倡议(EPFL、苏黎世联邦理工学院、CSCS合作)推出完全开放的基础模型Apertus,公开训练数据、代码、权重、方法和对齐原则。模型符合欧盟AI法案要求,支持1000+种语言,提供8B和70B参数版本。同时发布Apertus Mini,含16个小模型用于演示知识蒸馏与量化技术。技术报告已被ACL 2026接收。针对提契诺州微调的版本已用于内部AI翻译。瑞士电信为战略合作伙伴。

开源生态模型发布
6月21日
21:35
Rohan Paul@rohanpaul_ai
50
@mntruell(Michael Truell,Cursor联合创始人兼CEO)在Compile上宣布了Cursor的新Composer模型: Cursor现在的算力是此前的10到20倍,让他们能够从头训练这个GPT规模的模型。
模型发布编码
20:56
Chubby♨️@kimmonismus
41
当我读到所有那些关于大家对 GLM-5.2 真的如宣传中那样出色感到惊讶的帖子,以及众多基准测试支持这一点(通常仅次于 GPT-5.5 和 Opus 4.8,位列第三)时,我甚至能想象创始人声称今年能发布一个 Mythos 级别的模型并非夸大其词。
大佬观点推理模型发布
‹ 上一页
1…56789…43
下一页 ›