AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月24日周三
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
12:42IT之家(RSS)74精选OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
11:51小互61百度开源 Unlimited OCR:用 R-SWA 技术实现"一次推理数十页"文档抄写
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
10:47Rohan Paul52VibeThinker:3B参数推理模型,性能接近Opus 4.5
10:27IT之家(RSS)62火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
07:17Berryxia.AI56Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度
03:37MarkTechPost(RSS)68Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON
03:21Hao AI Lab73精选FastWan-QAD:单卡5090上1.8秒生成5秒视频
03:16Rohan Paul66MaineCoon发布22B实时音视频生成模型
01:37Krea71精选Krea 2 技术报告正式发布
00:38🚨 AI News | TestingCatalog65Mistral AI 发布 OCR 4,盲测胜率72%
6月23日周二
23:56Hacker News 热门(buzzing.cc 中文翻译)73Mistral OCR 4 发布
23:07Krea60Krea 2 开源权重发布:Raw 与 Turbo
22:24Mistral AI:News(网页)68精选Mistral OCR 4
20:24The Decoder:AI News(RSS)67字节跳动Seedance 2.5将AI视频生成延长至30秒
19:10IT之家(RSS)72精选网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型
18:48The Decoder:AI News(RSS)58OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先
18:16Hacker News 热门(buzzing.cc 中文翻译)59OpenAI DayBreak - GPT-5.5-Cyber
18:11Baidu Inc.71百度开源Unlimited OCR:3B总参数、500M激活,单次前向传播可转录40+页
17:37🚨 AI News | TestingCatalog57OpenAI Bidi 1语音模型将支持实时翻译
16:37🚨 AI News | TestingCatalog48OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话
16:07IT之家(RSS)72超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录
15:55X.PIN57字节跳动发布多款新模型
15:14Berryxia.AI44Seedance 2.5 发布:原生 4K/30 秒视频,7 月初上线
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:37🚨 AI News | TestingCatalog65字节跳动发布Seedance 2.5及2.0升级版
14:33数字生命卡兹克782026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
13:13HuggingFace Daily Papers(社区热门论文)55UniverSat: 分辨率和模态无关的Transformer用于地球观测
13:11歸藏(guizang.ai)65Seedance 2.0 4K 视频上线即梦,15 秒 1200 积分
13:10Orange AI43豆包 Seed Audio 1.0:声音模型的 Seedance 时刻
13:07IT之家(RSS)64字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:14Berryxia.AI58Seedance 2.5 发布:30 秒原生视频 + 50 全模态素材
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
12:42
IT之家(RSS)
精选74
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试

6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。

OpenAI多模态模型发布语音

推荐理由:Bidi 1 让 ChatGPT 语音从回合制变成双向并行,打断后能立即响应,这是语音交互真正的升维,普通人很快就能感受到对话自然感的质变。
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
11:51
小互@xiaohu
61
百度开源 Unlimited OCR:用 R-SWA 技术实现"一次推理数十页"文档抄写

百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。

多模态开源/仓库模型发布
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
10:47
Rohan Paul@rohanpaul_ai
52
VibeThinker:3B参数推理模型,性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布
10:27
IT之家(RSS)
62
火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
07:17
Berryxia.AI@berryxia
56
Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度

2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布
03:37
MarkTechPost(RSS)
68
Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift,用于结构化提取。输入 JSON Schema,返回匹配的 JSON 对象,可直接读取 PDF 和图像,支持多页文档一次性处理并跨页取值。提供本地(HuggingFace)和远程(vLLM)两种推理模式,后者推荐用于生产。代码采用 Apache 2.0,权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%,中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding,逐 token 约束输出结构但不保证语义正确;每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face多模态开源生态模型发布
03:21
Hao AI Lab@haoailab
精选73
FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHubHugging Face模型发布端侧

推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
03:16
Rohan Paul@rohanpaul_ai
66
MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

多模态推理模型发布视频
01:37
Krea@krea_ai
精选71
我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Krea 2 开源了两个图像模型权重,一个未蒸馏适合微调,一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队,这次开放权重比很多大厂都实在。
00:38
🚨 AI News | TestingCatalog@testingcatalog
65
Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档(12+ 语言)的盲测中,OCR 4 被偏好,平均胜率 72%;OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数,作为 Search Toolkit 的组件,支持 170 种语言,且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布
6月23日
23:56
Hacker News 热门(buzzing.cc 中文翻译)
73
Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4,除提取文本外还返回边界框、块分类(标题、表格、公式、签名等)和逐页/逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分,独立标注者偏好率达 72%。API 定价 $4/千页,Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件,为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程
关联讨论 1 条MarkTechPost(RSS)
23:07
Krea@krea_ai
60
今天,我们发布了 Krea 2 的开源权重。 欢迎 Krea 2 Raw 和 Krea 2 Turbo,一个来自中期训练的未蒸馏模型,旨在用于微调;以及一个快速蒸馏版本,具有广泛的美学多样性。 详情如下 👇
图像生成模型发布
22:24
Mistral AI:News(网页)
精选68
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布
关联讨论 1 条MarkTechPost(RSS)
推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
20:24
The Decoder:AI News(RSS)
67
字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段(无需后期拼接),支持场景变化与节奏切换,并同时处理多达50个额外输入(参考图、音频等),后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频
19:10
IT之家(RSS)
精选72
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

GitHub模型发布语音

推荐理由:网易有道把语音克隆的门槛压到了 3 秒,跨 14 种语言还能保持无口音,而且全量开源、商用无限制,对多语种配音和短剧出海是直接可用的工具。
18:48
The Decoder:AI News(RSS)
58
OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型(取代预览版),在CyberGym(85.6%)、ExploitGym(39.5%)和SEC-bench Pro(69.8%)三项基准测试中领先,超越Anthropic Mythos 5(83.8%)和OpenAI GPT-5.5(81.8%)。同步更新Codex Security插件,从漏洞发现扩展至自动生成补丁,已扫描超3万个代码库,支持完整代码库扫描、攻击路径分析及批量补丁生成,变更需人工确认。模型仅向经审核的防御方开放,并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划,合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

AnthropicOpenAI安全/对齐模型发布
18:16
Hacker News 热门(buzzing.cc 中文翻译)
59
OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型,该消息登上 Hacker News 热门,获得 100 个 HN 积分。

OpenAI安全/对齐模型发布
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
17:37
🚨 AI News | TestingCatalog@testingcatalog
57
OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译! 这将解锁大量用例,当它落地到API时可在其上构建。
OpenAI模型发布语音
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
16:07
IT之家(RSS)
72
超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目,面向安全防御团队有限开放完整版GPT-5.5-Cyber(网络安全专用模型)。在CyberGym单模型评测中,GPT-5.5-Cyber得85.6%,GPT-5.5为81.8%,Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%(GPT-5.5为25.95%)。SEC-bench Pro测试中得分69.8%(GPT-5.5为63.1%)。OpenAI称漏洞发现速度已因AI显著加快,当前瓶颈在修复环节。

OpenAI安全/对齐模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)OpenAI:官网动态(RSS · 排除企业/客户案例)
15:55
X.PIN@thexpin
57
字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。
图像生成多模态模型发布视频
15:14
Berryxia.AI@berryxia
44
字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台,允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻,但当前仅限 Demo 展示,正式上线预计在 7 月初。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

图像生成模型发布行业动态视频
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 1 条X:Vista (@vista8)
14:37
🚨 AI News | TestingCatalog@testingcatalog
65
BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

多模态模型发布视频
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 1 条X:Vista (@vista8)
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
13:13
HuggingFace Daily Papers(社区热门论文)
55
UniverSat: 分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。

GitHub多模态数据/训练模型发布
13:11
歸藏(guizang.ai)@op7418
65
Seedance 2.0 4K 视频上线即梦,15 秒 1200 积分

Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本,15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M,主要面向商业片和商业短剧制作公司。

模型发布视频
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
13:07
IT之家(RSS)
64
字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布,豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段,预计7月初正式上线。该模型支持单段原生30秒视频直接生成,用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台,周星驰为首批合作对象,用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段,相关模板当日创作量已突破十万次。

多模态模型发布
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 1 条X:Vista (@vista8)
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 1 条X:Vista (@vista8)
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 1 条X:Vista (@vista8)
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
‹ 上一页
1…45678…36
下一页 ›