AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
6月25日周四
00:34Chubby♨️44Claude Code v2.1.190 更新:字符串暗示 Fable 5 将永久加入订阅并设每周使用上限
00:12OpenRouter54Fugu Ultra 上线 OpenRouter
6月24日周三
23:29Hacker News 热门(buzzing.cc 中文翻译)78Krea 2 技术报告
18:22Alibaba Cloud69Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4
18:16Orange AI54Cola Seed 2.1 Pro 上线,最强多模态模型
18:12Qwen76通义千问发布Qwen-AgentWorld原生语言世界模型
17:55The Decoder:AI News(RSS)49Mistral 发布 OCR 4 模型:在盲测中 72% 情况下超越竞品
16:57Hacker News 热门(buzzing.cc 中文翻译)60YOLO26 简介
14:50Alibaba Cloud60阿里云发布Qwen3.7-Plus多模态智能体
13:52小互56字节跳动Seedance 2.5发布:一次生成30秒4K短片
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
12:42IT之家(RSS)74精选OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
11:51小互61百度开源 Unlimited OCR:用 R-SWA 技术实现"一次推理数十页"文档抄写
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
10:47Rohan Paul52VibeThinker:3B参数推理模型,性能接近Opus 4.5
10:27IT之家(RSS)62火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
09:48swyx 🔜 @aiDotEngineer41智谱GLM-5.2击败DeepSeek,登顶世界顶级开源模型
07:17Berryxia.AI56Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度
03:37MarkTechPost(RSS)68Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON
03:21Hao AI Lab73精选FastWan-QAD:单卡5090上1.8秒生成5秒视频
03:16Rohan Paul66MaineCoon发布22B实时音视频生成模型
01:37Krea71精选Krea 2 技术报告正式发布
00:38🚨 AI News | TestingCatalog65Mistral AI 发布 OCR 4,盲测胜率72%
6月23日周二
23:56Hacker News 热门(buzzing.cc 中文翻译)73Mistral OCR 4 发布
23:07Krea60Krea 2 开源权重发布:Raw 与 Turbo
22:24Mistral AI:News(网页)68精选Mistral OCR 4
20:24The Decoder:AI News(RSS)67字节跳动Seedance 2.5将AI视频生成延长至30秒
19:10IT之家(RSS)72精选网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型
18:48The Decoder:AI News(RSS)58OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先
18:16Hacker News 热门(buzzing.cc 中文翻译)59OpenAI DayBreak - GPT-5.5-Cyber
18:11Baidu Inc.71百度开源Unlimited OCR:3B总参数、500M激活,单次前向传播可转录40+页
17:37🚨 AI News | TestingCatalog57OpenAI Bidi 1语音模型将支持实时翻译
16:37🚨 AI News | TestingCatalog48OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话
16:07IT之家(RSS)72超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录
15:55X.PIN57字节跳动发布多款新模型
15:14Berryxia.AI44Seedance 2.5 发布:原生 4K/30 秒视频,7 月初上线
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:37🚨 AI News | TestingCatalog65字节跳动发布Seedance 2.5及2.0升级版
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
00:34
Chubby♨️@kimmonismus
44
Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week",同时移除 "purchased separately from your plan",暗示 Anthropic 正为 Fable 5 回归做准备,可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待,认为有望带来良好公关效果。

leo 🐾: 🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...

Anthropic模型发布
00:12
OpenRouter@OpenRouter
54
Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter! 很高兴看到更多多模型系统推动前沿。

Sakana AI: Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...

推理模型发布
6月24日
23:29
Hacker News 热门(buzzing.cc 中文翻译)
78
Krea 2 技术报告

Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。

Hugging Face图像生成多模态开源生态
18:22
Alibaba Cloud@alibaba_cloud
69
Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

智能体MCP/工具模型发布
18:16
Orange AI@oran_ge
54
Cola Seed 2.1 Pro 上线,最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码
18:12
Qwen@Alibaba_Qwen
76
通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

智能体arXivMCP/工具模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
17:55
The Decoder:AI News(RSS)
49
Mistral 发布 OCR 4 模型:在盲测中 72% 情况下超越竞品

Mistral AI 推出 OCR 4 模型,专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称,该模型在盲测中有 72% 的测试案例表现优于竞争对手。

多模态模型发布
16:57
Hacker News 热门(buzzing.cc 中文翻译)
60
YOLO26 简介

Roboflow 发布介绍 YOLO26 的博客文章,在 Hacker News 获得 100 个点赞。

开源生态模型发布
14:50
Alibaba Cloud@alibaba_cloud
60
认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/
智能体多模态模型发布
13:52
小互@xiaohu
56
字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片,原生4K分辨率,可输入50个全模台参考素材,并支持3D白模。同时推出AI版权商业化平台,允许用户使用官方授权的IP电影版权进行创作和分成。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

模型发布视频
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
12:42
IT之家(RSS)
精选74
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试

6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。

OpenAI多模态模型发布语音

推荐理由:Bidi 1 让 ChatGPT 语音从回合制变成双向并行,打断后能立即响应,这是语音交互真正的升维,普通人很快就能感受到对话自然感的质变。
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
11:51
小互@xiaohu
61
百度开源 Unlimited OCR:用 R-SWA 技术实现"一次推理数十页"文档抄写

百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。

多模态开源/仓库模型发布
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
10:47
Rohan Paul@rohanpaul_ai
52
VibeThinker:3B参数推理模型,性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布
10:27
IT之家(RSS)
62
火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
09:48
swyx 🔜 @aiDotEngineer@swyx
41
智谱AI(Zai)1月以每股120港元在港IPO。其GLM-5.2模型击败DeepSeek,成为全球公认的最佳开源模型,并在部分基准上整体表现领先。团队首次现身硅谷,参加AI Engineer World's Fair,将分享最新工作进展。

Lou: Made it to SF! The love for GLM-5.2 has been incredible. We are bringing team out for the AI Engineer World's Fair, wher...

DeepSeek大佬观点开源生态模型发布
07:17
Berryxia.AI@berryxia
56
Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度

2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布
03:37
MarkTechPost(RSS)
68
Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift,用于结构化提取。输入 JSON Schema,返回匹配的 JSON 对象,可直接读取 PDF 和图像,支持多页文档一次性处理并跨页取值。提供本地(HuggingFace)和远程(vLLM)两种推理模式,后者推荐用于生产。代码采用 Apache 2.0,权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%,中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding,逐 token 约束输出结构但不保证语义正确;每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face多模态开源生态模型发布
03:21
Hao AI Lab@haoailab
精选73
FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHubHugging Face模型发布端侧

推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
03:16
Rohan Paul@rohanpaul_ai
66
MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

多模态推理模型发布视频
01:37
Krea@krea_ai
精选71
我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布

推荐理由:Krea 2 开源了两个图像模型权重,一个未蒸馏适合微调,一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队,这次开放权重比很多大厂都实在。
00:38
🚨 AI News | TestingCatalog@testingcatalog
65
Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档(12+ 语言)的盲测中,OCR 4 被偏好,平均胜率 72%;OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数,作为 Search Toolkit 的组件,支持 170 种语言,且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布
6月23日
23:56
Hacker News 热门(buzzing.cc 中文翻译)
73
Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4,除提取文本外还返回边界框、块分类(标题、表格、公式、签名等)和逐页/逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分,独立标注者偏好率达 72%。API 定价 $4/千页,Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件,为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程
关联讨论 1 条MarkTechPost(RSS)
23:07
Krea@krea_ai
60
今天,我们发布了 Krea 2 的开源权重。 欢迎 Krea 2 Raw 和 Krea 2 Turbo,一个来自中期训练的未蒸馏模型,旨在用于微调;以及一个快速蒸馏版本,具有广泛的美学多样性。 详情如下 👇
图像生成模型发布
22:24
Mistral AI:News(网页)
精选68
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布
关联讨论 1 条MarkTechPost(RSS)
推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
20:24
The Decoder:AI News(RSS)
67
字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段(无需后期拼接),支持场景变化与节奏切换,并同时处理多达50个额外输入(参考图、音频等),后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频
19:10
IT之家(RSS)
精选72
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

GitHub模型发布语音

推荐理由:网易有道把语音克隆的门槛压到了 3 秒,跨 14 种语言还能保持无口音,而且全量开源、商用无限制,对多语种配音和短剧出海是直接可用的工具。
18:48
The Decoder:AI News(RSS)
58
OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型(取代预览版),在CyberGym(85.6%)、ExploitGym(39.5%)和SEC-bench Pro(69.8%)三项基准测试中领先,超越Anthropic Mythos 5(83.8%)和OpenAI GPT-5.5(81.8%)。同步更新Codex Security插件,从漏洞发现扩展至自动生成补丁,已扫描超3万个代码库,支持完整代码库扫描、攻击路径分析及批量补丁生成,变更需人工确认。模型仅向经审核的防御方开放,并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划,合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

AnthropicOpenAI安全/对齐模型发布
18:16
Hacker News 热门(buzzing.cc 中文翻译)
59
OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型,该消息登上 Hacker News 热门,获得 100 个 HN 积分。

OpenAI安全/对齐模型发布
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
17:37
🚨 AI News | TestingCatalog@testingcatalog
57
OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译! 这将解锁大量用例,当它落地到API时可在其上构建。
OpenAI模型发布语音
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
16:07
IT之家(RSS)
72
超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目,面向安全防御团队有限开放完整版GPT-5.5-Cyber(网络安全专用模型)。在CyberGym单模型评测中,GPT-5.5-Cyber得85.6%,GPT-5.5为81.8%,Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%(GPT-5.5为25.95%)。SEC-bench Pro测试中得分69.8%(GPT-5.5为63.1%)。OpenAI称漏洞发现速度已因AI显著加快,当前瓶颈在修复环节。

OpenAI安全/对齐模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)OpenAI:官网动态(RSS · 排除企业/客户案例)
15:55
X.PIN@thexpin
57
字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。
图像生成多模态模型发布视频
15:14
Berryxia.AI@berryxia
44
字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台,允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻,但当前仅限 Demo 展示,正式上线预计在 7 月初。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

图像生成模型发布行业动态视频
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎
14:37
🚨 AI News | TestingCatalog@testingcatalog
65
BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

多模态模型发布视频
‹ 上一页
1…45678…43
下一页 ›