AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 728 条
全部一手资讯X论文
标签「模型发布」清除
5月22日周五
14:09IT之家(RSS)62"拼好模":字节跳动开源轻量原生统一多模态 AI 模型 Lance
14:02公众号:龙猫LongCat(美团)54从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
10:09IT之家(RSS)73同事件精选智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
06:35MarkTechPost(RSS)59Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型
06:05MarkTechPost(RSS)62Cohere发布Command A+:适用于智能体工作流的218B稀疏MoE模型,最少需两块H100 GPU运行
00:00Mistral AI:News(网页)69Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI
5月21日周四
23:26The Decoder:AI News(RSS)66Cohere开源迄今最强模型
18:06IT之家(RSS)70腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署
16:43公众号:腾讯混元58腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
15:27MarkTechPost(RSS)63一个模型,三种模态:字节跳动发布 Lance 用于图像与视频的理解、生成和编辑
5月20日周三
23:56IT之家(RSS)71精选Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲
23:03The Decoder:AI News(RSS)61Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重
23:00TechCrunch:AI(RSS)63Stability AI发布可生成6分钟音频的新模型
22:02Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Qwen3.7-Max:智能代理的前沿同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
18:41MarkTechPost(RSS)63英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型
16:09MarkTechPost(RSS)63阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言
15:56IT之家(RSS)67AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate
15:12MarkTechPost(RSS)68Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
11:55IT之家(RSS)76阿里千问最强智能体模型 Qwen3.7-Max 发布
11:04公众号:通义实验室(千问)62同事件精选Qwen3.7-Max 重新定义 AI Agent 基座同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
10:49Qwen:Blog Retrieval(API)79精选Qwen3.7-Max:面向智能体时代的最新专有模型
09:55IT之家(RSS)62曝字节 Seedance 2.1 模型即将发布,系列已狂揽 AI 视频生成 80% 算力消耗
07:55IT之家(RSS)58IT早报 0520:小米 YU7 GT 破纽北 SUV 圈速纪录;特斯拉放弃印度建厂计划;谷歌发布 Gemini 3.5 Flash;DeepSeek 回应字符触发模型异常…
07:10Simon Willison 博客70Gemini 3.5 Flash:价格显著上涨,但谷歌计划将其全面应用
05:25Google Developers Blog(RSS)87Google I/O 2026:从辅助工具到独立智能体的战略转型
04:29Hacker News 热门(buzzing.cc 中文翻译)80同事件精选Gemini Omni同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
03:03Hugging Face:Blog(RSS)44OlmoEarth v1.1:更高效的地球观测模型家族
02:59Hacker News 热门(buzzing.cc 中文翻译)84Gemini 3.5 Flash:前沿智能,即刻行动
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
02:18Google Blog:AI(RSS)89精选I/O 2026: 欢迎来到自主的 Gemini 时代
02:11Ars Technica:AI(RSS)60Gemini 3.5 Flash 可能足够快,让生成式AI真正实用起来
01:55IT之家(RSS)77谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频
01:55IT之家(RSS)50谷歌 Gemini 3.5 Pro 模型官宣下月登场:已在内部使用,进步超强
01:55IT之家(RSS)73谷歌发布 Gemini 3.5 Flash 模型:AI 输出速度 4 倍于 GPT-5.5
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
23:01Hugging Face:Blog(RSS)60精选引入 Ettin Reranker 系列
22:27The Decoder:AI News(RSS)57Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
14:09
IT之家(RSS)
62
"拼好模":字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

多模态开源生态模型发布
14:02
公众号:龙猫LongCat(美团)
54
从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频
10:09
IT之家(RSS)
同事件精选73
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把旗舰模型拉到 400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看,延迟敏感场景的选型参数要重写了。
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
06:35
MarkTechPost(RSS)
59
Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。

智能体推理模型发布编码
06:05
MarkTechPost(RSS)
62
Cohere发布Command A+:适用于智能体工作流的218B稀疏MoE模型,最少需两块H100 GPU运行

Cohere发布开源模型Command A+,采用218B参数稀疏混合专家架构,整合了此前四个Command A变体。该模型支持智能体工作流,在W4A4量化配置下仅需两块H100 GPU即可运行,支持48种语言,并首次具备多模态推理能力。

智能体多模态模型发布
00:00
Mistral AI:News(网页)
69
Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体(remote coding agents)提供支持,这些智能体可在终端、IDE和后台运行。同时,Le Chat新增Work模式,专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码
5月21日
23:26
The Decoder:AI News(RSS)
66
Cohere开源迄今最强模型

加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型,此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放,旨在推动大模型技术的透明化与协同创新,为行业提供更高性能的基础模型选择。

开源生态模型发布
18:06
IT之家(RSS)
70
腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
16:43
公众号:腾讯混元
58
腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
开源生态模型发布
15:27
MarkTechPost(RSS)
63
一个模型,三种模态:字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布
5月20日
23:56
IT之家(RSS)
精选71
Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族,包含四款不同规格模型,参数从45900万到27亿。小型模型专注设备端运行,可本地生成两分钟以内的音频;中型和大型模型支持创作超过6分20秒的完整音乐,

多模态开源/仓库模型发布

推荐理由:Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲,而且中小模型直接开源,任何一个能跑模型的设备都能玩,音乐创作的门槛继续被踩低。
23:03
The Decoder:AI News(RSS)
61
Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本,能够生成最长六分钟的连贯音乐音轨。公司强调,所有模型均完全基于授权音乐数据集进行训练,确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步,为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布
23:00
TechCrunch:AI(RSS)
63
Stability AI发布可生成6分钟音频的新模型

Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。

多模态开源生态模型发布
22:02
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Qwen3.7-Max:智能代理的前沿

智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。

智能体推理模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平,长程自主优化 35 小时跑出 10 倍速度提升,证明 agent 长跑能力不是概念,做自动化工具的值得跟进。
18:41
MarkTechPost(RSS)
63
英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

多模态推理模型发布
16:09
MarkTechPost(RSS)
63
阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。

多模态模型发布语音
15:56
IT之家(RSS)
67
AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音
15:12
MarkTechPost(RSS)
68
Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。

智能体Google推理模型发布
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
11:55
IT之家(RSS)
76
阿里千问最强智能体模型 Qwen3.7-Max 发布

阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。

智能体推理模型发布
11:04
公众号:通义实验室(千问)
同事件精选62
Qwen3.7-Max 重新定义 AI Agent 基座

通义实验室推出 Qwen3.7-Max,定位为重新定义 AI 智能体基座的模型,侧重提升智能体的基础能力与架构。

智能体模型发布
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 是通义系列对 Agent 基座的一次关键升级,发布时间虽已过两周,但做 Agent 的开发者仍不能忽略,选型必看。
10:49
Qwen:Blog Retrieval(API)
精选79
Qwen3.7-Max:面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码
关联讨论 7 条X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)公众号:通义实验室(千问)X:OpenRouter (@OpenRouter)IT之家(RSS)
推荐理由:Qwen3.7-Max 把 agent 能力拉到了新高度,35 小时自主内核优化证明长程执行有真实生产力,做 coding agent 的团队该认真测一下。
09:55
IT之家(RSS)
62
曝字节 Seedance 2.1 模型即将发布,系列已狂揽 AI 视频生成 80% 算力消耗

字节跳动即将发布AI视频生成模型Seedance 2.1,其生成质量较当前2.0版本提升约20%,改进重点在于提升视频时间一致性与物理场景模拟效果。该模型预计将整合至剪映等字节系内容创作工具中。目前,Seedance系列已占据AI视频生成领域日均超80%的算力消耗份额,主要竞争对手包括可灵与万相。与此同时,谷歌于近期大会发布了Gemini Omni模型,加剧了该领域的竞争。

模型发布视频
07:55
IT之家(RSS)
58
IT早报 0520:小米 YU7 GT 破纽北 SUV 圈速纪录;特斯拉放弃印度建厂计划;谷歌发布 Gemini 3.5 Flash;DeepSeek 回应字符触发模型异常…

小米YU7 GT以7分34秒931刷新纽北SUV圈速纪录,车手任周灿成为首个获官方认证的中国车手。特斯拉宣布放弃在印度建厂的计划。谷歌发布Gemini 3.5 Flash模型,称其输出速度是GPT-5.5的4倍。DeepSeek就“”字符触发模型异常回应,称属于幻觉,不涉及安全或隐私。此外,月之暗面Kimi获国资机构入股,浙江联通将于6月15日全面退出3G服务。

DeepSeek产品更新模型发布行业动态
07:10
Simon Willison 博客
70
Gemini 3.5 Flash:价格显著上涨,但谷歌计划将其全面应用

谷歌在I/O大会上发布了Gemini 3.5 Flash模型,该模型跳过预览阶段直接正式发布,并已被集成到谷歌Gemini应用、搜索、开发者平台及企业解决方案等多项核心产品中。该模型价格显著上涨:输入价格为每百万令牌1.50美元,输出价格为9美元,分别是前代模型的3倍和6倍,已接近更高端的Gemini 3.1 Pro定价。技术上,它支持约100万输入令牌和约6.5万最大输出令牌。同时,谷歌推出了新的Interactions API测试版。这一价格上调趋势与OpenAI等公司近期策略相似,表明主要AI实验室正在试探API客户的价格承受能力。

Google模型发布
05:25
Google Developers Blog(RSS)
87
Google I/O 2026:从辅助工具到独立智能体的战略转型

在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。

智能体Google模型发布编码
04:29
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选80
Gemini Omni

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频编辑变成自然语言对话,多轮编辑和物理理解让它从玩具变成创作工具,做视频的值得一试。
03:03
Hugging Face:Blog(RSS)
44
OlmoEarth v1.1:更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族,将计算成本降低最多 3 倍,同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率(10m、20m、60m)的 token 合并为单个 token,大幅缩短输入序列长度,从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸,权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face开源/仓库数据/训练模型发布
02:59
Hacker News 热门(buzzing.cc 中文翻译)
84
Gemini 3.5 Flash:前沿智能,即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型,这是Gemini系列的最新版本,主打“前沿智能,即刻行动”。该模型强调高效的实时响应与处理能力,适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度,显示出开发者对其性能与应用潜力的浓厚兴趣。不过,目前关于该模型在速度、准确率等具体性能指标上的提升幅度,官方尚未提供详细数据。

Google多模态推理模型发布
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选89
I/O 2026: 欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代,新功能使其能够自动执行复杂任务,显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程,实现自动化处理,例如自动管理邮件、安排日程或生成报告,帮助用户从重复性工作中解放出来,专注于创造性任务。这一更新基于先进机器学习模型,强调准确性与效率,标志着 AI 助手向更智能、更自主的方向发展。

智能体Google模型发布

推荐理由:谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来,这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent,所有做 AI 应用的接下来都得重新看一遍技术选型。
02:11
Ars Technica:AI(RSS)
60
Gemini 3.5 Flash 可能足够快,让生成式AI真正实用起来

Google发布了更高效的Gemini 3.5 Flash模型。该公司表示,这款模型的效率提升是实现智能体式AI未来的关键所在,意味着生成式AI的应用将更为便捷和实用。

智能体Google模型发布
01:55
IT之家(RSS)
77
谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。

Google多模态模型发布视频
01:55
IT之家(RSS)
50
谷歌 Gemini 3.5 Pro 模型官宣下月登场:已在内部使用,进步超强

谷歌在2026年I/O开发者大会上宣布,新一代模型Gemini 3.5 Pro将于下月正式发布。该模型目前已在谷歌内部投入使用,官方表示其性能相比前代有显著提升。不过,具体的技术细节和性能指标尚未公开。

Google模型发布
01:55
IT之家(RSS)
73
谷歌发布 Gemini 3.5 Flash 模型:AI 输出速度 4 倍于 GPT-5.5

谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代,并实现了每秒289 tokens的输出速度,较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外,谷歌团队使用Antigravity工具,在12小时内启动93个子智能体,生成26亿tokens,成功构建出一个可运行的操作系统核心,展示了模型的强大能力。

Google推理模型发布
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
23:01
Hugging Face:Blog(RSS)
精选60
引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由:从17M到1B的全尺寸reranker家族,每个量级都是SOTA,而且训练数据和代码全开放,做搜索和RAG的开发者可以无痛替换旧模型。
22:27
The Decoder:AI News(RSS)
57
Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布
‹ 上一页
1…7891011…19
下一页 ›