AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
5月6日周三
01:30OpenAI86精选GPT-5.5即时版开始推送升级
01:27Eric82精选ChatGPT默认模型升级至GPT-5.5 Instant
01:26Chubby♨️83精选OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型,实现显著升级
01:12OpenAI:官网动态(RSS · 排除企业/客户案例)82精选GPT-5.5 Instant:更智能、更清晰、更个性化
00:58xAI80精选Grok 4.3正式上线API 速度与智能双突破
00:56Rohan Paul65SubQ首发:1200万token上下文窗口,成本降低95%以上
5月5日周二
23:56Luma71前沿多模态,赋能商业应用
23:29TestingCatalog News 🗞57谷歌Gemini 3.2 Flash短暂上线引关注
07:49Artificial Analysis52匿名图像模型Peanut即将开源,有望领跑开源文生图领域
03:18Artificial Analysis69匿名模型Peanut登顶开源文生图榜
5月4日周一
23:48Chubby♨️62初创公司Video Rebirth文生视频模型Bach-1.0跻身全球前六
22:16Rohan Paul64初创公司Video Rebirth闯入AI视频生成榜单前六,打破巨头垄断
21:24小互56传谷歌I/O将发布Omni模型,Gemini或升级为全模态生产力入口
17:48Artificial Analysis56Bach-1.0预览版登顶文生视频榜单
5月3日周日
16:45Chubby♨️45谷歌或于I/O大会推出全新Omni模型,Gemini视频生成能力有望升级
15:51The Decoder:AI News(RSS)60小米开源模型 MiMo-V2.5-Pro 瞄准 Claude Opus,实现数小时自主编程
06:50TestingCatalog News 🗞58谷歌I/O动态:Gemini测试用于视频生成的新Omni模型
03:49Sam Altman485.5高速模式表现优异
5月2日周六
17:49Hacker News 热门(buzzing.cc 中文翻译)74精选DeepSeek V4--性能几乎达到前沿水平,价格却仅为其一小部分
15:50The Decoder:AI News(RSS)59xAI 发布 Grok 4.3,大幅降价并推出创意项目 Imagine 智能体模式
15:44Chubby♨️51谷歌筹备I/O大会,新模型即将发布
13:49TestingCatalog News 🗞66谷歌Gemini新模型现身,性能大幅提升
5月1日周五
23:39Elon Musk55Grok 4.3成本大降,智能评估效率提升
19:17Hacker News 热门(buzzing.cc 中文翻译)76精选Grok 4.3
16:47The Decoder:AI News(RSS)51Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体
15:14Chubby♨️57Grok 4.3是一个非常出色的模型,尤其考虑到其仅5亿参数!
13:46TestingCatalog News 🗞54Grok 4.3 API版本现已上线
10:09Elon Musk61Grok-4.3降价发布,智能性能大幅跃升
08:10Berryxia.AI54Gemini Embedding 2正式发布
08:10Berryxia.AI46OpenRouter匿名模型Owl Alpha上线
08:00HuggingFace Daily Papers(社区热门论文)51Code World Model 准备情况报告
07:45OpenRouter68精选Grok-4.3上线OpenRouter 性价比提升显著
07:14Artificial Analysis54Suno发布V5.5音乐生成模型,登顶双榜并推出个性化新功能
07:14Artificial Analysis66xAI发布Grok 4.3模型:智能指数提升且成本大幅降低
05:01Midjourney:Updates(RSS)56精选V8.1 更新
02:13Google Developers Blog(RSS)62精选基于Gemini Embedding 2构建:智能多模态RAG及其他应用
02:13Ant Ling76精选AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
01:45Google AI69精选谷歌发布首个原生多模态嵌入模型Gemini Embedding 2
01:39Google AI Developers58Gemini Embedding 2正式发布,解锁多模态RAG与视觉搜索
4月30日周四
23:13SenseTime59SenseNova U1 Lite系列:小规模多模态模型开源发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月6日
01:30
OpenAI@OpenAI
精选86
GPT-5.5 Instant 正在 ChatGPT 中逐步推出。 这是一次重大升级,以更温暖、更自然的语调为您提供更智能、更清晰、更个性化的答案。 同时它也更加简洁,这正是我们所了解到的用户需求。我们相信您会喜欢与它对话。
OpenAI模型发布

推荐理由:GPT-5.5 Instant 是 OpenAI 给所有人的即时升级,更聪明更自然还更简洁,这可能是 ChatGPT 推出以来最接地气的版本迭代。
01:27
Eric@ericmitchellai
精选82
OpenAI宣布将ChatGPT的默认模型更新为GPT-5.5 Instant。新版模型在智能水平、图像理解能力和事实准确性方面均有显著提升。其回应风格变得更简洁、直接和自然,同时提供更个性化和清晰的答案。此次升级基于用户反馈,旨在提供更优质的对话体验。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI模型发布

推荐理由:ChatGPT 默认模型这次升级把智能、图片感知和事实性都拉高了一截,更简洁的写作风格可能终于解决了啰嗦的老毛病,所有用户开机就能感受到变化,值得第一时间试。
01:26
Chubby♨️@kimmonismus
精选83
OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型,实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI多模态推理模型发布

推荐理由:ChatGPT默认模型直接换到GPT-5.5 Instant,个性化能力是代际跃迁,明天打开就能感受到不同。
01:12
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选82
GPT-5.5 Instant:更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案,并有效减少了幻觉现象。同时,用户获得了更强的个性化控制能力,使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI推理模型发布

推荐理由:ChatGPT默认模型替换为GPT-5.5 Instant,不只是变聪明,幻觉减少和个性化控制才是真改进,每个用户都能马上感觉到不同。
00:58
xAI@xai
精选80
Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布

推荐理由:Grok 4.3 登顶 agentic tool calling 榜,定价有竞争力,做 agent 的值得认真看。虽然不算顶级发布,但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。
00:56
Rohan Paul@rohanpaul_ai
65
SubQ首发:1200万token上下文窗口,成本降低95%以上

SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。

Alexander Whedon: Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...

推理模型发布
5月5日
23:56
Luma@LumaLabsAI
71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

Arena.ai: Exciting news: UNI-1.1-Max and UNI-1.1 debuts making @LumaLabsAI the #3 lab in the Image Arena across both Text-to-Image...

图像生成模型发布评测/基准
23:29
TestingCatalog News 🗞@testingcatalog
57
GOOGLE 👀:Gemini 3.2 Flash 曾短暂地在部分用户的 Gemini 应用中可用。 截至目前我们已有: - Gemini 3.2 Flash 在 Gemini 上闪现 - 测试中的 LM Arena 上已更新 Gemini 3 Flash 模型 - Vertex AI 上发布 Gemini 2 Flash 的弃用通知,承诺即将推出 Flash 正式发布更新 - Google I/O 将于 5 月 19 日举行,传闻将伴随 Gemini 3.5 的发布 Flash正在闪现!⚡⚡⚡

Just a dragon: Gemini 3.2 Flash Spotted

Google模型发布行业动态
07:49
Artificial Analysis@ArtificialAnlys
52
匿名文生图模型Peanut在Artificial Analysis文生图竞技场中首次亮相即位列第八。其模型权重预计很快发布,届时将成为领先的开源权重文生图模型。Peanut被定位为新的开源领导者,性能预计将超越Z-Image Turbo、Qwen-Image和FLUX.2 【dev】等现有模型。更多细节和权重文件即将公布。

Artificial Analysis: A new anonymous model debuts at #8 in the Artificial Analysis Text to Image Arena! Peanut's weights are expected to be r...

图像生成开源/仓库模型发布
03:18
Artificial Analysis@ArtificialAnlys
69
一款新的匿名模型在Artificial Analysis文本转图像竞技场中首次亮相,位列第8!Peanut的权重预计即将发布,这将使其成为领先的文本转图像开源权重模型。 Peanut定位为新的领先开源权重文本转图像模型,超越了Z-Image Turbo、Qwen-Image和FLUX.2 【dev】。 更多详细信息(及权重)即将公布。 查看下方🧵中Artificial Analysis图像竞技场里Peanut的生成示例。
图像生成开源/仓库模型发布评测/基准
5月4日
23:48
Chubby♨️@kimmonismus
62
初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

Artificial Analysis: Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...

模型发布视频评测/基准
22:16
Rohan Paul@rohanpaul_ai
64
初创公司Video Rebirth凭借其模型Bach-1.0 Preview,在Artificial Analysis的文本转视频榜单中首次进入前六名,打破了该榜单长期由阿里巴巴、字节跳动、xAI等万亿美元级巨头主导的局面。其模型性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等顶尖模型相当,并计划于五月下旬广泛发布。这一突破标志着初创企业在高质量AI视频生成领域取得了显著进展,为该领域的竞争格局带来了新的变数。

Artificial Analysis: Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...

模型发布视频
21:24
小互@xiaohu
56
传谷歌I/O将发布Omni模型,Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
17:48
Artificial Analysis@ArtificialAnlys
56
Bach-1.0 Preview from Video Rebirth 在 Artificial Analysis 文本转视频排行榜(无音频)中首次亮相,位列第6! Bach-1.0 Preview 是来自 @video_rebirth 的最新文本转视频模型,其性能与 Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro) 和 grok-imagine-video 相近。 Bach-1.0 Preview 计划于五月下旬广泛发布。 在下方 Artificial Analysis 视频竞技场中查看 Bach-1.0 Preview 的生成示例 🧵
模型发布视频
5月3日
16:45
Chubby♨️@kimmonismus
45
据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
15:51
The Decoder:AI News(RSS)
60
小米开源模型 MiMo-V2.5-Pro 瞄准 Claude Opus,实现数小时自主编程

小米发布开源模型 MiMo-V2.5-Pro,其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6,同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务,标志着中国开源模型竞争焦点正从单纯追求基准分数,转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。

Anthropic开源/仓库模型发布编码
06:50
TestingCatalog News 🗞@testingcatalog
58
谷歌I/O动态:Gemini测试用于视频生成的新Omni模型

谷歌正在其Gemini平台测试一款名为“Omni”的新模型,专注于视频生成功能。泄露信息显示,该模型的界面提示用户“从一个想法开始或尝试一个模板”,并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关,后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni,其性能很可能超越当前的Veo 3.1版本。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型,这标志着谷歌在视频生成领域的重大技术进展,并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Google多模态模型发布视频
03:49
Sam Altman@sama
48
5.5 xhigh 在快速模式下 真的很棒 我想我在推特上被 medium 模式给心理操纵了一阵子
OpenAI大佬观点模型发布
5月2日
17:49
Hacker News 热门(buzzing.cc 中文翻译)
精选74
DeepSeek V4--性能几乎达到前沿水平,价格却仅为其一小部分

DeepSeek发布了V4版本模型,其性能已接近行业最前沿水平,但在价格上具有显著优势,仅为主要竞争对手的一小部分。该模型在多项基准测试中表现出色,能以极低的成本提供顶级的AI能力,有望大幅降低企业和开发者的使用门槛,推动AI技术的更广泛普及。

大佬观点开源/仓库模型发布

推荐理由:Simon Willison 实测结论很直白,DeepSeek V4 性能几乎摸到前沿,价格却便宜一个量级,对预算卡死的团队是重大利好。
15:50
The Decoder:AI News(RSS)
59
xAI 发布 Grok 4.3,大幅降价并推出创意项目 Imagine 智能体模式

xAI 正式推出 Grok 4.3 模型,其核心策略是大幅降低价格并增强工具使用能力。新模型在实际任务处理上有所提升,但在性能上仍落后于 OpenAI 和 Anthropic 的顶尖模型。此次发布还引入了一个基于智能体的新型图像生成器“Imagine”模式,专门服务于创意项目。

xAI图像生成推理模型发布
15:44
Chubby♨️@kimmonismus
51
不错!Google 正在为 I/O 大会做准备。新模型即将推出

can: 🚨 Google updated Gemini 3 Flash in arena It still has the same name "Gemini 3 Flash". However, output quality is two ti...

Google模型发布评测/基准
13:49
TestingCatalog News 🗞@testingcatalog
66
谷歌新的Gemini Flash模型已在LM Arena上出现。同时,Vertex AI客户收到邮件,Gemini 3.1 Flash Lite即将正式发布。引用推文指出,虽然模型在竞技场中仍显示为"Gemini 3 Flash",但其输出质量已跃升两个层级,性能更接近当前的Gemini 3.1 Pro,是一次重大升级,实际版本可能是3.1、3.2或3.5 Flash。

can: 🚨 Google updated Gemini 3 Flash in arena It still has the same name "Gemini 3 Flash". However, output quality is two ti...

Google模型发布评测/基准
5月1日
23:39
Elon Musk@elonmusk
55
Grok 4.3 此次发布显示运行 Artificial Analysis Intelligence Index 的成本效益有所提高,Grok 4.3 在智能与成本的帕累托边界上表现稳健。 得益于输入 token 价格降低 37.5% 和输出 token 价格降低 58.3%,运行 Intelligence Index 评估的成本为 395 美元,较 Grok 4.20 0309 v2 整体下降约 20%。

Artificial Analysis: This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...

xAI数据/训练模型发布
19:17
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Grok 4.3

x.ai 正式发布了 Grok 4.3 模型,开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注,相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI多模态推理模型发布

推荐理由:xAI 的 Grok 4.3 如期而至,性能和对标都写在文档里了,想了解最新大模型实力的开发者值得花五分钟看一眼。
16:47
The Decoder:AI News(RSS)
51
Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体

Mistral 发布其新旗舰模型 Mistral Medium 3.5,它将此前独立的聊天、推理和代码生成模型合并为一个单一产品。同时,该公司为其编程工具 Vibe 增加了异步云代理功能,并为聊天产品 Le Chat 引入了新的智能体模式。

智能体推理模型发布编码
15:14
Chubby♨️@kimmonismus
57
xAI发布的Grok 4.3模型在Artificial Analysis Intelligence Index上获得53分,相比Grok 4.20输入成本降低约40%,输出成本降低约60%,性价比突出。其最大亮点是在真实世界代理任务(GDPval-AA)上的ELO评分跃升321点至1500,超越了Gemini 3.1 Pro Preview和Muse Spark等模型,但仍大幅落后于GPT-5.5。该模型在指令遵循和客服任务上表现强劲,同时在Omniscience基准上准确率提升但幻觉率增加。总体而言,Grok 4.3以更低成本实现了更高的智能指数得分,成为同智能层级中成本效益较高的模型之一。

Artificial Analysis: xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...

xAI推理模型发布
13:46
TestingCatalog News 🗞@testingcatalog
54
Grok 4.3 现已可在 API 上使用 👀
xAI模型发布
10:09
Elon Musk@elonmusk
61
Grok Grok-4.3 的发布价格低于 Grok-4.2,同时智能体性能大幅跃升:在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 分至 1500,尽管价格更低,却超越了其他顶级模型。

OpenRouter: The new Grok-4.3 from @xai is live on OpenRouter! Grok-4.3 releases at a lower price than Grok-4.2, while seeing a large...

xAI推理模型发布
08:10
Berryxia.AI@berryxia
54
Gemini Embedding 2 已正式发布! RAG 知识库的应用又可以支持的更好了。
Google检索增强模型发布
08:10
Berryxia.AI@berryxia
46
OpenRouter 又上了匿名新模型Owl Alpha! 1M 上下文,强大的工具调用能力! 猜猜他是谁家的哈哈😂

OpenRouter: New stealth model: Owl Alpha! Owl is a high-performance foundation model designed for agentic workloads. Powerful tool u...

智能体MCP/工具模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
51
Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model,并对其进行了前沿风险准备情况评估。报告显示,该模型在预设的可能带来灾难性风险的领域测试中,未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果,Meta 决定以开放权重模型的形式公开发布 CWM。

Meta安全/对齐开源/仓库模型发布
07:45
OpenRouter@OpenRouter
精选68
@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线! Grok-4.3 以比 Grok-4.2 更低的价格发布,同时在代理性能上实现大幅跃升:在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500,尽管价格更低,但仍超越了其他顶级模型。
智能体xAI模型发布评测/基准

推荐理由:Grok-4.3 降价但性能反升,agentic 跑分直接到 1500,如果之前觉得 Grok 贵而没试过,这次可以上车了。
07:14
Artificial Analysis@ArtificialAnlys
54
Suno发布V5.5音乐生成模型,登顶双榜并推出个性化新功能

Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。

模型发布语音
07:14
Artificial Analysis@ArtificialAnlys
66
xAI发布Grok 4.3模型:智能指数提升且成本大幅降低

xAI推出Grok 4.3模型,其在Artificial Analysis智能指数得分达53,超越Muse Spark等模型,较前代提升4分。模型在显著降低成本的同时保持智能水平,输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出,GDPval-AA基准得分大幅提升至1500 ELO,超越Gemini 3.1 Pro Preview等多款模型,但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲,但AA-Omniscience非幻觉率略有下降。

智能体xAI推理模型发布
05:01
Midjourney:Updates(RSS)
精选56
V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由:Midjourney V8.1 只是个小版本迭代,主要提升锐度和图像质量,用惯了 V8 的可以不急着换,但玩 SREF 和 Moodboard 的值得试一下,细节确实有提升。
02:13
Google Developers Blog(RSS)
精选62
基于Gemini Embedding 2构建:智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。

Google检索增强多模态模型发布

推荐理由:开发者做多模态RAG的苦日子结束了,Gemini Embedding 2把文本、图片、视频塞进同一个语义空间,还自带Matryoshka降维,直接省掉一堆胶水代码。
02:13
Ant Ling@AntLingAGI
精选76
AntLingAGI团队宣布Ling-2.6-1T模型正式开源,已登陆Hugging Face平台,并通过Novita Labs提供官方推理体验。该模型采用混合专家架构,总参数1万亿、激活参数630亿,核心优化方向为"令牌效率"以满足真实生产需求。具体表现为:低令牌开销,能在无需冗长推理链的情况下保持强大智能;可靠的多步执行能力,提升指令、工具、上下文和工作流的控制水平;生产就绪的部署特性,覆盖从代码生成到错误修复的任务,并广泛兼容各类智能体框架。团队旨在通过降低测试、部署、定制和构建的难度,为开发者创造价值。

Ant Ling: Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B activ...

智能体Hugging Face模型发布部署/工程

推荐理由:1T参数开源模型不是天天有,蚂蚁这个Ling-2.6-1T强调token效率和Agent能力,做Agent的可以直接去Hugging Face上跑一下,看看是不是真的在生产环境省token。
01:45
Google AI@GoogleAI
精选69
谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”,能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配,而是基于语义将不同模态的数据映射到同一空间,从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用,实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google多模态搜索模型发布

推荐理由:Google 第一个原生多模态嵌入模型,把文本、图像、视频拉到同一个向量空间,做跨模态搜索的开发者可以不用再手动打标签了,但离「无感理解」还有距离。
01:39
Google AI Developers@googleaidevs
58
既然Gemini Embedding 2已正式发布,让我们探索该模型解锁的功能--从智能多模态RAG到视觉搜索--因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。
Google检索增强多模态模型发布
4月30日
23:13
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列:小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布
‹ 上一页
1…2930313233…43
下一页 ›