Suno发布了新的创作工具,旨在将创意控制权完全交还给艺术家。新功能包括支持上传最长8分钟的音频、具备行业首创编辑工具(如歌词替换、段落修改和重混)的升级版歌曲编辑器,以及可调节创作风格的“创意滑块”。创作完成后,用户可利用前沿技术将轨道分离为12条独立音轨(如人声、鼓、贝斯)进行预览和下载,便于在数字音频工作站(DAW)中进行后续编辑。
关联讨论 2 条Suno:Blog(网页)X:Suno (@suno)Suno发布了新的创作工具,旨在将创意控制权完全交还给艺术家。新功能包括支持上传最长8分钟的音频、具备行业首创编辑工具(如歌词替换、段落修改和重混)的升级版歌曲编辑器,以及可调节创作风格的“创意滑块”。创作完成后,用户可利用前沿技术将轨道分离为12条独立音轨(如人声、鼓、贝斯)进行预览和下载,便于在数字音频工作站(DAW)中进行后续编辑。
关联讨论 2 条Suno:Blog(网页)X:Suno (@suno)小米开源多模态大模型Xiaomi MiMo-VL,该模型定位为Agent时代的推理基座,旨在为智能体时代提供基础推理能力。
Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。
关联讨论 1 条Google DeepMind:Blog(RSS)Runway 开放 Gen-4 Image API,集成 References 功能,定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景,开发者可通过 bounding boxes 精确控制构图,将多模态生成能力接入自有应用。
OpenRouter 平台现已支持对所有模型进行 PDF 文件处理。此前仅部分模型支持该功能,此次更新实现了全覆盖,用户使用任意模型时均可直接上传并处理 PDF 文档。
OpenRouter现已为平台上的所有模型提供PDF文件处理支持。这项通用功能意味着用户在使用任何模型时,都能直接上传和分析PDF文档。此举消除了以往特定模型才能处理PDF的限制,显著扩展了工具的应用场景,便于用户进行文档总结、信息提取或内容问答等一系列任务。
MiniMax 发布 MCP Server,集成文本转语音、语音克隆、文生图、文生视频等多模态能力。支持 Claude Desktop、Cursor、Windsurf 等主流 MCP 客户端,通过统一工作流实现文本到音视频的一站式生成,面向创作者和开发者免费开放。
Runway与制片公司Fabula达成合作,将其AI电影工具接入后者全球制作管线。Fabula曾出品《A FANTASTIC WOMAN》等获奖影片,此次合作覆盖从概念构思到VFX的全流程。Sundance获奖导演Cutter Hodierne已在新片《THE SHEPHERD》中使用该工具制作高保真预可视化,实现在剧本阶段即可探索视觉风格,突破传统拍摄后才确立视觉语言的模式。Fabula称这帮助团队快速产出高质量提案物料,Runway则借此进一步支持全球电影人创作。
PLAID 是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,同时生成蛋白质的1D序列与3D全原子结构。该方法仅需序列数据训练(可利用比结构数据库大2-4个数量级的数据),支持基于功能与生物体的组合式提示控制。相比传统仅预测骨架的模型,PLAID 解决了离散序列与连续结构坐标的多模态协同生成难题,为可控蛋白质设计提供了新范式。
Runway 完成 3 亿美元 D 轮融资,General Atlantic 领投,NVIDIA、软银等参投。资金将扩展 Runway Studios AI 影视工作室,并推进 Gen-4 模型研发。Gen-4 支持跨场景一致角色与场景生成,旨在构建基于世界模拟器的新媒体生态。
Mistral AI 推出 Mistral OCR,一款专注于文档理解的光学字符识别 API。该模型支持图像和 PDF 输入,能高精度提取并理解文本、表格、公式及内联图像,输出有序的文本与图像内容。其在内部基准测试中总分 94.89,超越了 GPT-4o-2024-11-20(89.77)与 Gemini-2.0-Flash-001(88.69)。API 命名为 mistral-ocr-latest,定价为 1000 页每美元,批量推理时处理能力翻倍。该 API 已在 la Plateforme 上线,支持部分组织自托管。模型原生支持多语言,单节点处理速度可达每分钟 2000 页。
Mistral AI 推出全新 le Chat AI 助手,基于其高性能模型提供快速响应(最高约 1000 词/秒)。该助手提供 Pro($14.99/月起)和 Team 版本,并开启企业版私有预览,支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理,并即将推出数据连接器和多步骤智能体。
OpenRouter 新增对 OpenAI 4o 和 Fireworks 模型的结构化输出支持,同时免费提供 Gemini Flash 2.0 模型。
Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。
Mistral AI 对其免费 AI 工作助手 le Chat 进行了重大更新(Beta)。新增功能包括:支持带引用的网络搜索;用于协作创作的 Canvas 界面;由新多模态模型 Pixtral Large 驱动的文档与图像理解功能;由 Black Forest Labs Flux Pro 支持的图像生成能力;以及更快的响应速度(由推测编辑技术驱动)。此次更新也展示了 le Chat 在提供前沿模型访问、网络搜索、Canvas 等多项核心功能方面的免费优势。所有新功能将陆续向用户开放。
xAI 启动 Grok API 公测,发布新模型 grok-beta,支持 128k 上下文、函数调用及系统提示,视觉版本下周上线。开发者每月可获 $25 免费额度至年底,已购预付额度可叠加。API 兼容 OpenAI 与 Anthropic 格式,修改 base_url 即可迁移。
Suno 推出全新歌曲创作模式 Suno Scenes,支持通过手机相机拍摄的照片或视频直接生成定制歌曲。用户拍摄风景、自拍或日常视频后,Sunto Scenes 会将其转化为独特的音乐作品。该功能首先面向 iOS 移动端用户开放,在应用内相机创作模式中即可使用,方便用户随时将视觉内容转化为可分享的音乐。
Mistral AI 发布了多模态模型 Pixtral 12B,该模型现已弃用,已被更新更强的版本取代。其基于 Mistral Nemo 构建,包含一个从头训练的 400M 参数视觉编码器,总参数为 12B。模型原生支持可变图像尺寸与宽高比,并能在 128K token 的上下文窗口中处理多张图像。在 MMMU 推理基准测试中,Pixtral 12B 达到 52.5% 的分数,超越了众多更大规模的模型。它在保持强大文本能力(如指令跟随,相对前代开源模型有 20% 提升)的同时,在多模态任务上表现出色。该模型采用 Apache 2.0 许可证。
Mistral AI 宣布多项更新:la Plateforme平台推出免费层,支持开发者零成本实验与原型开发,并可无缝升级至商业层;全线模型大幅降价,其中Mistral Small和Codestral的输入价格降幅达80%;发布22B参数的企业级新模型Mistral Small v24.09,定位介于Mistral NeMo 12B与Mistral Large 2之间;开源视觉模型Pixtral 12B现已可在le Chat中免费使用。
Suno 正式推出其首款移动应用,让用户能随时随地创作和分享音乐。应用首版(v1)目前仅在美国地区面向 iOS 平台发布,未来将拓展至 Android 及全球市场。其核心功能包括:基于文本(歌词和描述)生成歌曲、使用手机录音并转化为歌曲、以及收听和策划其他创作者的音乐。截至目前,已有 1200 万人使用 Suno 进行自我表达、连接、教学和娱乐。
Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票,GPT-4o以1226分领跑,Claude 3.5 Sonnet以1209分紧随其后,两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三,开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score",并计划扩展至PDF、视频及音频等模态支持。
OpenAI 将 GPT-4o 向所有 ChatGPT 用户免费开放,无广告。全新语音(及视频)模式响应速度接近人类,表现力极强,被 Sam Altman 称为「用过最好的计算机界面」,像电影里的 AI。未来还将支持个性化、代操作等功能。
xAI 发布 Grok-1.5 Vision 预览版,新增视觉理解能力,可处理图像、图表及文档内容,支持跨模态推理与视觉问答,现面向早期测试者开放试用。
音乐生成平台 Suno 发布了 v3 模型,这是其首个能生成广播级质量音乐的模型,支持用户在数秒内创作完整的两分钟歌曲,现已对所有用户开放。v3 在音频质量、风格多样性及提示词遵循性上进行了改进,减少了模型幻觉并提升了歌曲结尾的自然度。该模型专为原创音乐设计,不支持对其他艺术家的参考,并部署了不可听水印技术以检测 AI 生成内容。v4 模型已在开发中。
Runway 与 Musixmatch 达成合作,后者超100万艺术家社区将可使用 Gen-2 等模型制作动态歌词视频。结合 Musixmatch 歌词语义提取与 Runway 视频生成能力,让音乐视频创作更快、更独特且易于获取,帮助艺术家与全球听众建立更深连接。
Runway 获1.41亿美元融资,用于扩展多模态AI研究及团队招聘。公司此前推出Gen-1和Gen-2视频生成模型,其AI工具正被财富500强企业使用以优化创作流程。
Runway 完成 5000 万美元 Series C 轮融资,Felicis 领投,Amplify Partners、Lux Capital 等现有投资方及 Madrona 跟投,Vercel、Replit、Airtable、PyTorch 等 CEO 参与天使投资。资金将用于研发下一代创意工具、推进多模态 AI 系统,并扩招工程、研究和 GTM 团队。Runway 成立于 2018 年,其创意套件包含 30 余个 AI Magic Tools,已服务 CBS、Publicis、New Balance 等企业。
处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。
OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。
Runway 从2019年的机器学习平台发展为新一代创意工具,依托生成式机器学习、新分发渠道和Web技术三大驱动力,已支持用户训练超5万个AI模型、上传2400万资源。平台通过AI视频编辑、绿幕工具等技术缩小好莱坞与TikTok创作者的内容差距,服务IBM、Google及RISD等院校,致力于让创意实现从想法到执行的即时转化,重新定义AI时代的创作流程。
将机器学习比作19世纪颜料管的发明。当年颜料管让户外写生成为可能,推动印象派革命;如今机器学习有望类似地释放艺术创造力,但现有工具对非技术背景艺术家门槛过高,如同当年研磨颜料的复杂工艺。作者呼吁开发更友好的机器学习工具,让艺术家无需编写底层代码即可实验,实现技术民主化。
本文作为系列教程的第二部分,重点介绍了目标检测发展中的几个经典模型。文章解析了用于图像分类的卷积神经网络,包括AlexNet、VGG和ResNet,阐述了它们如何通过深度架构推动图像分类性能的突破。同时,详细讲解了早期用于目标识别的DPM(可变形部件模型)与Overfeat模型,说明了它们在特征提取与区域提议方面的创新思路。内容梳理了从分类到检测的技术演进脉络,为理解现代目标检测方法奠定了基础。