推文分享了使用Suno生成一首“小甜歌”的经验,其风格选择了Dream Pop(营造梦幻朦胧的空间感)与Disco-lite(提供有律动但不重的节奏)。在人声提示词上使用了“Breathy female vocal”以模拟女孩在耳边哼唱的效果,情绪设定为“Softly euphoric”以实现轻柔的欣快感,并应用了“Soft reverb”。最后附上了生成歌曲的链接。
影眸科技推出 Rodin Gen-2.5,号称全球首个千万面级 3D 生成模型。该模型提供从极低(4秒)到极高(80秒)的五档思考模式,以平衡生成速度与细节精度。其原生 3D 贴图算法能在三维空间直接生成纹理,支持 PBR 材质与 360° 无死角覆盖,并提供 Faithful(贴合参考)与 Creative(自动优化)两种贴图模式。该模型已获 SIGGRAPH 2025 最佳论文奖。
美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。
李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。
For all of history, humanity shared one 3D world. @theworldlabs co-founder @drfeifei says spatial intelligence now lets ...
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
Andrej Karpathy 认为,下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式:原始输入直接由神经网络处理,通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅,而未来神经网络可能成为主导进程,传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物,未来交互可能不再是静态应用,而是由神经系统根据即时情境生成的动态界面。
Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...
谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Codex just launched one of the coolest features - Appshots. by pressing both CMD keyboard buttons, context of whatever a...
网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。
苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。
Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...
It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...
OpenAI为Codex推出Appshots功能,允许用户将Mac上任意窗口的实时上下文传输至AI。通过双击Command键,Codex不仅能获取当前窗口截图,还可读取完整文本内容(包括未滚动显示的部分)。该功能旨在简化开发、设计等工作流,用户无需手动复制代码或截图,即可让AI直接理解如VS Code、Figma、Notion等界面的代码结构、页面内容或设计框架,实现工作界面的智能共享。
It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...
CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...
CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...
AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发,全程使用Kling AI视频模型进行制作,旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线,其大规模制作旨在证明纯AI电影制作的工业可行性,标志着AI原生院线电影新趋势的开端。
商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括:主导推进CV 2.0架构演进,原生嵌入生成式AI能力;海外市场扩展至12个国际区域,服务超500家企业客户并保持高留存率;以年度经常性收入增长为锚点实现盈利性增长;并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。
这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。
Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...