We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...
We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。
Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。
SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。
Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...
一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。
@Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...
可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。
Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models ...
一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。
http://x.com/i/article/2059811469081141248
腾讯推出Miora,一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台,现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作,无需在Midjourney、Runway等多个工具间切换,避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent,具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时,它提供官方的技能商店,支持用户创建、使用并分享自定义技能。
Meet Miora ✨your AI creative agent studio, now in international beta. 💡 Here's the idea: Images, video, UI/UX, 3D - all...
一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。
ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...
快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。
腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...
[AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...
商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...
网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。
Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...
同一事件,精选展示《Grok Build 0.1 on API》