PixVerse V6 is starting to blur the line between AI generation and real cinematography. Native Audio. Directional Cinema...
SenseNova U1 在 ComfyUI 上的实际测试获得了 Bijan Bowany 的强烈认可,证明了其处理复杂任务的能力。测试显示,模型能清晰呈现复杂概念的视觉内容,在交织文本图像中保持逻辑连贯和自我反思,并能轻松应对如人类变直升机等疯狂提示。视频演示和试用资源可通过 Hugging Face 和 GitHub 获取。
Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。
🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...
Anthropic发布了Claude计算机操作官方指南,核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率,并将指令置于截图前发送以提高精度。模型方面,Sonnet 4.6机械点击精度更高,Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务,Computer Use则适用于桌面应用等非结构化场景。
测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。
SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
作者在游览天津五大道时,尝试利用AI查询该区域复杂的历史背景,发现众多近代名人事件与此地相关。为此,他创新了PPT制作方式,将历史人物的故事卡片与可交互的嵌入式地图相结合进行展示。这种新排版旨在让演示内容更丰富、信息更详实,并计划在未来进行更多类似尝试,以提升PPT的信息承载与呈现能力。
http://x.com/i/article/2053655813877870592
oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。
世界模型被视为AI继大语言模型后的关键新范式,过去18个月已获百亿美元投资,其核心承诺是通过规模化数据推动机器人基础模型发展。然而,该术语目前被广泛滥用,含义模糊。本文系统阐述了世界模型的五大特质,对比了不同技术路径,探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品,以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。
谷歌在I/O大会上发布Gemini Intelligence,将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机,并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务(如在备忘录与购物应用间同步清单),以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本,并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件,如定制食谱或特定天气数据组件。此外,全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果,提升视觉体验。
Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...
OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。
Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。
Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...
Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。
Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。
Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...
Google将Gemini从聊天机器人升级为Android的“系统级大脑”,重新定义了下一代Android的架构。新架构从过去的“App + 系统”转变为“AI理解层 + 系统 + App”。Gemini作为主动式AI,能主动理解用户当前行为、潜在意图、可协同的App,并自动执行下一步任务。其核心目标是改变“人操作App”的传统手机逻辑,让AI直接理解用户意图并实现跨App的自动执行。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。
We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...
Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。
Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...
Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。
Google DeepMind基于Gemini模型,对沿用五十余年的鼠标指针进行了AI化革新。新的智能指针能实时识别屏幕内容、理解上下文,并响应语音指令,用户通过指向和自然语言即可直接操作,无需复制粘贴或与聊天窗口交互。该技术已推出实验性演示,集成于Chrome和Google AI Studio,旨在提供更直观的交互方式,可能推动传统聊天机器人界面的变革。
We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...
Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。
谷歌在网页版中新增了Gemini Omni横幅,预示其将成为一个能整合文本、图像和视频的多模态AI代理。关键功能是允许用户将自身形象添加到不同场景中,这与即将登陆Gemini的AI数字形象功能高度关联。该“Likeness”功能很可能深度集成于移动应用,其运作方式曾应用于Sora。外界猜测它可能在今日的Android活动中亮相。
Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...
大家说Google 最近疯狂降智的时候,是不是要有大的要来了。 依稀记得Gemini3.1 发布前海外疯狂吹捧,但过后似乎没多少人真正使用。 这一波我觉得也该搞点东西出来了吧~~~ [引用 @testingcatalog]:Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4
Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as...
Imagine a single AI that can read text, generate images, edit photos, and even handle interleaved text+image tasks. Sens...
Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...