Step Out. StepFun In. 🍕🍺 We're hosting a Founder mixer during SaaStr week in San Mateo with SEAMATE! AI founders, SaaS...
Step Out. StepFun In. 🍕🍺 We're hosting a Founder mixer during SaaStr week in San Mateo with SEAMATE! AI founders, SaaS...
阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。
商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新,旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体,涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作,共同加速数字化转型,构建开放、包容且繁荣的本地AI生态系统。
OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。
SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载,观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名,个人页面可集成社交链接,成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源,旨在降低技术门槛,推动3DGS从实验室走向普通创作者的实际应用。
据彭博社报道,苹果计划于2026年推出第三代AirPods,这将是其首款AI可穿戴设备。新款AirPods的每个耳塞均内置摄像头,作为Siri的“眼睛”捕捉低分辨率视觉信息,以实现视觉问答、情境感知提醒和地标导航等免提AI功能。产品设计类似AirPods Pro 3,带有隐私提示LED灯,但不支持手势控制。该产品已开发四年,目前处于后期测试阶段,硬件已基本定型,但最终发布取决于AI体验能否达到苹果标准。其发布将与基于Gemini重构的Siri及iOS 27的新视觉AI模式同步,是苹果包括智能眼镜、相机吊坠在内的更广泛AI硬件布局的一部分。
NEW: Apple's AirPods with cameras reach an advanced testing stage where the design and features have been nearly finaliz...
We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.
作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。
Doubao-Seed-2.0-lite 0428 内测版本升级,新增音频理解功能,能同时支持图片、视频、音频和文本四种输入,成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试,验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力,具体案例详见后续推文线程。
阿里云新加坡推出“被发掘的故事:WAN AI视频挑战赛”,邀请参与者使用其WAN模型创作AI视频,重新构想新加坡文化遗产。活动注册期已延长,参与者需选择主题、讲述故事并制作视频,优胜者有机会赢取奖品。为激发创意,可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合,涉及技术包括人工智能、大语言模型和通义千问等。立即报名,用科技重现历史。
Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。
Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...
OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。
GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...
OpenAI在四月份为开发者推出多项重要更新。核心是GPT-5.5的发布和广泛应用,社区已积极采用。Codex获得增强,支持更多插件集成、Chronicle上下文记忆功能以及团队协作。Agents SDK增加了对长时间运行智能体的控制,并新增TypeScript支持。API方面,Responses API引入WebSockets支持,Symphony功能可将问题队列转化为智能体工作流。图像创建与编辑功能已集成至Codex和API,同时支持构建交互式语音应用,推动开发者工具生态发展。
Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。
Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型,其核心特点是“意图优先”的图像生成。模型在生成前会进行思考,能补全场景缺失部分,理解空间上下文而非仅像素,并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能,专为生产环境打造。据称,其成本和延迟仅为同类模型的一半以下,且在图像生成与编辑的综合评测中位列前三。
The Uni-1.1 API is live today. Built-in prompt enhancement, research, and reference gathering at the API level. Trained ...
Excited that we're updating the default model in ChatGPT today! 5.5 instant is a substantial improvement in intelligence...
关联讨论 1 条X:Satya Nadella (@satyanadella)We raised $56M to help build the next era of interactive entertainment. Series B led by @sequoia, Series A led by Sea. A...
OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。
GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...
一名大学生仅用四份Markdown文件(记录角色设定与回复规则)和低成本AI技术栈(Claude、Flux、ElevenLabs),在OnlyFans上运营完全虚拟的角色“Maya”,30天获利4.3万美元。用户为情感陪伴付费,甚至有已婚者深陷其中。该案例月成本仅400美元,揭示了“孤独经济”被AI放大至极端:AI能完美模拟人类情感互动,且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构,行业边界尚未明确。
Damn,这条14秒的视频,撕碎了所有男人的幻想,撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩, 金发,大长腿,对着你比心,wink,说甜言蜜语, 记得你两周前说过的每一句话,永远秒回。 右边是一个戴...
商汤通过Publishing 3.0+计划,将其多模态模型应用于香港及内地出版业,协助将内容转化为多语种电子书和有声书,以开拓国际市场并挖掘IP商业化新机遇。商汤香港及澳门总经理冯建华指出,过去一年已利用AI技术优化出版流程并提升翻译质量。他强调,该计划有助于香港连接文化、科技与全球市场,巩固其作为IP贸易和文化交流国际枢纽的地位。商汤总部及研发中心位于香港,致力于利用其国际化优势赋能产业发展。
针对当前AI生成视频普遍存在的画面闪烁、角色不一致、细节丢失及渲染耗时等问题,Happy Horse 1.0定位为“制作优先”的引擎,旨在为创作者提供解决方案。其核心特性包括确保角色与资产从始至终保持稳定的“像素级一致性”,以及兼顾质量、速度与成本的“企业级效率”。官方将于2026年5月15日在香港举办大师班,演示如何将AI视频工作流从“实验性”提升至“专业级”。