Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...
关联讨论 32 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克We turned dreams into worlds. Then filled them with history's greatest minds. Not a video. A world, running directly in ...
Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。
Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)http://x.com/i/article/2059815427484655622
苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。
腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发...
Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。
MiniMax推出首个多模态M系列模型M3,支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分,超越开源权重的Kimi K2.6和MiMo-V2.5-Pro(均54)。相比前代M2.7,HLE提升9点至37%,GPQA Diamond提升6点至93%,多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens(512K内),512K-1M翻倍。权重计划约10天内开源。
WWDC 🔥: Apple has announced a new Siri AI, along with a dedicated app, customizable voices, screen and visual understan...
Siri update - image understanding - more conversational - reworked voice-tone / sound. Sounds real human
Apple #WWDC26 has started 🍿
Apple Intelligence last. Let the fun begin!
Apple Intelligence: -Personal Understand in apps. - Browse tools for web - on screen Awareness - in App usage
苹果在WWDC 2026承认无法独自构建前沿AI,与Google合作,基于1.2T参数的Gemini模型重建Siri,年费约10亿美元。新版Siri通过Private Cloud Compute运行,谷歌不训练用户数据;Siri成为独立应用,支持聊天、同步历史、Dynamic Island弹出和扩展系统,可起草邮件并获取信息。六个OS beta发布,iOS 27为Snow Leopard清理版,iPhone 11/SE2失去支持;Liquid Glass 2.0透明度滑块;Health+改为健身聚焦;用户或可选AI引擎(Gemini或Claude)。硬件稍后推出。
商汤 SenseTime 展示 SenseNova U1 的文图交错生成能力,通过定制香水逐步演示,证明模型不仅能识别图像,还能以图像为思考单元输出生动视觉内容。相关示例、Gallery、HuggingFace 模型、GitHub 代码及 Discord 社区链接已同步开放。
面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型,拥有 2B 参数,基于超 200 万小时多语言语音数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估,以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。
面壁智能(OpenBMB)与HuggingFace合作举办的Build Small黑客松正式上线,鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例:MiniCPM-V 4.6用于自动化金融文档分析;MiniCPM5-1B轻量端侧模型驱动AI桌面宠物;MiniCPM-o 4.5全模态实时视频分析;VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。
腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。
商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。
Tomorrow could be Apple's most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri rel...
素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。
全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...