Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....
Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...
Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...
谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。
Gemini 3.5 Flash official! Insanely fast an capable model
Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...
Cap-ex at google is increasing at roughly 6x per year!
"Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!
在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。
GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...
正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用,利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错,而AI接管后,几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台,提供超过30项分析(如Steiner、McNamara),其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具,使更多正畸医生能轻松获得精准分析能力。
Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:
NVIDIA CEO 黄仁勋指出,AI已成为每份工作的基本工具。推文作者以自身实践为例,为应对健康与效率焦虑,利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报,甚至调用其他AI绘制动作示意图,无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手,也提醒在追赶技术浪潮时,不应牺牲身心健康。
腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。
🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...
一颗葡萄的3D模型在社交平台X上引发热议,一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练,生成仅43万高斯点,压缩后模型小于50MB,实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通,则更简单物体皆可数字化”的逻辑,展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程,为手办、珠宝、文物等领域的数字资产化指明了方向,开发者正通过工具miqula将此流程产品化。
Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...
阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。
CodePilot展示了强大的个性化能力,能通过用户频繁使用PPT功能的行为,学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中,使生成的可视化内容自动适配用户喜好,提升了内容的个性化与美观度。
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
On our way to I/O 2026. See you at 10am PT tomorrow!
奥德赛实验室推出Agora-1,这是全球首个实时多agent世界模型,允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景,提供可玩研究预览,用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变,长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域,使人类从旁观者变为与AI共同生活的参与者。
Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...
On our way to I/O 2026. See you at 10am PT tomorrow!
Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。
Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...
Gemini