字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
At the recent @OpenAIDevs Founder Day, I had fun chatting about how we use OpenAI's capabilities to scale scientific int...
Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。
阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
一个10岁孩子想创建火箭模拟器等科学应用,却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板:它们擅长在丰富训练数据框架内维护和构建现有模式,但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能(AGI)的局限,指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。
谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外,应用将引入被内部称为“Veo4 Omni”的新模型,并支持Skills技能体系。不过,Gemini Live实时功能目前仍在开发中,尚未可用。
You can now upload entire videos to Grok and have it analyze, summarize, translate, explain scenes, or extract important...
作者认为“AI slop”一词无益,人们常因内容由AI生成而愤怒,却未批评内容本身。AI模型如GPT-4、Claude已能生成高质量文本,OpenAI Image 2的图像也逼真难辨。批评应基于实质内容,而非来源;AI生成内容可好可坏,取决于提示、研究等因素。社会需要更多有根据的批评,而非纯粹怨恨。
Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
开发者Dany Bittel通过6660张葡萄宏观照片,利用3D Gaussian Splatting技术训练出仅50MB的高保真3D模型,在手机上即可流畅查看半透明细节。该实验攻克了最难的半透明物体建模,证明技术可轻松应用于手办、珠宝等物品,将3D数字资产创建门槛从专业团队大幅降低至个人。其开发的miqula工具正推动该流程产品化。同时,这也反映了AI工具的普遍悖论:制作demo的门槛急剧降低,但实现稳定生产级应用仍需克服工程化挑战。
说个所有AI创业者都不愿意承认的事实: 现在做一个AI工具的门槛已经降到了地板, 普通人做一个AI工具都只需要一天, 但学会用它干成一件事,却至少得一个月, 感觉像是AI时代的一个悖论😅 5.7M 阅读 23 万点赞的这条推,表面看是游戏...
中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。
上海电信创新推出AI大模型Token话费套餐服务,用户支付1元即可获得25万Token额度,用于调用GPT、Claude等30多种主流模型。费用直接从话费账单扣除,上海电信用户可免费领取2500万额度点体验。该公司将“Token服务”定位为未来经营主线,标志着运营商直接下场提供AI基础设施服务,开辟了新的商业模式。
xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。
You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes
本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。
本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。
Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。
Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this ...
2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。
1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...
Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。
open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio
Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...
Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。
How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...