字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台,预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中,Max-Preview 在文本领域综合排名第 13,细分领域数学排名第 7,专家级应用与软件 IT 均位列第 9;Plus-Preview 在视觉领域综合排名第 16。据此,阿里通义千问在文本实验室榜单中排名第 6,视觉榜单中位列第 5。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it's 10x more e...
PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。
Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型,解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制,能够实时模拟多个参与者(人类或AI)在同一世界中的交互行为,并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境,其真实性不再仅依赖视觉保真度,而取决于多方干预下世界逻辑的自洽性。
Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...
HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。
Cursor 推出了其最新的 AI 编程模型 Composer 2.5,该模型基于 Kimi K2.5 构建,训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中,Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平,而其运行成本仅为后两者的一小部分,显著提升了成本效益比。
Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效,官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法,解决了超长轨迹(十万 token 级)下的学习难题,使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时,Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练,将依托 Colossus 2 超算集群,这也意味着其算力基础已与马斯克旗下资源深度绑定。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
🚨 ChatGPT is running TWO A/B tests at once right now: → text model → image model both showed up yesterday and today. ca...
We are improving the 0.5T Grok foundation model V8 (public version 4.3) every few days. The 1.5T V9 just finished traini...
Gemini 3.2 Flash-lite-live has been spotted on the Google Cloud Console We might be getting the Gemini 3.2 series instea...
Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。
ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...
Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...
Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...
🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...
Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...
🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...
NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。
Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。
Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...
MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...
SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。
1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...
The new Gemini Spark model will have Agent mode / Chat mode. New advanced use of tools.
蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。
蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
索尼公布《GTA 6》解锁时间,新西兰玩家可率先体验。小米YU7 GT“车厘子红”实车图曝光,将于5月底发布。英伟达市值首次突破5.5万亿美元,超越德国GDP。腾讯微信为适配鸿蒙系统成立了800多人团队,约占其客户端开发人员一半。比亚迪确认正与Stellantis等谈判收购欧洲闲置工厂,并计划未来三年推出多款欧洲专属车型。此外,小米17 Max手机将搭载徕卡2亿像素主摄及8000mAh电池,而ChatGPT网页端流量份额一年内大幅下滑。
中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash,其Artificial Analysis智能指数达到36,较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先,并展现出较高的令牌效率,运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口,目前主要面向企业客户提供。作为全球主要电信运营商,此举标志着中国移动在开发更强大专有模型方面的持续投入。
IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。