OpenRouter上线匿名模型elephant,实测排除其为DeepSeek-v4。该模型100B参数,支持262K上下文,推理速度近300 token/s,双32G显卡可部署4bit版。但编程能力薄弱,依赖的three.js库停留在2021年r128版,训练数据陈旧,整体表现不及DeepSeek-V3。不建议用于编程,仅适合免费日常试用。
OpenRouter上线匿名模型elephant,实测排除其为DeepSeek-v4。该模型100B参数,支持262K上下文,推理速度近300 token/s,双32G显卡可部署4bit版。但编程能力薄弱,依赖的three.js库停留在2021年r128版,训练数据陈旧,整体表现不及DeepSeek-V3。不建议用于编程,仅适合免费日常试用。
Mark Zuckerberg指出,未来企业不会拥有前沿AI基础模型,而是基于共享模型构建定制化运营层,反映其业务流程与客户历史,用于客户互动和支持。与此同时,Meta发布原生多模态推理模型Muse Spark,采用多智能体编排架构,多个副本可并行推理并比较结果,用比Llama 4 Maverick少10倍以上的训练计算达到类似能力,标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。
Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:slow_developer (@slow_developer)X:Testing Catalog (@testingcatalog)Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。
Axios: OpenAI is planning a staggered rollout for a new model with advanced cybersecurity capabilities, limiting access ...
Lots of love for Gemma 4! Team just told me it's already had 10M+ downloads since last week's launch. Gemma models have ...
Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。
韩国AI实验室Upstage发布Solar Pro 3,AI Index得分26,为韩国实验室第二强模型。采用MoE架构(102B总参数/12B激活参数),支持128k上下文。核心优势在于agentic工具调用与指令遵循,IFBench得分71%与GLM-5、Kimi K2.5相当,τ²-Bench Telecom达86%。但token消耗较高(约100M),可靠性不足(AA-Omniscience得分-54),准确性18%优于其他韩国模型。可通过Upstage API访问。
Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by o...
The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...
Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码,测试中通过 three.js 成功还原手表与分体键盘的3D建模,并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平,展现了从设计图到代码的直接转换能力。
Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B,采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12,支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型,但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源,上下文窗口128K/65K tokens,目前通过API免费提供服务。
微软AI超级智能团队发布了MAI-Transcribe-1语音转录模型。该模型在Artificial Analysis语音转文本排行榜的AA-WER指标上达到3.0%的词错误率,位列第四,仅次于Mistral Voxtral Small、Google Gemini 3.1 Pro High和ElevenLabs Scribe v2。其处理速度约为实时音频的69倍,属于高速高精度模型。模型支持包括英语、法语、阿拉伯语、日语和中文在内的25种语言,其API目前已在Microsoft Foundry的Azure Speech服务上提供公开预览。
Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...
智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。
阿里发布 WAN-2.7-Image 图像生成与修图大模型,重点优化了人物生成美观度与文本渲染精准度。该模型支持文生图及图像编辑功能,博主对其文本到图像生成能力进行了初步测试。作为阿里万相系列最新版本,WAN-2.7-Image 在视觉质量和语义理解方面展现出改进,为创作者提供更精准的图像生成工具。
KwaiKAT发布非推理代码模型KAT-Coder-Pro V2,在Artificial Analysis Intelligence Index获44分,较V1提升8分,与Claude Sonnet 4.6持平。该模型token效率显著,运行仅需约9M输出token,远低于Claude系列及DeepSeek等推理模型。Agent能力大幅提升,Terminal-Bench Hard得分49%(提升40个百分点),匹配Claude Opus 4.6。成本降至73美元,响应速度达109 token/秒。但在长上下文推理和知识回忆方面较V1有所退步。
GLM-5.1在vector-db-bench向量数据库基准测试中登顶第一,实现从国产SOTA到全球SOTA的关键跨越。测试数据显示其性能已超越国际主流模型,展现强劲竞争力。相比之下,GPT-5.4-Pro(xhigh)单次测试成本高达150美元,价格劣势显著。作者将发布详细评测视频进一步解析GLM-5.1的技术表现与性价比优势。
Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved functio...
OpenAI发布GPT-5.4 mini与nano轻量模型,保留多档推理能力与400K上下文窗口,价格降至$0.20/$1.25每百万token。基准测试显示,GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview,但幻觉率较高且token消耗量大。得益于极低单价,nano在Intelligence Index测试中的有效成本反而低于竞品,展现出优秀的性价比优势。
Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。
Our new image generator MAI-Image-2 is out! Available now on MAI Playground for everything from lifelike realism to deta...
GPT-5.4 mini is available today in ChatGPT, Codex, and the API. Optimized for coding, computer use, multimodal understan...