AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
AI HOT
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
22:56
Rohan Paul@rohanpaul_ai
精选75
首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布

ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN,这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术,使模型内存占用相比BF16降低约6倍,可高效部署于手机、电脑、车载设备等边缘端。更关键的是,整个训练全栈(从量化算子到框架)均在昇腾上原生构建与验证,而非简单移植。该模型家族(0.5B-8B)在多项基准测试上保持了全精度模型95-97%的性能,为资源受限环境下部署和复现大模型提供了可落地的解决方案。

OpenBMB: 🚀 BitCPM-CANN by ModelBest × @Tsinghua_Uni × OpenBMB is here - and it's not about stacking parameters. Memory costs are...

开源/仓库模型发布端侧

推荐理由:首个开源的1.58-bit三元LLM,直接在昇腾芯片上原生训练,内存压缩到BF16的六分之一,8B模型就能跑在手机上,做端侧部署的可以立刻上手试试了。
22:19
Runway@runwayml
精选71
昨日我们发布了Aleph 2.0,这是我们升级后的视频编辑模型,可让您在保持其他内容不变的情况下,精确修改所需部分。该模型现已集成于全新的Edit Studio中,支持处理最长30秒、1080p分辨率的多镜头序列。 立即通过Runway Academy学习如何开始使用。
模型发布视频
关联讨论 2 条X:Runway (@runwayml)Runway:Changelog(网页)
推荐理由:Aleph 2.0把视频编辑从局部调整变成精确控制的多镜头编辑,30秒1080p序列是个真正的生产工具升级,做视频的人可以上手试试。
20:09
IT之家(RSS)
精选75
阿里千问 App、PC 端及网页端接入全新一代大模型 Qwen3.7-Max

5月22日,阿里千问App官方宣布,千问App、PC端及网页端接入全新一代大模型Qwen3.7-Max。用户需将千问App更新至6.9.7及以上版本,即可免费体验该模型。Qwen3.7-Max定位为全能的智能体基座,核心能力覆盖编程开发、办公流程自动化及超长周期任务执行。官方实测显示,在一项长达35小时、包含超过1000次工具调用的全自主内核优化实验中,该模型保持了连贯推理。此外,模型具备跨框架泛化能力,并即将通过阿里云百炼平台提供API调用服务。

智能体MCP/工具模型发布
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max 把重点压在了智能体基座上,35 小时、超 1000 次工具调用不断片,做 Agent 应用的可以第一时间去千问 App 拉下来试试,免费入口已经开了。
19:20
Alibaba Cloud@alibaba_cloud
精选69
Qwen3.7-Max现已在Model Studio上线,限时五折(5月22日至6月22日)! 可靠的跨框架支持。专为一键部署和无缝集成到现有技术栈而设计。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
模型发布部署/工程
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen 最新旗舰上线自家 Model Studio,50% 折扣对想低成本试用的开发者是个窗口,不过目前缺少性能对标,更像一次低调的生态填充。
19:20
Alibaba Cloud@alibaba_cloud
精选79
Qwen3.7-Max现已登陆Model Studio,限时五折(5月22日至6月22日)! 100万上下文窗口。专为在长上下文智能体推理中,无缝处理和保留大规模企业数据流而构建。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
推理模型发布
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max 的 1M 上下文窗口和 50% 折扣,对做长链 Agent 的团队是个值得试的信号,但别信宣传,自己跑一遍长任务就清楚底子了。
18:50
Alibaba Cloud@alibaba_cloud
精选82
Qwen3.7-Max现已登陆Model Studio,限时五折(5月22日至6月22日)! 旗舰级编程智能体性能。专为可靠、多步骤的软件执行而设计,最大限度减少人工干预。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
智能体模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max 定了个少见的位——旗舰编码 Agent,不是全能聊天,而是能少人类干预完成多步软件执行。五折开了一个月窗口,想试 Agent 落地的现在上车最划算。
18:19
Qwen@Alibaba_Qwen
精选77
⚡️⚡️ 【引用 @OpenRouter】:来自 @Alibaba_Qwen 的全新 Qwen3.7-Max 已在 OpenRouter 上线。 作为 Qwen3.7 系列的旗舰模型,专为以智能体为中心的工作而构建:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较 Qwen3.6 有显著提升,并支持显式的提示缓存以处理重复上下文。

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen 这次明显冲着 Agent 用场来的,编码和自主执行基准提升不小,做 coding agent 的团队该认真试试了。
18:09
IT之家(RSS)
精选70
网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由:有道把垂直教育的多模态模型全量开源,27B参数在视觉数理上做到SOTA,还把思维链压缩了43%,推理成本实打实下降,做教育应用的可以拿来做二次开发;TTS的跨语种情感克隆也实用,3秒克隆14种语言。
16:35
MarkTechPost(RSS)
66
微软发布Fara1.5浏览器操作智能体系列:性能超越OpenAI Operator与Gemini 2.5

微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。

智能体MCP/工具Microsoft模型发布
15:09
IT之家(RSS)
精选70
美团开源 LongCat-Video-Avatar 1.5:数字人视频从"彩排"走向"真舞台",生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频

推荐理由:美团把数字人视频生成的开源模型拉到了商业可用级别,10秒视频1分钟生成,效率提升15倍,性能压过不少闭源产品。做虚拟人直播和短视频的,可以认真看看这个开源选手。
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
14:09
IT之家(RSS)
62
"拼好模":字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

多模态开源生态模型发布
14:02
公众号:美团技术团队(LongCat)
54
从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频
11:12
karminski-牙医@karminski3
71
400 TPS!实测智谱 GLM-5.1 以10倍速狂飙

智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。

推理模型发布
10:49
Alibaba Cloud@alibaba_cloud
精选76
阿里云与Novita AI达成合作,在Novita AI平台首发推出Qwen3.7-Max模型,标志着双方共同推进Agent时代的发展。该模型专为智能体时代设计,强调从"回答"到"执行"的能力跃升。核心优势包括:强大的代码生成与软件工程工作流能力;可靠的智能体编排与多智能体系统协作能力;支持长周期、自主化的复杂任务执行;且具备框架与技术栈无关的兼容性,可适配多种主流开发环境。

Novita AI: 🚀 We're launching Qwen3.7-Max from @AlibabaGroup on Novita AI as a Day-0 launch partner. Built for the Agent Era - wher...

智能体模型发布
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max 在 Novita AI 上线,主打 Agent 执行而非聊天,开发者现在就能用,是阿里系模型在 Agent 时代交出的第一份答卷。
10:42
karminski-牙医@karminski3
61
腾讯近期发布了三款翻译专用大模型(Hy-MT2系列)。其中,Hy-MT2-30B-A3B在金融、法律等专业领域的翻译基准测试中,性能超越了DeepSeek-V4-Pro。该系列模型具备强大的多语言翻译能力,可应用于包括特定内容在内的多种翻译场景。

karminski-牙医: 这一波估计XX词典凉的透透的了... 刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给你的勇气? 然后定睛一看, 原来是翻译专用大模型. 腾讯刚刚放出了3个翻译专用大模型, 分别是 Hy-MT...

开源/仓库模型发布
10:09
IT之家(RSS)
精选73
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程

推荐理由:智谱把旗舰模型拉到 400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看,延迟敏感场景的选型参数要重写了。
09:41
公众号:智谱(GLM)
精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
关联讨论 1 条公众号:智谱(GLM)
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
09:39
karminski-牙医@karminski3
66
腾讯发布翻译专用大模型,性能超越DeepSeek-V4-Pro

腾讯推出了三款翻译专用大模型:Hy-MT2-1.8B、Hy-MT2-7B与Hy-MT2-30B-A3B。其中,30B-A3B版本在专攻金融、法律、医疗、技术等特定领域的 DomainMTBench 翻译能力测试中,其表现全面超越了通用大模型 DeepSeek-V4-Pro。这显示了专用模型在垂直领域的显著性能优势。

模型发布
08:13
Berryxia.AI@berryxia
60
Stable Audio 3登陆Mac本地运行,音乐生成效率惊人

Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音
06:35
MarkTechPost(RSS)
59
Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。

智能体推理模型发布编码
06:05
MarkTechPost(RSS)
62
Cohere发布Command A+:适用于智能体工作流的218B稀疏MoE模型,最少需两块H100 GPU运行

Cohere发布开源模型Command A+,采用218B参数稀疏混合专家架构,整合了此前四个Command A变体。该模型支持智能体工作流,在W4A4量化配置下仅需两块H100 GPU即可运行,支持48种语言,并首次具备多模态推理能力。

智能体多模态模型发布
02:45
Runway:News(网页)
精选74
Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频,具备精准局部编辑能力,可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制,并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用,旨在帮助用户高效地将现有视频素材转化为所需版本,例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放,使用优惠码可享受套餐折扣。

模型发布视频
关联讨论 2 条X:Runway (@runwayml)Runway:Changelog(网页)
推荐理由:Runway把视频编辑的精确度拉到了图像级别,30秒1080p加多镜头批处理,对做广告和短视频的人,现有素材终于能低成本翻新了。
02:38
Runway@runwayml
精选84
Aleph 2.0来了。现在你可以编辑视频中的单个帧,预览更改,然后Aleph 2.0会将该编辑应用到整个视频。 立即在下方链接的网页版新编辑工作室中尝试。
图像生成模型发布视频
关联讨论 2 条X:Runway (@runwayml)Runway:Changelog(网页)
推荐理由:Runway 终于解决了视频生成里最让人抓狂的「一致性」问题,单帧编辑能自动延伸到整个片段,做视频的该重新评估工作流了。虽然还没到电影级,但这是一次实打实的质变。
02:13
Alibaba Cloud@alibaba_cloud
精选75
Qwen3.7-Max已在@OpenRouter上线 https://x.com/OpenRouter/status/2057500097206976983?s=20

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:阿里把 Qwen3.7 的旗舰定义成 agent-first 模型,coding 和 agent 基准相比 3.6 有大跃升,这是国产模型第一次把长周期自主执行作为核心卖点,做 agent 的可以认真跑一下。
01:56
Rohan Paul@rohanpaul_ai
精选84
阿里巴巴发布旗舰模型Qwen3.7-Max,专为Agent时代打造

阿里巴巴正式推出最新旗舰模型Qwen3.7-Max,定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6,较前代显著提升,性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性,能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化,模型实现了10倍推理加速,并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室,并兼容Claude Code、OpenClaw等主流开发框架,助力开发者构建实际应用。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体MCP/工具推理模型发布
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:虽然阿里发新模型已不是新闻,但这次死磕 Agent 的可靠性,推理内核优化后速度翻 10 倍,和 GPT-5.4 几乎打平,做 Agent 产品的值得认真试一下。
00:36
OpenRouter@OpenRouter
精选78
阿里巴巴通义千问团队的全新Qwen3.7-Max现已登陆OpenRouter。 作为Qwen3.7系列的旗舰模型,专为以智能体为核心的工作场景打造:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较Qwen3.6有显著提升,并支持显式提示缓存以处理重复上下文。
智能体模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:阿里旗舰迭代,重点转向 agent 和长程任务,这次 benchmark 跳跃不是挤牙膏,做 coding agent 的可以认真试试。
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库

推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
00:00
Mistral AI:News(网页)
69
Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体(remote coding agents)提供支持,这些智能体可在终端、IDE和后台运行。同时,Le Chat新增Work模式,专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码
关联讨论 2 条Mistral AI:News(网页)X:Mistral AI (@MistralAI)
5月21日
23:26
The Decoder:AI News(RSS)
66
Cohere开源迄今最强模型

加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型,此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放,旨在推动大模型技术的透明化与协同创新,为行业提供更高性能的基础模型选择。

开源生态模型发布
22:12
Alibaba Cloud@alibaba_cloud
精选76
阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max把差距追到历史最小,但仔细看得分构成,近四分之一的涨幅来自‘少说少错’,幻觉降了21个点但准确率也掉了,好在科学推理和代码是真扎实,1M上下文也诱人。
21:56
Chubby♨️@kimmonismus
66
阿里云发布Qwen3.7 Max:代理能力泛化或比性能突破更重要

阿里云发布新旗舰模型Qwen3.7 Max,定位为“代理时代”的基础模型,强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力,完成了超过1000次工具调用。但这并非模型的全面自我进化,而是针对特定优化目标的迭代改进。更值得关注的是,Qwen声称其代理能力能从多样化的训练环境中泛化,如同语言能力从文本中泛化。这一观点若成立,其意义将远超任何基准测试成绩。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体模型发布编码
21:42
Alibaba Cloud@alibaba_cloud
精选85
通义千问旗舰模型Qwen3.7-Max发布

阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max,定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑,其核心能力包括:支持端到端的复杂编码任务,可作为集成多智能体协作的办公助手,并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性,可适配Claude Code、OpenClaw等多种工具链。目前,用户已可通过Model Studio平台调用其API。

智能体MCP/工具模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen3.7-Max 把 35 小时自主执行 1000 次工具调用当真,Agent 的实用性往前迈了一大步,做 coding agent 的值得赶紧跑一下。
21:40
Qwen@Alibaba_Qwen
精选82
Qwen3.7-Max:面向Agent时代的旗舰模型

Qwen3.7-Max是Qwen系列面向Agent时代推出的最新旗舰模型,旨在为能完成实际任务的智能体提供强大基础。其核心能力包括:可作为端到端编码智能体,处理前端原型与多文件重构;作为可靠的办公助手,通过MCP集成与多智能体编排协同工作;并支持超长时间(超过35小时)的自主运行,执行复杂任务链。该模型兼容Claude Code、OpenClaw等主流开发框架,现已上线阿里云模型工作室与Qwen Studio提供服务。

智能体MCP/工具模型发布
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen 3.7-Max 的亮点不在榜上分数,而是它瞄准 Agent 场景的连贯执行能力,35 小时不间断跑 kernel 优化,对需要长线任务的开发者是直接可用的探索方向。
21:40
Qwen@Alibaba_Qwen
精选76
阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升了4.8分,创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面,同时显著降低了模型幻觉率。值得注意的是,其分数提升部分源于模型更倾向于拒绝回答,而非完全依靠事实准确率的提高。技术上,其上下文窗口已扩大至100万tokens,仍保持闭源权重。尽管如此,该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 8 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Hacker News 热门(buzzing.cc 中文翻译)Qwen:Blog Retrieval(API)IT之家(RSS)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)X:Kim (@kimmonismus)X:opencode (@opencode)
推荐理由:Qwen 离闭源最前端又近了一步,4.8 分的提升里有很大一块来自「不知道就说不知道」,这种老实对产品落地反而是好东西。
19:29
🚨 AI News | TestingCatalog@testingcatalog
72
阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max,专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分,超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码
18:06
IT之家(RSS)
精选70
腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
推荐理由:腾讯这个翻译模型开源得有点意思,440MB就能在手机本地跑33种语言,比微软商业API还强,做跨境工具或出海App的可以试试看。
16:56
Tencent Hy@TencentHunyuan
精选74
腾讯开源Hy-MT2多语言翻译模型

腾讯正式开源Hy-MT2多语言翻译模型,支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能,超越了许多参数规模大数十倍的模型。更具突破性的是,1.8B轻量级版本性能超越微软等主流商业API,并凭借腾讯AngelSlim 1.25-bit极量化技术,仅需440MB存储空间,即可在主流手机芯片上本地运行,推理速度较前代提升1.5倍,显著降低了高质量AI翻译的部署门槛。

开源生态模型发布端侧
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
推荐理由:虽然翻译领域不算最热,腾讯这个1.8B开源模型用1.25位量化直接跑在手机上,效果还超微软商业API,做本地化翻译工具的人值得关注。
16:43
公众号:腾讯混元
精选58
腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
开源生态模型发布

推荐理由:腾讯混元开源翻译模型,小程序即用,对需要中文微调底座的开发者算个好消息,但发布已半月,赛道拥挤,除非你恰好缺翻译基座,否则不必追。
16:28
Artificial Analysis@ArtificialAnlys
70
阿里云发布Qwen3.7 Max模型,评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。

推理模型发布编码
‹ 上一页
1…7891011…23
下一页 ›