🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...
🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...
Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。
Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...
关联讨论 9 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...
GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。
Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱今日正式开源 GLM 5.2,这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试,定价与官方一致,欢迎体验和反馈。
智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...
智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发,定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token,支持 1M 上下文,具备可靠的长时间任务执行能力,编码性能与 Opus 4.8 持平。提供双思考模式:max 侧重深度,high 侧重质量成本平衡。模型完全开源。
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱(Z.ai)正式发布GLM-5.2,采用MIT开源协议开放模型权重。相比前代,在编码和智能体任务上有显著提升,支持1M上下文窗口。提供两种推理努力级别:GLM-5.2(max)追求极致性能,GLM-5.2(high)在效果与token效率间取得平衡。API定价与GLM-5.1保持一致。技术博客、权重及API文档均已上线。
🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...
Mistral 预告将在今年夏季推出一个新的“fat”模型系列,模型为 open-weight,7 月面向研究、政府和行业关键合作伙伴开放早期访问。官方称该系列“fat indeed, but sparse”(大但稀疏),并强调开放权重对客户信任和开发者社区至关重要。后续模型也将保持开源。此外,推文还提及了“Le Chaton Fat”的代号。
We somehow got put in the spotlight the last few days! First we'd like to thank the organizers of the AI show for that, ...
🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...
硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》阿里云推出 Qwen-Robot 套件,包含三个基础模型:Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务,提供可控观测协议和智能体工具接口;Qwen-RobotManip 统一异构机器人状态-动作空间,基于 38,100+ 小时开源语料预训练;Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态,通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用,也可组合为通用智能体系统的底层物理世界工具。
通义千问推出Qwen-Robot Suite,包含三个基础模型:Qwen-RobotNav统一5种导航任务(指令跟随、点目标、物体目标、目标追踪、自动驾驶),具备可控观测协议和智能体工具接口;Qwen-RobotManip实现异构机器人统一状态-动作空间,基于38,100+小时开源语料预训练;Qwen-RobotWorld是单一世界模型,支持20+具身形态,通过自然语言动作接口预测物理世界未来(涵盖操作、驾驶、导航)。三个模型可独立使用或组合,构成通用智能体的底层工具包。
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)公众号:通义实验室(千问)MarkTechPost(RSS)We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...
字节跳动推出Seedance 2.0精简版Mini,价格比原版便宜约30%,速度是Fast版2倍,画质接近。API定价约$0.073/秒,30秒广告视频成本约$2.19。支持文生/图生视频,可通过CapCut App、Dreamina使用。限时优惠:Pro用户生成720P视频积分减33%,CapCut App购买Pro套餐最高4折,叠加后比原版最多便宜55%。
Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版,均仅 4B 参数。在 MiniF2F 测试中,4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B;32B 版本达 89.8% Pass@32 和 92.6% Pass@2024,创当前最佳成绩。核心在于数据效率:构造约 80 万 Lean 验证示例,按易到难训练,并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。
🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...
Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。
Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...
Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。
Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...