Unsloth团队发布Qwen3.6-35B-A3B 2bit动态量化版本,模型体积仅12.3GB且激活内存仅需1GB,可在32GB Mac上流畅运行。测试显示该版本支持30余次工具调用,相较之下前代Qwen3.5-35B-A3B的8bit版本仅能完成4-5次调用即出现性能衰减。这一突破意味着大模型在端侧设备上的实用性和多步骤任务处理能力获得显著提升。
Tesla完成AI5芯片流片,单芯片算力达双AI4的5倍,整体算力提升8倍、内存9倍、带宽5倍。该芯片针对边缘AI推理深度优化,完整算力目标2000-2500 TOPS,单芯片性能匹敌Nvidia H100,双芯片可媲美Blackwell但成本功耗显著降低。AI5将大幅提升FSD、Robotaxi与Optimus性能,由TSMC Arizona与Samsung Texas在美国本土制造。
播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行,显示美国出口管制未能遏制中国AI发展,反而迫使对方采取对策,令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力,引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI,凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约,质疑当价值创造不再依赖人类劳动时,现有社会秩序将如何重构。
OpenBMB发布开源TTS模型VoxCPM 2,仅2B参数支持30种语言,无需语言标签即可生成语音。Apache-2.0许可,8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆,保留说话人细节。输出48kHz音质,RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署,适用于影视、游戏、有声书等专业场景。
Gemma4可通过推测性解码实现23%推理加速。实测RTX5090上,31B dense主模型搭配E2B(5.1B)草稿模型,速度从61 token/s提升至76 token/s。该技术利用大模型算力过剩而显存带宽不足的特性,由小模型快速生成候选序列,大模型通过prefill阶段批量验证,避免逐token解码的带宽瓶颈。注意需保持模型系列一致性,Gemma4应搭配同系列草稿模型,不可与Qwen3.5混用。
anemll-profile 0.4.1 is out! To update: brew upgrade anemll/tap/anemll-profile New: ANE graph interruption analysis, JSO...
Google发布的Gemma4系列开放权重模型包含多个版本,选型需结合场景。带“-it”后缀为指令微调版,开箱即用;不带后缀为基座模型,供自行微调。其中,A4B指激活参数量为4B,E4B则采用逐层嵌入技术,以内存换取计算量,优化移动端性能。选型建议:综合性能与速度选26B-A4B;追求最佳代码或任务效果选31B;开发本地全模态应用选E4B;资源受限设备体验可选E2B,但输出质量有限。
Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...
🚀 Introducing Qwen3-4B-Instruct-2507 & Qwen3-4B-Thinking-2507 - smarter, sharper, and 256K-ready! 🔹 Instruct: Boosted ...