5月11日

21:38

OpenAI@OpenAI

今天我们正式启动OpenAI Deployment Company，以帮助企业构建和部署人工智能。该公司由OpenAI持有多数股权并控制。它汇聚了19家领先的投资公司、咨询机构和系统集成商，共同帮助各组织将前沿AI技术部署到生产环境中以实现商业影响。https://openai.com/index/openai-launches-the-deployment-company/

OpenAI 产品更新部署/工程

20:48

Berryxia.AI@berryxia

一次将大模型的格式搞清楚！盘它！

本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式，集成头文件、元数据和权重，加载快且支持灵活的K-quants量化（2-8bit），兼容llama.cpp等工具，适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架，采用目录结构，在Mac上利用统一内存架构实现高效加载与处理，支持4bit量化，为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配，ONNX侧重跨框架部署。建议Mac用户优先MLX，跨平台或低配选GGUF，训练分享用Safetensors。

教程/实践端侧部署/工程

20:34

阿绎 AYi@AYi_AInotes

用户自建Claude中转站ccode.dev，宣称彻底解决模型冒充与售后难题

针对市场上Claude中转站普遍用Sonnet模型冒充Opus的问题，重度用户自建新站ccode.dev，宣称通过自研技术解决了信任痛点。该站经cctest.ai和hvoy.ai两个独立平台检测，显示为100%官方Claude Opus行为指纹，且延迟与速度表现优秀。其提供官方直连、AWS Bedrock和逆向渠道三种分层服务以确保稳定性，并推出1:1.5充值优惠及公测返额。此外，站点承诺假一赔三、支持开票与对公账户，旨在解决用户售后无门的普遍担忧。

产品更新部署/工程

18:53

Chubby♨️@kimmonismus

SK海力士正在测试英特尔的EMIB技术！这家全球排名第一的HBM供应商（为英伟达及整个AI热潮提供动力）刚开始接收英特尔EMIB基板，并正在运行真实的2.5D封装测试，结合HBM与逻辑芯片。这可能最终打破台积电CoWoS的垄断--让英特尔在AI封装竞赛中获得巨大推动（并解释其股价暴涨原因）减少对台湾依赖。增强美国实力？英特尔正重返赛道？

行业动态部署/工程

18:39

SenseTime@SenseTime_AI

精选72

SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHub Hugging Face 图像生成模型发布

推荐理由：商汤把新模型U1的ComfyUI部署流程完整放出，还有实测视频，想在自己机器上跑国产图像模型的开发者可以直接抄作业了。

17:53

Chubby♨️@kimmonismus

Cerebras凭借其推理芯片能效优势，瞄准今年全球最大规模IPO

AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上，计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快，但其核心优势在于能效。传统GPU在推理时受内存带宽限制，每个token生成都需从内存读取整个模型，导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计，以片上SRAM替代片外HBM，每次内存访问能耗降低约100倍。减少数据移动既降低了延迟，也显著减少了每token的功耗，这解释了其IPO被超额认购的原因。

推理行业动态部署/工程