本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。
针对市场上Claude中转站普遍用Sonnet模型冒充Opus的问题,重度用户自建新站ccode.dev,宣称通过自研技术解决了信任痛点。该站经cctest.ai和hvoy.ai两个独立平台检测,显示为100%官方Claude Opus行为指纹,且延迟与速度表现优秀。其提供官方直连、AWS Bedrock和逆向渠道三种分层服务以确保稳定性,并推出1:1.5充值优惠及公测返额。此外,站点承诺假一赔三、支持开票与对公账户,旨在解决用户售后无门的普遍担忧。
SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。
AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。
随着企业广泛应用GPT、Claude等AI模型,如何安全、高效地管理和分配内部员工的AI API调用权限成为普遍痛点。出于数据安全考虑,企业通常不会直接使用普通中转服务。尽管Azure和亚马逊云提供相关解决方案,但不同公司的规模与定制化需求差异显著,这为专门的企业级API网关产品创造了市场空间。海外已有此类产品出现,国内市场也存在相应机会。
中国移动推出的AI模型中转平台MoMA,标志着“国家队”正式进入AI基础设施领域。该平台已接入DeepSeek、通义千问等300多个主流模型,并通过央视新闻进行宣传。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是掌握行业定价权与未来的关键。用户可在移动云官网搜索“MoMA”获取体验包,建议先行测试实际效果。此举意味着AI行业竞争已上升至基础设施层面。
说个暴论,AI 行业的天,今天真的要变了, 前几天刚写了几篇推文分析过孙哥和特朗普家族为啥下场做AI 中转站,底层逻辑是中转站本质是AI水电煤的生意。 结果今天就看到央视新闻,中国移动上线了AI中转站! 各大社区里很多人都以为中国移动发的 ...
Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。
http://x.com/i/article/2053591256110940160
Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...
Levelsio的推文揭示了电子邮件发送服务正快速商品化。价格对比显示,发送百万封邮件的月费差异巨大:Postmark为1206美元,Resend为650美元,SendGrid为600美元,而Cloudflare仅需354美元,Amazon SES甚至低至100美元。传统提供商在SDK和投递可靠性上的优势已消失,AI工具(如Cursor或Claude)能通过迁移提示在十分钟内完成系统切换,极大降低了技术门槛和集成成本。Cloudflare的定价已接近SES,同时提供更优的域名管理和生态体验,预计将推动独立开发者及中小型SaaS向低成本方案迁移。
✉️ Trying @Cloudflare's new Email Sending feature today If you send 1,000,000 emails per month: - Postmark: $1,206/mo - ...
自DeepSeek-V4发布后14天内,AMD ROCm软件栈性能提升超过75倍。这一飞跃主要得益于融合mHC操作和RoPE哈达玛变换,有效降低了CPU开销并提高了HBM内存利用率。同时,团队使用TileLang和Triton快速开发了注意力索引器和KV缓存压缩器等核心组件。为追赶业界标杆,AMD仍需再提升5倍性能以匹配单节点聚合B200,并额外提升1.5倍以达到PD disaggregated B200水平,预计未来几周内有望实现这一目标。此快速进展离不开HaiShaw、Thomas、@roaner和@AnushElangovan等人的贡献。
智能体RAG流程的瓶颈通常不在大语言模型调用,而在于底层数据平面的序列化与分布式协调开销。新研究提出的AAFLOW是一个统一分布式运行时,将智能体工作流建模为基于Apache Arrow和Cylon的算子抽象,通过零拷贝数据平面直接连接预处理、嵌入和检索环节,并采用资源确定性调度与异步批处理降低协调成本。该方案实现了高达4.64倍的流水线加速,嵌入与更新阶段性能提升2.8倍,且所有收益均源于数据流优化,并未涉及大语言模型推理加速。
企业AI使用量激增,代码生成量暴涨,但收入未同步增长。核心问题在于企业混淆了“投入”与“成果”:AI生成的大量代码只是成本投入,而非能带来收入的商业成果。AI按Token消耗定价,增加了企业成本,却未直接提升价值。过去开发资源有限迫使团队聚焦高价值想法,如今“代码免费”导致糟糕想法和团队协作问题激增,浪费资源。为抵消激增的AI支出并维持现金流,裁员成为直接的财务手段。只有当企业学会将AI增加的成本转化为相应收入增长时,裁员潮才可能停止。
新加坡外交部长维维安·巴拉克里希南将在@AIDOTENGINEER新加坡会议上发表主题演讲,分享他使用开源AI工具构建“第二大脑”工作流的经验。此前,他在GitHub上公开了个人AI技术栈的完整架构,涉及树莓派、Claude、本地嵌入和知识图谱等技术,这一举动受到全球AI社区关注,体现了政府高层对AI技术的直接、公开且务实的参与态度。继英国设立首席AI官后,新加坡内阁部长的深度参与标志着政府正积极拥抱AI。巴拉克里希南的实践表明,有意义的AI讨论应超越抽象层面,需通过实际技术参与来理解其参数,而新加坡正成为此类深度实践的发生地。
Where in the world can you find a senior government leader with a personal AI stack published on GitHub? How many would ...
字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。
我为什么反对 html 比 markdown 更适合 ai 的言论呢? 因为我费老大劲开发了 https://docu.md 我要让更多人知道这个超腻害的阅读插件。😇
http://x.com/i/article/2050058966072524800
当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。
http://x.com/i/article/2052796100608974848
Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...
现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。
The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...
OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。
距离谷歌I/O大会仅11天,公司本周推出了一系列AI产品更新。Google Health应用集成Gemini,利用穿戴设备、健康应用和医疗记录提供个性化健康指导。Gemma 4引入多令牌预测技术,可将工作流速度提升高达3倍。NotebookLM新增自动源文件整理和可定制思维导图功能。Gemini API的文件搜索工具升级,支持多模态、自定义元数据和页面引用,并加入Webhooks推送通知以替代轮询。此外,Nano Banana、Veo和Google Photos Remix等热门AI功能现已登陆Google TV平台。
阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。
安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。
Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。
http://x.com/i/article/2052422965019439105
OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 openai <资源> <命令> 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 curl 与 jq 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 --format explore 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。
small ship / passion project, more details soon https://github.com/openai/openai-cli 1. call responses via cli with all ...
作者认为关注AI在实际应用中的优势更令人兴奋,并以Google的AlphaEvolve为例。AlphaEvolve是一个基于Gemini的编码智能体,自2025年起被用于优化下一代TPU的设计。它在两天内就发现了更高效的缓存替换策略,而此前这需要人类团队数月的密集工作。这类实例印证了AI能力呈指数级增长的观点,表明AI已在硬件、软件等各个领域推动进步。
OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。
Pay attention to this one if you build multi-agent systems. Coordination is as important as prompts or agent architectur...