AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 983 条
全部一手资讯X论文
标签「部署/工程」清除
OpenAI@OpenAI · 5月11日69

Today we’re launching the OpenAI Deployment Company to help businesses build and deploy AI. It's majority-owned and controlled by OpenAI. It brings together 19 leading investment firms, consultancies, and system integrators to help organizations deploy frontier AI to production for business impact. https://openai.com/index/openai-launches-the-deployment-company/

译今天我们正式启动OpenAI Deployment Company,以帮助企业构建和部署人工智能。 该公司由OpenAI持有多数股权并控制。它汇聚了19家领先的投资公司、咨询机构和系统集成商,共同帮助各组织将前沿AI技术部署到生产环境中以实现商业影响。https://openai.com/index/openai-launches-the-deployment-company/

Berryxia.AI@berryxia · 5月11日57

一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的选择。 以前 GGML 已经基本淘汰了,现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去,加载特别快,还支持各种 K-quants 量化,从 2bit 到 8bit 都能灵活混用。 llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑,Hugging Face 上也一大堆现成的 GGUF 版本。 MLX 则是 Apple 专门为 M 系列芯片优化的框架,mlx-lm 是它的 LLM 版本。 模型格式不是单个文件,而是一个目录,里面有 config、tokenizer 和权重(常见 .npz 或 safetensors)。 它在 Mac 上跑得特别爽,因为用了统一内存架构,加载和上下文处理都稳,转换时还能直接做 4bit 量化或者混合精度。 还有一些其他非主流核心格式比如: PyTorch / Safetensors 是训练和分享的标配,ONNX 适合跨框架部署,TensorRT 则是 NVIDIA 极致性能专用。 最有意思的是:GGUF 单文件、量化最灵活、跨平台强,特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。 Safetensors 体积大但分享方便; ONNX 更偏生产部署。 预训练阶段其实都不直接用这些格式,大模型训练完都是 PyTorch/Safetensors 的 checkpoint,后续转换时再做量化(PTQ),GGUF 和 MLX 就是在这一步把量化玩得最溜。 总的来说,本地 Mac 用户优先 MLX,跨平台或低配设备就选 GGUF,训练分享还是 Safetensors 最稳。 对想自己折腾本地 LLM 的同学来说,可以看看对比图。

译本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。

阿绎 AYi@AYi_AInotes · 5月11日26

说个暴论,90%的Claude中转站,都在偷偷给你跑Sonnet冒充Opus! 兄弟们,Claude 中转站里,终于出了一个自己人做的了! 老板是我朋友,他自己就是重度 Claude Code 用户, 饱受封号之苦,外面的站也用烂了,干脆自己搭了一套,叫 http://ccode.dev, 号池、防封、风控全链路自研。 用中转站的人,最怕的就一件事就是: 不知道对面给你跑的,到底是啥模型。 所以搭完我第一件事就是拿去测, 一口气跑了两个独立检测平台,结果我直接懵了 : 1️⃣http://cctest.ai 跑出来 100%,判定结论直接写着:100%,判定为官方满血 Claude Opus / Max 行为指纹。 2️⃣http://hvoy.ai 跑了两次,100%,九项全过,延迟 3.5s,速度 17.3 tokens / 秒。 卧槽,那种 "不知道对面是谁" 的感觉,两份报告直接给我打没了。 然后价格方面也是我见过最直接的,100 元人民币,到账 150 美金额度,1:1.5 倍率,真的太香了! 最反直觉的地方来了,现在公测期充 100 元,正式上线时还额外返 75 额度(按 150 / 2 = 75) 等于现在进去的人,相当于拿内测价,提前享受正式服务。 另外渠道方面也做了分层: 1️⃣官方直连 Max 号池(最稳最快,和官方体验完全一致), 2️⃣AWS Bedrock 兜底(亚马逊官方渠道,永远不会炸), 3️⃣逆向渠道备用(极端情况救急,多一层保险), 大家用的时候按预算和稳定性自己选,别乱冲。 还有个大部分中转站都解决不了的最大痛点, 这次也被解决了—— 以前找中转站,要么贵,要么不稳, 最怕的是出了问题,连个人影都找不到。 但这个站不一样, 假一赔三, 支持开票, 对公也能走。 这一点真的太顶了,最起码出了问题,咱们知道找谁。 如果有需要稳定 Claude 额度的,去 http://ccode.dev 试试啊~ 遇到啥解决不了的问题也可以直接找我!

译针对市场上Claude中转站普遍用Sonnet模型冒充Opus的问题,重度用户自建新站ccode.dev,宣称通过自研技术解决了信任痛点。该站经cctest.ai和hvoy.ai两个独立平台检测,显示为100%官方Claude Opus行为指纹,且延迟与速度表现优秀。其提供官方直连、AWS Bedrock和逆向渠道三种分层服务以确保稳定性,并推出1:1.5充值优惠及公测返额。此外,站点承诺假一赔三、支持开票与对公账户,旨在解决用户售后无门的普遍担忧。

Chubby♨️@kimmonismus · 5月11日56

SK Hynix is testing Intel’s EMIB right now! The world’s #1 HBM supplier (powering NVIDIA & the entire AI boom) just started receiving Intel EMIB substrates and is running real 2.5D packaging tests with HBM + logic chips. This could finally crack TSMC’s CoWoS monopoly - and hand Intel a massive boost in the AI packaging race (and explain why it's stock explode) Less Taiwan dependency. More U.S. power? $INTC on the comeback trail?

译SK海力士正在测试英特尔的EMIB技术! 这家全球排名第一的HBM供应商(为英伟达及整个AI热潮提供动力)刚开始接收英特尔EMIB基板,并正在运行真实的2.5D封装测试,结合HBM与逻辑芯片。 这可能最终打破台积电CoWoS的垄断——让英特尔在AI封装竞赛中获得巨大推动(并解释其股价暴涨原因) 减少对台湾依赖。 增强美国实力? 英特尔正重返赛道?

SenseTime@SenseTime_AI · 5月11日72

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝗶𝘀 𝗻𝗼𝘄 𝗿𝘂𝗻𝗻𝗮𝗯𝗹𝗲 𝗼𝗻 𝗖𝗼𝗺𝗳𝘆𝗨𝗜. Highly recognised by reviewers — including REBEL AI, who put together a great hands-on walkthrough of the 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝘄𝗼𝗿𝗸𝗳𝗹𝗼𝘄, with 𝗿𝗲𝗮𝗹-𝘄𝗼𝗿𝗹𝗱 𝘁𝗲𝘀𝘁𝘀 𝗼𝗳 𝘁𝗵𝗲 𝗺𝗼𝗱𝗲𝗹'𝘀 𝗶𝗺𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀. • 8-step turbo inference — ultra-fast generation • Portraits, surreal art, text signage, creature design & more Watch Video: https://www.youtube.com/watch?v=SYJhzEdN1S0 Try it yourself: 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp

译SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

Chubby♨️@kimmonismus · 5月11日60

Cerebras inference chips aim for the biggest IPO globally so far this year Cerebras Systems is reportedly preparing to lift both the size and price of its IPO after investor demand for the AI chipmaker’s shares surged, with orders said to exceed available stock by more than 20 times. via Reuters Most people think Cerebras' chips are just faster for inference. They're also more efficient. GPUs are memory-bandwidth bound during inference. Every token requires reading the entire model from memory - and most compute sits idle waiting for data. Cerebras flips this with their Wafer-Scale Engine: one massive chip with on-chip SRAM instead of off-chip HBM. SRAM uses ~100x less energy per memory access than HBM. Less data movement = lower latency AND fewer watts per token. No wonder their IPO is 20x oversubscribed.

译AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。

向阳乔木@vista8 · 5月11日38

预判未来企业级的 API 网关产品会越来越多。 经常听到有公司头疼如何管理、分配员工的各种 AI API模型。 另外对企业来说,数据安全也很重要,应该不会直接用普通中转站。 虽然有Azure 和 亚马逊云,但公司规模和需要不同,市场空间还是有的。 图中是一个海外的此类产品,不知道国产的有没有

译随着企业广泛应用GPT、Claude等AI模型,如何安全、高效地管理和分配内部员工的AI API调用权限成为普遍痛点。出于数据安全考虑,企业通常不会直接使用普通中转服务。尽管Azure和亚马逊云提供相关解决方案,但不同公司的规模与定制化需求差异显著,这为专门的企业级API网关产品创造了市场空间。海外已有此类产品出现,国内市场也存在相应机会。

阿绎 AYi@AYi_AInotes · 5月11日71

喵个咪,这就是国家队的含金量啊, 中国移动这个老登做个中转站,央视直接给你打广告, 入口在移动云官网搜"MoMA"就能找到,据说现在还有万亿级Token体验包可以领, 建议先拿自己常用的任务测一下速度和效果,再决定要不要转,要是跟中国移动一样坑的话那就没必要

译中国移动推出的AI模型中转平台MoMA,标志着“国家队”正式进入AI基础设施领域。该平台已接入DeepSeek、通义千问等300多个主流模型,并通过央视新闻进行宣传。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是掌握行业定价权与未来的关键。用户可在移动云官网搜索“MoMA”获取体验包,建议先行测试实际效果。此举意味着AI行业竞争已上升至基础设施层面。

ginobefun@hongming731 · 5月11日50

#BestBlogs 早报 2026-05-11 今日主题: - Eric Ries 的《Incorruptible》问的是:当公司赢了之后,组织结构如何对抗腐化?他的答案是三种「不锈钢螺栓」:公益公司章程、信任型治理、基金会控股,每一种都是把使命嵌入结构而非依赖人心。 - http://Trigger.dev 的 Eric Allam 问的是:当 AI Agent 的工作时长从分钟延伸到数天,建立在「无状态」假设上的计算范式如何演进?他的答案是把持久化拆成两层:上下文日志负责记忆,执行快照负责状态,Agent 等待时可以完全关机,恢复只需毫秒。 - Mistral 的 Samuel Humeau 则展示:当音频生成开始把自己当成一个语言建模问题:tokenize 音频帧、自回归预测、预训练→对齐→推理时扩展——LLM 走通的那条路,正在被 TTS 一步步复刻,而 17 毫秒的首包延迟是这条路目前的技术标杆。

译Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。

Orange AI@oran_ge · 5月11日39

未来每个团队都是在做 harness 工程,每个人都需要理解这套框架 虽然有一些非共识的点,但这篇是个不错的综述

译推文指出,未来每个团队的核心工作将是“harness工程”,即构建和管理能够有效驾驭、引导AI模型(如GPT、Claude、LLaMA)的框架与系统。这要求团队中的每个人都理解并掌握这套方法论。尽管其中存在一些非共识的观点,但被引用的文章被认为是对这一领域趋势的出色综述,为理解未来的工作范式提供了关键参考。

OpenRouter@OpenRouter · 5月11日72

Docs from @NousResearch on how to set up Pareto Code in Hermes: https://hermes-agent.nousresearch.com/docs/user-guide/configuration#openrouter-routing--pareto-code-for-auxiliary-tasks

译@NousResearch 关于如何在 Hermes 中设置 Pareto Code 的文档:https://hermes-agent.nousresearch.com/docs/user-guide/configuration#openrouter-routing--pareto-code-for-auxiliary-tasks

阿绎 AYi@AYi_AInotes · 5月11日62

Honestly, Levelsio’s post today is the sharpest industry signal I’ve seen all week. Everyone’s doing the math—Cloudflare comes in at nearly two-thirds cheaper than Postmark. For the past decade, email providers have charged a premium for two things: A better SDK, and more reliable delivery. Now both of those advantages are gone. Take a typical mid-to-large SaaS sending a million emails a month: Postmark charges $1,206. Resend: $650. SendGrid: $600. Cloudflare: just $354. And Amazon SES: as low as $100. The real kicker? Levelsio dropped a complete migration prompt. Throw it into Cursor or Claude, and you can move your whole project’s email system in ten minutes. What used to take a week of work from the ops team can now be done by a single developer in the time it takes to drink a coffee. The technical barriers are gone. The integration costs are gone. All that’s left is price. He’s already split his sending across three subdomains, and specifically warned: new IPs need a three-month warm-up—absolutely don’t move transactional emails first. People stuck with pricier options like Postmark or Resend because it was easier. But now Cloudflare’s pricing is near SES levels, while offering way better domain management and ecosystem experience. I’ve got a feeling every indie dev and small-to-mid SaaS will gradually migrate this way. Now that’s what real infrastructure commoditization looks like.

译Levelsio的推文揭示了电子邮件发送服务正快速商品化。价格对比显示,发送百万封邮件的月费差异巨大:Postmark为1206美元,Resend为650美元,SendGrid为600美元,而Cloudflare仅需354美元,Amazon SES甚至低至100美元。传统提供商在SDK和投递可靠性上的优势已消失,AI工具(如Cursor或Claude)能通过迁移提示在十分钟内完成系统切换,极大降低了技术门槛和集成成本。Cloudflare的定价已接近SES,同时提供更优的域名管理和生态体验,预计将推动独立开发者及中小型SaaS向低成本方案迁移。

SemiAnalysis@SemiAnalysis_ · 5月11日62

SPEED IS THE MOAT: AMD ROCm software stack has improved performance by over 75x in the last 14 days since DeepSeekv4 launch. The performance comes from fusing mHC operations & also fusing RoPE hadamard transformations to reduce cpu overhead & improve HBM memory utlization. Furthermore, other kernels like the attention indexer & kvcache compressor has been written using TileLang & Triton for fast development velocity. Another 5x performance improvement is needed to catch up to single node aggregated B200 performance & then another 1.5x is needed to catch up to PD disaggregated B200 performance, which is within the realm of possibility for AMD within the next couple of weeks. Great work to HaiShaw, Thomas, @roaner, @AnushElangovan for this rapid improvement.

译自DeepSeek-V4发布后14天内,AMD ROCm软件栈性能提升超过75倍。这一飞跃主要得益于融合mHC操作和RoPE哈达玛变换,有效降低了CPU开销并提高了HBM内存利用率。同时,团队使用TileLang和Triton快速开发了注意力索引器和KV缓存压缩器等核心组件。为追赶业界标杆,AMD仍需再提升5倍性能以匹配单节点聚合B200,并额外提升1.5倍以达到PD disaggregated B200水平,预计未来几周内有望实现这一目标。此快速进展离不开HaiShaw、Thomas、@roaner和@AnushElangovan等人的贡献。

elvis@omarsar0 · 5月11日57

// Scalable Patterns for Agentic AI Workflows // Besides context engineering, we should be putting a lot more system engineering efforts around agents. This paper shows an example of why it matters. (bookmark it) Let's start with an important question: Where does your agentic RAG pipeline actually lose time? It's almost never the LLM call. It's usually the data plane underneath. Serialization between preprocessing, embedding, and vector retrieval, plus coordination overhead between distributed services. New work introduces AAFLOW, a unified distributed runtime that models agentic workflows as an operator abstraction over Apache Arrow and Cylon. A zero-copy data plane connects preprocessing, embedding, and retrieval directly. Resource-deterministic scheduling and async batching cut coordination cost. The result: up to 4.64× pipeline speedup and 2.8× gains in embedding and upsert phases, with comparable LLM throughput. None of that comes from LLM inference acceleration. It all comes from cleaner data flow. Paper: https://arxiv.org/abs/2605.02162 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译智能体RAG流程的瓶颈通常不在大语言模型调用,而在于底层数据平面的序列化与分布式协调开销。新研究提出的AAFLOW是一个统一分布式运行时,将智能体工作流建模为基于Apache Arrow和Cylon的算子抽象,通过零拷贝数据平面直接连接预处理、嵌入和检索环节,并采用资源确定性调度与异步批处理降低协调成本。该方案实现了高达4.64倍的流水线加速,嵌入与更新阶段性能提升2.8倍,且所有收益均源于数据流优化,并未涉及大语言模型推理加速。

宝玉@dotey · 5月10日64

http://x.com/i/article/2053376950094249984 # 裁员潮将持续,直到我们学会发掘 AI 的商业价值【译】 作者:Arnav Gupta 在我们公司的高层办公室里,某处正躺着一份多达 8000 人的裁员名单。我有 10% 的概率在这份名单上。再过几天,也就是 5 月 20 日,我就能知道自己的命运了。 看到今天 Coinbase 宣布的“AI 裁员”消息,我决定写下这篇文章。我特意赶在 5 月 20 日之前动笔,因为我想分享一些最真实的看法,不带任何“我是走是留”的个人情绪。这些想法不仅与我是否被裁无关,也不仅仅局限于我所在的公司。它们来自我那些在各大中型企业工作的朋友们的真实心声。 现在有大量的文章在争论:这新一波的裁员潮(大家普遍认为是从杰克·多西裁掉 Square 40% 员工开始的)到底是因为 AI 导致的,还是仅仅在搞“AI 洗白 (AI-washing)”(指企业借着拥抱 AI 的名义,来掩盖其他商业失败或裁员的真实目的)。我不想在文章里塞满各种新闻和论文的链接来折磨你,这些内容你可能早就看过了,或者只需在谷歌搜一下、问问 ChatGPT 就能找到。 ## 备受吹捧的“AI 生产力”与难以捉摸的证据 AI 真的让我们更高效了吗?这真是一个充满争议的重磅问题!如果我们反向思考一下,断言“AI 什么都没改变”,我想哪怕是那些最怀疑 AI 价值的人,也不会同意这种说法。尤其是在科技公司里,AI 使用量的火箭式飙升是摆在眼前的事实。即便是那些最保守、给 AI 预算设限、不给员工配备 AI 工具的公司,也同样不可否认有一部分工作实质上是 AI 完成的——哪怕员工只是苦哈哈地在谷歌或微软办公套件里,偷偷用 Gemini 或 Copilot 来编辑文档。 至于那些更有远见、一头扎进 AI token(Token)(AI 模型处理文本的基本单位,企业使用大语言模型时通常按消耗的 token 数量计费)海洋的公司,比如优步(Uber)或 Shopify(我这里不包括像 Meta 或微软这种自己开发大语言模型的公司,也不包括 Vercel 或 Cloudflare 这种积极搭建 AI 基础设施的公司;只说纯粹的“使用者”),他们的 AI 用量简直陷入了疯狂。我们已经见怪不怪了:从 90% 到 100% 的代码由 AI 生成,到每周提交的代码审查(PRs/diffs)数量暴增 2 到 5 倍,再到上亿美元的全年 AI 预算在短短几个月内被消耗殆尽。 然而,像 Ed Zitron、Will Manidis、Gary Marcus 和 Michael Bury 这些科技评论家和投资人们,肯定会反问你一个直击灵魂的问题:既然如此,为什么这些公司的收入没有随之实现 2 到 5 倍的增长呢?为什么他们的 App 看起来和半年前几乎一模一样?如果 AI 真的那么高产,他们到底用 AI 生产出了什么?如果他们多写了 5 倍的代码,而终端用户却毫无察觉,那这些代码到底有什么意义?这是一个极其尖锐且合理的问题。 ## 投入(Input)、产出(Output)与成果(Outcome) 我们得先插播一点企业管理基础课。当一家快速成长、融资过剩、四处撒钱的中型公司终于面临资金干涸时,你去向某位资深的 CEO 请教。他会建议你请麦肯锡的人来看看情况。咨询顾问会在演示文稿的第一页放上一张纯白的幻灯片,上面用默认的 Arial 字体写着三个词:“投入、产出、成果”。 他们会向你解释一个大家都懂、却总爱遗忘的商业本质: 代码,仅仅是投入。 功能,才是产出。 用户心甘情愿为你的产品掏钱,这才是成果。 AI(或者至少像 Claude 企业版这样的产品)本质上是一个面向企业的软件服务(B2B SaaS)产品。你会发现,SaaS 产品的定价和营销方式各有不同。如果一个产品能直接改变“成果”,他们通常会直接从“成果”中抽成。想象一下这样的销售话术:“我们的工具能让您促成销售线索的速度提升 36%。马上体验吧,只需支付销售额 5% 的低廉服务费即可。” 这绝对能秒杀客户。在其他条件不变的情况下,如果你过去 100 天能谈成 100 笔单子,现在只需要 63 天。省下来的 36 天(如果我算得没错的话)能让你再多谈成 57 笔单子!也就是说,你的销售额潜在增长了 57%。任何人都非常乐意从销售提成里拿出 5%,来换取 57% 的额外收入。而且如果你不用这个产品,你一分钱都不用付。 你可能已经猜到我要说什么了——Claude 消耗 Token 的定价模式可完全不是这样。如果你的软件工程师像吸毒一样对用 Claude 编程上瘾(我才发现它俩的英文缩写居然都是 'cc'),每天生成 1 亿个 Token,那你每天就要为每个工程师掏 100 美元。 即使他们生成的代码有一部分因为跑不通而被扔进垃圾桶; 即使有些代码后来引发了严重的系统故障(SEV)(SEV 指 Severity,科技公司常用来代指导致服务中断的严重线上事故)而被紧急回滚; 甚至即使还有一部分代码,只是为了给内部工具换个皮,好让副总裁们看数据仪表盘时觉得更可爱; 统统都要照单全付。因为代码只是“投入”。虽然通常来说,只要方向正确,更多的“投入”往往会带来更多的“产出”,进而带来更好的“成果”。但是,当你在一夜之间把投入放大了 5 倍时,这条规律可就不一定适用了。你增加的这些“投入”,可能突然就变成了无头苍蝇,完全偏离了预期的“产出”或“成果”。 ## 到底是什么在阻碍我们! 过去,每次 CEO 或产品经理(PM)想做 10 件事的时候,开发团队总会说他们只能搞定最重要的两件,剩下的 8 件没时间做。理由是什么?因为写代码可不是过家家,开发一套复杂且能跑通的软件是需要耗费大量时间的。 嗯……但是现在代码几乎是免费的了。为什么我们还是没做那剩下的 8 件事呢? 答案有两个:一个是 CEO 和产品经理不爱听的;另一个是中层管理和资深员工不爱听的。 1. 其实那 8 个想法……根本就不靠谱? 仅仅因为 CEO 或产品经理脑海里闪过了 10 个念头,并不代表它们真的能转化为实际的业务成果。就算你真的做出了 10 个新功能(产出),也不能保证用户全买账并因此更多地使用你的 App(成果)。事实上,正因为以前开发资源有限,这种“摩擦力”逼迫大家不得不进行更激烈的争论,从而在那些糟糕的想法消耗过多资源之前早早毙掉它们,选出最棒的那两个。而现在,写代码变得又快又便宜,再去争论想法的好坏似乎显得毫无意义。就算你试图反驳他们,你觉得能阻止 CEO 或 PM 转身自己去向 Claude 提需求吗?算了吧,连试都不用试。 1. 让所有人“对齐”太痛苦了。 我们都知道这有多折磨人。首先要让所有利益相关者对“为什么”要做这件事达成共识;接着,还得另外开会讨论具体“做些什么”;最后,大家还得再为“怎么做”拉扯一番。团队数量越多,卡在“对齐地狱”里的项目就越多。以前由于写代码慢,这个问题被掩盖了。现在倒好,“做些什么”一旦拍板,立刻就有人通宵搞出个最小可行性产品(MVP)(用最低成本开发出刚好能展示核心理念的产品,用于快速试错),并在第二天立马安排下一场会议。在会上,你惊讶地发现另一个团队居然也偷偷搞了个 MVP!更要命的是,因为你们基于不同的假设,两个产品运作的逻辑南辕北辙。 当然,你们可以坐下来慢慢磨,讨论谁的假设才是正确的。 但说实话吧。手握无限 Claude Token 的你和你的团队,才懒得这么干呢。另一个团队也不会。你会毫不犹豫地转身投入 Claude 的怀抱,让它按照你认为最完美的方式,把对面团队的工作重新实现一遍。而 Claude 只会乖巧地回一句:“您说得太对了!”,然后立刻开始敲代码。 ## 裁员到底能解决什么问题? 好吧,感谢你耐心听我念叨了半天这些显而易见的大道理。我知道你们想看最核心的干货。裁员到底能达到什么目的?按照我的假设,如果 AI 并没有真正做到一对一地替换掉 30% 的员工(这点大家应该能达成共识吧?虽然在很多任务上,它比初级白领强,但在另一些任务上又不如人类——它绝对不是可以直接拔插替换的零件,更不可能直接取代一家公司 10%、20% 甚至 30% 的人)。 既然如此,裁员的逻辑在哪?因为它能立竿见影地解决两个摆在台面上的短期问题。 1. 抵消“AI 支出” 这其实就是最基础的现金流算术题。显而易见,如果你那些对 Claude 上瘾的工程师们每天都在 Claude 上挥霍 100 美元(也就是每月 2500 美元,每年 3 万美元),这笔钱在印度已经抵得上一个软件开发工程师(SDE)的全部薪水了;在欧洲能抵半个 SDE;在美国也能抵四分之一个。 如果做一个最简单粗暴的计算:假设在一家扁平化的公司里,所有员工都是 SDE。为了维持现有的工资支出总额(包括购买 Token 的花销),你必须裁掉 50%(印度)、33%(欧洲)或 20%(美国)的员工。 事实上,既然 AI 的使用量正在无视一切地疯狂增长,而公司的收入却没有出现相应的增长,裁员就成了必然选择。否则,公司的资产负债表就会彻底崩溃。如果你的投入成本增加了 50%,但最终的商业成果却毫无起色甚至一成不变,那你整个软件开发生命周期的单位经济效益就完全崩盘了。 假如我们真正学会了如何使用 AI——弄清楚了如何让增加 50% 的投入成本转化为增加 50% 的收入成果,我们就不用走这一步了。但是,正因为你还没学会,所以你们当中的一些人就必须卷铺盖走人,好腾出钱来给 Anthropic 开工资。 1. 削减“对齐税” 毫无疑问,任何一家大公司的体量,都远远超出了其单纯为了“生存”所需的规模。这正是大公司的特点,大型组织注定会堆积“组织脂肪”,这是组织架构设计的必然结果。在这些公司里,即使有人离职,系统照样能运转,因为总有别人知道他以前是干嘛的。在很多大厂,你甚至可以安心休半年产假,你负责的项目依旧安然无恙。这些都是好现象!但这同时也是一个铁证:如果裁掉一部分人,公司绝不会立刻瘫痪。恰恰相反,在经历了最初几周的系统性阵痛后,在接下来的几个月里,运转速度甚至会变快! 还记得前面提到的那两个为了技术方案僵持不下的团队吗?很简单,只要你裁掉其中一个团队,然后让留下的那个团队熬几个通宵把活干完——他们就再也不用和任何人“对齐”了。我们无法预知长期会发生什么(或者套用经济学家凯恩斯的话——“从长期来看,我们都死了”),但在短期内,裁掉大企业中 10-20% 的员工,只会让工作节奏变得更快。 大企业随着时间推移,不可避免地会积累冗余、人浮于事,就像积累技术债务一样积累起大量的“组织债务”。这就是大企业的通病。今天裁掉 10% 的人,也无法阻止两年后老毛病复发。但是,当你看到所有人都在吹嘘自己比以前多提交了 5 倍的代码,却因为被其他团队卡脖子而迟迟无法上线时,最直接、最粗暴的解药显然就是:裁掉一些人,这样就没人互相卡脖子了。 ## 这就是 AI 裁员,哪怕 AI 并没有直接取代你的位子 你的工号被虚拟机上运行的一个新 Claude 实例取代了吗?我们都知道事情并非如此。 尽管如此,公司里是不是有许多曾经需要你在 VS Code、Figma、Canva 或 Google Docs 里敲敲键盘、点点鼠标才能完成的工作流程,如今却变成了别人(那些本来需要你提供这些工作成果的人)直接冲着大语言模型吼一嗓子写个提示词,再也懒得来找你帮忙了?这也是不争的事实。 这些裁员到底算不算“AI 洗白”?也就是说——公司是不是本来就存在各种与 AI 无关的根本性问题(比如过度招聘、利润下滑、竞争压力、糟糕的商业决策),现在只是拿 AI 当个裁员的“借口”?嗯,某种程度上这也说得通。 你可能还会发现,如果把这段时间所有 CEO 发的“裁员邮件”收集起来,你甚至会觉得他们是不是拉了个聊天群,聚在一起通气写的这些邮件。“AI 原生小组”、“写代码的管理者”、“增加管理跨度”、“扁平化架构”、“管理 AI 智能体团队”……你会发现这些新鲜词汇如出一辙地出现在每一封邮件里。简直就像是他们给 GPT 喂了同一段提示词一样。 但真相是,即使这些裁员不是因为 AI 直接取代了你,即使它们夹杂着“AI 洗白”的成分,这些裁员归根结底依然是因为 AI 引起的。而且,这场裁员潮将一直持续,直到我们真正学会如何使用 AI。直到我们学会如何将海量的 AI Token 转化为实打实的商业成果,而不仅仅是代码投入;直到我们学会让组织间的“对齐”速度,跟上全新世代的编码速度;直到我们弄明白,在原本那 2 个好点子和 8 个馊主意之外,如何利用这多出来的生产力去追逐另外 10 个充满潜力的新想法。 在我们真正搞清楚 AI 究竟如何推动全球 GDP 增长之前,为了填补那高达 700 亿美元(OpenAI 与 Anthropic 的企业级营收总和)的年度 Token 开销,企业只能通过削减员工薪水来“拆东墙补西墙”。而在我们学会如何更高效地疏通团队间互相卡脖子的现象之前,解决问题的办法永远只有一个——直接把我们从组织架构图上抹掉。 还有 15 天,我就能知晓自己的命运了。但不管结果如何,我想我已经知道了原因。哪怕当时坐在角落那间宽敞的 CEO 办公室里做决定的人是我,我也不知道自己能不能做得更好,说不定我也只会和其他拉群的 CEO 们一样,做出如出一辙的选择。

译企业AI使用量激增,代码生成量暴涨,但收入未同步增长。核心问题在于企业混淆了“投入”与“成果”:AI生成的大量代码只是成本投入,而非能带来收入的商业成果。AI按Token消耗定价,增加了企业成本,却未直接提升价值。过去开发资源有限迫使团队聚焦高价值想法,如今“代码免费”导致糟糕想法和团队协作问题激增,浪费资源。为抵消激增的AI支出并维持现金流,裁员成为直接的财务手段。只有当企业学会将AI增加的成本转化为相应收入增长时,裁员潮才可能停止。

swyx 🌉@swyx · 5月10日66

OK I'VE BEEN SO EXCITED i could barely keep this a secret all week and it's finally official MY HOME COUNTRY'S MINISTER OF FOREIGN AFFAIRS (equiv to Secretary of State) IS A HUGE NANOCLAW FAN (check @VivianBala, that's really him, not an intern) AND WILL BE KEYNOTING @AIDOTENGINEER SINGAPORE (with NanoClaw creator @Gavriel_Cohen right after) NEXT WEEK Usecases like his are what I have been hoping to promote with the international AIE partnerships and @agrimsingh and @SherryYanJiang crushed it with this one. governments waking up to AI and joining @aiDotEngineer: UK: Chief AI Officer Singapore: Cabinet Minister who's next??

译新加坡外交部长维维安·巴拉克里希南将在@AIDOTENGINEER新加坡会议上发表主题演讲,分享他使用开源AI工具构建“第二大脑”工作流的经验。此前,他在GitHub上公开了个人AI技术栈的完整架构,涉及树莓派、Claude、本地嵌入和知识图谱等技术,这一举动受到全球AI社区关注,体现了政府高层对AI技术的直接、公开且务实的参与态度。继英国设立首席AI官后,新加坡内阁部长的深度参与标志着政府正积极拥抱AI。巴拉克里希南的实践表明,有意义的AI讨论应超越抽象层面,需通过实际技术参与来理解其参数,而新加坡正成为此类深度实践的发生地。

Berryxia.AI@berryxia · 5月10日65

兄弟们! 不要重复造轮子,直接拿这个31.4K Star的开源来干吧! 字节跳动把 UI-TARS-desktop 开源了,看了一眼,这个项目已经上线快一年了! 目前 Star 数已经来到 31.4k,而且增长速度还挺稳。 24 小时增长日榜第一! 这是一个原生的桌面 GUI Agent,你直接装在电脑上就能用自然语言指挥它操作各种应用。 核心就是靠截屏 + 视觉模型看懂当前屏幕,然后精准控制鼠标和键盘。 想象一下,你直接跟它说“帮我打开 VS Code 把自动保存打开”,或者“去 GitHub 看下这个 issue”,它就能自己截屏、识别界面、点按钮、输入文字,整个过程全在本地跑,数据一点都不往外传,隐私完全自己掌握。 它支持 Windows 和 macOS,还能操作浏览器,既可以控制本地电脑,也支持远程电脑和浏览器模式。 项目里自带 SDK,开发者想基于它搭自己的自动化工具也特别方便。 最近他们更新到 v0.3.0,CLI 命令行版本也更成熟了,带流式输出和时间统计,用起来更顺手。 想玩的同学可以直接去仓库看 quick-start 文档,几步就能跑起来本地操作。 感觉本地桌面 Agent 这条路又多了一个实打实的靠谱选择。 原项目:https://github.com/bytedance/UI-TARS-desktop 想试的同学可以去仓库 star 一下,支持一下。

译字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。

Berryxia.AI@berryxia · 5月10日54

推荐,可以试试。 docu. md 阅读插件👇

译针对“HTML比Markdown更适合AI”的言论,开发者@xicilion表示反对,并力荐其开发的docu.md阅读插件。他开发此插件旨在证明Markdown同样优秀,并希望推广这个自认为非常强大的工具。主推文作者对此表示认可并进行了推荐。

swyx 🌉@swyx · 5月10日41

this is a big deal, on the order of Kelsey Hightower’s “Kubernetes The Hard Way” and probably all ai engineers should go thru this once mostly i advocate “just in time learning”, but this is one scenario you want “just in case”

译这是件大事,其重要性堪比Kelsey Hightower的《Kubernetes The Hard Way》,可能所有AI工程师都应该至少经历一次。 虽然我通常主张“即时学习”,但这是少数需要“以防万一”学习的情况。

Tencent Hy@TencentHunyuan · 5月9日60

The free period on @OpenRouter has ended. During these two weeks, Hy3 preview reached: #1 in overall token usage #1 in coding #1 in tool calls 15.4% market share across all providers Hy3 preview remains available on OpenRouter at competitive pricing. Keep building — and keep the feedback coming. https://openrouter.ai/tencent/hy3-preview

译@OpenRouter 的免费期已结束。 这两周期间,Hy3预览版达成: 总令牌使用量排名第一 代码生成排名第一 工具调用排名第一 在所有供应商中占据15.4%市场份额 Hy3预览版仍可在OpenRouter以有竞争力的价格使用。继续创造——并请持续反馈。 https://openrouter.ai/tencent/hy3-preview

歸藏(guizang.ai)@op7418 · 5月9日63

当前 AI 产品演进已经确立了一个清晰的行业共识: 采取数据与表现分离的架构,以 Markdown 负责底层逻辑与记忆的纯净存储,用 HTML 实现对外的高密度交互与展示。 这个思路的脉络是,前几天借着 Obsidian 作者提出 Markdown 是 AI 内容谢林点的观点,我发散讨论了当前 AI 原生格式主要分为 Markdown 和 HTML。 刚好今天 Claude Code 的作者也发文印证了这一点,他提到自己主要的对外分享形式已经全面转向 HTML。这两位前沿开发者的观点结合在一起,非常完整地勾勒出了这套方案的底层逻辑。 在这个架构中,Markdown 的绝对角色是底层的逻辑和记忆。所有的事实性内容都必须使用 Markdown 存储,它作为核心的底层 Memory,是最适合作为原始数据的载体。 而 HTML 则全面接管了表现层和对外展示。Markdown 最大的缺陷在于篇幅变长后极难阅读和理解,但 HTML 可以通过精细的排版组织、空间定位和视觉元素,达到极高的信息密度,同时还能支持极其丰富的可交互形式。 HTML 也有明显痛点,极不适合做状态的版本控制。 在产品的迭代过程中,HTML 不能作为原始数据直接供 AI 消费。因为它内部混杂了大量的代码结构和样式等非事实类内容,这不仅会让人类在审阅版本差异时面临巨大的噪音,也会让 AI 浪费大量的 Token 额度。 所以构建 AI 产品的核心就在于彻底分离数据层和表现层。底层数据应该继续以 Obsidian 这种成熟的 Markdown 组织形式为核心运转; 而在遇到需要对外分享或交流的场景时,再将内容渲染为 HTML,并部署到类似 S3 这样的平台上,让用户拥有一键打开就能直接消费的顺滑体验。 未来的 AI 产品也必然会沿着这条数据与表现解耦的路径继续发展。

译当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。

SiliconFlow@SiliconFlowAI · 5月9日55

congrats🎉 if you're looking to get started, we've got a step-by-step guide on how to use it with SiliconFlow 👇

译恭喜🎉 如果你想开始使用,我们有一个关于如何与SiliconFlow一起使用的逐步指南👇 [引用 @NousResearch]:Hermes Agent 现已在全球 @OpenRouter 代币排名中位列第一。虽然我们的旅程刚刚开始,但我们想借此机会感谢我们的贡献者、支持者和用户所做的一切,让我们走到今天。

Berryxia.AI@berryxia · 5月9日66

人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。 现在LLM其实也在自然地做同样的事。 前馈层里95%以上的激活值几乎为零。 但GPU却因为硬件设计,狠狠惩罚了这种“偷懒”行为,反而让模型跑得更慢。 Sakana AI这次和NVIDIA联手,把这个硬件矛盾彻底解决了。 他们发明了TwELL(Tile-wise ELLPACK)这种全新稀疏格式 + 定制CUDA内核,直接把稀疏性“重塑”成GPU最喜欢的样子。 结果在H100上,训练和推理速度直接提升超20%,同时还大幅降低了内存占用和能耗。 这不仅是理论上的小改进,也是真正将“让模型少算”变成了“让模型更快”的现实方案。 论文、博客和代码已经全部开源见评论区!

译现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。

ginobefun@hongming731 · 5月9日47

#BestBlogs 早报 2026-05-09 今日主题: - OpenAI 把 Codex 推进浏览器、Anthropic 给智能体装上记忆与梦想机制,前沿大厂正在让 Agent 从单次任务走向跨会话自学习与浏览器原生执行。 - 能力跑得越快,组织结构的牵绊越显眼:阿里云开发者一篇深度反思直指传统分工与多仓库架构是 Agent 效率的真正瓶颈。 能力扩张与组织重塑两条主线交织,是值得放慢节奏细看的一期早报。

译OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。

Tibo@thsottiaux · 5月9日72

You can just migrate things

译你可以直接迁移东西

Google AI Developers@googleaidevs · 5月9日22

End-of-week call for community builds! Have a project or demo that showcases Gemma 4 Multi-Token Prediction (MTP) drafters, File Search tool updates, or Webhooks in the Gemini API? Share them in the comments to let them shine 🌟

译周末社区作品征集! 你有展示 Gemma 4 多令牌预测(MTP)草稿器、文件搜索工具更新或 Gemini API 中 Webhooks 的项目或演示吗? 在评论区分享出来,让它们发光 🌟

SemiAnalysis@SemiAnalysis_ · 5月9日59

Datacenter developers are increasingly planning projects in unincorporated county land, and it's not an accident. Outside city limits, they can sidestep city council approvals, municipal zoning votes, and urban land-use reviews. This is redrawing the map of where large-scale AI infrastructure gets built. (1/4) 🧵

译数据中心开发商正越来越多地在非建制县土地上规划项目,这并非偶然。在城市边界之外,他们可以避开市议会审批、市政分区投票和城市土地利用审查。这正在重新绘制大规模AI基础设施的建设版图。(1/4) 🧵

Google AI@GoogleAI · 5月9日49

Happy Friday! 🎉We’re officially 11 days away from I/O (but the launches keep rolling in). Here’s what happened this week: — The @googlehealth app, featuring a personalized health coach built with Gemini that uses your wearables, favorite health & fitness apps, and medical records to deliver proactive wellness guidance that fits your life — Multi-Token Prediction (MTP) drafters in @googlegemma 4, which can speed up your workflows by up to 3X — Automatic source organization and customizable Mind Maps in @NotebookLM — Gemini API File Search tool updates with multimodal support, custom metadata, and page citations — Webhooks (now available in the Gemini API) replace continuous polling with push-based notifications — Some of our most popular AI features, like Nano Banana, Veo, and @googlephotos Remix are now available on Google TVs

译距离谷歌I/O大会仅11天,公司本周推出了一系列AI产品更新。Google Health应用集成Gemini,利用穿戴设备、健康应用和医疗记录提供个性化健康指导。Gemma 4引入多令牌预测技术,可将工作流速度提升高达3倍。NotebookLM新增自动源文件整理和可定制思维导图功能。Gemini API的文件搜索工具升级,支持多模态、自定义元数据和页面引用,并加入Webhooks推送通知以替代轮询。此外,Nano Banana、Veo和Google Photos Remix等热门AI功能现已登陆Google TV平台。

Alibaba Cloud@alibaba_cloud · 5月8日66

Smart Studio: Self-host the latest AI 🚀 Stop jumping between platforms. Everything you need to test and serve models is now in one place: ✅ Instant SOTA Access: Run Qwen3.6-Max, DeepSeek-v4, and the latest models the moment they drop. ✅ Full Multimodal Support: Access multimodal and Image & Video generation models. ✅ Visual Model Lab: Compare open vs. closed-source outputs side-by-side. ✅ HF-to-API in Minutes: Turn Hugging Face model into live API in minutes. 🔗: https://int.alibabacloud.com/m/1000412330/ #AlibabaCloud #SmartStudio #ModelExploration #GenAI #AInnovation #LLM

译阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。

Alibaba Cloud@alibaba_cloud · 5月8日51

Alibaba Cloud processes 200+ TB of API logs daily across 60+ regions — with under 30s latency and 99.99% uptime. See how Alibaba Cloud uses Flink + SLS to turn TB‑scale gateway logs into second‑level metrics.

译阿里云每日处理60多个区域的200+TB API日志——延迟低于30秒,可用性达99.99%。 了解阿里云如何运用Flink + SLS将TB级网关日志转化为秒级指标。

向阳乔木@vista8 · 5月8日71

今天发布的Codex Chrome插件用上了,有几个坑: 1. 更新Codex,第三方API模式不支装插件,切为官方订阅登录。 2. Codex Chrome插件安装挑节点,比如香港地区不支持,有些节点会打不开页面。 3. 建议把Chrome设置为默认浏览器,有步骤会引导跳默认浏览器。 4. 如果死活连不上插件,可以重启电脑试试。 简单安装流程: 升级Codex -> 打开设置 -> 电脑控制(Computer Use)-> Google Chrome,安装浏览器插件 必须在Codex 对话中用 @ Chrome 调用。 Terminal 版 Codex虽然能调用Chrome skill,但找不到node_repl,有点坑。

译安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。

Berryxia.AI@berryxia · 5月8日68

这套设计财务/表格Agent 来说必须按头安利一下! Ramp Labs 把 Fast Ask 深度嵌入到了 Ramp Sheets 的 Spreadsheet Agent 里。 以前的 spreadsheet agent 检索信息时,要么读太少漏掉答案,要么读太多导致又慢又贵、还容易被无关 tab 分心。 现在他们专门造了一个叫 Fast Ask 的检索子代理,彻底把这个检索循环优化掉了。 真正的核心卖点是:主 Agent 再也不用自己瞎逛 workbook。 给它一个问题(比如“2025 年 3-5 月 South land 的累计净收入是多少?”),Fast Ask 就会自动导航表格、读取最相关的 range,最后只返回精炼后的答案给主 Agent 用,大幅减少上下文污染和 token 浪费。 他们和 Prime Intellect 合作,用 RL post-training 把开源 Qwen3.5-35B-A3B(激活参数约 30 亿)打造成这个专业模型。实际效果非常炸裂: •在生产环境里,主 Agent 之前有 17.8% 的 tool calls 都浪费在打开 tab、读无关 sheet 上,现在这个瓶颈被干掉; •Fast Ask 延迟接近 Claude Haiku 4.5,同时在 held-out eval 上比 Claude Opus 4.6 准确率还高 4 个百分点; •整体 agent 系统既更快、更准,还更省钱。 具体实现上也收获满满: •用了高度仿真业务的合成数据集,设计了 14 类任务(revenue rollup、invoice reconciliation、spend analysis 等),每类还生成多种自然语言变体,防止过拟合; •Adversarial workbook 故意塞 decoy sheet、partial helper summary、模糊 identifier,训练模型学会避坑; •工具接口极简(只有 get_workbook_metadata、read_ranges、run_python 三个),每 rollout 限 15 步,用 GRPO + 自定义 reward(1.0 correctness + 0.1 efficiency + 0.05 concise)让模型学会又准又快地输出可解析的 ANSWER; •整个训练在 Prime Intellect 的 RL 平台上跑了 100 step,off-policy 异步设计让 rollout 不卡训练。 完美展示了 RL post-training 在“窄而可验证”场景下的威力:把 retrieval 这种重复、延迟敏感、可精确打分的子任务交给小专精模型去做,让前沿大模型专心做判断和推理,而不是浪费算力在翻表格上。 对做 Agent、尤其是财务/表格类 Agent 的同学来说,这套环境设计、reward shaping 和 subagent 思路,值得直接拿来复用。

译Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。

SemiAnalysis@SemiAnalysis_ · 5月8日61

POV of @vllm_project maintainers optimizing DeepSeekv4 performance on day 0 and merging their initial model support PR over the weekend. SPEED IS THE MOAT

译@vllm_project 维护者在第0天优化DeepSeekv4性能 并在周末合并了他们的初始模型支持PR。 速度就是护城河

meng shao@shao__meng · 5月8日79

OpenAI 为官方 REST API 发布了 OpenAI CLI https://github.com/openai/openai-cli 把 http://platform.openai.com 上的每一个 REST 端点,一一映射成 openai <resource> <command> 的子命令,方便 shell 脚本、CI/CD、运维场景里直接调用。 下面这个时候可以用它: · 在 CI/CD、批处理、运维脚本 中调用 OpenAI:取代 curl + jq 的胶水。 · 需要 Admin API(用量、审计日志、项目/成员/证书/限流管理)且不想写 SDK 代码。 · 想要在 shell 里 快速试一条新端点,配合 --format explore 浏览返回结构。

译OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 `openai <资源> <命令>` 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 `curl` 与 `jq` 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 `--format explore` 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。

OpenClaw🦞@openclaw · 5月8日36

OpenClaw 2026.5.7 🦞 🔐 Native command + Active Memory auth tightened 📣 Telegram access groups fixed 🧰 Channels list + cron JSON cleaned up 🔌 Plugin install/update repairs hardened Boring fixes, useful boring. https://github.com/openclaw/openclaw/releases/tag/v2026.5.7

译OpenClaw 2026.5.7 🦞 🔐 Native command + Active Memory 认证加强 📣 Telegram 访问群组修复 🧰 频道列表 + cron JSON 清理 🔌 插件安装/更新修复加强 无聊的修复,有用的无聊。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.7

Epoch AI@EpochAIResearch · 5月8日56

Every AI chip consists of key components. If the supply of any component stalls, so can chip production. Introducing our AI Chip Components explorer, which tracks supply and consumption of logic, packaging, and memory to identify the bottlenecks shaping frontier AI compute.

译每块AI芯片都由关键组件构成。任何组件的供应停滞,都可能影响芯片生产。 我们推出AI芯片组件探索工具,追踪逻辑、封装和存储的供应与消耗情况,以识别影响前沿AI算力的瓶颈。

Chubby♨️@kimmonismus · 5月8日41

I often find it more exciting to read about the practical advantages of AI in real-world applications. Back in 2025, I already had the impression that Google's AlphaEvolve was flying under the radar. AlphaEvolve is a Gemini-powered coding agent for designing advanced algorithms. Since 2025, it has been used to improve their in-house TPUs. Just one example: "AlphaEvolve has been used as a regular tool to optimize the design of the next generation of TPUs. It also helped discover more efficient cache replacement policies, achieving in two days what previously required a concerted, human-intensive effort spanning months." These are the examples that illustrate why Dario Amodei repeatedly refers to exponential growth. There is no area where AI isn't already helping to make progress - hardware, software, everywhere.

译作者认为关注AI在实际应用中的优势更令人兴奋,并以Google的AlphaEvolve为例。AlphaEvolve是一个基于Gemini的编码智能体,自2025年起被用于优化下一代TPU的设计。它在两天内就发现了更高效的缓存替换策略,而此前这需要人类团队数月的密集工作。这类实例印证了AI能力呈指数级增长的观点,表明AI已在硬件、软件等各个领域推动进步。

Replit ⠕@Replit · 5月8日67

Next up in our commitment to security: Security Center 2.0. We’ve made it dramatically easier to understand your security posture across every Replit app you manage, and take action across all of them in bulk. With Security Center 2.0, you can: - Instantly identify risky apps - Fix critical vulnerabilities with Agent in seconds - Notify owners or un-publish apps with batch actions - Export software bill of materials (SBOM) to integrate with external tools

译我们安全承诺的下一步:安全中心2.0。 我们极大地简化了理解您管理的每个Replit应用安全状况的流程,并支持批量对所有应用执行操作。 通过安全中心2.0,您可以: - 即时识别高风险应用 - 数秒内通过Agent修复关键漏洞 - 通过批量操作通知所有者或下架应用 - 导出软件物料清单(SBOM)以集成外部工具

Yuchen Jin@Yuchenj_UW · 5月8日57

An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex coding for them every night. Databricks also gives engineers unlimited tokens. We're looking for cracked inference engineers to join us at Databricks AI to produce trillions of tokens, insanely fast. DM me if you have: - Contributed to open-source ML systems like SGLang/vLLM/PyTorch - Experience serving LLMs at large scale Databricks AI runs like a startup. Lots of exciting things to build!

译OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。

elvis@omarsar0 · 5月8日63

Pay attention to this one if you build multi-agent systems.

译研究显示,多智能体LLM系统在生产环境中的故障率高达41%至87%,且多数失败源于协调缺陷,而非基础模型能力问题。当前多数架构对比无法区分性能提升是来自协调优化还是更大的上下文窗口。该研究主张将协调视为一个独立、可配置的架构层,并通过控制变量实验验证:在保持LLM、工具、提示等所有条件不变时,仅改变协调结构即可显著影响系统表现。这为准确评估协调机制的价值提供了更清晰的方法论,并建立了将协调视为核心架构而非底层实现的理论框架。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月11日
21:38
OpenAI@OpenAI
69
今天我们正式启动OpenAI Deployment Company,以帮助企业构建和部署人工智能。 该公司由OpenAI持有多数股权并控制。它汇聚了19家领先的投资公司、咨询机构和系统集成商,共同帮助各组织将前沿AI技术部署到生产环境中以实现商业影响。https://openai.com/index/openai-launches-the-deployment-company/
OpenAI产品更新部署/工程
20:48
Berryxia.AI@berryxia
57
一次将大模型的格式搞清楚!盘它!

本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。

教程/实践端侧部署/工程
20:34
阿绎 AYi@AYi_AInotes
26
用户自建Claude中转站ccode.dev,宣称彻底解决模型冒充与售后难题

针对市场上Claude中转站普遍用Sonnet模型冒充Opus的问题,重度用户自建新站ccode.dev,宣称通过自研技术解决了信任痛点。该站经cctest.ai和hvoy.ai两个独立平台检测,显示为100%官方Claude Opus行为指纹,且延迟与速度表现优秀。其提供官方直连、AWS Bedrock和逆向渠道三种分层服务以确保稳定性,并推出1:1.5充值优惠及公测返额。此外,站点承诺假一赔三、支持开票与对公账户,旨在解决用户售后无门的普遍担忧。

产品更新部署/工程
18:53
Chubby♨️@kimmonismus
56
SK海力士正在测试英特尔的EMIB技术! 这家全球排名第一的HBM供应商(为英伟达及整个AI热潮提供动力)刚开始接收英特尔EMIB基板,并正在运行真实的2.5D封装测试,结合HBM与逻辑芯片。 这可能最终打破台积电CoWoS的垄断--让英特尔在AI封装竞赛中获得巨大推动(并解释其股价暴涨原因) 减少对台湾依赖。 增强美国实力? 英特尔正重返赛道?
行业动态部署/工程
18:39
SenseTime@SenseTime_AI
精选72
SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布

推荐理由:商汤把新模型U1的ComfyUI部署流程完整放出,还有实测视频,想在自己机器上跑国产图像模型的开发者可以直接抄作业了。
17:53
Chubby♨️@kimmonismus
60
Cerebras凭借其推理芯片能效优势,瞄准今年全球最大规模IPO

AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。

推理行业动态部署/工程
13:49
向阳乔木@vista8
38
企业级AI API管理需求催生专用网关市场

随着企业广泛应用GPT、Claude等AI模型,如何安全、高效地管理和分配内部员工的AI API调用权限成为普遍痛点。出于数据安全考虑,企业通常不会直接使用普通中转服务。尽管Azure和亚马逊云提供相关解决方案,但不同公司的规模与定制化需求差异显著,这为专门的企业级API网关产品创造了市场空间。海外已有此类产品出现,国内市场也存在相应机会。

现象/趋势部署/工程
13:34
阿绎 AYi@AYi_AInotes
71
中国移动上线AI模型中转平台MoMA,国家队入局AI基础设施竞争

中国移动推出的AI模型中转平台MoMA,标志着“国家队”正式进入AI基础设施领域。该平台已接入DeepSeek、通义千问等300多个主流模型,并通过央视新闻进行宣传。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是掌握行业定价权与未来的关键。用户可在移动云官网搜索“MoMA”获取体验包,建议先行测试实际效果。此举意味着AI行业竞争已上升至基础设施层面。

阿绎 AYi: 说个暴论,AI 行业的天,今天真的要变了, 前几天刚写了几篇推文分析过孙哥和特朗普家族为啥下场做AI 中转站,底层逻辑是中转站本质是AI水电煤的生意。 结果今天就看到央视新闻,中国移动上线了AI中转站! 各大社区里很多人都以为中国移动发的 ...

产品更新部署/工程
07:45
ginobefun@hongming731
50
早报摘要:抗腐化结构、长时AI Agent与音频生成新路径

Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。

智能体现象/趋势语音部署/工程
07:00
Orange AI@oran_ge
39
推文指出,未来每个团队的核心工作将是"harness工程",即构建和管理能够有效驾驭、引导AI模型(如GPT、Claude、LLaMA)的框架与系统。这要求团队中的每个人都理解并掌握这套方法论。尽管其中存在一些非共识的观点,但被引用的文章被认为是对这一领域趋势的出色综述,为理解未来的工作范式提供了关键参考。

宝玉: http://x.com/i/article/2053591256110940160

现象/趋势部署/工程
03:00
OpenRouter@OpenRouter
72
@NousResearch 关于如何在 Hermes 中设置 Pareto Code 的文档:https://hermes-agent.nousresearch.com/docs/user-guide/configuration#openrouter-routing--pareto-code-for-auxiliary-tasks

OpenRouter: Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...

产品更新编码部署/工程
01:34
阿绎 AYi@AYi_AInotes
62
邮件发送成本骤降,Cloudflare入局引发行业价格洗牌

Levelsio的推文揭示了电子邮件发送服务正快速商品化。价格对比显示,发送百万封邮件的月费差异巨大:Postmark为1206美元,Resend为650美元,SendGrid为600美元,而Cloudflare仅需354美元,Amazon SES甚至低至100美元。传统提供商在SDK和投递可靠性上的优势已消失,AI工具(如Cursor或Claude)能通过迁移提示在十分钟内完成系统切换,极大降低了技术门槛和集成成本。Cloudflare的定价已接近SES,同时提供更优的域名管理和生态体验,预计将推动独立开发者及中小型SaaS向低成本方案迁移。

@levelsio: ✉️ Trying @Cloudflare's new Email Sending feature today If you send 1,000,000 emails per month: - Postmark: $1,206/mo - ...

现象/趋势部署/工程
01:29
SemiAnalysis@SemiAnalysis_
62
速度即护城河:AMD ROCm软件栈性能在14天内提升超75倍

自DeepSeek-V4发布后14天内,AMD ROCm软件栈性能提升超过75倍。这一飞跃主要得益于融合mHC操作和RoPE哈达玛变换,有效降低了CPU开销并提高了HBM内存利用率。同时,团队使用TileLang和Triton快速开发了注意力索引器和KV缓存压缩器等核心组件。为追赶业界标杆,AMD仍需再提升5倍性能以匹配单节点聚合B200,并额外提升1.5倍以达到PD disaggregated B200水平,预计未来几周内有望实现这一目标。此快速进展离不开HaiShaw、Thomas、@roaner和@AnushElangovan等人的贡献。

产品更新开源生态部署/工程
00:58
elvis@omarsar0
57
智能体AI工作流的可扩展模式

智能体RAG流程的瓶颈通常不在大语言模型调用,而在于底层数据平面的序列化与分布式协调开销。新研究提出的AAFLOW是一个统一分布式运行时,将智能体工作流建模为基于Apache Arrow和Cylon的算子抽象,通过零拷贝数据平面直接连接预处理、嵌入和检索环节,并采用资源确定性调度与异步批处理降低协调成本。该方案实现了高达4.64倍的流水线加速,嵌入与更新阶段性能提升2.8倍,且所有收益均源于数据流优化,并未涉及大语言模型推理加速。

智能体arXiv论文/研究部署/工程
5月10日
16:01
宝玉@dotey
64
裁员潮将持续,直到我们学会发掘 AI 的商业价值【译】

企业AI使用量激增,代码生成量暴涨,但收入未同步增长。核心问题在于企业混淆了“投入”与“成果”:AI生成的大量代码只是成本投入,而非能带来收入的商业成果。AI按Token消耗定价,增加了企业成本,却未直接提升价值。过去开发资源有限迫使团队聚焦高价值想法,如今“代码免费”导致糟糕想法和团队协作问题激增,浪费资源。为抵消激增的AI支出并维持现金流,裁员成为直接的财务手段。只有当企业学会将AI增加的成本转化为相应收入增长时,裁员潮才可能停止。

现象/趋势部署/工程
15:32
swyx 🌉@swyx
66
新加坡外长公开AI技术栈并将在AI工程师会议发表主题演讲

新加坡外交部长维维安·巴拉克里希南将在@AIDOTENGINEER新加坡会议上发表主题演讲,分享他使用开源AI工具构建“第二大脑”工作流的经验。此前,他在GitHub上公开了个人AI技术栈的完整架构,涉及树莓派、Claude、本地嵌入和知识图谱等技术,这一举动受到全球AI社区关注,体现了政府高层对AI技术的直接、公开且务实的参与态度。继英国设立首席AI官后,新加坡内阁部长的深度参与标志着政府正积极拥抱AI。巴拉克里希南的实践表明,有意义的AI讨论应超越抽象层面,需通过实际技术参与来理解其参数,而新加坡正成为此类深度实践的发生地。

agrim singh: Where in the world can you find a senior government leader with a personal AI stack published on GitHub? How many would ...

开源生态行业动态部署/工程
09:44
Berryxia.AI@berryxia
65
字节跳动开源桌面GUI智能体UI-TARS-desktop,获31.4K星标

字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。

智能体开源/仓库部署/工程
07:44
Berryxia.AI@berryxia
54
针对"HTML比Markdown更适合AI"的言论,开发者@xicilion表示反对,并力荐其开发的docu.md阅读插件。他开发此插件旨在证明Markdown同样优秀,并希望推广这个自认为非常强大的工具。主推文作者对此表示认可并进行了推荐。

响马: 我为什么反对 html 比 markdown 更适合 ai 的言论呢? 因为我费老大劲开发了 https://docu.md 我要让更多人知道这个超腻害的阅读插件。😇

产品更新开源/仓库部署/工程
07:01
swyx 🌉@swyx
41
这是件大事,其重要性堪比Kelsey Hightower的《Kubernetes The Hard Way》,可能所有AI工程师都应该至少经历一次。 虽然我通常主张"即时学习",但这是少数需要"以防万一"学习的情况。

Ahmad: http://x.com/i/article/2050058966072524800

大佬观点部署/工程
5月9日
19:43
Tencent Hy@TencentHunyuan
60
@OpenRouter 的免费期已结束。 这两周期间,Hy3预览版达成: 总令牌使用量排名第一 代码生成排名第一 工具调用排名第一 在所有供应商中占据15.4%市场份额 Hy3预览版仍可在OpenRouter以有竞争力的价格使用。继续创造--并请持续反馈。 https://openrouter.ai/tencent/hy3-preview
行业动态部署/工程
11:35
歸藏(guizang.ai)@op7418
63
AI产品架构共识:数据与表现分离,Markdown存储与HTML展示

当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。

Thariq: http://x.com/i/article/2052796100608974848

数据/训练现象/趋势部署/工程
11:28
SiliconFlow@SiliconFlowAI
55
恭喜🎉 如果你想开始使用,我们有一个关于如何与SiliconFlow一起使用的逐步指南👇 【引用 @NousResearch】:Hermes Agent 现已在全球 @OpenRouter 代币排名中位列第一。虽然我们的旅程刚刚开始,但我们想借此机会感谢我们的贡献者、支持者和用户所做的一切,让我们走到今天。

Nous Research: Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...

智能体教程/实践部署/工程
08:35
Berryxia.AI@berryxia
66
人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。

现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。

hardmaru: The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...

arXiv推理论文/研究部署/工程
07:34
ginobefun@hongming731
47
AI智能体能力扩张遇组织瓶颈,跨会话学习与架构革新成焦点

OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。

智能体AnthropicOpenAI现象/趋势
01:55
Tibo@thsottiaux
72
你可以直接迁移东西

OpenAI: Just gonna leave this here. https://chatgpt.com/codex/switch-to-codex/

MCP/工具OpenAI产品更新编码
01:48
Google AI Developers@googleaidevs
22
周末社区作品征集! 你有展示 Gemma 4 多令牌预测(MTP)草稿器、文件搜索工具更新或 Gemini API 中 Webhooks 的项目或演示吗? 在评论区分享出来,让它们发光 🌟
Google其他搜索部署/工程
01:24
SemiAnalysis@SemiAnalysis_
59
数据中心开发商正越来越多地在非建制县土地上规划项目,这并非偶然。在城市边界之外,他们可以避开市议会审批、市政分区投票和城市土地利用审查。这正在重新绘制大规模AI基础设施的建设版图。(1/4) 🧵
现象/趋势部署/工程
00:54
Google AI@GoogleAI
49
谷歌I/O大会前11天持续发布多项AI产品更新

距离谷歌I/O大会仅11天,公司本周推出了一系列AI产品更新。Google Health应用集成Gemini,利用穿戴设备、健康应用和医疗记录提供个性化健康指导。Gemma 4引入多令牌预测技术,可将工作流速度提升高达3倍。NotebookLM新增自动源文件整理和可定制思维导图功能。Gemini API的文件搜索工具升级,支持多模态、自定义元数据和页面引用,并加入Webhooks推送通知以替代轮询。此外,Nano Banana、Veo和Google Photos Remix等热门AI功能现已登陆Google TV平台。

Google产品更新搜索部署/工程
5月8日
17:42
Alibaba Cloud@alibaba_cloud
66
阿里云推出Smart Studio,一站式自托管AI模型平台

阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。

产品更新多模态部署/工程
16:02
Alibaba Cloud@alibaba_cloud
51
阿里云每日处理60多个区域的200+TB API日志--延迟低于30秒,可用性达99.99%。 了解阿里云如何运用Flink + SLS将TB级网关日志转化为秒级指标。
行业动态部署/工程
15:14
向阳乔木@vista8
71
Codex Chrome插件安装使用注意事项

安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。

智能体教程/实践部署/工程
12:21
Berryxia.AI@berryxia
68
优化表格Agent检索效率:Ramp Labs集成Fast Ask子代理

Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。

Ramp Labs: http://x.com/i/article/2052422965019439105

智能体搜索教程/实践部署/工程
11:06
SemiAnalysis@SemiAnalysis_
61
@vllm_project 维护者在第0天优化DeepSeekv4性能 并在周末合并了他们的初始模型支持PR。 速度就是护城河
DeepSeek开源/仓库推理部署/工程
08:09
meng shao@shao__meng
精选79
OpenAI 为官方 REST API 发布 CLI 工具

OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 openai <资源> <命令> 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 curl 与 jq 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 --format explore 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。

jason liu: small ship / passion project, more details soon https://github.com/openai/openai-cli 1. call responses via cli with all ...

OpenAI产品更新部署/工程

推荐理由:OpenAI 官方出了 CLI,把所有 REST 端点映射成子命令,以后 shell 脚本里调 API 不用再写 curl+jq 胶水了,做 CI/CD 和运维的可以直接用。
06:11
OpenClaw🦞@openclaw
36
OpenClaw 2026.5.7 🦞 🔐 Native command + Active Memory 认证加强 📣 Telegram 访问群组修复 🧰 频道列表 + cron JSON 清理 🔌 插件安装/更新修复加强 无聊的修复,有用的无聊。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.7
产品更新部署/工程
06:10
Epoch AI@EpochAIResearch
56
每块AI芯片都由关键组件构成。任何组件的供应停滞,都可能影响芯片生产。 我们推出AI芯片组件探索工具,追踪逻辑、封装和存储的供应与消耗情况,以识别影响前沿AI算力的瓶颈。
产品更新部署/工程
04:31
Chubby♨️@kimmonismus
41
AlphaEvolve优化TPU设计,展现AI实际应用潜力

作者认为关注AI在实际应用中的优势更令人兴奋,并以Google的AlphaEvolve为例。AlphaEvolve是一个基于Gemini的编码智能体,自2025年起被用于优化下一代TPU的设计。它在两天内就发现了更高效的缓存替换策略,而此前这需要人类团队数月的密集工作。这类实例印证了AI能力呈指数级增长的观点,表明AI已在硬件、软件等各个领域推动进步。

Google大佬观点部署/工程
02:08
Replit ⠕@Replit
精选67
我们安全承诺的下一步:安全中心2.0。 我们极大地简化了理解您管理的每个Replit应用安全状况的流程,并支持批量对所有应用执行操作。 通过安全中心2.0,您可以: - 即时识别高风险应用 - 数秒内通过Agent修复关键漏洞 - 通过批量操作通知所有者或下架应用 - 导出软件物料清单(SBOM)以集成外部工具
产品更新部署/工程

推荐理由:如果你用Replit管理一堆应用,这个安全中心2.0的批量修复和SBOM导出是实打实的效率提升,但对个人开发者来说属于‘有比没有好’的更新。
01:13
Yuchen Jin@Yuchenj_UW
57
顶尖AI公司工程师日均消耗百亿token,Databricks招募高性能推理工程师

OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。

OpenAI现象/趋势部署/工程
01:06
elvis@omarsar0
63
研究显示,多智能体LLM系统在生产环境中的故障率高达41%至87%,且多数失败源于协调缺陷,而非基础模型能力问题。当前多数架构对比无法区分性能提升是来自协调优化还是更大的上下文窗口。该研究主张将协调视为一个独立、可配置的架构层,并通过控制变量实验验证:在保持LLM、工具、提示等所有条件不变时,仅改变协调结构即可显著影响系统表现。这为准确评估协调机制的价值提供了更清晰的方法论,并建立了将协调视为核心架构而非底层实现的理论框架。

DAIR.AI: Pay attention to this one if you build multi-agent systems. Coordination is as important as prompts or agent architectur...

智能体arXiv论文/研究部署/工程
‹ 上一页
1…1516171819…25
下一页 ›