AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 984 条
全部一手资讯X论文
标签「部署/工程」清除
Alibaba Cloud@alibaba_cloud · 5月25日36

At Qwen Conference 2026, Jian Zhai (Senior Solutions Architect at NVIDIA) hits the Foundation Model Forum to dissect Qwen Inference Optimization: Breakthrough Performance via NVIDIA Full-Stack Acceleration. Step into the AI-native momentum. 🚀 Stay tuned: https://click.qwencloud.com/m/20000000190/

译在2026年Qwen大会上,NVIDIA高级解决方案架构师翟健在基础模型论坛上深入解析《Qwen推理优化:通过NVIDIA全栈加速实现突破性能》。感受AI原生动力。 🚀 敬请期待:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月25日41

At Qwen Conference 2026, Jian Zhang (Intel Senior Cloud Solution Architect) joins the Agent Native Cloud Forum to discuss Building AI Agent Infrastructure with Intel Xeon: Fast, Reliable, and Cost-Efficient. Step into the AI-native momentum. 🚀 Stay tuned: https://click.qwencloud.com/m/20000000190/

译在2026年通义千问大会上,英特尔高级云解决方案架构师张健将加入Agent Native Cloud论坛,探讨如何使用英特尔至强处理器构建快速、可靠且高性价比的AI智能体基础设施。共同迈入AI原生时代。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/

SiliconFlow@SiliconFlowAI · 5月25日55

~15% off for @Kimi_Moonshot K2.6 on SiliconFlow💰 Input pricing: $0.90/M ➡️ $0.77/M Combined with → Top performance on @OpenRouter: 0.21% avg tool call error rate → 80%+ cache hit rate → FP8 quantization + Zero Data Retention Spend less, debug less, and ship more Don't miss this builders Get started now with Kimi K2.6 on SiliconFlow ↓

译@Kimi_Moonshot K2.6在SiliconFlow上享受约15%折扣💰 输入价格:$0.90/M ➡️ $0.77/M 结合 → 在@OpenRouter上表现顶尖:平均工具调用错误率0.21% → 缓存命中率超80% → FP8量化 + 零数据留存 花更少,调试更少,发布更多 开发者们别错过 立即开始使用SiliconFlow上的Kimi K2.6 ↓

宝玉@dotey · 5月25日50

想起当年的梗😂 “kimicli用python是彻底的失败立刻重构为ts” 没想到还是搞了个 TS 版的 kimi-code https://github.com/MoonshotAI/kimi-code

译Kimi官方推出了基于TypeScript和pi-tui重写的命令行工具kimi-code,替代了此前基于Python的kimi-cli版本。作者回顾了之前关于用Python重写失败的讨论,并提到目前正推动将一些在Claude Code上体验良好的功能整合到新工具中。项目已在GitHub开源。

ginobefun@hongming731 · 5月25日49

#BestBlogs 早报 05-26 今天 BestBlogs 早报精选 10 篇,3 篇深度精讲: 📌 Google 把 FDE 面试压缩到 2 天、OpenAI 斥资 40 亿成立独立部署公司,AI 商业竞争主战场已从训练转向落地; 📌 Anthropic 研究 PM 首度揭秘下一代 Claude 的「dreaming 机制」与意识研究; 📌 以及一篇反直觉洞察:超级个体不是被培训出来的,而是被完整 Closed-loop 激发的。 听播客 / 读图文版,链接在 http://BestBlogs.dev 👇

译早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。

Rohan Paul@rohanpaul_ai · 5月25日73

A large MoE model may be wasting half its expert compute on tokens that barely need expert help. In this paper 50% of expert computation removed, with almost no loss in accuracy. This makes already-trained MoE models like Qwen3 and GLM stop calling half their experts when a token is too easy to need them. Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. Shows that many MoE tokens do not need real experts, only permission to skip them. That sounds like a small routing trick, but it changes the economics of deployed language models. Standard MoE models already avoid using every parameter, yet they still spend the same expert budget on every token. ZEDA adds a strange new option to the router: experts that output exactly nothing. When the model routes a token to one of these zero experts, it is not making the model dumber; it is admitting that this token does not need another expensive transformation. The clever part is not the dummy expert, but the adaptation method. Instead of retraining the model from scratch, the original MoE becomes a frozen teacher, while the new dynamic version learns when it can safely skip work. Across Qwen3-30B-A3B and GLM-4.7-Flash, the result is roughly half the expert computation removed, with only marginal average accuracy loss and about 20% real inference speedup. The deeper finding is: compute use did not simply track task difficulty. The model spent more expert budget where uncertainty or teacher-student disagreement rose, while structured code and math fragments often needed less. That makes ZEDA feel less like pruning and more like attention to computational doubt. ---- Paper Link – arxiv. org/abs/2605.18643 Paper Title: "Post-Trained MoE Can Skip Half Experts via Self-Distillation"

译论文提出ZEDA框架,可将训练后固定的静态MoE模型(如Qwen3、GLM)转变为动态模型,允许路由器在token过于简单时跳过专家调用。实验显示,在Qwen3-30B-A3B和GLM-4.7-Flash上,ZEDA可移除约50%的专家计算量,仅带来轻微准确率损失,并实现约20%的实际推理速度提升。研究发现,计算分配主要依据模型的不确定性,而非单纯跟随任务难度。

Chubby♨️@kimmonismus · 5月25日57

Tech companies aren't hiding it anymore. Meta is laying off 8,000 people and spending $100 billion on AI data centers. Cisco's CEO called cutting 4,000 jobs "optimistically low." Intuit fired 3,000 workers to restructure around AI, then told the press it's "not about AI." Over 100,000 tech jobs gone in 2026 so far. TrueUp projects 370,000 by year end. The interesting part isn't the layoffs themselves but hat companies are now openly framing human headcount as a line item they're converting into GPU clusters. That used to be the quiet part.

译2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。

Ant Ling@AntLingAGI · 5月25日50

To accelerate developer adoption, we are offering a limited-time 75% discount for Ling-2.6-1T, 1T total parameters with 63B activation, on OpenRouter. Built for real production needs, it delivers strong intelligence with lower token overhead — no long reasoning traces required 👇

译为加速开发者采用,我们正在OpenRouter上为Ling-2.6-1T提供限时75%折扣。该模型拥有1T总参数和63B激活参数,专为真实生产需求打造,以更低的token开销提供强大智能——无需长推理链 👇

Rohan Paul@rohanpaul_ai · 5月24日45

Good GPU performance summaries - in 6 mints.

译6分钟内获得良好GPU性能总结。

Rohan Paul@rohanpaul_ai · 5月24日40

🇨🇳 China's Hangzhou Airport is now using its first track-guided bird-dispersion robot. Has directional sound devices, insect-killing lamps & cameras. Gives runways 24/7 protection with smart patrols, HD cameras, and a greener way to keep birds away.

译🇨🇳 中国杭州机场现已启用其首台轨道式驱鸟机器人。 配备定向声波装置、杀虫灯和摄像头。 通过智能巡逻、高清摄像头和更环保的驱鸟方式,为跑道提供全天候保护。

Rohan Paul@rohanpaul_ai · 5月24日54

🇨🇳 🇺🇸 China's Huawei’s new 122TB SSD shows how export controls can move innovation sideways instead of simply stopping it. Huawei just built a 122.88TB AI SSD by changing the package around the memory, not by matching Samsung’s most advanced 400+ layer 3D NAND. And a 245TB version discussed as a future step. High-capacity SSDs usually grow by stacking more NAND layers inside each chip, but Huawei’s access to those chips is blocked because its Entity List status restricts items tied to US technology. So it is not trying to win only by making taller 3D NAND stacks, where Samsung has already shown 400-plus-layer V-NAND work. Instead, Huawei is shifting the contest from the chip itself to the way chips are packed together. Huawei’s workaround is Die-on-Board, which puts NAND dies directly onto the circuit board, cuts out some normal chip packaging, and raises board-level density by packing more lower-density memory into the same device. Direct die placement creates heat and signal problems, but it shows how packaging can recover some of the capacity lost when a company cannot buy the best memory chips.

译华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul@rohanpaul_ai · 5月24日55

AI is turning into so very physical problem. You need land, grid power, permits, concrete, cooling, and long build cycles, which decide who gets compute. This is Vantage Data Centers that Oracle, and OpenAI are partnering on with a $ 15B+ investment.

译AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期,这些决定了谁能获得算力。 这是Oracle与OpenAI合作的Vantage数据中心项目,投资超过150亿美元。

Rohan Paul@rohanpaul_ai · 5月24日51

Somebody just ran one trillion param model (Kimi K2.5) on a single RTX 3060 12GB GPU at over 4 tokens/sec and 768GB of second-hand Intel Optane memory. What happened is that a sparse model met an unusual memory tier that could hold its enormous body while the GPU handled the most time-sensitive organs. i.e. the bulk of the sparse expert weights live in a larger, cheaper memory tier and are pulled into the computation as needed. This worked because Kimi K2.5 is a Mixture-of-Experts model, so it has 1T total parameters but activates only 32B per token. The RTX 3060’s 12GB VRAM holds latency-sensitive parts like routing, attention, dense layers, and shared experts. The huge expert weights sit in Optane PMem, configured as RAM, while 192GB DDR4 ECC acts as cache. He is using 6 Optane PMem (DCPMM) sticks. This retired memory format was made to bridge DRAM and SSD performance. The 768GB Optane configuration, using 6x128GB modules, does beat the best NVMe SSDs on latency by a wide margin, but remains 2x to 3x slower than DRAM. llama.cpp handled hybrid GPU/CPU inference, with tensor placement tuned through flags like override-tensor. The result was roughly 4 tokens/sec, which is slow for chat but impressive for a local 1T-parameter model on cheap retired enterprise hardware. The DDR4 acted as cache, the Optane acted as a giant memory pool, and llama.cpp pushed routing and other critical tensors onto the 12GB GPU.

译近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。

Rohan Paul@rohanpaul_ai · 5月24日62

Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy. DeepSeek is not trying to sell coding seats, it is trying to make Chinese memory, accelerators, and systems useful for frontier AI. Every recent DeepSeek move attacks a bottleneck that makes frontier models dependent on elite HBM-heavy GPU stacks: MoE activates only parts of a model, DSA reduces long-context attention cost, and V4-Pro’s official card says CSA/HCA cuts 1M-token single-token inference FLOPs to 27% and KV cache to 10% of V3.2. Engram, a separate research line, pushes the same logic from another side: let static knowledge live in scalable lookup memory, then fetch it predictably from host memory instead of forcing every fact through dense computation. That sounds like engineering detail until you see the business consequence. If models need less HBM and less brute-force compute, then second-best chips, abundant LPDDR, NAND, and customized ASICs become less second-best. Reuters has already reported a permanent 75% DeepSeek V4-Pro price cut, while noting Huawei Ascend supply constraints and expected supernode availability, which is exactly the kind of feedback loop that they wanted. DeepSeek is not only optimizing models for benchmarks, it is optimizing AI for a different industrial base. The prize is not the app layer. The prize is making scarcity programmable.

译DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

OpenClaw🦞@openclaw · 5月24日64

OpenClaw 2026.5.22 is live ⚡ Gateway/model startup paths got leaner 🧠 /models drops to ~5ms 🔒 npm packages ship locked deps 🪟 Windows install/update paths hardened Less waiting, fewer surprises. https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

译OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

SemiAnalysis@SemiAnalysis_ · 5月24日64

One of the threads we kept pulling on in our recent piece on how AI labs are solving the power crisis is that onsite gas has stopped being a fringe option, and quietly turned into the default planning assumption for the next wave of US training clusters. (1/4) 🧵

译我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是:现场天然气已不再是边缘选项,而是悄然成为美国下一代训练集群的默认规划假设。(1/4) 🧵

elvis@omarsar0 · 5月23日64

// Adapt the Interface, Not the Model // I am fascinated by the results across my cheap-model-plus-good-harness builds. This new paper also shows good signs of the code-as-agent-harness thesis. The idea is really simple. Do not touch the model. Instead, modify the runtime interface that wraps the frozen LLM. Then convert recurring interaction failures into reusable interventions on the harness side. The paper reports an average relative improvement 88.5% across 7 deterministic environments, 126 model-environment settings, and 18 backbones. A harness learned from one model trajectory generalizes to 17 other backbones. That tells you the harness is capturing environment structure, not model-specific patterns. If you ship agents in production, your harness work is more portable than you might assume. Paper: https://arxiv.org/abs/2605.22166 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

SemiAnalysis@SemiAnalysis_ · 5月23日55

FACT ALERT 🚨 : In modern agentic coding, 42% of the time is spent on CPU doing tool use such as editing files, running Bash scripts, running lints, etc. The economy of traditional cloud computing charges at $ per cpu core. In the economy of agents, the business model is $ per token thus to increase token revenue, you need to increase the amount of CPUs power u have so that you can generate your tokens.

译事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。

Rohan Paul@rohanpaul_ai · 5月23日52

Agentic AI may be forcing the old computing stack with lot more focus on CPU back into the center of the story. Here, Ark Invest CEO and CIO Cathie Wood quoting OpenAI's CFO Sarah Friar who has said - "people are chasing GPUs. They're going to be really shocked at how agentic AI activates CPUs" The market has spent years treating GPUs as the scarce ingredient, because training large models made parallel math look like destiny. But agentic AI changes the bottleneck. An agent does not simply ask one giant model for one answer; it plans, calls tools, checks memory, retrieves files, writes code, queries databases, and loops until the task is done. That means inference is not just matrix multiplication. It is orchestration, data movement, networking, storage, scheduling, and a lot of general-purpose work that CPUs still handle better than accelerators. ---- From "Bloomberg Podcasts" YT channel (link in comment)

译代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

Rohan Paul@rohanpaul_ai · 5月23日61

Cerebras reported 981 tokens/sec on the 1T-parameter Kimi K2.6 model. 6.7× faster than the next GPU cloud, validated by Artificial Analysis. The hard part is moving model weights and activations fast enough, because normal GPU clusters split the model across many chips and spend a lot of time passing data between them. Cerebras uses wafer-scale chips, meaning one processor is built across a full silicon wafer, so more of the routing happens on-chip with much higher bandwidth and lower delay. The real business claim is not just speed, but speed on a model big enough for enterprise coding agents, where every extra second slows testing, debugging, and iteration. --- cerebras. ai/blog/cerebras-kimi-k2-Enterprise

译Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度,处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证,是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计,大幅减少了芯片间通信延迟,从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要,能显著缩短测试、调试与迭代周期。

Anthropic@AnthropicAI · 5月23日63

Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners have found more than ten thousand high- or critical-severity vulnerabilities in essential software.

译上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。

swyx@swyx · 5月23日78

Kakuna: skills with checklists that only know how to harden your codebase /plan with it then let it /goal for a day, it comes back with same functionality but all the boring stuff done for you + an audit of its own work. focus on subagent parallelism and encodes strong opinions on how AI engineers should design apps for human and agent access/devops/product mgmt. instead of dark factory, go "mullet factory" - party in front (ship unique lovable features), dark in the back (timeless production principles). basically its the antientropy/antislop part of symphony broken out as its own thing not gonna go psychosis further than this but extend as you will. link below

译Kakuna是一款AI代理工具,旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流,模拟人类开发与运维流程,在保持功能不变的前提下,自动执行代码审查、测试补充、重构等“无聊”工作,并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例,其核心是“反熵增”与“反代码腐化”。例如,一次约16小时的运行能生成上百次提交,将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。

OpenRouter@OpenRouter · 5月23日60

OpenRouter is now supported in @warpdotdev! ❤️

译OpenRouter现已在@warpdotdev中得到支持!❤️ 工程师Dagm Assefa展示了如何连接DeepSeek和OpenRouter。 文档:https://docs.warp.dev/agent-platform/inference/custom-inference-endpoint/ 🔖

SemiAnalysis@SemiAnalysis_ · 5月23日44

Great BoM Analysis from our friends at Morgan Stanley A couple things to point out: 1. The memory value indicated here is referring to the LPDDR5x SOCAMM and the NVMe SSD. It does not include the HBM value, which is included in the GPU item. 2. The memory value indicated here is referring to the LPDDR5x SOCAMM and the NVMe SSD. It does not include the HBM value, which is included in the GPU item.ory at. 3. PCB content increase stems from the cableless design, which drives significant PCB area increase and material upgrades 4. The total BoM price indicated here is the OEM channel price. Hyperscaler and Neoclouds will have lower BoM compared to this. Our institutional clients have had these insights since February 2026 from our VR NVL72 BoM Report https://semianalysis.com/vr-nvl72-model/. We also analyze the networking connector and backplane content along side many other contents. Also we discussed the changes in the supplier landscape from GB to VR NVL72. Contact sales@semianalysis.com if you are interested.

译摩根士丹利发布了对NVIDIA VR200的物料清单分析。报告指出,其内存成本特指LPDDR5x SOCAMM与NVMe SSD,而GPU成本中已单独包含HBM。因采用无缆设计,PCB面积与材料成本有所上升。报告列示的总成本为OEM渠道价格,大型云服务商的采购成本将更低。该机构客户自2026年2月起已获得此分析,报告同时研究了网络连接器、背板等组件的变化及供应商格局演变。

DeepSeek@deepseek_ai · 5月23日64

We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

译我们将优惠永久化!🎉 享受使用 DeepSeek-V4-Pro 构建的乐趣,将您的创新想法变为现实!🚀

Alibaba Cloud@alibaba_cloud · 5月22日69

Qwen3.7-Max is now live on Model Studio with 50% OFF (May 22–June 22)! Reliable Cross-Framework Support. Designed for turnkey deployment and seamless integration into your existing technical stack. 🚀 Try it: https://int.alibabacloud.com/m/1000413314/

译Qwen3.7-Max现已在Model Studio上线,限时五折(5月22日至6月22日)! 可靠的跨框架支持。专为一键部署和无缝集成到现有技术栈而设计。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/

Rohan Paul@rohanpaul_ai · 5月22日70

Great news for devs from Google. Every paid Antigravity tier now gets permanent 3x Gemini rate limits.

译Google为开发者带来好消息。 所有付费Antigravity层级现在都将获得永久的3倍Gemini速率限制。

Alibaba Cloud@alibaba_cloud · 5月22日56

Looking for the most cost-effective way to deploy DeepSeek V4-Flash? 🚀 We compared the different deployment options on Alibaba Cloud PAI-EAS with real benchmarks & pricing data. Find your best performance per dollar! 📺 Watch now: https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

译寻找部署 DeepSeek V4-Flash 最具性价比的方式?🚀 我们通过实际基准测试和定价数据,对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能! 📺 立即观看:https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

Huawei Cloud@HuaweiCloud1 · 5月22日44

At #HiFS2026, Huawei introduced the #HuaweiCloudStack financial solution — delivering a new resilient, open, and intelligent architecture to help financial institutions shift from closed systems to cloud-based, distributed, and intelligent infrastructure. ✅Resilient cloud infrastructure for VM replacement ✅ Seamless cloud migration of core applications ✅ Intelligent data lake for marketing, risk control, and operations

译在 #HiFS2026 上,华为推出了 #HuaweiCloudStack 金融解决方案——提供一种新的弹性、开放、智能的架构,帮助金融机构从封闭系统转向基于云的分布式智能基础设施。 ✅ 弹性云基础设施,用于虚拟机替换 ✅ 核心应用无缝云迁移 ✅ 智能数据湖,用于营销、风控和运营

Chubby♨️@kimmonismus · 5月22日54

University of Tokyo built a chip component that processes data 1000x faster than conventional methods - without generating extra heat. The real number worth paying attention to: power consumption drops to 1/100th of current levels. A Google-scale data center that today powers 80,000 homes could theoretically run on the energy of 800. But the prototype chip isn't scheduled until 2030, and commercial availability is years beyond that. We're watching the AI industry sprint toward an energy wall at full speed while the most promising efficiency breakthroughs are still a decade from production. via techradar

译东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。

Huawei Cloud@HuaweiCloud1 · 5月22日50

The Huawei Intelligent Finance Summit 2026 (HiFS 2026) was held at Shanghai, gathering global financial industry leaders and experts for in-depth dialogue on AI-driven digital transformation in finance. As we move into the intelligent era, Huawei provides fully cloud-based compute, storage, and networking, amplified by system-level software-hardware synergy, to form a resilient financial foundation. On this foundation, we are building a financial-grade AI agent enablement platform that supports a broad range of models and use cases, powering the leap to intelligent finance. Learn more: https://tinyurl.com/wtkm3n5c #HuaweiCloud

译华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。

ginobefun@hongming731 · 5月22日63

http://x.com/i/article/2057600777791913984 # BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-22 ## 导语 今天的早报围绕一个核心问题:AI Agent 真正「成熟」意味着什么? Anthropic 工程师首次公开了两项平台级原语——Memory 与 Dreaming,把 Agent 的跨会话记忆问题从理论变成了工程事实,Rakuten 的 97% 错误率下降数据让所有人意外。与此同时,Qwen3.7-Max 在 35 小时连续压测中以 1158 次工具调用零中断,把国内大模型竞争的焦点彻底从问答分数拉向长程稳定性。Every 创始人 Dan Shipper 则提出了一个反直觉的论断:AI 越普及,能「评判对错」的人类专家反而越稀缺。 今天速览部分涵盖了 Daytona 与 Railway 两家 Agent 基础设施公司的产品哲学,以及腾讯 Hy-MT2 翻译模型开源、AMD 苏姿丰上海演讲、ZCube 组网架构突破等多个值得关注的进展。补充阅读部分包括 OpenAI 推翻 80 年数学猜想、多篇 Harness Engineering 工程实践,以及 Martin Fowler 关于 Agent 代码可维护性传感器的最新思考,内容横跨 AI 科学发现、工程化落地与系统架构多个维度,建议根据今日阅读路径选读。 ## 精讲一:用于自学习自主 Agents 的 Memory 与 Dreaming 来源: Claude(Anthropic 官方频道) 阅读链接: 在 BestBlogs 观看 背景:Agent 记忆的工程瓶颈 在 AI Agent 承担越来越复杂的企业任务时,最大的工程障碍之一是「历史执行上下文的管理」。没有持久化的记忆基础设施,Agent 每次收到新指令时几乎都是「空白状态」——频繁重复错误、重复工作,无法在多 Agent 团队之间共享领域知识。 Anthropic 的 Ravi 在一场公开演讲中首次披露了两项专为云端托管 Agent 设计的基础设施原语:Memory 与 Dreaming。这是 Anthropic 在「长程自主智能体」方向上迄今最具体的架构路径。 Memory:把经验建模为虚拟文件系统 Memory 系统的设计出发点很务实:不强迫模型使用限制性的内部 API,而是把知识显式建模为标准虚拟文件系统,暴露给 AI 模型。 现代大语言模型(如 Opus 4.7)在操作文件路径和目录结构方面具备相当强的原生能力。通过把过去的经验和共享知识表示为标准目录,Agent 可以使用熟悉的 bash、grep 等终端工具来检查、修改和组织历史记录。这消除了不必要的软件层,让模型自己决定哪些会话内容值得保存。 企业控制层级与并发控制: 在大型企业环境中部署共享记忆时,读写冲突是一个现实风险。Anthropic 通过三项架构约束来解决这个问题: 1. 作用域层级(Scoped Hierarchies): Agent 同时访问不同层次的记忆空间——包括只读的企业知识库(如 SLO 策略、运行指南)和可读写的本地任务存储。 1. 乐观并发控制(OCC): 防止多个并发 Agent 在同时写入时互相覆盖状态。 1. 独立 REST API: 使外部工程团队可以方便地执行 CRUD 操作、触发数据导出或进行合规删除。 Rakuten 的早期部署数据非常惊人:引入生产级 Memory 后,首次执行错误率下降了 97%。Wise Docs 也消除了文档验证流程中的跨会话处理瓶颈。 Dreaming:全局优化的异步整合 如果说 Memory 是 Agent 的「知识存储」,那么 Dreaming 就是 Agent 的「夜间整理」。 Dreaming 原语在后台异步运行,对碎片化的记忆进行整合与去重,消除多 Agent 团队的重复学习。它类似于人类睡眠中大脑对白天经验的整理与固化,帮助整个 Agent 组织在不中断任务的情况下持续优化共享知识库。 为什么这很重要 这两项原语的意义不只在于技术层面。它们标志着 Agent 基础设施从「单次任务工具」向「持续学习系统」的关键跃升。当 Rakuten 的数字从 97% 这个量级给出时,它提示了一件事:Agent 的真正价值边界,可能不在于单次任务的表现,而在于是否能从每次执行中积累并共享经验。 与今日其他内容的关联 Memory 与 Dreaming 这两项原语,和今天精讲二中 Qwen3.7-Max 的「长程策略连贯性」指向了同一个问题的两个层面:一个是在基础设施层解决 Agent 的跨会话记忆问题,另一个是在模型层解决长程执行中的策略稳定性问题。这两个方向的进展,共同构成了「AI Agent 从工具到协作者」这一演化的基础条件。 从今天精讲三 Dan Shipper 的视角来看,Memory 与 Dreaming 的意义还不止于此:当 Agent 具备了持久化学习能力,它们在特定领域的执行质量会随时间不断提升,这进一步强化了「人类评委」在整个系统中的战略价值——因为需要有人来判断 Agent 积累的「经验」是否正确、是否值得保留。 如果你正在构建企业级 Agent 或多 Agent 协作系统,这篇内容值得深读。 ## 精讲二:Qwen3.7-Max 重新定义 AI Agent 基座 来源: 通义大模型 阅读链接: 在 BestBlogs 阅 问题的起点:Demo 很惊艳,一上生产就崩溃 很多开发者对 AI Agent 的真实体验是:任务稍长就丢上下文,换个框架就性能暴跌,跑几轮就开始「自我循环」。Qwen3.7-Max 试图正面回应这个痛点。 极限压力测试:35 小时、1158 次工具调用零中断 通义实验室为 Qwen3.7-Max 设计了一场极限压力测试:在训练期从未见过的硬件平台(平头哥真武 M890 PPUs)上,自主优化 SGLang 的 Extend Attention 生产级 Kernel。 没有硬件文档,没有性能分析数据,起点只有任务描述、官方 Triton 参考实现和一个评估脚本。 在约 35 小时的连续运行中,模型共产出 432 次 Kernel 评估,跨越 1158 次工具调用,完全自主地: - 编写、编译、性能分析并迭代推理算子 - 诊断编译报错、修复正确性 Bug - 通过运行时测量定位瓶颈,多次重构底层架构 最终,在多个工作负载上相对 Triton 参考实现几何平均加速 10.0x,而对比同期测试的其他模型最高仅 7.3x,且多数因连续 5 轮无行动而主动退出。 更关键的数据是:模型在 30 小时后仍在持续发现实质性改进点,证明了它的「长程策略连贯性」。 解耦训练架构:跨框架泛化的底层设计 Qwen3.7-Max 的训练架构采用了「任务 - 运行框架 - 验证器」正交解耦设计。在强化学习阶段,模型被强制在不同框架、不同验证器组合下处理同源任务,学到的是通用的解题策略与工具调用范式,而非「某个框架的快捷键」。 这意味着:无论使用 Claude Code、OpenClaw、Qwen Code,还是自研 Tool Use 框架,Qwen3.7-Max 都能即插即用,性能表现高度一致。在 QwenClawBench 与长链路 CoWorkBench 评测中,无论切换何种运行环境,性能均稳定领先上一代。 国内大模型竞争的焦点转移 这次发布的真正意义在于:它把国内大模型的竞争焦点,从「问答分数」拉向了「长程 Agent 稳定性」。在综合 Agent 评测中,Qwen3.7-Max 位列前三,性能逼近行业顶尖水平,在长程 Agentic 稳定性上超越了 Claude 3.7 Sonnet 与 GPT-4.1。 实际应用场景 Qwen3.7-Max 已经在三类真实场景中展示了能力: 编程 Agent — 从一条 prompt 生成包含 Three.js 3D 场景、Canvas 动画的交互式 Web 应用。 MCP 办公助手 — 通过 MCP 工具集成,读取高校学位论文格式规范,自动修复排版混乱的论文,包括页面布局、标题样式、字体字号、页边距、目录生成和参考文献格式,全程通过 office-cli 工具自主完成。 多智能体协作 — 支持主 Agent 规划调度、子 Agent 垂直执行的多智能体编排,同时基于 Tool Use 可直接操控具身设备完成物理环境中的理解、规划与决策。 如果你需要在生产环境中部署长程 Agent,Qwen3.7-Max 即将通过阿里云百炼提供服务,完整兼容 OpenAI 与 Anthropic API 协议。 ## 精讲三:自动化之后 来源: Every 阅读链接: 在 BestBlogs 阅读 悖论的起点:自动化越多,人类工作越多 Every CEO Dan Shipper 在这篇文章里记录了一个令他本人也感到困惑的现象:公司已经把所有能自动化的工作都交给了 AI——用 Codex 和 Claude Code 写代码、设计、客服——但他们没有裁员,反而还在扩张。团队接近 30 人,人类工作似乎比以前更多了。 这和主流叙事截然相反。Dario Amodei 警告过 AI 可能消灭一半入门级白领工作,Meta 裁员 8000 人,GDPVal 评测显示前沿模型在真实经济任务上已经达到 85% 的人类水平。但 Shipper 的实地经验是:「越自动化,需要做的人类工作越多。」 核心机制:AI 商品化了人类专业知识的「遗留物」 Shipper 的解释是:AI 商品化的是人类专业知识中「能被显式表达并训练的部分」。一旦某个技能被大量自动化,这类技能的「默认产出」价值就崩塌了,但「与众不同」的需求反而上升了。 而「与众不同」的需求,本质上是对人类专家的需求——即使我们已经接近 AGI。 举个具体例子:Codex 可以写代码,但能评判「这段代码写得对不对」的工程师变得更值钱,因为 AI 产出了大量同质化的代码需要被审查。AI 批量制造内容,「评估哪篇更好」就成了新稀缺。 人类三明治:设定框架、AI 执行、人类评判 Kieran(Every 的作者)把这种新工作模式称为「人类三明治」:人类设定任务框架 → AI 执行任务 → 人类评判并延伸结果。在 Every 内部,AI 已经回复了 Shipper 95% 的工作邮件,但他仍然在审阅每一封。管理者开始写代码,工程师开始直接接触客户。 没有临界点,只有新常态 Shipper 的结论是反直觉但有据可查的:不会有一个「临界点」让所有工作都消失。真正的新常态是:自动化越多,对专家判断力的需求越高。自动化的终点不是消灭工作,而是把人类角色推向「评委与压舱石」这个最后被商品化的层级。 这和今天的其他内容有什么关联 Qwen3.7-Max 的极限测试,恰好印证了 Shipper 的逻辑:1158 次工具调用之后,仍然需要工程师来评判最终的 10x 加速是否真的「正确」——模型没有硬件文档、没有先验知识,但评估脚本由人类设计,验证标准由人类设定。AI 做了 35 小时的执行工作,而「定义什么是成功」的工作依然是人类的。 Memory 与 Dreaming 的案例同样如此:Rakuten 的 97% 错误率下降,需要人类来确认「错误」的定义、设计评估标准、判断哪些经验值得被 Dreaming 保留。专家判断力不是 AI 自动化的副产品,而是前提条件。 如果你在思考「AI 会不会取代我」,这篇文章提供了一个不同的分析框架,值得仔细阅读。 ## 速览 为智能体配备计算机 — Ivan Burazin,Daytona(来源:Latent Space) Daytona CEO Ivan Burazin 的核心论点是:AI 智能体需要的不仅仅是可丢弃的代码执行沙箱,而是可组合、有状态的「计算机」。他将公司从人类开发环境转型为 Agent 基础设施提供商的历程,以及「localhost 的终结」这一长期判断,对理解 Agent 基础设施赛道的产品逻辑很有帮助。Daytona 不是在构建另一个 sandbox,而是在重新定义 Agent 与计算环境之间的关系。开发者和基础设施产品经理适合阅读。 Railway:面向智能体的原生云平台 — Jake Cooper(来源:Latent Space) Railway 创始人 Jake Cooper 分享了从「零激活能量上线」的产品哲学,到构建裸金属数据中心、实现 70% 利润率的商业路径,再到为 AI Agent 时代重新设计基础设施的全过程。值得关注的是,Railway 在 2026 年 5 月经历了一次 GCP 大规模故障(即使采用了多 AZ、多 zone 架构),其事后复盘对理解 Agent 基础设施的高可用挑战很有参考价值。适合关注云基础设施和 Agent 平台建设的读者。 腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验(来源:腾讯混元) Hy-MT2 支持 33 种语言互译,7B 和 30B-A3B 模型达到开源最佳效果,超越几十倍参数量的模型。最有意思的是 1.8B 轻量版:得益于 AngelSlim 1.25-bit 极端量化,仅需 440MB 存储空间,可在手机芯片上本地推理,比 Hy-MT1.5 推理速度提升 1.5 倍,同时翻译质量超越微软等主流商业 API。已上线「腾讯 Hy 翻译」小程序,iOS 和安卓 APP 即将发布。 选择正确模型:LLM Evals 与优化的数据驱动指南(来源:Claude) Anthropic 的 Lucas 分享了一套生产级 LLM 选型框架:核心包括自定义 eval 而非依赖公开 benchmark、过程级评分(不只看最终结果)、prompt caching、context hygiene,以及按「成功结果成本」而非「单次调用成本」来优化选型决策。对在生产环境做模型选型的工程师有直接参考价值。 Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好(来源:InfoQ) Google 重新设计了 Android CLI,引入了结构化 Skills(SKILL.md 格式的模块化指令集)和集成知识库,使 AI 智能体能够更高效地访问 Android 工具链。声称与 Android Studio 内的 Agent 相比,构建速度提升 3 倍,Token 使用量减少 70%。兼容 Claude Code、Codex 等第三方 Agent。这个设计思路与 BestBlogs 自身的 skill 体系颇为相似,值得关注。 下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?(来源:智谱) 智谱、驭驯网络与清华大学联合提出的 ZCube 组网架构,在 GLM-5.1 coding 生产环境中实现了成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%。核心思路是用全网扁平化拓扑 + 单/多轨混合接入,替代传统 ROFT 架构,从结构层面解决 PD 分离推理中的不对称流量拥塞问题。GPU、软件栈和应用均未改动,纯粹靠架构调优实现跨越。运行大规模推理集群的工程团队值得参考。 苏姿丰上海开讲:AI 正在重新定义计算的每一层(来源:量子位) AMD CEO 苏姿丰在 AMD AI 开发者大会上海站的核心判断:AI 竞争正从模型能力转向系统工程与全栈优化,Agent 时代的成本结构是指数级而非线性的,开发者需要的是「可落地、可优化、可持续演进的工程体系」。AMD 以开放生态和 ROCm 平台应对这一趋势。量子位现场报道,信息密度较高。 ## 补充阅读 OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现(来源:Wes Roth) OpenAI 内部推理模型自主推翻了 Paul Erdős 于 1946 年提出的平面单位距离猜想,通过桥接代数数论与初等几何构造出完整的反例族。这是 AI 驱动原创科学发现的一个里程碑时刻。关注 AI 在数学研究领域能力边界的读者值得一看。 OpenAI 单位距离问题突破:完整技术报告(来源:OpenAI Blog) 上一条 Twitter 所对应的 OpenAI 官方完整技术报告。模型构造的点集配置在多项式级别上超越了此前最优的方格构造,顶级数学家 Noga Alon 参与了同行评审。想了解技术细节的读者可以直接读原报告。 QQ 音乐 Harness Engineering 实践(来源:腾讯云开发者) 把 AI 协作从不可控的对话式编码升级为可控、可审计、可复用工程化过程的实践分享。在大仓多服务场景下,如何让 AI 具备自主验证能力是核心挑战。配合下面两篇「Harness Engineering」相关内容一起读效果更好。 构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造(来源:Claude) Omni CTO 讲解如何构建 Blobby 智能分析系统,涵盖语义层设计、evals 框架、split-brain agent 与直接 SQL 生成等架构经验。关注 AI 数据分析 Agent 工程化落地的读者适合观看。 A²I² 的讽刺性悖论(来源:InfoQ) 探讨自动化和 AI 在事件响应中的结构性困境:AI 提供了自主性和权威性,但缺乏定向注意力、可重定向性和可互预测性——而这些恰恰是人类协调最关键的特质。在高压情境下,这种缺失可能导致严重失败。对 SRE 和运维工程师有现实意义。 提示工程还不够——我构建了一个可在生产环境中运行的控制层(来源:Towards Data Science) 作者在第三次调试同一个崩溃后意识到:问题不在模型,在系统。他构建了一个包含 InputGuard、TokenBudget、PromptBuilder、ResponseValidator、CircuitBreaker、RetryEngine、FallbackRouter、AuditLogger 八个组件的控制层,将结构化输出基准测试通过率从 0% 提升到 100%。69 个测试、5 个可运行 demo,有完整代码。 都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境(来源:阿里云开发者) 深入分析了 Java 微服务项目在 AI Coding 中体验差的根本原因(本地跑不起来,AI 无法自主验证),并提出了通过 Harness Engineering 构建本地可运行环境的五条方法论。有 Checklist 和具体工程方案,对 Java 后端开发者非常实用。 发布 ADK for Kotlin 和 ADK for Android 0.1.0(来源:Google Developers Blog) Google 发布 Agent Development Kit for Kotlin 和 ADK for Android,使开发者可以构建混合 AI Agent,在云端模型(如 Gemini)和设备端 LLM(如 Gemini Nano)之间协调任务。Android 开发者和移动端 AI 应用方向值得关注。 合成人格预训练:从零标记开始的对齐(来源:LessWrong) 通过在预训练文档中附加带有价值判断的道德反思,从训练伊始就植入所需的 AI 助手人格,实现了攻击成功率降低 63%。这是一项 AI 安全领域的早期研究,证明预训练阶段植入的价值观能够在后训练阶段泛化到未见过的安全场景。关注 AI 对齐研究的读者适合阅读。 编码智能体的可维护性传感器(来源:Martin Fowler) Martin Fowler 通过实验多种传感器——从静态分析到 AI 驱动的模块化审查——帮助编码 Agent 自我修正并维护代码库的可维护性。当 Agent 生成代码的速度越来越快时,如何确保长期可维护性是一个值得认真对待的工程问题。 来自 Codex 官方团队的分享:如何把 Codex 用到极致(来源:宝玉的分享) 系统介绍如何利用 Codex 的持久对话流、语音输入、任务干预、自动化、目标设定和侧边栏等高级功能,将其从编程助手升级为全能工作流引擎。Jason 原文的中文翻译版,内容实用。 Ramp 工程师如何借助 Codex 加速代码审查(来源:OpenAI Blog) Ramp 使用 GPT-5.5 驱动的 Codex 将 PR 代码审查时间从数小时缩短至数分钟,核心价值在于「能捕捉人类和其他 AI 工具都遗漏的问题」。配合上一条 Codex 使用指南一起看效果更佳。 当 Agent 真正走进复杂数据分析场景:DataClawBench(来源:AI 前线) 基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估。结论是:当前 Agent 在开放式真实数据分析场景中的能力边界,远比 demo 演示的要窄。 LLM 主题并非观察结果(来源:Towards Data Science) LLM 从文本中提取的主题是「生成的变量」而非直接观察结果。在因果分析中,若未解决选择偏差、测量误差等问题而直接用作协变量,会引入严重偏差。对做数据分析和因果推断的研究者有直接警示意义。 在 VS Code 中烹饪 Agents(来源:AI Engineer) Microsoft 的 Liam Hampton 讲解 VS Code 如何成为 local、background 和 cloud agents 的统一控制平面,把 multi-agent workflow、安全边界、MCP 上下文和开发者监督结合起来。VS Code 用户和 Agent 开发者适合观看。 会自动交易的交易信号:在系统化投资中规模化受治理的 AI(来源:Claude) Man Group 数据与 AI 负责人讲解一家管理超过 2000 亿美元资产的受监管投资机构,如何在系统化交易中构建可治理的 AI——包括生产级 AI 交易信号、skills 治理框架,以及「组织上下文作为 AI 护城河」的战略视角。高度监管行业的 AI 落地案例,视角独特。 ## 今日阅读路径 今天内容量偏大,如果你时间有限,建议按照以下路径选读: 第一优先:如果你只有 20 分钟 先读「精讲三:自动化之后」。Dan Shipper 的文章是今天最具思想冲击力的一篇,它提供了一个反直觉但有大量实地数据支撑的分析框架——关于 AI 与人类工作的关系,这是比大多数预测文章都更诚实的一个视角。 第二优先:如果你是 Agent 工程师 读「精讲一:Memory 与 Dreaming」,然后搭配速览中的 Daytona 和 ZCube 两篇。这三篇合在一起,覆盖了 Agent 的记忆层(Anthropic 原语)、计算环境层(Daytona)和网络基础设施层(ZCube),是一条完整的 Agent 基础设施视角。 第三优先:如果你关注国产大模型竞争 读「精讲二:Qwen3.7-Max」。35 小时 1158 次工具调用零中断这个数字,已经足够说明问题的性质——这不是 benchmark 刷分,而是真实硬件上的生产级验证,代表着国内大模型竞争正式进入了一个新的阶段。 补充:如果你是开发者,在用 AI Coding 工具 补充阅读中的 Java Harness Engineering、Codex 官方使用指南、QQ 音乐 Harness 实践这三篇可以组合成一个「AI Coding 工程化」专题,非常实用,适合在上下班通勤时集中阅读。

译本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

Google AI Developers@googleaidevs · 5月22日58

Rate limits for Gemini on all paid @Antigravity tiers just permanently tripled. We also hit refresh on everyone's weekly quotas. ⤵️

译所有付费Antigravity层级的Gemini速率限制已永久提升三倍。我们还重置了所有人的每周配额。⤵️

Deedy@deedydas · 5月22日64

When I first joined Menlo, Modal was the #1 early stage company I wanted to invest in. Back then, they were just a ~$100M company. Finally, 2 years later, it’s an honor to finally partner with Erik, Akshat and team. As an engineer myself, I’ve never found an easier ways to scalably run all AI infra workloads (training, inference, sandbox, etc) across some of the best AI companies in the world: Anthropic, Meta, Suno, Doordash, Applied Compute, Cognition. Fun fact: Modal is one of the only companies where both founders are IOI gold medalists (2003 Sweden and 2014 India) and one of the most efficient startups in terms of revenue / employee

译AI基础设施平台Modal宣布完成C轮融资,以46.5亿美元估值融资3.55亿美元,由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载(训练、推理、沙箱等)运行服务,以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主,公司展现出高人均营收的运营效率。

SemiAnalysis@SemiAnalysis_ · 5月22日62

AI is not the first technology to drop prices by multiple orders of magnitude. When screws were handmade, output was counted in hundreds or thousands. Today output is in the trillions. The revolution is not from making the few screws we used to use cheaper, but from building a modern world that was unimaginable when screws cost 1500x more.

译AI并非首个价格下降多个数量级的技术。当螺丝还是手工制作时,产量以百或千计。如今产量已达万亿。 这场革命并非来自让过去使用的少量螺丝变得更便宜,而是来自构建一个在螺丝价格高出1500倍时无法想象的现代世界。

swyx🛬 SFO@swyx · 5月22日33

everyone in ai infrastructure* is finally getting filthy rich and it is so nice to see them succeed *not the sexy ai research stuff, just “boring” infra

译所有从事AI基础设施*的人终于都赚得盆满钵满,看到他们成功真是太好了 *不是那些性感的AI研究工作,只是“无聊”的基础设施

Epoch AI@EpochAIResearch · 5月22日63

For frontier AI chips, memory is the largest and fastest-growing component cost. High-bandwidth memory (HBM) has grown from 52% to 63% of total AI chip component spending between Q1 2024 and Q4 2025.

译对于前沿AI芯片而言,内存是最大且增长最快的组件成本。 高带宽内存(HBM)在AI芯片组件总支出中的占比,已从2024年第一季度的52%增长至2025年第四季度的63%。

Rohan Paul@rohanpaul_ai · 5月22日65

The Information: Anthropic is currently in early-stage talks to lease and deploy Microsoft's custom AI chips for inference workloads. Microsoft is pitching Maia 200 as a cheaper way to run some AI inference, and claims maia 200 is more cost-effective than nvidia chips for certain inference jobs. Maia 200 is Microsoft’s second-generation AI accelerator, built on TSMC 3nm, with FP8/FP4 math, 216GB HBM3e, 7TB/s bandwidth, and 272MB SRAM, which makes it aimed at feeding large models fast rather than teaching them from scratch. Anthropic already committed $30B to Azure, Microsoft may invest up to $5B in Anthropic, and Claude is already tied into Microsoft’s Copilot stack, so the chip talks are also a customer-supplier feedback loop. IMO, Maia does not need to beat Nvidia everywhere to matter, because a cheaper chip for narrow, high-volume inference jobs can still shift billions of tokens away from GPUs. --- theinformation .com/articles/anthropic-talks-use-microsofts-ai-chips

译据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。

AK@_akhaliq · 5月22日68

Mix-Quant Quantized Prefilling, Precise Decoding for Agentic LLMs

译Mix-Quant 量化预填充,精确解码,面向智能体LLM

向阳乔木@vista8 · 5月22日71

感动!有了Codex和Claude Code。 再也不怕配置海外 VPS,连宝塔都不用装,只需提供SSH账号密码,AI 全搞定。 如果域名解析在Cloudflare,给个DNS zone读写权限的API。 连域名都自动配好,还能免费申请https证书,自动续期... 对普通人来说,AI现在就是顶级运维工程师!

译推文展示了AI工具(如Codex和Claude Code)在服务器运维领域的强大能力。仅需提供SSH账号密码,AI即可自动配置海外VPS,无需手动安装宝塔等控制面板。若域名使用Cloudflare,提供DNS API权限后,AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务,显著降低技术门槛,使普通人也能轻松管理服务器与域名。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
20:24
Alibaba Cloud@alibaba_cloud
36
在2026年Qwen大会上,NVIDIA高级解决方案架构师翟健在基础模型论坛上深入解析《Qwen推理优化:通过NVIDIA全栈加速实现突破性能》。感受AI原生动力。 🚀 敬请期待:https://click.qwencloud.com/m/20000000190/
行业动态部署/工程
19:24
Alibaba Cloud@alibaba_cloud
41
在2026年通义千问大会上,英特尔高级云解决方案架构师张健将加入Agent Native Cloud论坛,探讨如何使用英特尔至强处理器构建快速、可靠且高性价比的AI智能体基础设施。共同迈入AI原生时代。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
智能体行业动态部署/工程
16:51
SiliconFlow@SiliconFlowAI
55
@Kimi_Moonshot K2.6在SiliconFlow上享受约15%折扣💰 输入价格:$0.90/M ➡️ $0.77/M 结合 → 在@OpenRouter上表现顶尖:平均工具调用错误率0.21% → 缓存命中率超80% → FP8量化 + 零数据留存 花更少,调试更少,发布更多 开发者们别错过 立即开始使用SiliconFlow上的Kimi K2.6 ↓
产品更新部署/工程
13:51
宝玉@dotey
50
Kimi官方推出了基于TypeScript和pi-tui重写的命令行工具kimi-code,替代了此前基于Python的kimi-cli版本。作者回顾了之前关于用Python重写失败的讨论,并提到目前正推动将一些在Claude Code上体验良好的功能整合到新工具中。项目已在GitHub开源。

Yufan Sheng: 翻译一下,Kimi 自己基于 Python 写的 kimi-cli,在今天换成了基于 Typescript 和 pi-tui 写的新 kimi-code。 已经在 PUA 对应的研发小哥哥加一些我在 Claude Code 上用得很爽的功能...

GitHub产品更新部署/工程
09:31
ginobefun@hongming731
49
BestBlogs 5月26日早报精选

早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。

AnthropicGoogleOpenAI现象/趋势
02:57
Rohan Paul@rohanpaul_ai
73
大型MoE模型或在无需专家帮助的简单token上浪费半数计算

论文提出ZEDA框架,可将训练后固定的静态MoE模型(如Qwen3、GLM)转变为动态模型,允许路由器在token过于简单时跳过专家调用。实验显示,在Qwen3-30B-A3B和GLM-4.7-Flash上,ZEDA可移除约50%的专家计算量,仅带来轻微准确率损失,并实现约20%的实际推理速度提升。研究发现,计算分配主要依据模型的不确定性,而非单纯跟随任务难度。

推理论文/研究部署/工程
00:57
Chubby♨️@kimmonismus
57
科技业裁员潮与AI基建狂飙

2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。

Meta行业动态部署/工程
00:50
Ant Ling@AntLingAGI
50
为加速开发者采用,我们正在OpenRouter上为Ling-2.6-1T提供限时75%折扣。该模型拥有1T总参数和63B激活参数,专为真实生产需求打造,以更低的token开销提供强大智能--无需长推理链 👇
行业动态部署/工程
5月24日
22:27
Rohan Paul@rohanpaul_ai
45
6分钟内获得良好GPU性能总结。
教程/实践部署/工程
21:27
Rohan Paul@rohanpaul_ai
40
🇨🇳 中国杭州机场现已启用其首台轨道式驱鸟机器人。 配备定向声波装置、杀虫灯和摄像头。 通过智能巡逻、高清摄像头和更环保的驱鸟方式,为跑道提供全天候保护。
具身智能行业动态部署/工程
18:57
Rohan Paul@rohanpaul_ai
54
封装与架构创新突破硬件限制

华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul: Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...

DeepSeek推理现象/趋势部署/工程
15:57
Rohan Paul@rohanpaul_ai
55
AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期,这些决定了谁能获得算力。 这是Oracle与OpenAI合作的Vantage数据中心项目,投资超过150亿美元。
OpenAI现象/趋势部署/工程
14:27
Rohan Paul@rohanpaul_ai
51
二手显卡与过时内存成功本地运行万亿参数大模型

近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。

开源生态教程/实践端侧部署/工程
13:57
Rohan Paul@rohanpaul_ai
62
DeepSeek:将硬件稀缺性转化为可编程的战略优势

DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek开源生态推理现象/趋势
12:15
OpenClaw🦞@openclaw
64
OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22
智能体产品更新开源生态部署/工程
05:05
SemiAnalysis@SemiAnalysis_
64
我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是:现场天然气已不再是边缘选项,而是悄然成为美国下一代训练集群的默认规划假设。(1/4) 🧵
现象/趋势部署/工程
5月23日
23:51
elvis@omarsar0
64
调整运行时接口而非模型,提升AI代理通用性

一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

智能体论文/研究部署/工程
22:05
SemiAnalysis@SemiAnalysis_
55
事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。
智能体现象/趋势部署/工程
19:57
Rohan Paul@rohanpaul_ai
52
Agentic AI或将推动CPU重回计算舞台中心

代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

OpenAI推理现象/趋势部署/工程
05:27
Rohan Paul@rohanpaul_ai
61
Cerebras晶圆级芯片突破AI推理速度瓶颈

Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度,处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证,是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计,大幅减少了芯片间通信延迟,从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要,能显著缩短测试、调试与迭代周期。

产品更新推理部署/工程
04:08
Anthropic@AnthropicAI
63
上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。
Anthropic安全/对齐部署/工程
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Anthropic:Research(发表成果 · 网页)The Decoder:AI News(RSS)
01:44
swyx@swyx
精选78
Kakuna:自动化加固代码库的AI代理工具

Kakuna是一款AI代理工具,旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流,模拟人类开发与运维流程,在保持功能不变的前提下,自动执行代码审查、测试补充、重构等“无聊”工作,并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例,其核心是“反熵增”与“反代码腐化”。例如,一次约16小时的运行能生成上百次提交,将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。

swyx: working on a "take this vibecoded slop app and make it a production-ready, e2e tested, maintainable, parallelizable agen...

教程/实践编码部署/工程

推荐理由:如果你还在为 vibe coding 产出的屎山头疼,swyx 这个 skill 刚开源,16 小时自动重构 103 次提交交付一个可维护的代码库,做独立开发的很值得抄一下。
01:38
OpenRouter@OpenRouter
60
OpenRouter现已在@warpdotdev中得到支持!❤️ 工程师Dagm Assefa展示了如何连接DeepSeek和OpenRouter。 文档:https://docs.warp.dev/agent-platform/inference/custom-inference-endpoint/ 🔖

Warp: You can also connect to inference endpoints that follow the OpenAI Chat Completions API. This includes @OpenRouter, @Lit...

产品更新部署/工程
00:35
SemiAnalysis@SemiAnalysis_
44
摩根士丹利发布NVIDIA VR200物料清单分析

摩根士丹利发布了对NVIDIA VR200的物料清单分析。报告指出,其内存成本特指LPDDR5x SOCAMM与NVMe SSD,而GPU成本中已单独包含HBM。因采用无缆设计,PCB面积与材料成本有所上升。报告列示的总成本为OEM渠道价格,大型云服务商的采购成本将更低。该机构客户自2026年2月起已获得此分析,报告同时研究了网络连接器、背板等组件的变化及供应商格局演变。

Aaron: Sheesh. $NVDA VR200 Bom Analysis from MS.

行业动态部署/工程
00:20
DeepSeek@deepseek_ai
64
我们将优惠永久化!🎉 享受使用 DeepSeek-V4-Pro 构建的乐趣,将您的创新想法变为现实!🚀

DeepSeek: The DeepSeek-V4-Pro discount has been extended until May 31, 2026, 15:59 UTC!

DeepSeek产品更新部署/工程
5月22日
19:20
Alibaba Cloud@alibaba_cloud
69
Qwen3.7-Max现已在Model Studio上线,限时五折(5月22日至6月22日)! 可靠的跨框架支持。专为一键部署和无缝集成到现有技术栈而设计。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
模型发布部署/工程
18:26
Rohan Paul@rohanpaul_ai
70
Google为开发者带来好消息。 所有付费Antigravity层级现在都将获得永久的3倍Gemini速率限制。

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google产品更新部署/工程
16:50
Alibaba Cloud@alibaba_cloud
56
寻找部署 DeepSeek V4-Flash 最具性价比的方式?🚀 我们通过实际基准测试和定价数据,对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能! 📺 立即观看:https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI
DeepSeek教程/实践部署/工程
10:08
Huawei Cloud@HuaweiCloud1
44
在 #HiFS2026 上,华为推出了 #HuaweiCloudStack 金融解决方案--提供一种新的弹性、开放、智能的架构,帮助金融机构从封闭系统转向基于云的分布式智能基础设施。 ✅ 弹性云基础设施,用于虚拟机替换 ✅ 核心应用无缝云迁移 ✅ 智能数据湖,用于营销、风控和运营
行业动态部署/工程
09:56
Chubby♨️@kimmonismus
54
东京大学研发超低功耗芯片,效率提升千倍但十年后才能商用

东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。

论文/研究部署/工程
09:38
Huawei Cloud@HuaweiCloud1
50
华为展示AI驱动金融变革新图景

华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。

智能体行业动态部署/工程
07:30
ginobefun@hongming731
63
BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

智能体AnthropicOpenAI推理
05:56
Google AI Developers@googleaidevs
58
所有付费Antigravity层级的Gemini速率限制已永久提升三倍。我们还重置了所有人的每周配额。⤵️

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google产品更新部署/工程
05:13
Deedy@deedydas
64
Modal获3.55亿美元C轮融资,估值46.5亿美元

AI基础设施平台Modal宣布完成C轮融资,以46.5亿美元估值融资3.55亿美元,由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载(训练、推理、沙箱等)运行服务,以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主,公司展现出高人均营收的运营效率。

Erik Bernhardsson: Today we're announcing our Series C funding: $355M at a $4.65B valuation, led by some great investors @generalcatalyst a...

行业动态部署/工程
05:05
SemiAnalysis@SemiAnalysis_
62
AI并非首个价格下降多个数量级的技术。当螺丝还是手工制作时,产量以百或千计。如今产量已达万亿。 这场革命并非来自让过去使用的少量螺丝变得更便宜,而是来自构建一个在螺丝价格高出1500倍时无法想象的现代世界。
现象/趋势部署/工程
03:36
swyx🛬 SFO@swyx
33
所有从事AI基础设施*的人终于都赚得盆满钵满,看到他们成功真是太好了 *不是那些性感的AI研究工作,只是"无聊"的基础设施
大佬观点部署/工程
03:07
Epoch AI@EpochAIResearch
63
对于前沿AI芯片而言,内存是最大且增长最快的组件成本。 高带宽内存(HBM)在AI芯片组件总支出中的占比,已从2024年第一季度的52%增长至2025年第四季度的63%。
行业动态部署/工程
02:26
Rohan Paul@rohanpaul_ai
65
微软正向Anthropic推销Maia 200 AI芯片

据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。

AnthropicMicrosoft推理行业动态
01:26
AK@_akhaliq
68
Mix-Quant 量化预填充,精确解码,面向智能体LLM
智能体论文/研究部署/工程
01:13
向阳乔木@vista8
71
AI秒变顶级运维:一键搞定VPS与域名配置

推文展示了AI工具(如Codex和Claude Code)在服务器运维领域的强大能力。仅需提供SSH账号密码,AI即可自动配置海外VPS,无需手动安装宝塔等控制面板。若域名使用Cloudflare,提供DNS API权限后,AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务,显著降低技术门槛,使普通人也能轻松管理服务器与域名。

智能体教程/实践部署/工程
‹ 上一页
1…1112131415…25
下一页 ›