当前企业AI应用常陷入模型选型和工作流改造等技术讨论,但核心卡点在于组织自身是否明确想让AI执行何种任务。若组织目标、流程和责任不清,AI无法自动解决问题,反而会诚实放大原有混乱状态,加速产生无意义的文档、会议和汇报,制造虚假的推进感。清晰的团队使用AI能提升效率,而混乱的团队则会导致“指数级熵增”,让AI为混乱加杠杆。关键在于企业能否清晰定义自身需解决的问题。
http://x.com/i/article/2050663965244768256
当前企业AI应用常陷入模型选型和工作流改造等技术讨论,但核心卡点在于组织自身是否明确想让AI执行何种任务。若组织目标、流程和责任不清,AI无法自动解决问题,反而会诚实放大原有混乱状态,加速产生无意义的文档、会议和汇报,制造虚假的推进感。清晰的团队使用AI能提升效率,而混乱的团队则会导致“指数级熵增”,让AI为混乱加杠杆。关键在于企业能否清晰定义自身需解决的问题。
http://x.com/i/article/2050663965244768256
美光科技CEO桑杰・梅赫罗特拉表示,当前AI浪潮仍处早期阶段,推理应用扩大导致对高速、大容量存储需求激增。目前DRAM和NAND闪存供应持续紧张且产能提升困难,预计今年AI对这两类存储的需求将超过行业总市场规模的一半。美光正为英伟达新平台供应HBM4样品,并计划明年量产HBM4E。尽管企业需求旺盛,但受供应限制和价格上涨影响,消费电子市场的PC和移动设备销量可能出现低双位数下滑。公司预计第三财季将再次刷新业绩纪录。
文章主张AI智能体的测试工具“代理线束”不应置于沙盒环境中运行。核心观点是,为了准确评估智能体在真实世界中的能力与可靠性,测试环境必须尽可能贴近实际生产环境,而非受限制的沙盒。将线束置于沙盒之外,能更有效地暴露智能体在复杂、不可预测场景下的潜在问题,从而提升其部署后的稳健性和安全性。这一方法强调测试的真实性与有效性,关乎智能体技术的实际应用成败。
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
@levelsio openrouter has a cool "nitro" flag in the model names to use the fastest provider so like "gpt-5.5:nitro" woul...
谷歌、亚马逊、微软和Meta计划在2026年合计投入7250亿美元资本支出,较去年增长77%,重点加码AI基础设施。谷歌云业务收入同比增长63%至200亿美元,合同积压订单达4600亿美元。微软将2026年资本支出定为1900亿美元,Meta上调至最高1450亿美元,存储芯片涨价及数据中心成本上升是推高支出的主因。分析师驳斥AI看空论调,认为强劲收入增长足以支撑巨额投入。Alphabet净利润同比大增81%,财报后股价上涨,市值有望创新高。
Agent-desktop 是一款基于 Rust 构建的原生桌面自动化命令行工具,专为 AI 代理设计。它通过操作系统无障碍访问树为任何应用程序提供结构化访问,无需依赖截图、像素匹配或浏览器。该工具包含快速单二进制 CLI 和 C-ABI 动态库,支持 Python、Swift、Go 等多种语言直接调用,避免每次命令 fork 进程。核心特性涵盖 53 个命令,包括观察、交互、键盘鼠标操作;采用渐进式骨架遍历,在密集应用中可减少 78–96% 的令牌使用;工作流经 AI 优化,使用确定性元素引用,且所有交互优先尝试纯无障碍 API。目前支持 macOS 13.0+ 系统,需授予无障碍权限。
美国国防部已与七至八家领先AI公司达成协议,将其AI技术整合进机密网络系统。合作方包括谷歌、微软、AWS、英伟达、OpenAI、Reflection和SpaceX,而Anthropic被明确排除在外。五角大楼将AI定位为核心基础设施,允许其用于任何“合法的作战用途”。官方平台GenAI.mil上线五个月内,已有超130万国防部人员使用,生成了数千万次提示并部署了数十万个AI智能体,展现了该计划的规模与影响力。
威联通发布专为边缘AI设计的存储服务器QAI-h1290FX。该服务器搭载AMD EPYC 7302P处理器(16核32线程),预装128GB内存,提供12个2.5英寸U.2/SATA SSD盘位、4条PCIe Gen4插槽以及2个25GbE和2个2.5GbE网络端口。其关键特性是支持安装NVIDIA RTX PRO 6000 Blackwell Max-Q工作站显卡,并配备750W电源。产品旨在提供开箱即用的本地AI计算体验,让用户无需复杂配置即可在本地运行AI模型并完全掌控数据。
这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,处理了完整的客户项目。 他坐在跨大西洋航班的靠窗位置,设备是 MacBook Pro M4,64GB 内存。机上 WiFi 要价...
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
一项针对人工智能用水量的分析指出,其实际耗水量远低于公众普遍认知。以加州为例,AI数据中心的总用水量仅占该州人类用水总量的不到0.3%。相比之下,传统农业用水占比高达80%。研究强调,公众对AI耗水的担忧可能被夸大,真正的用水挑战集中在农业等传统领域。该分析旨在纠正公众认知偏差,将水资源讨论引导至更关键的实际问题上。
英特尔开源了面向大型语言模型的高级量化算法AutoRound。该算法通过改进的量化策略,能在保持模型性能的同时显著降低存储与计算需求,支持将模型权重压缩至低至3/4比特。相比传统方法,它在多个基准测试中实现了更高的精度,尤其适用于资源受限的部署场景。项目代码已在GitHub发布,并获得开发者社区关注。
早期,ODM服务器组装的核心在于大规模制造标准化硬件,优势在于成本、产能与良率。进入AI时代,服务器机架因GPU/ASIC、高功率系统、液冷及高速互联等技术而变得高度复杂,需确保各子系统协同工作,无线缆设计也可能兴起以简化部署。这促使ODM角色发生根本转变,从纯制造商演变为涵盖设计、集成与大规模生产的合作伙伴。未来,ODM将支持多元GPU/ASIC平台与数据中心设计,助力厂商构建更广阔的AI基础设施生态。
Apple accidentally left Claude.md files in today's Apple Support app update (v5.13)
Qwen宣布与Fireworks AI建立战略合作伙伴关系,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪部署。此次合作使开发者和企业能够以更低的延迟、更少的微调与推理成本来部署Qwen模型,同时获得企业级的可靠性、安全性和可扩展性支持,并能无缝集成到现代AI工作流程中。合作的核心目标是加速Qwen系列模型的访问与应用。
Qwen与Fireworks AI达成战略合作,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。
Qwen与Fireworks AI宣布建立战略合作伙伴关系,旨在通过Fireworks平台提供经过优化、可用于生产环境的Qwen闭源权重模型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。合作的核心目标是加速Qwen系列模型的访问与应用。
文章探讨了超越单次对话的“长效运行”AI智能体,其能持续数天并具备自动恢复与成果留存能力。构建面临上下文限制、状态持久化及自我验证三大挑战。行业通过架构解耦(如Anthropic)、角色分工(如Cursor)与平台化服务(如Google)应对。生产落地需关注明确任务定义、独立评估机制及结构化日志,技术重点已转向状态管理与会话持久化等工程基建。
X公司一支16人的顶尖工程师团队,仅用六周时间,将堆积了十五年的老旧广告推荐系统彻底重构。他们将100万行Scala代码精简至5万行,底层全部替换为Rust和Grok原生Transformer模型,并将信息流与广告推荐整合到同一个Grok神经中枢进行统一调度。此举大幅降低了基础设施成本,提升了用户体验,使Grok从聊天模型转变为驱动X全部商业流量的底层操作系统,标志着马斯克实现了从算力硬件、底层大模型到商业场景的全栈闭环。
http://x.com/i/article/2041195773325410304
Dynamic Workflows 是一个函数库,支持将持久执行实时路由至租户提供的代码。该库基于 Dynamic Workers 构建,使平台能够以近乎零闲置成本为数百万个独特工作流提供服务。它允许平台根据租户需求动态分配执行资源,实现了工作流与特定租户代码的即时绑定,大幅降低了多租户场景下的运营开销和资源浪费。
固态技术协会(JEDEC)宣布了DDR5 MRDIMM标准的多项关键进展。其正式发布了JESD82-552标准(DDR5 MDB02数据缓冲器),并预告将推出JESD82-542标准(DDR5 MRCD02寄存时钟驱动器),以通过多路复用秩技术提升内存带宽,解决传统DIMM的瓶颈。此外,委员会正开发目标速率达12800 MT/s的Gen 2 DDR5 MRDIMM原卡设计,Gen 2模块标准接近完成,并已启动Gen 3标准的开发工作,旨在满足AI与云计算对极高内存带宽的需求。
Qwen宣布与Fireworks AI建立战略合作伙伴关系,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。
广发证券分析师蒲得宇发布研报指出,英特尔代工业务取得关键突破,其2.5D先进封装技术EMIB良率达到90%,已为AI数据中心芯片做好准备。该技术良率与FCBGA相当,但互连密度更高。其高性能版本EMIB-T集成了TSV,当前已支持大于8倍光罩尺寸,能在封装内容纳12个HBM芯片和超过20个桥接。英特尔计划到2028年将EMIB-T扩展至大于12倍光罩尺寸,以容纳超过24个HBM裸片和38个以上桥接,进一步提升封装能力。
Cursor SDK正式发布,标志着AI编程能力成为可嵌入基础设施。其演示中,AI Agent Uma能通过Gmail和Google Chat自动处理客户问题:读取邮件、分析GitHub仓库与Stripe结账流程,并输出结构化报告,将bug处理时间从数小时大幅缩短至几分钟。该SDK允许将同一生产级Agent集成到Slack、Jira等日常工具乃至CI流水线中,使用与桌面端相同的运行时和模型。开发者角色正从编写代码转向指挥Agent,Cursor也由此向AI编程时代的操作系统演进,预示着一个新时代的开启。
我等了整整一年的东西,终于来了, Cursor今天正式发布了它的SDK, 这回可远不只是又一个编程工具的小更新, 可以说是人类历史上第一次, 把生产级的编程能力,变成了可以随便嵌入的基础设施, 以前你只能在Cursor编辑器里用它的Agen...
Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。
http://x.com/i/article/2050006014297346048
这几天,有好几个小伙伴@我说,我的一些作品在他们问 AI 的时候主动被推荐了,很神奇,我想了想感觉啥也没有做,居然可以被收录,那要不要做点更体系化的事情来整一整让现在所有的主流 AI 能够更好的知晓我的内容、产品、想法,于是就开干了。 首先...
Matt Webb提出,随着氛围编码加速应用开发,应用变得更个人化、场景化和高频次,发布工具或微应用更像写博客而非建网站。他期望有一个RSS订阅源,能聚合各类工具和应用页面,每个条目都带“安装”按钮。受此启发,作者使用Claude为自己的工具页面添加了Atom订阅源和图标,该页面内容来自其个人工具站点。这一实践指向了在应用开发轻量化、个人化的趋势下,通过订阅机制高效分享和发现微应用的新可能,其核心在于如何定义“安装”的目的地与实现方式。
金融科技初创公司Kepler针对金融业高监管要求,构建了基于Claude AI的可验证研究平台。该平台核心是建立了“信任与验证层”,确保AI生成的每个数字都能精确溯源至原始文件的具体位置。团队通过基准测试发现,在处理复杂的多步骤财务查询时,Claude是唯一能始终保持计划连贯性、不丢失约束条件的模型。平台通过构建确定性执行环境、开发专用金融本体论,并采用多模型协作的工作流,最终实现了AI输出结果的可审计性,解决了金融从业者对AI产出的信任难题。
软银正成立名为Roze的机器人公司,专注于建设数据中心,并已瞄准未来1000亿美元的IPO。其核心判断是,当前AI浪潮的关键瓶颈已不仅是模型本身,更在于承载AI所需的物理基础设施,包括电力、冷却、土地和服务器。Roze旨在通过机器人与自动化技术,解决这一瓶颈,使数据中心在美国的建设速度更快、成本更低,并更易于大规模扩展。