数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。
http://x.com/i/article/2066435928739217408
MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。
Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。
Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...
郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。
Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。
You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important laye...
AMD发布Mac mini尺寸本地AI开发平台,对标NVIDIA DGX Spark。配备128GB统一内存,无需联网可本地运行最高2000亿参数大模型,环境预配置,开机几分钟可出token。支持GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型。接口含Wi-Fi 7、蓝牙5.4、10GbE、4个USB-C、HDMI 2.1b。售价3999美元起。
pi + DeepSeek 画的,才发现这个技能不需要生图模型,是通过 LLM 将自然语言描述转为结构化 JSON → Node.js 渲染器用纯几何算法生成 SVG → 注入自包含 HTML。 https://github.com/tt-...
Last call for the 2026 AI Engineering Survey 👀 https://ntn.so/ai-survey Excited to be partnering with @NotionHQ and @ve...
Made some improvements on the decode path for MiniMax M3 by @MiniMax_AI on MLX-VLM Faster decode, slightly lighter footp...
Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent(Fleet Manager)在远程机器上运行,通过 SSH 连接数百台子 Agent 机器,利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康,将故障推送至 Slack/PagerDuty,并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究,主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品,通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。
http://x.com/i/article/2065439304785039360
NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。
Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。
Anthropic正从租用云算力转向自建数据中心,计划在美国部署超1GW容量,Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁,包括与Google的2000亿美元协议,以及Akamai、AWS、CoreWeave、Fluidstack的大型合作(含500亿美元Fluidstack合作、AWS Trainium硬件)。此外,Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间,并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。
Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...
This month is, unsurprisingly, Cost Reduction Month. In our data from the last 3 yrs, we commonly see major cost crunche...
指南强调IP成色比配置更重要,提供3个免费网页的验货SOP:Scamalytics查Fraud Score(实测0分,Low Risk,黑名单全No);ipinfo查AS Type(实测为ISP,连接类型dsl,VPN/Proxy/Tor/Hosting均为No);check-host查全球丢包和延迟(所有节点4/4零丢包,美境内延迟8-59ms)。推荐VoyraCloud住宅IP VPS(华盛顿节点),年中促销(6/9-6/30)年付7折、半年付8折。提醒:IP干净不是免死金牌,账号行为同样重要;普通建站无需住宅IP。
开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环:在你出错或项目失败时,它们不会主动引导你纠正或发送通知。此外,每个项目都需要重复设置大量“网站管理员”基础设施,比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置,希望将所有功能整合到一个平台中,一次搞定。
DeepSeek-V4支持1M上下文,显存约10GB(对比DeepSeek-V3.2约84GB)。FlashMemory论文进一步将显存压至1.3GB,并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器(小模型),通过预测所需历史片段按需加载,实现注意力降噪。训练采用解耦双编码器架构,无需加载DeepSeek-V4基座模型,训练成本大幅下降。论文:arxiv.org/abs/2606.09079;项目:github.com/libertywing/FlashMemory-Deepseek-V4。
Re-Ink 是 @LandingAI 金融 AI Hackathon 冠军项目,针对再保险承保中约 40% 时间消耗的行政文档录入痛点,构建端到端自动化方案。核心使用 LandingAI 的 Agentic Document Extraction (ADE) 实现 PDF/DOCX 条约的结构解析与上下文感知字段提取(合同标识、日期、金融条款、参与方等),无需正则或模板。关键设计为人机协同闭环:提取数据经人工审核后以单事务持久化,校验失败即回滚。Agent 层用两个 LangGraph Agent 封装入库前引导与审批后分析逻辑。Academy 调查显示手动提取错误率超 6%,运营预算约 14% 用于修复此类错误。
http://x.com/i/article/2065098287758348288
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...
关联讨论 2 条xAI:News(网页)X:xAI (@xai)Today we're launching the new Activity explorer on OpenRouter. It's the best way to see how much and your team are spend...
同一事件,精选展示《OpenRouter 推出 Activity explorer 活动探索器》We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...