1模型发布/更新
MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
2产品发布/更新
UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,`pip install flash-kmeans`),精确实现标准Lloyd's k-Means,通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上,端到端速度比最佳基线快17.9×,比cuML快33×,比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵,将IO复杂度从O(NK)降至O(Nd+Kd),单核加速最高21.2×;Sort-Inverse Update核通过排序聚类ID减少原子争用,单核加速最高6.3×。支持out-of-core处理,在1B数据点、K=32768时单次迭代…
xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 `grok dashboard`、`/dashboard` 或 `Ctrl+\` 打开,关闭后会话继续运行,重新打开即可恢复。
Meta 宣布在 Facebook 推出“AI Mode”搜索功能,利用 Meta AI 从公开帖子(含群组和 Reels)提取信息并合成答案,用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设(可更换服装、发型和配饰),体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外,Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划(每月 3.99 美元起),更多 AI 订阅层级正在规划中。
Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普…
OpenRouter 上新增免费容量,由 @eigenlabs 的 Darkbloom 提供:gpt-oss-20b 和 Gemma 4 26B。 今天就开始使用这些模型吧 ↓
GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集,涵盖多语言开发者内容,包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论,以推动多语言 AI 的构建与优化。
本次更新新增 `Tool(param:value)` 语法用于权限规则匹配工具输入参数;嵌套 `skills` 目录中的技能自动加载,名称冲突时以 `<dir>:<name>` 形式保留;嵌套 `agent`、`workflow`、`output-style` 冲突时取最近目录。改进自动模式下子 agent 生成前的分类器评估;`/doctor` 采用扁平树布局;工作流提示词高亮为紫色闪烁,仅触发显式短语;`/bug` 提交前需填写描述。修复了 CLI 继承过期 WebSocket/OAuth 文件描述符导致的崩溃、Chrome 中 OAuth token 账号不匹配导致连接失败、子 agent 转录显示工具结果、后台恢复不从头重启…
3行业动态
Salesforce宣布以36亿美元收购AI客服平台Fin(前身为Intercom)。Fin提供可跨实时聊天、WhatsApp、短信、电话、Slack等多渠道解决客户问题的AI智能体。Salesforce计划利用Fin的技术和团队增强其企业级Agentforce平台,该平台允许企业构建自定义AI智能体以自动化任务。交易预计在Salesforce 2027财年第四季度(即2027年初)完成。Fin联合创始人兼CEO Eoghan McCabe将继续担任CEO,研发负责人Des继续领导研发。
Nvidia 计划通过自 2021 年以来的首次债券发行筹集至少 200 亿美元,消息援引知情人士透露。此举标志着 Nvidia 加入 AI 领域的债务融资热潮。
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 `grok-build-0.1` 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 `grok-build-0.1` 模型。更多智能体与集成即将推出。
4技巧与观点
Skydio是美国最大的无人机制造商,主攻公共安全、军事、能源、基建巡检等企业市场。CEO Adam Bry表示,特朗普政府去年底禁止中国产无人机后,廉价消费级无人机几乎消失,Skydio产品成为主要替代方案。公司认为无人机正从工具转向自主基础设施——通过机库、远程操控和软件整合实现规模化应用,AI在其中扮演关键角色。访谈还涉及Skydio与军方合作的态度,以及自主技术如何带动公司扩张。
今年科技公司已累计裁员约15万人,日均974人,速度比去年快44%;上月裁员近4万创两年新高,AI连续三个月被列为裁员首要原因。Block近半数员工被裁后,CEO Jack Dorsey否认AI是根源,Marc Andreessen则称AI只是“银弹借口”。Uber裁撤23%人事部门,但此前CTO透露AI编码预算四个月内耗尽。与此同时,AI芯片商Cerebras上市首日市值达670亿美元,SpaceX上市市值2.1万亿美元,Anthropic和OpenAI估值均约1万亿美元。Meta在扎克伯格购入1.7亿美元豪宅后宣布裁员8000人。民调显示65%选民认为中产阶级生活遥不可及,76%美国人将生活成本列为首要经济问题。
美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。
GitHub Copilot CLI 为初学者提供了常用斜杠命令的概述,帮助用户通过命令控制终端中的 AI 智能体。