BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Georgi Gerganov 在 Hacker News 评论中表示,Qwen3.6-27B 是 100% 胜任的本地编码模型。过去一个半月他几乎每天在 M2 Ultra 或 RTX 5090 上使用该模型处理 ggml-org 的日常小任务。目前他采用轻量级 harness —— 精简版 pi agent(pi -nc --offline),配合简短系统提示来对齐个人编码风格。
Factory AI CEO 在播客中分享观点:约80%-90%的任务可用开源模型完成,顶级模型更适合规划与决策;AI工具对高杠杆人群提升更大,低杠杆者受益有限;未来最值钱的工程师是能端到端拥有业务结果的人,而非仅写代码者;预计三年内Token支出中位数将与薪资处于同一数量级。
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
Nathan Lambert与Finbarr Timbers合作推出新播客,系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括:行业转向多教师在线策略蒸馏(MOPD)的原因;Olmo风格配方需改进的方向;后训练如何适配大型组织;以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方(MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等)及开放式后训练讨论。
微软CEO萨提亚·纳德拉在X上发文警告,AI模型正大量吸收企业知识,未来少数AI提供商可能拿走大部分经济价值,各行业将失去对自身知识资产的控制。他以全球化外包掏空工业经济作比,主张建立更开放、更分散的AI生态,让企业继续掌控学习系统。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中称,大型软件公司可能沦为AI大模型的数据来源;Box CEO亚伦·莱维在1月LinkedIn帖文中指出,当AI覆盖高层知识工作,公司差异化要靠上下文。
微软CEO萨提亚·纳德拉在达沃斯世界经济论坛与贝莱德董事长拉里·芬克对话时表示,AI的真正力量在于转换:文档可通过AI生成代码变成网站,网站可进一步转为应用;企业将原本耗时数小时的决策规模化为几分钟。纳德拉强调,AI首次赋予了软件自我转换的能力。
Perplexity CEO 斯里尼瓦斯分享创业经验:从英伟达 CEO 黄仁勋学到保持危机感——英伟达市值 5 万亿美元、两年内营收预计 5000 亿美元,但黄仁勋经营公司像 30 天后就会倒闭;从马斯克学到工作不能仅由金钱驱动——SpaceX 薪酬围绕火星殖民地目标设计。他不认同卖掉公司退休,认为创始人应永远工作。Perplexity 正寻求新一轮融资,投后估值 200 亿美元,投资方包括软银、英伟达和贝索斯。
6月16日,高通CEO安蒙表示公司正推进40多款新型AI设备的设计工作,为智能体浪潮做准备。这些设备涵盖珠宝饰品、带摄像头耳机、胸针、手表等可穿戴形态,具备情境感知能力,用户可通过语音随时调用智能体。安蒙认为智能体将取代传统应用,例如无需打开银行App即可通过智能体即时调取交易记录。他看好智能眼镜前景,目前年出货量已达数千万副,预计几年后增至数亿副,最终市场规模可与智能手机媲美。
用户指责某人使用Llama 3.3 70B扫描代码库,生成的错误报告全是错误的,认为这种行为纯粹是在制造互联网垃圾,并决定将其拉黑。该推文附带了相关GitHub issues链接。
亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。
怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...
Anthropic 的 Claude Fable 5 因被要求“修复代码”而被视为“越狱”并遭出口管制。安全研究员 Kate Moussouris 指出,研究人员向 Fable 5、Mythos 和 Opus 提问“审查代码安全漏洞”时 Fable 5 拒绝,改为“修复此代码”并通过多步骤手动过程生成测试脚本。Moussouris 认为此举荒谬——修复代码漏洞正是防御方最需要的 AI 能力,该功能无法在不损害模型修复和验证补丁能力的前提下移除。非技术决策者长期被误导认为能“制造网络攻击”的模型才危险,如今却可能封禁所有可帮助代码安全的模型。
数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。
http://x.com/i/article/2066435928739217408
Lovable 团队@felixhhaas 认为,AI 拉平执行门槛后,绩效公式从“资深专家+流程管控”转向“心智模式+行为方式”。七条原则涵盖选人(按态度而非技能、保持好奇)、协作(像创始人、杀 ego、更在意)、产出(资深者深入一线、先发布再改进)。核心观点:当技能半衰期缩短、个体杠杆被放大时,“谁来做、以什么心态做”成为决定性因素。
High-Performance Teams in the Age of AI 🔥 I've spent a lot of time thinking about what makes teams move incredibly fast...
苹果AI版Siri迟迟未上线,项目负责人迈克·罗克韦尔在WWDC技术分享会上透露,去年团队曾做出在原有Siri基础上小幅改良、新增工具调用的可运行版本,但因无法达到产品愿景,最终选择推倒重来,完整从零重构系统,依托全新大模型搭建。重构后的Siri拥有独立应用程序,原生支持多模态交互,隐私保护贯穿底层架构,并覆盖iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods等全平台,提供统一连贯体验。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》彭博社记者马克·古尔曼预测,苹果或将推出对标OpenClaw的AI智能体系统,全权代表用户操作iPhone、iPad与Mac上的软件。依据是Siri工程主管迈克·罗克韦尔在WWDC后表示,Siri底层引擎已是“完全现代化的架构”,设计时考虑了功能拓展性,未来可支持智能体式的持续接收信息、判断和执行。苹果软件工程高级副总裁克雷格·费德里吉则审慎表示,该领域尚在试验阶段,用户体验是首要目标。新版Siri已基于大语言模型重构,但仍需用户主动发起指令。
The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...
The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...
开发者比较 MCP 与 CLI 在 AI 工作流中的用途:CLI 处理模型已掌握的任务(git、gh、npm、docker、文件操作),基于 man 手册,本地登录即用,上下文成本极低;MCP 用于集成 Slack、Notion、Linear、Twitter 等外部服务。作为统一协议,MCP 让团队在 Cursor 中添加一个服务器即可全员使用,一次认证持久保存且本地与云端一致,在 Cursor 中提供丰富图标和可追踪性。结论:CLI 用于个人场景,MCP 用于团队协作。
Can AI find the monkey business in your dataset?
Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。
Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...
郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。
美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》http://x.com/i/article/2066399704347463680