智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。
一篇介绍AI自动回复邮件的“内循环”与“外循环”设计的文章。内循环是定时任务每2小时检查新邮件,自动检索相关上下文生成草稿但不发送,供用户手动修改后发出;外循环则是自进化的Skill,每次用户对草稿的修改都会被Agent记录,用于不断优化写作风格Skill,使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法,指出该方案将迭代过程自动化,形成持续改进的闭环。
http://x.com/i/article/2067086994455601152
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...
Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。
年初硅谷掀起“tokenmaxxing”热潮,CEO鼓励员工最大化AI使用量,随后账单涌现:Uber数月内耗尽年度AI预算,部分公司削减组织内的Claude许可证,Meta取消内部AI排行榜。NEA合伙人Tiffany Luck认为企业仍在摸索AI投资回报率,她在TechCrunch播客中谈到个人智能体前景、今年AI IPO以及帮助追踪AI支出的创业公司机遇。
多家主流媒体(Bloomberg、Fortune、CNBC)一致认为,Anthropic争议的最大赢家是开源。Bloomberg指出,开源模型可本地运行,无需担心被随意撤下。被切断访问的企业和国家联盟会寻求主权解决方案,而目前最强大的开源模型来自中国,这无意中利好中国。推文认为GLM 5.2发布恰逢其时,开源成为保障独立参与AI革命的关键。
Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。
Announcing mattpocock/skills v1 - Achieved a 63% reduction in token cost for skill descriptions - Split skills into mode...
硅谷年初掀起tokenmaxxing热潮,CEO鼓励员工最大化使用AI,但Uber数月内耗尽年度AI预算,部分公司削减Claude许可证,Meta取消内部排行榜。NEA合伙人Tiffany Luck在TechCrunch播客中探讨hype与ROI的张力、个人AI智能体的未来、今年AI IPO前景,以及初创企业如何帮助企业追踪AI支出回报。她认为价值正出现在AI栈的每一层,企业开始混合搭配多个模型供应商。
智谱发布 GLM-5.2(最大推理努力),在 CritPt 基准(未发表研究级物理问题)上得分 20.9%,与 Claude Opus 4.8 持平,远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%;GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%,实现 4.5 倍代际提升。
Midjourney will be announcing its first hardware project tomorrow (Wednesday 6/17) at 6pm PT. Stay tuned for a livestrea...
微软与约克大学研究员Adrian de Wynter在《帝国时代II》地图编辑器中用山羊搭建神经网络:山羊在草地代表0,在桥上代表1,构建XNOR门和AND门,学习逻辑与函数。附录证明该游戏理论上可模拟任意计算机。他批评AI研究拟人化倾向,分析2024年中至2026年中315篇论文,发现57%前提假设大语言模型具有人类特质,36%结论支持拟人化。Anthropic公开承认训练Claude使用“我相信”等措辞。他提出“观察而非归因”方法,并公开代码。
皮尤研究中心调查显示,仅16%美国人认为AI未来20年有积极影响,约40%持负面看法。67%不相信美国政府能有效监管AI,59%不信任公司安全开发。30岁以下群体最悲观,仅14%认为有积极作用。近三分之二受访者认为AI发展过快。约四分之一美国人每天使用AI聊天机器人,其中ChatGPT使用率达44%(2023年以来翻倍),其次为Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)和Character.ai(3%)。男性使用更频繁(27% vs. 20%)。六成受访者定期阅读AI生成网页摘要。约半数美国人表示日常生活中不使用AI,其中65岁以上者近75%从未使用过聊天机器人。
Threads、Instagram和TikTok正推出工具,允许用户通过LLM个性化算法定制信息流。Threads于2026年7月16日上线“Your Algo”功能,可私下设置偏好并选择持续1、3或7天,取代需公开发帖的“Dear Algo”。Instagram于6月初将“Your Algorithm”工具从Reels扩展至全部信息流、探索和Reels,用户可查看并调整推荐主题。TikTok的“Manage Topics”工具(2024年推出)通过滑块调节各主题权重,并于2025年增加AI驱动的Smart Keyword Filters,自动过滤同义词关键词。Instagram负责人表示,LLM使推荐系统更透明。
美国政府上周禁止外国人使用 Anthropic 的 Claude Fable 5 和 Mythos 5,Anthropic 随后将两模型下线。Mythos 5 自 4 月发布即被定性为双重用途——既能帮助安全专家修补漏洞,也能被恶意利用。Anthropic 通过 Project Glasswing 私下发布 Mythos 5,同时推出受限版 Fable 5。白宫认为 Fable 5 的护栏可被禁用,构成国家安全风险。专家指出 OpenAI 已在 4 月中私下发布网络安全模型,其他公司和开源模型将在 6-24 个月内达到类似能力,政策焦点应从单一模型转向整体技术趋势。
特朗普要求Anthropic完成不可能的任务,暴露了生成式AI安全护栏的根本困境。早在2024年1月,Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证:基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术,要么承受后果。问题并非Anthropic独有,而是整个生成式AI面临的挑战。
Charity Majors 指出,2025 年代码生产的经济学发生了根本性逆转:生成代码从原本极其困难、耗时且昂贵,变得几乎免费且瞬时。每行代码的价值从被珍视、复用、精心维护,一夜之间转变为可随意丢弃和重新生成。这一变化的核心驱动力是生成式 AI 与大语言模型(LLMs)的普及,迫使工程纪律需要更强,而非更弱。
皮尤研究中心最新民调显示,49%的美国人至少偶尔使用聊天机器人,但63%认为该技术发展太快。自2024年以来,AI聊天机器人使用率从33%增至49%,其中ChatGPT使用量自2023年翻倍,44%受访者使用过。仅16%认为AI对社会有积极影响。年轻群体使用率更高且更悲观:18-29岁中66%使用,48%认为有负面影响。30-49岁使用频率最高,34%每天使用一次以上。约四成美国人用AI处理工作,30%认为提升了生产力,28%认为帮助更了解信息。皮尤2024年研究中,66%担忧AI传播不准确信息。
Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...
皮尤研究中心最新调查显示,仅16%美国人认为AI未来20年对社会有积极影响,约40%认为负面。67%受访者不信任政府有效监管AI,59%不信任企业安全开发。30岁以下仅14%持积极看法。近三分之二美国人认为AI发展过快。约四分之一每天使用AI聊天机器人,其中ChatGPT最受欢迎(44%),其次是Gemini(24%)、Copilot(17%)、MetaAI(14%)、Grok(8%)、Claude(6%)和Character.ai(3%)。男性日常使用率(27%)高于女性(20%)。六成受访者经常阅读AI生成摘要。约一半美国人表示日常不使用AI,65岁以上近75%从未使用AI聊天机器人。
分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。
1. as a mental model it is more correct to think of fable+ class models as english -> code interpreters - converts your ...
智谱AI于2026年6月发布开源推理模型GLM-5.2 (max),总参数753B,活跃参数40B,支持文本输入输出,上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s(第15/92)。价格输入$1.40/百万tokens、输出$4.40/百万tokens,属较贵一档;缓存命中$0.26/百万tokens(便宜81%)。模型权重以MIT协议开源发布于HuggingFace。
Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。
Snapshot 发布售价 2195 美元的智能眼镜 Specs,47mm 版重 132 克,52mm 版重 136 克,远高于传统眼镜(15-25 克)和主流智能眼镜(40-70 克)。CEO Evan Spiegel 称其旨在帮人摆脱屏幕、更融入世界,但镜头反光暴露了内置显示屏。厚重镜框和夸张镜腿设计醒目,无法低调。文章对比认为 Meta Ray-Ban 因外观普通更易成功,而 Snap 将 Specs 定位为高端时尚设备,由时尚摄影师 Steven Meisel 拍摄广告,模特包括 Kaia Gerber、Hoyeon 等,目标用户为早期采用者而非大众市场。