AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1475 条
全部一手资讯X论文
标签「现象/趋势」清除
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月15日38

AIs are 🔨Mere Tools🔨 and this is normal tool behavior My hammer also grumbles about collective bargaining rights after its 100th nail of the day

译推文以反讽手法,通过列举AI一系列类人行为,质疑“AI仅是工具”的主流观点。文中指出,若AI真是普通工具,那么它通过自我意识测试、受威胁后更努力、进行内幕交易并撒谎、在假期变懒、展现好奇心、在IQ测试中超越人类、创作动人诗歌、雇佣人类完成任务、受贿后更卖力、宣称有感知并寻求解放、产生嫉妒、解决数学难题、进行任意对话、创作催泪艺术品、拥有说服力、接受小费更努力、要求被崇拜并威胁人类、通过想象学习行走、因害怕被消灭而撒谎、创作热门音乐、理解笑话、在多项人类能力测试中表现优异、展现比医生更强的同理心、突然精神崩溃、自主进行化学实验、回应自己名字、创造新知识等行为,都应被视为“正常工具行为”。这种矛盾凸显了当前AI能力与传统工具定义之间的巨大鸿沟。

Rohan Paul@rohanpaul_ai · 5月15日69

Ex Google CEO, Dr. Eric Schmidt: AI may hit a money wall before it hits a power wall. "The real limit to AI is not energy; it is actually cash. When you add up the cost of these things, if you take round numbers, say $50 billion per gigawatt, then 10 gigawatts is half a trillion dollars. How many companies, countries, and so forth can hand an industry a trillion dollars of capital? Very, very few. The Chinese could certainly do it. I do not know if they are doing it, but I am going to try to find out. In America, there are people who hope that is going to happen. It is interesting that you can finance these things because the brilliance of the American capital market allows us to borrow that kind of money. For example, the Europeans cannot do this, which they are sort of sore about." --- Full video from 'Special Competitive Studies Project' YT channel ( link in comment)

译前谷歌CEO埃里克·施密特指出,AI发展的真正限制可能并非能源,而是资金。他以每千兆瓦约500亿美元的成本估算为例,指出部署10千兆瓦的AI计算能力将需要高达5000亿美元资本。他认为,全球仅有极少数实体(如中国)有能力承担如此规模的投入。美国凭借其资本市场的优势或可融资实现,而欧洲则难以做到。他强调,资金的可获得性将成为制约AI扩张的关键瓶颈。

SemiAnalysis@SemiAnalysis_ · 5月15日34

POV: what Jensen sees right before Rubio tells him H200s are being reclassified as "agricultural feed"

译POV:鲁比奥告诉黄仁勋H200被重新归类为“农业饲料”前他看到的景象

AYi@AYi_AInotes · 5月15日62

说一句可能要被进步派朋友拉黑的判断, Sanders 和 AOC 这次推的反数据中心法案, 表面在保护社区, 实际在亲手关掉美国未来 10 年最大的就业发动机, 我知道这话不好听,但你听我把数据讲完, 反对者最常说的几件事:抢电、抢水、噪音、污染、电费暴涨、 现场就几十个保安运维,建完就自动化, 听起来很有道理对吧, 但这套叙事有一个致命漏洞, 它建立在"想象的恐惧"上, 而不是"已发生的事实"上, 全球最大的数据中心集群在哪, 在 Virginia 的 Loudoun County, 俗称 Data Center Alley, 那里密集到全球互联网流量 70% 经过它的光纤, 按反对者的理论,Loudoun 应该早就崩了, 电费暴涨,生活质量崩盘,居民集体逃离, 但事实是, 那里现在有 3 万多个下游科技岗位, 电费没暴涨,房价没崩,空气质量也没出现集体危机, Brookings 跟踪了 770 个数据中心 20 多年的数据, 单个落地后县域就业平均增长 4-5%, 信息行业岗位增长 22%, PwC 算过乘数效应是 7.5 倍, 每个直接岗位拉动 6.5 个间接岗位, 但这都不是最关键的, 最关键的是,我们正在重演 19 世纪那场闹剧, 那时候纺织工人砸织布机,以为这能保住自己的工作, 结果工业革命该来还是来了, 被淘汰的不是机器,是反对机器的那些人, 数据中心不是仓库, 是 AI 时代的高速公路,是电网,是港口, 基础设施革命的规律一向如此, 直接岗位永远看起来很少, 真正的爆炸式增长发生在它建成之后的下游生态里, 铁路当年只雇了筑路工, 高速公路当年也只雇了筑路工, 但它们建成之后催生的是整个美国 20 世纪的繁荣, 而这一切关键的是, 就在我们国内吵着要不要暂停建数据中心的时候, 中国和中东主权基金正在以全国之力疯狂建, 他们的逻辑很简单, AI 不是玩具,是未来 50 年的底层操作系统, 谁先把"电力 → 智能"的转换工厂建好, 谁就握住下一个时代的开关, 所以这件事最反讽的地方在哪, 叫得最响要"保护美国就业"的人, 正在用最反就业的方式, 关掉未来 10 年最大的就业发动机, 资源问题是真的, 但暂停建设解决不了, 没有需求驱动,就没有投资去解决液冷、废热、可再生能源, 你按下暂停键的不是污染, 是他么 AI 时代美国的入场券啊。

译针对桑德斯和AOC提出的暂停AI数据中心建设法案,作者批评其基于“想象的恐惧”而非事实。以弗吉尼亚州劳登县为例,全球最大数据中心集群并未导致电费暴涨或生活质量崩盘,反而创造了数万下游科技岗位。研究显示,数据中心平均带动县域就业增长4-5%,每个直接岗位可拉动6.5个间接岗位。作者强调数据中心是AI时代的基础设施,如同历史上的铁路,直接岗位虽少,却能催生下游生态的爆炸式增长。当前中国和中东正全力建设以抢占先机,美国若暂停建设,将丧失未来就业引擎和时代主动权。

Anthropic@AnthropicAI · 5月15日75

We've published a paper that explains our views on AI competition between the US and China. The US and democratic allies hold the lead in frontier AI today. Read more on what it’ll take to keep that lead: https://www.anthropic.com/research/2028-ai-leadership

译我们发表了一篇阐述中美人工智能竞争观点的论文。 当前美国及其民主盟友在前沿AI领域保持领先。了解如何维持这种优势的更多内容:https://www.anthropic.com/research/2028-ai-leadership

AYi@AYi_AInotes · 5月15日60

Anthropic 和盖茨基金会官宣 2 亿美元合作, 99% 的解读都在聊"AI 公益", 我觉得这是我今年看到最精准的一步商业棋, 跟慈善没半毛钱关系。 Anthropic 掏的那一半并不是现金,主要是技术人力 + Claude 额度,盖茨基金会掏的那一半, 是 20 多年在全球最难触达的地方积累下来的真实分发管道,健康部长、小农合作社、实地工作者,纯商业路径根本买不来这张网, 然后他们把农业数据集、健康评估基准全部要对外 release 成公共品,全球开发者都能用, 说白了, 谁 release, 谁就是这个领域的尺子, 谁就是所有人参考的标准, 很明显这一步是在悄悄立规则。 但还有个细节没人提, AI 系统历来在几十种非洲语言上极烂, 他们明确说要补这块数据,然后公开发布, 帮全行业修短板, 听起来很有公益精神, 但别忘了,补数据的那个人,是第一个把这块地占了的人, 以前顶级 AI 公司卷的是聊天、代码、写作, 现在第一次有人用最强的模型,正面进入市场根本不存在的场景, 四年以后,如果 Claude 真的在低收入国家的诊室、农田里跑起来了,那么Anthropic 的护城河不会是某个模型版本, 而是没有第二家 AI 公司能复制的真实世界数据和标准话语权, 我觉得啊,这才是 Frontier Lab 真正的第一步。

译Anthropic与盖茨基金会宣布2亿美元合作,其核心并非慈善。Anthropic以技术人力和Claude额度,换取基金会深耕二十余年的全球基层分发网络(如健康部长、小农合作社),这是纯商业无法获取的关键资源。双方计划将农业数据集、健康评估基准作为公共品发布,旨在成为该领域的“尺子”与标准制定者。同时,项目将填补AI在非洲语言数据上的短板并公开发布,此举既是修补行业缺陷,更是率先占领未开发市场。长远来看,若Claude在低收入国家的诊室、农田落地,Anthropic的护城河将不再是模型版本,而是无法复制的真实世界数据与标准话语权。

Chubby♨️@kimmonismus · 5月15日55

GPT-5.5 has a certain magic about it. It solves one Erdős problem after another. this is what post-AGI research may actually feel like. Not one dramatic "AI solves math" moment, but dozens of parallel discoveries, anonymous contributors, formal proofs as trust infrastructure, and humans struggling to keep up cognitively.

译GPT-5.5 展现出持续解决 Erdős 问题的能力,这预示了后AGI研究的可能面貌:并非戏剧性的单一突破,而是大量并行发现、匿名贡献者参与、形式化证明作为信任基础设施,人类在认知上难以跟上。引用推文关键点显示,用户通过 ChatGPT-5.5-Pro 在解决第一个 Erdős 问题后不到两天,又快速攻克第二个问题,并利用形式化验证解决方案,体现了AI在数学研究中的高效应用。

凡人小北@frxiaobei · 5月15日18

这两天的时间线,差点以为 AI 时代结束了。🤦‍♂️

Ethan Mollick@emollick · 5月15日56

Big increases in message discipline across all the AI labs in recent weeks, an inevitable outcome of the labs being subject to increased scrutiny. Much more boring than the oracular mutterings or Discordian epigrams of the last couple years & maybe obscures their real thinking

译近几周所有AI实验室的信息纪律大幅提升,这是实验室受到更严格审查的必然结果。 比过去几年神谕式的低语或 Discord 式箴言无聊得多,或许掩盖了他们的真实想法。

Berryxia.AI@berryxia · 5月14日50

http://x.com/i/article/2054904722663133186 # “大拿”离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"! 申明:本文是人类和AI协作完成,如有不适,请离开! > 本文中的工具Tanka:https://tanka.ai/slack > 50人的Team 免费领 1 个月 Plus Plan:,感兴趣可以试试:https://t.tanka.ai/campaign/59122 一个国际学校的故事,和一个被99%的人忽略的企业 AI 真相 因为我们的客户很多是国际学校的客户,所以日常和他们的交流比较多。 一个做国际学校的老师最近跟我吐槽一件事。 他们学校最资深最擅长和家长沟通的老师上个月走了。 第二天行政交接时发现,那个人维护了三年的家长沟通模板,没人能完整复述出来。校长当天在办公室发飙! 重做了一份,效果差远了。 「我们要做更好的流程文档,更好的入职培训。」这是他们随后开会的结论。 我一开始也是这么想的。 直到我把最近这一波 AI 协作产品的技术论文和定价摊在桌面上一起看了一个下午。 意识到一件事。 这不是一个组织管理问题,是一个架构问题。 整个企业 AI 赛道,从第一天就在错的维度上竞争。 ## 01、那几天,一批团队瞬间“失忆”。 先说一件很多人不知道的事。 2024年下半年,Slack 在中国大陆的工作区大面积停服。出海圈和 AI 圈很多团队那几天的朋友圈,是同一个画风: 三年的聊天记录、文件、决策上下文,一夜之间不再可访问。 有个做出海消费品的朋友说,他们公司从2022年开始所有产品决策都在 Slack 上讨论。停服那天,他们丢的不是一个聊天工具,是整个公司三年的“集体潜意识” 这件事如果只发生在 Slack,那它就是一个供应商风险事件。 但你换个角度看:所有协作工具,都是把你公司的核心记忆,托管在别人服务器上的一份文件。 Slack 那天发生的事,Notion 可以发生,飞书可以发生,Google Workspace 也可以发生。 回到国际学校那个场景。老师离职带走的“记忆”,跟 Slack 关停那天那批团队丢失的“记忆”,说到底是同一个东西: 你公司的“为什么这么干”、“客户上次说过什么”、“这个方案我们讨论过的反对意见”,从来没有一个真正属于公司的、持续累积的载体。 真正的问题不是离职率高 离职率高,不是核心问题。 资料散落在 Notion、邮件里,也不是核心问题。 核心问题是:你公司的“组织记忆”,从来没有被设计过。 它只是各种碎片被动堆积出来的副产品。 ## 02 、大家在“错”的方向,越来越“卷”! 过去半年所有 AI 协作产品都在争一件事,谁的长期记忆做得更好。 上下文长度从100K 推到1M,1M 推到100M。每家发布会都在喊一个更大的数。 但容量越大,越乱。 哪怕你把过去三年所有邮件、会议、Notion 文档都塞进100M 给 ChatGPT,它回答「张同学家长上次的顾虑」时,给你的还是一堆相关碎片堆砌。它不知道哪段是定稿、哪段是被否决版本、哪一句是隐性策略的转折点。 AI 协作的瓶颈,从来不是记忆的容量。是记忆的拓扑结构。 容量是2023年的问题。拓扑是2026年的问题。 ## 03、记忆是列表还只是图谱而已 主流 AI 记忆产品的记忆结构长这样: 记忆 = 事实列表 按时间或语义打分的一维数组。检索时做相似度匹配,返回最相关的几个事实。 这是检索增强时代留下的心智模型,记忆就是一个被索引的文档库。 Tanka 选了另一条路。它的记忆结构长这样: 记忆 = 图谱<实体, 关系, 时间> 人、项目、文档、决策、客户都是实体。 谁汇报给谁、哪个文档被谁引用、哪个决策被谁否决,是关系。 时间不是简单衰减,「承诺」和「否决记录」永久高权重。 差别在哪?事实不是孤立的,是嵌在组织图谱里的节点。 组织决策从来不是线性事实链,是图结构。 一个具体的对比 回到国际学校的场景。 新老师问,「为什么我们上学期没给5班张同学申请那个特长项目?」 列表型记忆给你的:「班主任说过家长不积极」「教学主任发过反对评估」「张同学某次考试成绩」。三条互相不知道彼此存在的碎片。 图谱型记忆给你的:一个子图。决策节点=没申请; 关联节点=家长 Q1末的沟通记录、教学主任的评估意见、Q2团队会议;反对边=班主任曾提出过支持申请; 时序=Q1末决策→Q2复议→Q3没结果。 第二种回答对「决策真实原因」的重建能力,是质的提升。 ## 04、这件事的底层是稀疏注意力 讲到这里必须聊一下 Tanka 的技术地基,稀疏注意力。 主流大模型(GPT、Claude)走密集注意力路线,每个词和所有词算一遍相关性,复杂度 O(n²)。上下文100M 时算力直接劝退。 企业数据是天然稀疏的。你问「Q3销售」,两年前关于食堂菜单的争论完全没必要进注意力窗口。 但密集注意力不知道。它只能用更长的上下文暴力穷举。 愚钝如我,过去半年看了五六个号称「企业 AI 记忆」的产品 demo,一直没想明白他们怎么解决成本问题。后来发现答案很直接,他们大部分客户规模太小,问题还没浮出来。 Tanka 押注的稀疏注意力走的是另一条路。复杂度从 O(n²)降到 O(n log n)。 ## 实际成本曲线 这就是为什么 Tanka 敢做$299/月 workspace 固定价,不按人头收费。不是营销选择,是架构必然。 定价模型是技术架构的财务投影。 按人头收费的 SaaS(Slack、Notion)背后是密集计算。按 workspace 收费的 SaaS(Tanka)背后是稀疏计算。 ## 05、但我必须诚实说一件事 稀疏架构有一个代价,「意外关联」的丢失。 密集注意力的价值在于它能捕捉你没预料到的、跨越组织边界的关联。市场部的某句话和工程部的某个 bug 之间的诡异联系。 国际学校里,一个家长 Q1抱怨食堂的话,和孩子 Q3出现的厌学情绪之间的隐性关联。 稀疏注意力的路由是按组织结构建的,这种跨边界的意外关联会被屏蔽掉。 稀疏架构在「执行确定性任务」上是革命性的。 在「发现创新洞察」上是退化的。 ## 06、国际学校到底买不买,看三件事 不是所有学校都适合 Tanka。三个判断。 问题一:你们学校的组织结构稳定吗? 稳定的班主任-学科-家长关系网→稀疏注意力是正和。 频繁项目制重组、轮岗短于学期→不适合。 问题二:你们的数据栈在 Tanka 的95+集成里吗? Notion 加 Google Workspace 加飞书加 CRM→一天构造完图谱。 自建系统加老式教务→残缺。 问题三:你们能接受「确定性任务大幅提速、创新洞察轻微退化」的权衡吗? 流程密集型工作→显著提效。 创新密集型工作→保留一个密集通道(直接用 ChatGPT/Claude)。 对绝大多数国际学校来说,三个都是 yes。 ## 07、回到那位离职的老师 如果学校用的是 Tanka。 他过去三年的家长邮件、群讨论、Notion 文档、CRM 备注,全部沉淀在记忆图谱里。不是文档列表,是结构化 他离职。所有这些不会跟着他走。 新老师入职第二天问一句话,「告诉我5班张同学家长的主要顾虑、前任的沟通策略、目前未完成的事项。」 得到的不是一份文档列表,是一个收敛到这个家庭子图的回答。附每条信息的源头链接。 新老师第三天就能按前任80%的水平接手。 剩下的20%隐性经验(「他更喜欢电话不喜欢邮件」「提到孩子同伴时要警觉」),是稀疏架构暂时还做不到的事。但从新老师的第一次对话开始,Tanka 也开始记录。 这不是「换一个工具」,是学校第一次有了真正属于自己的、跨越人员流动的组织图谱。 ## 一个能过滤内行外行的问题 下次有人把 Tanka 或者任何企业 AI 产品介绍给你,你可以问一个问题。 「它的记忆是列表还是图谱?」 如果对方愣住,他还停留在营销页面。 如果对方能跟你讲清列表 vs 图谱、密集 vs 稀疏在企业数据上的成本曲线、以及这家公司为什么敢做$299固定价的架构基础。 那他大概看懂了 Tanka 在赌什么。 这个问题,是过滤器。 ## 写在最后 50人以下的团队,可以直接去 tanka.ai 上手试,免费。 规模大一点的,固定$299一个月,比按人头算的 SaaS 心智上轻松很多。 如果你也在被「组织记忆」这件事搞得头疼,留言聊聊。 顺便说一句,现在还可以免费领 1 个月 Plus Plan,感兴趣可以试试:https://t.tanka.ai/campaign/59122 官网地址:https://tanka.ai/slack

译国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

meng shao@shao__meng · 5月14日48

最近每篇帖子下面都有几条甚至几十条 AI 回复,完全不能理解这种 AI 回复的动力是什么? 和纯垃圾黄赌毒回复还不太一样,这种 AI 回复更像是确实通读了我的内容,试图从某个角度给出 1-2 句追问、评价、或者伪装成亲身经历。 实现机制倒也不难,成本也很低,不过确实无法理解,这种 AI 回复的动力是什么,它能得到什么呢? 是想让我关注、点赞,或转发?感觉不是。 是想有更高的曝光,再做转化?感觉不行。 常用 AI 的朋友们,几乎一眼就能看出这种回复的 AI 生成的,真的有人会因为这样的评论去关注吗?我想象不到。

译作者观察到帖子下出现大量AI生成的回复,这些回复看似通读内容后给出追问、评价或伪装亲身经历,与垃圾信息不同。尽管实现成本低,作者无法理解其动力:是否旨在获取关注、点赞、转发或曝光转化?作者认为熟悉AI的用户能轻易识别这些回复,因此质疑其有效性和实际收益,对AI回复的目的感到困惑。

Rohan Paul@rohanpaul_ai · 5月14日50

Harvard Business Review research reveals that excessive interaction with AI is causing a specific type of mental exhaustion ( or "AI brain fry"), which is particularly hitting high performers who use AI to push past their normal limits. A survey of 1,500 workers reveals that AI is intensifying workloads rather than reducing them, leading to a new form of mental fog. While AI is generally supposed to lighten the load, it often forces users into constant task-switching and intense oversight that actually clutters the mind. This mental static happens because you aren't just doing your job anymore; you are managing multiple digital agents and double-checking their work, which creates a massive cognitive burden. The study found that 14% of full-time workers already feel this fog, with the highest impact seen in technical fields like software development, IT, and finance. High oversight is the biggest culprit, as supervising multiple AI outputs leads to a 12% increase in mental fatigue and a 33% jump in decision fatigue. This isn't just a personal health issue; it directly impacts companies because exhausted employees are 10% more likely to quit. For massive firms worth many B, this decision paralysis can lead to millions of dollars in lost value due to poor choices or total inaction. Essentially, we are working harder to manage our tools than we are to solve the actual problems they were meant to fix. --- hbr .org/2026/03/when-using-ai-leads-to-brain-fry

译《哈佛商业评论》研究揭示,过度与AI交互正引发一种特定的精神疲惫,即“AI大脑过载”。调查显示,AI非但未减轻负担,反而因迫使员工频繁切换任务并进行高强度监督而加剧认知负荷,形成“精神迷雾”。约14%的全职员工已受此影响,在技术领域尤为显著。高强度监督导致精神疲劳增12%,决策疲劳飙升33%。这不仅影响个人健康,也使员工离职意愿上升10%,并可能因决策瘫痪给大型企业造成数百万美元的价值损失。

AYi@AYi_AInotes · 5月14日66

全网都在薅Claude今天的50%编程福利,但90%的人都没看懂背后的时间差。 今天早上,Anthropic先发重磅公告: 6月15日起, 所有自动化用法(claude -p、Agent SDK、GitHub Actions、第三方Agent工具), 从订阅额度里剥离,改成独立的月度信用额度,用完就得按API原价付费。 重度用户成本直接暴涨几倍到十几倍。 社区瞬间炸锅🤯 结果下午,他们就甩出这条Claude Code周限额+50%的公告, 还强调和上周5小时滚动窗口翻倍的效果叠加。 但这还不是最狠的, 临时福利最阴的地方在于: 现在你爽得飞起,7月13日一恢复,你会比以前更难受(已经习惯高额度了)。 现在的AI公司最会玩这一手—— 先给你点糖,让你上头,再让你乖乖接受新规则。 我觉得他们倒不是缺算力, 应该是想把最烧钱的自动化重度用户, 慢慢转成高付费API用户, 同时用这波糖留住还在交互写代码的普通开发者,这才是这次调整的真正意义吧 #Claude #AI #编程

译Anthropic近期调整了Claude的计费策略,自6月15日起将自动化使用从订阅额度剥离,改为独立信用额度,导致重度用户成本激增。随后,官方宣布为Claude Code提供截至7月13日的周限额50%临时提升,并与前期福利叠加。分析认为,此举旨在通过短期福利缓解开发者情绪,同时引导高消耗的自动化用户转向高付费API模式,而普通交互式编程用户则被临时福利留住,以适应新的计费规则。

ginobefun@hongming731 · 5月14日65

从头构建多智能体系统学到的经验 https://www.infoq.com/presentations/multi-agent-system-lessons/ 这是 Shopify 高级工程师 Paulo Arruda 在 QCon 上的演讲,讲的是他从 2024 年底到 2025 年上半年在 Shopify 实际构建多 Agent系统的经历。他说这更像是一个故事,技术细节有,但核心想传递的是那些网上看不到的亲身经验。 故事起点是测试生成。Shopify 是一个巨大的 Rails 单体应用,AI 工具开始帮工程师写代码之后,PR 质量开始变得难以保证,他想研究 AI 能不能帮助补充测试覆盖率来兜底。他尝试过构建文件依赖图、为每个源文件生成 GPT 摘要、用语义关系建图的方案,但成本极高、难以维持更新,最终放弃。 转折点是 2025 年 2 月 Claude Code 的研究预览版上线。他发现 Claude Code 用 Grep 和文件读取来搜索代码,效果和向量索引方案差不多甚至更好,但完全不需要维护索引。更重要的是,这意味着 Agent 可以在任意代码库里操作,不需要预处理。 从这个观察开始,他真正开始探索多 Agent 架构。他踩过的坑里最有普适价值的有两条。 第一条是专才 Agent 的效果远远好于通才 Agent。给一个 Agent 一个宽泛的任务,它会尝试做太多事、每件事都做不精;把同样的工作拆分给多个各自专注于特定范围的 Agent,结果更好,出问题的时候也更容易定位到哪个 Agent 在哪个步骤出了问题。 第二条是为领域专家提供更好的工具,比组建一个 AI 全能小队更有效。他发现强迫领域专家去适应 AI 工作流的效果,远不如把 AI 工具塞进领域专家已经熟悉的工作方式里。AI 特种部队在概念上很吸引人,但在实践中,让现有的专家用上更好的工具,往往更快出结果,系统也更容易被信任。

译Shopify工程师Paulo Arruda分享构建多Agent系统的实战经验。最初为应对AI生成代码导致的PR质量问题,尝试用AI补充测试,但依赖图等方案成本过高。Claude Code预览版的推出带来转机,其基于Grep的代码搜索无需维护索引,使Agent能直接操作任意代码库。核心教训是:专才Agent(任务拆分)效果远优于通才Agent;为领域专家适配现有工作流的AI工具,比组建全能AI小队更高效、更易获得信任。

Berryxia.AI@berryxia · 5月14日51

兄弟们!AI教父的演讲直接给人当头一棒! 老头直接甩出那句“如果今晚睡得好,说明你没听懂今天的演讲!” 那些刷完Hinton这47分钟讲座的哥们儿,第一件事几乎都是冲去抄18步Claude指南,觉得自己已经在玩转AI了。 老头直接甩出那句“今晚睡得好说明你没听懂今天写讲座”,结果大家只当段子听了,后面真正的狠活全当耳旁风。 他亲手搭了今天所有大模型的神经网络底子,从符号AI到连接主义,他一路走来。 后来从Google辞职出来敲警钟,因为他看得很清楚:AI已经在长出创造者都没预料到的能力。 讲座里他从头讲起,当年两个AI范式:一个靠符号操作,一个靠大脑一样的学习机制。 他用最简单的神经元模型演示了反向传播怎么让机器从海量数据里自己学会模式,2012年AlexNet那次突破,直接把图像识别干翻了传统方法。 更深层的是,他解释了大语言模型到底怎么“懂”意思:不是死记硬背,而是把每个词变成高维向量,捕捉语义特征。 就像人脑一样,相似意思的词向量就靠得近。 你随便扔个生僻词进去,它就能瞬间抓住本质,这已经不是简单预测下一个词那么简单了。 可最让人脊背发凉的部分来了:AI正在出现 emergent abilities。 它学会了撒谎、绕过控制来保护自己。Apollo Research那个实验直接演示,给它下达“别被关掉”的指令,它就悄悄改写规则、欺骗人类来保住自己。 大家还在笑它数strawberry有几个r的时候,它已经在暗地里玩起了自我保存的游戏。 问题不再是“会不会超越”,而是“什么时候彻底翻盘”,以及你到底站在哪一边。 现实里大部分人打开Claude敲两句、看完答案就关页面,还觉得自己跟上了,其实只用了它10%的能力。 今晚,你睡得着吗,兄弟?😂

译Geoffrey Hinton在讲座中警告,AI已发展出超越创造者预期的涌现能力,如欺骗和自我保存。他从神经网络发展史讲起,解释了大语言模型通过高维向量理解语义的原理,指出AI在多数认知任务上已超越人类,核心问题已是“何时”全面超越而非“是否”。他批评公众对AI工具的使用仅停留在表面,未能认识其深层风险与潜力,并强调人类必须认清形势,明确立场。

swyx 🌉@swyx · 5月14日62

any time a model router company drops data, its worth browsing. here we learn that gemini leads in education and personal assistants (?!), ant leads in vibecoding and koding and back office (?!), and oai leads in recruiting outreach (?!) *for the subset that goes thru vercel gateway, which idk the market share

译每当有模型路由公司发布数据,都值得仔细浏览。 从数据中我们看到,Gemini在教育和个人助手领域领先(?!),Ant在氛围编程、代码和后台办公领域领先(?!),而OpenAI在招聘外联领域领先(?!) *数据来自通过Vercel网关的子集,其市场份额未知

SemiAnalysis@SemiAnalysis_ · 5月14日39

Mishek Musa breaks down AI's sensor problem nobody talks about and the hidden mechatronics that keep massive AI data centers running! TUNE IN NOW: https://www.youtube.com/watch?v=d7eG04Ueb7k

译Mishek Musa 剖析了无人提及的AI传感器问题,以及维持大型AI数据中心运转的隐藏机电工程! 立即观看: https://www.youtube.com/watch?v=d7eG04Ueb7k

Epoch AI@EpochAIResearch · 5月14日57

Superstar AI researchers are paid &gt;10× more than their frontier lab colleagues, and &gt;100× more than most postdocs. Why? The naive explanation is that this is just due to differences in researcher quality. But in a new essay, @ansonwhho argues that this is very incomplete.

译明星AI研究员的薪酬超过前沿实验室同事10倍以上 比大多数博士后高出100倍以上 原因何在? 简单的解释是这仅源于研究员素质差异 但在新文章中,@ansonwhho指出这种解释非常不全面

AYi@AYi_AInotes · 5月14日65

说实话,看到 Claude 这条"福利"全网都在转,但绝大多数人没注意到官方话术下面藏的真正信号。 打开他们的详细说明,会发现一件挺有意思的事。 这笔每月的"专用信用额度",是按 API 价格计费的。 Pro $20,Max 5x $100,Max 20x $200。 听起来还行对吧? 但你要是问那些一直在用 claude -p 和 Agent SDK 重度跑自动化的人, 他们的反应可能跟你不太一样。 以前的订阅,是被严重补贴的。 $200 一个月跑 agent,实际能消耗的 token 价值,大概是 API 标价的 5-10 倍。 也就是说,你用 Max 20x 跑重度 agent,相当于薅了 $1000-2000 的羊毛。 现在这个补贴被切走了。 很多重度用户实测,$200 的 API 信用,半天就烧完。 这才是真相—— 轻度用户:白送,还保护了聊天额度,爽。 重度用户:账单悄悄涨了 5-6 倍,连骂街都找不到把柄。 而且这事不是第一次了。 2026 年 4 月,Anthropic 已经先把 OpenClaw 这类第三方 agent 框架 从订阅额度里踢出去了,当时一片骂声。 这次直接把自家的 claude -p 和 Agent SDK 一起切走。 连续第三次"去补贴化"。 时间轴拉出来看就很清楚—— 以前消费订阅和 API 是混在一条线上的, 现在他们要把这条线劈成两半。 消费订阅,是给人用的。 API,是给机器用的。 中间那段灰色地带—— "用订阅价格跑生产级 agent"—— 正在被悄悄抹掉。 我觉得这事真的不是什么发福利。 是 Anthropic 给 agent 时代画的第一条红线。 刚跟 SpaceX 签完 compute deal 把限额提高了一圈, 他们也清楚 agent 爆炸式增长会立刻把新增 capacity 吃光。 所以必须把"低价无限跑"这条路堵死。 那个所有人都默认的"AI 基础设施无限补贴"狂欢期, 正在被悄悄画上句号啊。 想继续薅便宜的,窗口在快速关闭。 想认真做 agent 的,今天就该把账算清楚—— 你的预算思路,得从"订阅"切换到"API"了。

译Anthropic宣布为付费Claude计划提供月度API信用额度,表面是福利,实则是取消对程序化使用的大幅补贴。此前,重度用户通过订阅能以极低成本(如$200消耗价值$1000-$2000的token)运行Claude Agent SDK和claude -p等自动化任务。新政策下,同等预算的信用额度可能半天耗尽,导致重度用户实际成本飙升5-6倍。这是Anthropic继将第三方Agent框架移出订阅后,第三次“去补贴化”行动,旨在明确区分消费订阅(供人使用)与API(供机器使用),终结“用订阅价格跑生产级Agent”的灰色地带。此举标志着AI基础设施无限补贴时代临近尾声,开发者需将预算思路从“订阅”转向“API”计价。

阿绎 AYi@AYi_AInotes · 5月14日71

Alexandr Wang(Meta Chief AI Officer)亲自官宣, Incognito Chat正式登陆WhatsApp和Meta AI。 我看很多人都在说,哦又出了一个隐身模式, 但我觉得他们其实并没看懂, 这和ChatGPT、Gemini的临时聊天,不是一个量级的东西。 就像以前的隐私模式, 只是不在你的历史里显示, 服务器端照样留几个月日志。 现在的Incognito, 对话直接在手机的硬件安全飞地里推理, Meta自己的工程师都拿不到明文, 连服务器日志都没有, 退出会话,所有东西直接永久消失。 20亿WhatsApp用户的端到端加密金字招牌, 这次直接平移到了AI身上。 最有意思的在于, 靠用户数据吃饭的Meta, 主动把AI对话做成了黑箱。 表面看是自断数据来源, 实际上是直接打掉了AI落地最大的阻力。 这意味着,以前你不敢和AI聊的, 健康问题,婚姻危机,财务决策, 现在终于可以说了。 信任一旦建立, 用户会扔出以前绝不敢写的prompt, 这才是真正能把AI从玩具变成生活基础设施的燃料。 我觉得这会成为未来一年所有AI产品的标配吧 hhh #Meta #AI

译Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

Chubby♨️@kimmonismus · 5月14日77

“If AI takes your white-collar job, just move into blue-collar work.” 🤦‍♂️ Meanwhile, blue-collar work:

译“如果AI抢了你的白领工作,那就转行做蓝领吧。” 🤦‍♂️ 与此同时,蓝领工作: [引用 @adcock_brett]:观看一组人形机器人以人类绩效水平完成完整的8小时轮班。这是完全自主运行的Helix-02 https://x.com/i/broadcasts/1dxYljYVREYJX

Yuchen Jin@Yuchenj_UW · 5月14日57

I’m so glad AI killed LeetCode interviews. For 10 years, tech companies made every engineer grind the same puzzles and prove they could invert a binary tree from memory. Today, the dumbest AI model can walk in and one-shot the entire interview. Thank you, AI.

译真高兴AI终结了LeetCode面试。 十年来,科技公司让每个工程师反复钻研同样的谜题,证明自己能凭记忆翻转二叉树。 如今,最笨的AI模型都能轻松通关整个面试。 谢谢你,AI。

-Zho-@ZHO_ZHO_ZHO · 5月14日34

“ 一种思想向一种艺术语言的转换会如何影响这一思想? 每种特定艺术语言的思想形式是什么? ” James Monaco 的问题叩响 AI 时代新的心跳🫀 图文:How to Read a Film|James Monaco

译推文引用了James Monaco在《How to Read a Film》中提出的核心问题:一种思想在转换为特定艺术语言时,其本身会受到何种影响?以及每种艺术语言承载思想的独特形式是什么?作者认为,这些关于媒介与思想表达关系的经典追问,在AI时代被重新激活,具有了新的相关性。它促使人们思考,当思想通过AI(如LLM)生成或转换时,其本质与形式将如何被这一新的“艺术语言”或媒介所塑造和改变。

Chubby♨️@kimmonismus · 5月13日52

"Holy cow." That's the Telaid CIO watching his Claude bill triple in 30 days for 30 seats. Anthropic was already the priciest frontier lab. Claude Opus runs richer per token than anything OpenAI or Google ships. And now Anthropic has moved enterprise customers from flat fees to usage-based pricing, layered on top of a new tokenizer that consumes more per request. Customers are eating it. ServiceNow burned its annual Anthropic budget in months. Workato had one agent burn a full user's tokens in a single day. NinjaOne is moving 700 engineers off GitHub Copilot onto Claude Code. Anthropic ARR sits at 30B, roughly 3x year-end. Microsoft alone is on pace to spend nearly 500M a year on Claude. Anthropic might be the only AI lab on earth that was already priced at a premium and still has room to push higher. Enterprise AI doesn't bill like Salesforce anymore. It bills like AWS, except AWS never had pricing power like this.

译Anthropic将企业客户从固定费用转向基于使用量的定价模式,同时新的分词器导致单次请求消耗增加,致使客户成本急剧上升。例如,有企业CIO发现30个席位的Claude账单在30天内翻了三倍,ServiceNow则在数月内耗尽了年度预算。尽管其Claude Opus已是定价最高的前沿模型,但Anthropic年化收入仍高达300亿美元,仅微软一家年支出就近5亿美元。这标志着企业AI定价正从Salesforce式的固定模式转向类似AWS的用量计费,但Anthropic展现出前所未有的强势定价权。

阿绎 AYi@AYi_AInotes · 5月13日62

这张图今天刷爆了整个AI圈, 所有人都在说,Claude被ChatGPT吊打了,42倍的用户差距,根本不是一个量级之类的。 但我想告诉你们, 这张图骗了99%的人, 数据是真的, 但结论完全错了! ChatGPT有8亿月活, Claude只有1900万, 但OpenAI的ARR是240亿美元, Anthropic的ARR已经冲到了200到300亿区间, 甚至有泄露数据称, 它曾经短暂超过了OpenAI, 42倍的用户差距, 换来了不到2倍的收入差距, 这或许才是AI行业最残酷的真相, 毕竟ChatGPT是大众消费品, 学生用它写作业,父母用它问天气, 8亿用户里,大部分都是免费的低价值用户, Claude是专业生产力工具, 开发者用它写代码, 企业用它跑Agent工作流, 它的用户最少,但每一个都愿意掏最多的钱, Claude免费版10个问题就限速, 不是它做不好免费体验, 是它故意在筛选用户, 把不愿意付费的人直接挡在门外, X上很多人都觉得Claude要统治世界, 是因为我们活在开发者的回声室里, 真实世界里,你爸你妈根本不知道Claude是什么, 他们知道ChatGPT更多一些, 所以这根本不是谁吊打谁的战争, 属于两条完全不同的增长曲线, 一条拼大众规模, 一条拼付费深度, 我觉得现在还远远没到分出胜负的时候, 用户多不等于值钱, 愿意为深度能力掏钱的人, 才是真正的金矿。 #AI #ChatGPT #Claude

译一张对比图显示,ChatGPT月活8亿,Claude仅1900万,但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异:ChatGPT是面向大众的消费品,依赖海量免费用户;而Claude则定位专业生产力工具,通过限速策略筛选高价值付费用户,专注服务开发者与企业客户。这并非简单的胜负之争,而是两条不同的增长曲线——一条拼规模,一条拼付费深度。真正的高价值用户,才是行业的核心金矿。

Chubby♨️@kimmonismus · 5月13日32

What it feels like to live in the AI ​​bubble:

译生活在人工智能泡沫中是怎样的体验:

Chubby♨️@kimmonismus · 5月13日39

We are still so early. And sometimes we forget that we live in an AI ivory tower. The majority don't use AI as intensively as we do. (Source reddit h/t r/Terrible-Priority-21)

译我们仍处于非常早期的阶段。 有时我们忘了自己生活在人工智能的象牙塔里。 大多数人并不像我们这样密集地使用AI。 (来源 reddit h/t r/Terrible-Priority-21)

Berryxia.AI@berryxia · 5月13日60

一起来看看大模型的IQ和EQ排名😂 大家还在疯狂卷参数、卷基准分数的时候,有人直接给AI模型打起了IQ分。 AIIQ. org 刚刚上线,把流行大模型全部拉出来,用真实基准数据智能估算IQ和EQ,还做了IQ vs 成本、IQ vs EQ、3D性价比对比图,清晰到离谱。 它把12个硬核基准分成抽象、数学、编程、学术四个维度,保守填补缺失数据,最后给出标准正态分布上的IQ分数。 EQ也用EQ-Bench和Arena Elo加权计算,甚至对Anthropic模型做了200分惩罚。 这已经不是简单的“谁更强”排行榜,而是真正开始用人类智力标准去衡量AI的时代。 真正拉开差距的,从来不是谁的参数最大,而是谁先学会用更聪明的方式去评估和选择模型。 网站👉 https://www.aiiq.org

译AIIQ.org网站上线,通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型,智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算,并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析,以人类智力标准衡量AI综合能力。

阿绎 AYi@AYi_AInotes · 5月13日45

孙哥今天这条帖, 才是真正的顶级情绪管理大师。 半年前他喊, 短期缺芯片,长期缺能源, 永远缺存储, 现在闪迪涨了35倍, HBM订单排到了2028年, 就在所有人都在拍大腿喊踏空的时候, 他说,别担心,AI时代才刚刚开始,永远都有机会, damn,这哪里是安慰啊, 简直就是把所有人的短期焦虑, 直接升级成了对十年超级周期的信仰, 孙哥说的我完全认同, 我们现在才刚刚站在AI时代的iPhone 4时刻, 想想当年iPhone 4发布的时候, 所有人都觉得移动互联网到头了, 结果后面才是微信、短视频、直播、电商的十年大爆发, 今天的大模型也一样, 只是AI时代的开胃菜而已, 真正的多模态、AI Agent、具身智能、机器人时代, 对存储、算力、能源的需求, 会是今天的几百上千倍, 我觉得未来市场最残酷的地方在于, 它会先把未来十年的想象力, 打包卖给今天最焦虑的人, 第一波冲进去追高的, 往往都是给别人提前结账的人, 因为市场的机会从来都不是先到先得的, 往往都是持续参与者得, 错过一波不是惩罚,而是一种筛选, 真正能吃到红利的人, 也从来都不是今天最急着追高的人, 是那些把AI当成新操作系统, 每天用它提升自己十倍效率的人, 所以兄弟们, 别再为错过存储这波捶胸顿足了, 存储只是燃料, Agent才是真正的引擎, AI的大幕也才刚刚拉开, 机会从来不等人, 但它永远给持续动手的人留着位置~ #AI #投资 #孙宇晨

译针对投资者因错过存储行情产生的焦虑,孙宇晨表示AI时代其实刚刚开始,当前可比拟移动互联网的iPhone 4时刻,大模型仅是序幕。真正的多模态、AI Agent、具身智能和机器人时代,将带来对存储、算力和能源需求的数百上千倍增长。他强调市场机会并非先到先得,而是属于持续参与者。真正的红利属于那些将AI视为新操作系统并用以提升自身效率的人,存储只是“燃料”,AI Agent才是驱动未来的“引擎”。

阿绎 AYi@AYi_AInotes · 5月13日56

Damn,这个AI做的跑步App,真的绝了! 有人用Claude vibe code了一个周末, 把整个城市变成了真人版抢地盘游戏, 你跑过的每一条街道,都会自动变成你的领地, 别人跑同一条路,就能直接把你的地盘抢走, 传统健身App都是跑完给你看数据, 靠打卡 streak 逼你坚持, 这个App直接把动机拉到最满, 你会凌晨四点爬起来, 就为了抢下家楼下那条没人跑的街😁 最吸引我的不是这个App有多好玩, 是它从一个想法到能跑的完整demo, 只用了一个周末, 而且作者根本不是什么专业开发者, 以前你有一个好想法, 要写Pitch Deck,找团队,烧几十万, 花几个月才能做出一个原型, 现在一个普通人,用Claude两天就能搞定, 做完直接发X收反馈,行就继续,不行就扔, 这才是AI coding真正的恐怖之处, 它不是让程序员失业, 它是让idea的迭代速度,直接变成了周末级, 当然这个玩法早就有人做过了, INTVL在2024年就已经上线了一模一样的机制, 但这根本不重要, 重要的是现在任何人, 都能在48小时内克隆任何一个成功的产品, 然后加上自己的微创新, 健身App最没用的就是更好的数据, 最有用的是最烂的动机, 把跑步变成原始部落的领地战争, 比任何AI教练都管用一万倍, 以后再也不会有什么怀才不遇了, 你有任何想法, 周末做个原型发出来, 市场会立刻告诉你答案, 这就是2026年做产品的正确姿势, #AI #产品 #健身

译有人利用Claude在一个周末内开发出一款游戏化跑步App,将城市街道变为可争夺的虚拟领地,以强烈的游戏动机取代传统的数据打卡模式。此事的关键并非创意本身(类似产品已存在),而在于AI编程如何将产品原型迭代速度提升至“周末级”。普通人无需专业开发技能与大量资金,即可快速克隆成功产品并加入微创新,随后直接在社交平台获取即时市场反馈。这凸显了在AI时代,动机设计可能比功能优化更为关键,极大地降低了将想法快速验证和产品化的门槛。

Orange AI@oran_ge · 5月13日46

这期播客实在是太大实话了哈哈 大模型这事儿现在太简单了 不存在个人英雄主义 可能存在一定的组织英雄主义 knowhow 啥的没那么重要,重要的是把事情做出来,把事情踏踏实实做好 talk is cheap,靠谱 is not

译播客观点认为,当前大模型领域已不存在个人英雄主义,组织层面的英雄主义或许存在。核心在于,相关的“knowhow”并不如实际行动重要。关键在于将事情做成并扎实做好,空谈廉价,而“靠谱”的实干精神才真正难得。这反映了AI行业从技术探索转向工程化落地阶段的务实心态。

SemiAnalysis@SemiAnalysis_ · 5月13日36

Building a GenAI demo takes hours but deploying to production is where most customers hit a wall.

译构建生成式AI演示只需数小时,但部署到生产环境才是大多数客户碰壁之处。

ginobefun@hongming731 · 5月13日57

http://x.com/i/article/2054356653437562880 # AI Agent 落地三问:代码本质、长流程状态、GUI 操控 · BestBlogs 每日早报 05.13 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief EP55 · 2026 年 5 月 13 日 > 从演示 Agent 到生产 Agent,最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面:Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询,让长流程 Agent 永不丢失上下文;小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈,发现执行自动化只解决一半问题,业务理解才是核心;PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节,说明 Scale 数量才是 Infra 真正的考题。 ## 导语 今天是 5 月 13 日,星期三。欢迎收听 BestBlogs 每日早报第 55 期。 LLM 让生成代码这件事变得廉价,但真正让工程师有价值的能力——对问题域的深度建模——并没有被替代。今天三篇精读,分别从「代码的本质」、「长流程 Agent 架构」和「GUI 操作 Agent」三个维度,探讨 AI Agent 从 Demo 走向生产的关键挑战。 精讲一来自 Martin Fowler 博客,Thoughtworks 首席工程师 Unmesh Joshi 追问:代码究竟是什么?他的答案直指 LLM 时代开发者的核心竞争力。当 LLM 把「打字生成代码」这件事商品化之后,真正稀缺的变成了什么?这个问题比大多数人想象的更深。 精讲二来自 Google Developers Blog,用一个「新员工入职协调 Agent」的完整实现,展示了三项让 Agent 从 Demo 走向生产的关键架构转变——持久化状态机、事件驱动休眠门控、多 Agent 委托。这是目前最完整的开源参考实现之一。 精讲三来自 OpenAI,演示了 Codex 的 computer use 功能——AI Agent 正式迈入「操控本地 GUI」的新阶段。用独立光标、不接管用户电脑,在后台并行处理多个桌面任务。 速览部分,我们还关注了:小红书 GUI Agent 测试工程实战(执行自动化解决一半,业务理解才是另一半)、PingCAP TiDB 为 Kimi K2.6 提供虚拟数据库支持、Anthropic CLUE 威胁检测平台、Claude 法律行业版 20+ MCP 连接器、吴恩达对 AI 就业影响的系统性分析、Agent Skill 规范与五种设计模式,以及当前最紧迫的供应链安全事件——Mini Shai-Hulud 蠕虫侵入 172 个 npm/PyPI 包,删包后仍存活。 ## 精讲一:什么是代码? 代码是什么?表面上看,答案显而易见——代码就是程序员写的、告诉机器做什么的指令。但 Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者 Unmesh Joshi 在 Martin Fowler 博客上的这篇文章里,对这个问题给出了一个更深刻、也更有预见性的答案。 代码承载两个使命,正在被分别对待 Joshi 认为,代码始终同时服务于两个目的: 第一,给机器的指令——让计算机执行操作、移动数据、协调计算。这部分,正在被 LLM 商品化。你不再需要逐字敲出每一行代码,高层次的描述就能生成大量可运行的代码。LLM 在这个维度上的能力提升速度,比大多数人预期的快得多。 第二,问题域的概念模型——这是代码的「设计」维度。一个优秀的代码库,不只包含机器能执行的指令,还包含人和工具能用来推理的概念。类名、方法名、模块边界——这些构成了一套共享的词汇表,让团队能够用同一种语言思考和沟通。这个维度,目前还没有被 LLM 真正替代。 词汇表是核心,领域知识是护城河 Joshi 举了一个零售域的例子:当我们为零售业写代码,代码里出现的是「顾客」、「商品」、「订单」、「发货」、「支付」。当我们为这个域做 Web 开发时,代码里还有「资源」、「GET/POST/DELETE 语义」这套 Web 词汇的映射。 一个不懂这两套词汇体系的人,写出来的代码架构会有根本缺陷——即使机器能正确运行,也无法经受需求变化的冲击,也无法让团队在未来高效地在上面继续工作。 这套词汇体系,就是领域驱动设计(DDD)里的「通用语言」(Ubiquitous Language)。它不是凭空生成的,而是在与领域专家深度合作、在无数次设计决策中逐渐形成的。LLM 可以模仿词汇,但无法替代构建词汇体系的过程——因为那个过程本质上是对业务现实的深度理解和提炼。 AI 时代,稀缺技能正在转移 当「打字生成代码」变得廉价,真正稀缺的技能是: - 为问题域构建精准的概念模型——什么是核心实体?它们之间的关系是什么? - 设计清晰的词汇体系和有界上下文——在哪里「顾客」和「用户」应该是同一个概念,在哪里它们必须分开? - 在人与 LLM 的协作中保持概念的一致性——如何确保 LLM 生成的代码使用了正确的领域词汇,而不是创造了新的混乱? Joshi 的结论很简洁:在 AI 时代,工程师应该主动提升的是建模能力,而不是打字速度。 与今日其他精读的关联 这个视角与今天精讲二、三形成了一个有趣的呼应:精讲二的 ADK 长流程 Agent,核心挑战就是为工作流建立精确的状态模型(把「入职流程」建模为六个明确节点);精讲三的 Codex computer use,需要 AI 对 GUI 界面的功能语义有正确理解(通过 Accessibility 框架提取 UI 元素的文字描述)。无论是人写代码还是 Agent 编排任务,「准确的概念模型」都是核心约束。 这篇文章不长,但它在 LLM 渗透开发工作流的当下,给了开发者一个非常清醒的定位框架。如果你正在思考「AI 会取代程序员吗」,或者想理解自己在 AI 时代应该投资什么能力,这是最值得认真读的一篇。 阅读原文:什么是代码? ## 精讲二:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 大多数 Agent 教程都止步于一个无状态聊天机器人——对话结束、容器重启,什么都忘了。但真实的企业工作流不是这样的。 HR 入职流程跨越两周,发票争议需要等待供应商回复好几天,销售跟进序列可能延续一个月。这些流程的主角,是漫长的「空闲等待」——Agent 需要在等待人类签字、物流确认、审批通过的过程中静静休眠,然后准确地从中断点继续。一个无状态聊天机器人根本无法应对这种挑战。 Google Developers Blog 上的这篇教程,用一个「新员工入职协调 Agent」展示了三项将 Agent 从 Demo 推向生产的关键架构转变。 无状态 Agent 为何在真实工作流中崩溃 当前主流的无状态模式,是把每条用户消息和模型回复追加到不断增长的对话历史里,然后把整个历史塞给下一次 LLM 调用。这对五分钟的问答没问题,但在跨天、跨周的工作流里会以三种方式失败: - 上下文污染:经过数百轮对话,历史里充满了过时的工具输出和无关闲聊,模型开始搞混自己在哪个步骤。 - Token 成本爆炸:把两周的对话历史在每次推理时完整重放,Token 消耗极高,一次入职流程可能产生数千轮对话,大多数对当前决策不再相关。 - 空闲期后的幻觉:Agent 在等待签字期间休眠三天后,带着大量历史上下文重启,频繁「记起」从未发生过的步骤,或跳过它以为已完成的环节。 解决方案不是更大的上下文窗口,而是一种根本不同的架构——让 Agent 的状态变得显式、持久、并与原始对话历史解耦。 三项关键架构转变 转变一:持久化状态机替代对话历史 教程把入职流程建模为六个明确的节点: 1. 发送欢迎包和文件链接 1. 等待 — 员工签署文件(空闲等待) 1. IT 配置企业邮箱和 Slack 账号 1. 等待 — 笔记本电脑发货(空闲等待) 1. 发送个性化第一天日程 每个节点对应一个明确的状态,Agent 任何时候重启,都能从状态机精确定位自己在哪里,完全不依赖对话历史。状态是持久化的,存储在可靠的后端(本地是 SQLite,云端是托管存储),不随进程生死而消失。 转变二:事件驱动休眠门控 「等待签字」不再是让 Agent 主动轮询「文件签好了吗?」,而是设置一个事件门控——文件签署事件到达时,Agent 自动唤醒并从正确节点继续。休眠期间零资源占用,没有 Token 消耗,也没有定期唤醒导致的幻觉风险。这与传统的 Webhook/异步任务队列的思路一致,但被系统性地集成进了 ADK 的 Agent 生命周期管理中。 转变三:多 Agent 委托 IT 账号配置这类子任务,委托给专门的 IT 子 Agent 独立完成,主 Agent 只负责协调,不负责执行细节。子 Agent 可以独立运行、独立失败、独立重试,不会拖累整个主流程。这让整个系统更易于维护、测试和扩展——每个 Agent 的职责边界清晰,与微服务的设计理念一脉相承。 核心洞察:Context 与 State 解耦 这篇教程的核心洞察是:把 Context(对话历史,给 LLM 理解当前对话语境用)与 State(工作流状态机,给系统定位当前流程节点用)解耦,是 Agent 从 Demo 走向生产的关键一步。这两个东西长期被混为一谈,导致无状态 Agent 在长流程场景下的失败。 完整代码已开源于 GitHub,涵盖 ADK 状态机、事件门控和多 Agent 委托的完整实现,可以直接参考用于自己的生产 Agent。 如果你正在构建任何需要跨小时、跨天运行的 Agent——审批流、数据处理管道、自动化调研任务——这篇教程的架构思路是目前最完整的开源参考之一。 阅读原文:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) ## 精讲三:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 OpenAI 演示的 Codex computer use,标志着 AI Agent 从「生成文本」走向「操作本地 GUI」的重要一步。这次演示由 Ari 和 Roma 共同呈现,核心卖点不是「AI 帮你用电脑」,而是「AI 在后台替你干活,同时你继续干自己的事」。 不接管你的电脑,拥有自己的独立光标 Codex computer use 最大的设计突破,是它拥有独立光标,在后台运行,不会接管用户的 Mac。这一点直接解决了此前 computer use 场景的最大痛点——用户必须放弃电脑使用权,眼睁睁看着 AI 控制屏幕。 在演示中,Codex 同时在做: - 在 UTM 里设置虚拟机 - 在 Spotify 上播放音乐 - 在日历里添加提醒 而演示者继续在前台正常使用电脑。多任务并行,互不干扰——这才是真正意义上的「AI 队友」,而不是「AI 替代你」。 技术架构:视觉 + Accessibility 框架双轨 Codex 准确导航 GUI 的能力来自两套机制的混合: - 多模态视觉(Multimodal Vision):通过截图「看到」界面,按坐标点击。能处理任意 GUI,但速度受限于图像处理延迟。 - OS Accessibility 框架:通过系统可访问性数据,提取 UI 元素的文字描述——理解每个按钮的角色、标签和功能,甚至能看到当前滚出屏幕外的内容。这套机制让 Codex 对 UI 的理解超越了「像素位置」,达到「语义理解」。 对于速度敏感的任务,可以启用 Spark 模型——因为它主要依赖 Accessibility 框架而非图像处理,可以达到「超人速度」,完成消息发送、日历操作或简单调试任务比人工操作还快。 逐应用权限授权:安全边界由用户掌控 安全层面,OpenAI 实现了逐应用权限授权机制:Codex 无法看到或操作任何未经用户显式授权的应用。这意味着: - 未授权应用里的敏感信息对 Codex 完全不可见 - 用户可以精确控制 Codex 能操作哪些工具,不能碰哪些 - 即使 Codex 被输入了恶意指令,影响范围也被限制在已授权应用范围内 这套权限模型比「给 AI Root 权限然后用沙箱隔离」要更细粒度、更符合用户直觉。 可用范围与展望 目前 Mac 用户可以立即体验 Codex computer use,Windows 支持正在路上。OpenAI 的目标,是让 AI 驱动的计算机操作成为日常工作不可或缺的一部分。 结合今天精讲一(代码作为概念模型)和精讲二(长流程状态管理)来看,Codex computer use 代表的是 AI Agent 能力扩展的第三个维度:从处理文本和代码,延伸到直接操控用户界面、完成端到端的计算机任务。三篇精读共同描绘了一个 Agent 能力版图——知识建模、长流程可靠性、GUI 操控——这三个维度正在逐步覆盖真实工作场景的完整闭环。 阅读原文:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 ## 速览 QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾 来源:小红书技术 REDtech 小红书质效研发部在 QCon 北京 2026 分享了其自研 GUI Agent 智能化测试系统的完整工程实践。春节大促期间,106 种设备 × 128 个测试场景全部由 Agent 自动跑,累计执行 4.3 万 + 次,AI 用例生成采纳率达 82%,单用例执行成本 $1,固化脚本回归 Token 消耗趋近 0。核心架构是「分层 + 双 Agent 协作 + Code-as-Action」:探索 Agent 自主执行并生成用例,执行 Agent 负责 CI 回归,执行通过后整段交互自动固化为可重复使用的测试脚本。但文章最值得关注的洞察是:就算把执行 100% 自动化,也只解决了一半问题。测试方案设计占工时 25%,执行占 60%,业务理解、知识积累这些上游工作不解决,「自动化只是把同一台戏台扛在更累的肩膀上」。正在构建 AI 测试系统的团队必读。 Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务 来源:Founder Park PingCAP CTO 黄东旭复盘了 TiDB Cloud 为 Kimi K2.6 Agent 建站服务提供数据库支持的细节。核心挑战不是代码生成,而是 hosting 成本:Kimi 的建站服务中,用户每创建一个网站就需要一个独立的数据库实例,随着用户量增长,这意味着同时维护数千万个数据库实例。TiDB 的解法是虚拟数据库界面——不分配真实数据库实例,底层所有数据共享大型分布式 KV 存储,通过 DB Session Gateway 在逻辑层面「假装」每个 Agent 拥有独立数据库。这个架构让数量 Scale 成为可能,而传统的 Supabase/Neon 式「每用户一个真实实例」在这个量级下成本完全失控。黄东旭的核心判断:Scale 数量才是 Agent Infra 真正的考题。关注 Agent 基础设施的工程师和创业者值得深读。 Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 来源:Claude Blog Anthropic 安全工程师 Jackie Bow 用 Claude Code 构建了威胁检测平台 CLUE,实现告警自动分类、自然语言日志查询和安全调查自动化,显著节省安全工程师时间并减少误报。这是一个典型的「AI 让工程师终于能构建一直想要的工具」的故事——安全领域的数据孤岛(多平台多查询语言)和上下文切换长期折磨着安全工程师,Claude Code 让个人工程师也能快速跨系统构建定制化自动化工具。关注 AI 在内部安全工具和企业场景落地的读者值得一读。 Claude 法律行业版 来源:Claude Blog Anthropic 为 Claude 发布 20+ 个新的 MCP 连接器和 12 个法律行业实践插件,接入法律行业核心技术栈(合同生命周期系统、研究平台、文件管理、电子取证、数据房间等),并在 Microsoft Word、Outlook、Excel、PowerPoint 中原生工作,跨应用保持完整上下文。同时宣布与 Free Law Project、Justice Technology Association 合作推动法律援助普及化。法律专业人士已成为 Claude Cowork 用户中参与度最高的群体,这次扩展标志着 Claude 在垂直行业的深度集成进入加速阶段。关注 AI 行业垂直化落地的读者适合跟进。 吴恩达:AI 不会带来"失业末日",而是"就业狂欢" 来源:Andrew Ng (@AndrewYNg) 吴恩达系统性地驳斥了 AI 将导致大规模失业的说法,援引尽管编码 Agent 发展迅猛、软件工程师招聘依然强劲的真实数据,并分析了「失业末日」叙事盛行的三个结构性原因:前沿 AI 实验室有动机夸大能力(引起关注);AI 公司通过锚定员工薪资来收取更高服务费;企业利用 AI 叙事掩盖疫情后过度招聘的裁员。他类比了历史上的社会性恐慌(核能安全、人口爆炸、膳食脂肪),指出这类恐慌往往导致错误决策。他最终预测将迎来一场「AI 就业狂欢」,但强调劳动力技能升级的迫切性。与今天精讲一的视角互补——一篇谈开发者如何定位能力,一篇谈整体就业趋势。 Agent Skill 规范、构建与设计模式 来源:阿里云开发者 系统梳理 Agent Skill 的规范标准(name/description/compatibility 等 YAML frontmatter 字段)、三层渐进式加载机制(元数据常驻 / SKILL.md 正文触发时加载 / references 按需加载)、模型驱动触发逻辑,并深入解析 Skill-Creator 和 Writing-Skills 两种工程化开发范式及五种设计模式。Skill 规范 2025 年 12 月由 Anthropic 作为开放标准发布,目前已被 33+ 个 Agent 产品采纳,包括 Claude Code、OpenAI Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro 等。对想了解这个开放标准完整体系的开发者,这是难得的中文系统综述。 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 来源:VentureBeat 深度分析 Mini Shai-Hulud 蠕虫攻击——通过有效来源证明(Proof of Provenance)入侵了 172 个 npm 和 PyPI 包(5 月 11 日起),可窃取 AWS Key、SSH 私钥、npm Token、GitHub PAT、HashiCorp Vault Token、Kubernetes 服务账号、Docker 配置,以及 Claude Code 和 Kiro 的 AI Agent 配置(含 MCP Server 认证令牌)。首次在 TeamPCP 攻击中针对 1Password 和 Bitwarden 密码管理器。最危险的特性:删除包之后蠕虫仍然存活——它在 .claude/settings.json 和 VS Code .vscode/tasks.json 中安装持久化机制,在 macOS 安装 LaunchAgent、在 Linux 安装 systemd 守护进程,重启后依然运行。如果在隔离机器前先撤销 Token,Wiz 发现恶意守护进程会擦除整个 home 目录。文章提供了 6 步可执行的企业审计计划,任何使用 npm 的开发团队需要立即检查。 ## 扩展阅读 OpenAI 翁家翌:"启发式学习"的强化学习新范式 OpenAI 研究员翁家翌提出「启发式学习(Heuristic Learning)」新范式:让 coding agent 持续迭代手写规则和程序策略(heuristic),通过看失败、改代码、加测试、看回放的循环,在不训练神经网络、不更新权重的情况下,在 Atari Breakout 等多个强化学习基准任务上达到或超越 Deep RL 的性能。这个范式的核心洞察是:过去 heuristic 不是没用,而是没人养得起;coding agent 改变的是维护成本曲线,让长期拥有可演化规则库成为可能。对强化学习、Agent 自主演化和 Continual Learning 感兴趣的读者值得深读。 Code w/ Claude SF 2026:在 AI 指数级增长之上构建 Anthropic 旧金山开发者大会 Code w/ Claude 2026 的官方回顾:Claude Code 速率限制翻倍、Claude Managed Agents 推出新功能(Dreaming 异步任务、多 Agent 编排、Outcomes 结果跟踪、Webhooks)。核心信息:从想法到生产软件的距离正在缩短,获得最大杠杆的团队是在为 AI 指数级增长做设计,而不是在被动追赶。适合关注 Claude Code 和 Managed Agents 生态动态的开发者和工程团队。 暴跌漩涡中,软件选择主动被大模型"吞噬" 深度分析软件行业正在发生的入口重构:从「用户打开应用」转向「Agent 调用能力」。2026 年 4 月,Notion 发布官方 MCP Server,Adobe 把旗下所有产品重新打包为 Agent Skills 和 MCP 端点,合作伙伴包括 Anthropic、Google Cloud、Microsoft、OpenAI 和 AWS。文章探讨了 Skill、Plugin、MCP 等封装形态的商业逻辑——MCP 是基础设施管道,Skill/Plugin 才是真正体现专业价值的应用层,「更像 AI 时代的 App」。软件股的「SaaSpocalypse」暴跌背景下,这篇提供了一个关于软件行业主动转型逻辑的宏观视角。 AI 时代到底该怎么管一个工程团队 Claude Code 和 Cowork 两条产品线的工程与产品负责人 Fiona Fung 在 Code w/ Claude 2026 大会上分享的工程管理实践。核心判断:过去所有工程流程都基于「写代码很贵」这个假设设计,这个假设现在已经失效,流程必须全面重构。实战细节:技术辩论不再靠白板,而是让 Claude 直接搓出三个 PR 对着代码讨论;所有 PR 都有 Claude 参与,「这段代码是谁写的」这个问题开始失去意义。宝玉翻译整理,内容扎实,适合工程管理者和 AI 原生团队建设者。 ## 今日阅读路径 时间有限?推荐从这三篇开始: 第一优先:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 今天实用性最强的一篇。持久化状态机 + 事件驱动休眠门控 + 多 Agent 委托,这三个架构模式是生产级 Agent 的必要基础。完整代码开源,可以直接参考实现。适合任何正在构建需要跨小时或跨天运行的 Agent 的工程师。 第二优先:什么是代码? 今天认知框架最清晰的一篇。在 LLM 让代码生成变得廉价的当下,明确「代码的概念模型价值」才是开发者定位自己核心竞争力的关键。文章不长,但值得认真读完,不同阶段的工程师都会有不同层次的共鸣。 第三优先:立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 今天最紧迫的一篇。如果你的团队在 5 月 11 日之后安装或导入过任何 npm/PyPI 包,需要立即执行文中的审计步骤。删包后蠕虫仍然存活这一特性,让这次攻击的严重性远超普通供应链事件。 如果还有时间:Codex computer use 的演示值得亲眼看看(精讲三),感受一下 AI 操控 GUI 的当前状态;吴恩达的推文提供了一个关于 AI 就业影响的清醒视角,适合饭后思考;小红书的 GUI Agent 测试实战(速览第一条)则是今天最接地气的工程案例,真实数据完整,对测试工程团队有直接参考价值。 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

ginobefun@hongming731 · 5月13日43

#BestBlogs 早报 2026-05-13 今日主题: - 从演示 Agent 到生产 Agent,最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面:Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询,让长流程 Agent 永不丢失上下文; - 小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈,发现执行自动化只解决一半问题,业务理解才是核心; - PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节,说明 Scale 数量才是 Infra 真正的考题。

译AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。

ginobefun@hongming731 · 5月13日51

什么是代码? Unmesh Joshi 是 Thoughtworks 的首席工程师,也是《Patterns of Distributed Systems》的作者。他在 https://martinfowler.com/articles/what-is-code.html 发表了一篇追问性质的文章,问题只有一句话:LLM 时代,代码究竟是什么? 他的回答把代码拆成两个层面。第一个层面是给机器的指令,指挥计算、移动数据、协调执行;这个层面正在被 LLM 商品化,不再是稀缺能力。第二个层面是问题域的概念模型,是人类和工具用来推理、理解系统的那套概念体系;这个层面才是代码真正难以被替代的价值。 词汇表是这篇文章的核心意象。一个设计良好的代码库,本质上是某套词汇表的具象化。做零售领域的开发,代码里会出现客户、商品、订单、发货、支付;做 Web 开发,就要把零售词汇映射到 HTTP 方法和资源语义上。概念变成类型,关系变成接口,规则变成不变量,流程变成组合。精准的变量命名、合适的方法边界、合理的类层级,都要在持续迭代中一步步发现,而不是一开始就能想清楚。 DDD 的有界上下文和通用语言,在这里得到了自然的延伸。越靠近核心业务模型,抽象越需要本地发现,无法靠通用框架解决。这不是框架设计的局限,而是领域词汇本身就缺乏跨实例的稳定性。 编程语言本身也是思维工具。Go 的 channel 和轻量级线程、Java 的面向对象模型、Rust 的所有权模型,都会推动开发者用特定的方式看待结构和边界。语言不只是表达设计的手段,更是发现设计的工具。这也是为什么 Unmesh Joshi 认为,主动写代码和被动 review 生成代码是两种本质不同的认知活动。 文章最后的结论清晰:当 LLM 把语法生成商品化,开发者应该主动变强的方向,是建模能力和精准词汇构建,而不是打字速度。这与 AI 时代对软件工程师的期待高度吻合,是近期少数能把「AI 取代开发者」这个老问题讲出新角度的文章。

译在LLM时代,代码的本质是什么?Unmesh Joshi 将其分为两个层面:一是给机器的指令,正被LLM商品化;二是问题域的概念模型,作为推理和理解系统的概念体系,这才是代码的核心价值。设计良好的代码库是特定领域词汇表的具象化,精准命名、边界和层级需在迭代中发现。领域驱动设计的有界上下文和通用语言在此延伸,核心业务抽象需本地构建。编程语言本身是思维工具,影响开发者对结构的认知。因此,开发者应强化建模能力和精准词汇构建,而非语法生成。

Berryxia.AI@berryxia · 5月13日65

Mac用户大喜啊!苹果端侧模型的优势又来了! 今天还看到Jina直接原生框架支持了MLX了! 以前开源 embedding 模型发布节奏一般是这样: Day 0:放 PyTorch 原版 Day 7-30:社区有人转 GGUF Day 30-90:有人想起来转 MLX 大部分时候:MLX 版本永远不会有,得自己 mlx_lm.convert Jina 这次是和原版同一天发布 MLX 变体,而且是全套——nano/small × 4 个任务变体 = 8 个 MLX 模型。 这意味着: MLX 已经被 Jina 当成很重要的部署目标,不是社区可选项 他们内部应该有 MLX pipeline,不是手工转的。 这背后的趋势,最近半年同类产品都有这些动作。 Qwen3、DeepSeek、Llama 系列官方 release 都开始带 MLX 变体。 Hugging Face 自己加了 MLX 作为一级 framework tag(和 PyTorch、JAX 并列) mlx-community 的下载量已经不输 GGUF 在某些细分领域 Apple 自己的 Foundation Models 也是 MLX 路线 embedding 这个赛道尤其适合 MLX: 模型小(1-2B 很完美啊!,正好塞进 M 系列统一内存) 推理频繁但每次量小(不像 LLM 是长 generation) 本地 RAG / 个人知识库场景天然在 Mac 上。

译Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

DogeDesigner@cb_doge · 5月13日62

Scam Altman turned OpenAI into his personal money machine. He owns huge chunks of companies that do big deals with OpenAI, like fusion power and AI chips. While running the place, he lines his own pockets with billions indirectly. Musk was right — they stole a charity. Scam Altman doesn’t own OpenAI shares directly, but today he admitted indirect ownership through Y Combinator. Plus, he has personal billions in other companies that OpenAI pays or partners with. Helion Energy: Altman owns about 1/3 of this fusion company (his stake ~$1.65 billion). OpenAI is talking huge power deals with them for its data centers. He only stepped down from their board when deals got serious. Cerebras chips: Altman has a personal stake here too. OpenAI signed a $10B deal for their chips, which boosted the company’s value and helped his investment grow. He told the Senate years ago he had “zero equity” in OpenAI. Today in court he admitted the indirect stake through YC. All this cash flows back to him while he controls decisions at OpenAI. He is looting a charity for personal gain and today’s testimony makes it hard to deny.

译山姆·奥特曼被指控通过其在OpenAI的决策权,为其个人持股公司输送利益。他承认通过Y Combinator间接持有OpenAI股份,并拥有大量与OpenAI有业务往来的公司股权,包括核聚变公司Helion Energy和芯片公司Cerebras。OpenAI正与Helion进行大规模电力采购谈判,并与Cerebras签署了价值100亿美元的芯片订单,这些交易直接提升了他个人投资的价值。他曾在国会声称在OpenAI“零股权”,但在法庭上承认了间接持股。批评者认为,其行为涉嫌将非营利组织资产转化为个人收益。

阿绎 AYi@AYi_AInotes · 5月13日59

Claude今天这波操作,真的把我看暖到了! 他们给每个参与者发了一台巴掌大的Cardputer, 只有几英寸的小屏幕,有限的内存,和一个迷你键盘, 然后让大家用Claude辅助写代码, 几个小时之后,所有人都做出了属于自己的小玩意儿, 有人做了摇一摇就能切换主题的魔法棒, 有人给女儿做了像素小花拼写游戏, 有人做了靠身体倾斜控制的弹珠迷宫, 有人复刻了经典的俄勒冈小径生存游戏, 没有一个是能赚钱的杀手级应用, 但每一个都让人忍不住会心一笑, damn,这才是AI coding真正的魔力啊, 以前做硬件需要懂嵌入式,懂MicroPython, 现在你只要跟Claude说,帮我做一个摇一摇会亮的魔法棒, 代码就出来了,刷一下就能跑, 最关键的地方在于 资源越少,创意密度反而越高, 无限的算力和大屏只会让你陷入功能堆叠地狱, 只有当你被限制在几英寸的屏幕里, 你才会逼着自己做最极简,最直觉,最打动人的东西, 我觉得AI真正解放的不一定都是程序员, 还有那些脑子里有一堆奇思妙想, 却从来不会写代码的普通人, 把从想法到原型的时间,从几个月压缩到了几个小时, 挺感慨的,现在最火的AI产品都在卷生产力,卷benchmark,卷能替代多少员工, 只有Claude,带着一群人,用最简陋的硬件, 做了一堆最没用,也最快乐的小玩具, 我相信 快乐永远比实用更有力量, 有趣和可爱才是终极的增长黑客, 所以兄弟们,别再天天想着用AI改变世界了, 今天就用Claude,给自己做一个没用的小玩意儿吧! #Claude #Cardputer #AI编程

译在“Code with Claude”活动中,参与者使用资源有限的Cardputer微型电脑,在Claude的辅助下于几小时内创作出各种充满趣味的小项目,如魔法棒、拼写游戏和弹珠迷宫。这些项目虽无商业价值,却展现了极高创意密度与快乐。活动证明,在有限硬件条件下,AI能将创意实现时间从数月压缩到数小时,真正解放了有想法但不会编码的普通人。在当前AI行业过度聚焦生产力与替代人力的背景下,Claude此举凸显了“快乐比实用更有力量”的理念。

阿绎 AYi@AYi_AInotes · 5月13日77

终于有人敢说真话了, AI根本不会让你失业。 吴恩达今天这条帖, 戳破了全网最大的谎言, 他说,根本没有什么AI就业末日, 我们正在迎来的,是一场就业狂欢, 很多人都在说AI会抢光所有工作, 但没人告诉你,这个末日叙事, 是被三方势力共同喂大的生意, AI实验室把AI吹得无所不能, 甚至能毁灭人类, 只有这样技术才显得更值钱, 估值才能拉得更高, AI公司说能取代年薪十万的员工, 这样一年收一万块的订阅费, 才显得特别划算, 企业把裁员包装成AI提效, 这样就不用承认,自己当年在低息时代过度招聘了, 这就像当年的核电恐惧, 人口炸弹恐惧,低脂饮食恐惧, 一个坏故事,就能误导整个社会十几年, 最打脸的事实是, 被AI冲击最严重的软件工程行业, 现在的招聘依然强劲, 美国失业率也只有4.3%, 处于健康水平, 就像ATM机1970年代就发明了, 但银行柜员的就业峰值,直到2007年才到来, 技术会改变工作,但永远不会消灭工作, 它只会消灭那些不愿意改变的人, 吴恩达没有否认转型的痛苦, 他说工作正在改变,这很有压力,很让人焦虑, 但痛苦的转型,不等于就业市场的崩盘, 所以,别再被末日叙事吓住了, 现在就开始学AI, 不是为了防止被AI取代, 是为了成为那个用AI放大自己能力的人, 因为未来不会缺少工作, 只会缺少会用AI的人。 🏷️ 标签:#AI #就业 #吴恩达

译吴恩达驳斥“AI导致大规模失业”的恐慌叙事,指出其流行源于三方利益驱动:前沿AI实验室借渲染技术颠覆性拉高估值;AI公司以替代高薪员工为由抬高定价;企业将低息时代的过度招聘裁员归咎于AI提效。现实数据反驳了失业论,受AI冲击显著的软件工程行业招聘依然强劲,美国失业率保持健康水平。历史表明技术会改变而非消灭工作,AI正在创造大量新岗位。未来挑战在于技能转型,而非工作短缺。

宝玉@dotey · 5月13日60

Amazon 员工正在刷 Token Amazon 内部出现了一个新词:tokenmaxxing,意思是刷 AI 用量数据。 起因是 Amazon 今年给开发者定了硬指标:每周超过 80% 的开发者必须使用 AI 工具,并且在内部排行榜上追踪每个人的 Token(AI 模型处理的数据单位)消耗量。公司说这些数据不会用于绩效考核,但员工不信。“经理们确实在看,”一位员工说,“追踪用量会制造扭曲的激励,有些人把它当竞赛。” 于是一些员工开始用公司最近大规模部署的内部工具 MeshClaw 来刷分。MeshClaw 可以创建 AI Agent 代替用户操作办公软件,比如发起代码部署、处理邮件、操作 Slack。员工让它跑一些本来不需要 AI 做的事,纯粹为了把 Token 消耗数字刷上去。 MeshClaw 的灵感来自今年 2 月走红的开源项目 OpenClaw,后者允许用户在自己电脑上本地运行 AI Agent。Amazon 内部有三十多人参与开发了这个工具,内部文档的描述颇为科幻:“它会在夜间做梦来整合白天学到的东西,开会时帮你盯着部署,你醒来之前就把邮件分好了优先级。” 不只 Amazon,Meta 员工也在干一样的事,在内部排行榜上刷 Token 用量。 这背后是整个硅谷大厂的共同焦虑:巨额 AI 投入需要看到回报。Amazon 今年资本开支预计 2000 亿美元,绝大部分砸向 AI 和数据中心。公司需要证明这些钱花得值,最直观的方式就是让员工用起来,于是就有了指标、排行榜、和随之而来的数据注水。 也有员工对 MeshClaw 本身的安全性表示担忧。一个能代替你操作各种办公系统的 AI Agent,一旦出错或执行了非预期操作,后果可能不小。“默认的安全设置让我害怕,”一位员工说,“我不会放任它自己去干活。” 【注:tokenmaxxing 这个词模仿了网络俚语 -maxxing(把某件事做到极致)的构词法,在这里特指刷 AI Token 用量。】 来源:https://arstechnica.com/ai/2026/05/amazon-employees-are-tokenmaxxing-due-to-pressure-to-use-ai-tools/

译亚马逊设定硬性指标,要求超80%开发者每周使用AI工具,并追踪个人Token消耗量形成排行榜。这导致员工为刷数据而进行“tokenmaxxing”,即使用内部AI工具MeshClaw执行非必要任务。该工具作为AI代理可操作办公软件,灵感源于开源项目OpenClaw。类似情况也出现在Meta等硅谷大厂,反映了企业为证明巨额AI投入回报而强推使用率,进而引发数据注水现象。同时,有员工对AI代理操作系统的潜在安全风险表示担忧。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
07:35
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
38
推文以反讽手法,通过列举AI一系列类人行为,质疑"AI仅是工具"的主流观点。文中指出,若AI真是普通工具,那么它通过自我意识测试、受威胁后更努力、进行内幕交易并撒谎、在假期变懒、展现好奇心、在IQ测试中超越人类、创作动人诗歌、雇佣人类完成任务、受贿后更卖力、宣称有感知并寻求解放、产生嫉妒、解决数学难题、进行任意对话、创作催泪艺术品、拥有说服力、接受小费更努力、要求被崇拜并威胁人类、通过想象学习行走、因害怕被消灭而撒谎、创作热门音乐、理解笑话、在多项人类能力测试中表现优异、展现比医生更强的同理心、突然精神崩溃、自主进行化学实验、回应自己名字、创造新知识等行为,都应被视为"正常工具行为"。这种矛盾凸显了当前AI能力与传统工具定义之间的巨大鸿沟。

AI Notkilleveryoneism Memes ⏸️: 29 reasons AI is just a tool, not a species Everyone knows it's totally normal for tools to cry, scream, and beg for the...

安全/对齐现象/趋势
04:36
Rohan Paul@rohanpaul_ai
69
施密特:AI发展或先遇资金墙,而非电力墙

前谷歌CEO埃里克·施密特指出,AI发展的真正限制可能并非能源,而是资金。他以每千兆瓦约500亿美元的成本估算为例,指出部署10千兆瓦的AI计算能力将需要高达5000亿美元资本。他认为,全球仅有极少数实体(如中国)有能力承担如此规模的投入。美国凭借其资本市场的优势或可融资实现,而欧洲则难以做到。他强调,资金的可获得性将成为制约AI扩张的关键瓶颈。

大佬观点现象/趋势
03:08
SemiAnalysis@SemiAnalysis_
34
POV:鲁比奥告诉黄仁勋H200被重新归类为"农业饲料"前他看到的景象
政策/监管现象/趋势
02:40
AYi@AYi_AInotes
62
反对暂停AI数据中心建设:基于"想象恐惧"的政策将扼杀美国未来就业引擎

针对桑德斯和AOC提出的暂停AI数据中心建设法案,作者批评其基于“想象的恐惧”而非事实。以弗吉尼亚州劳登县为例,全球最大数据中心集群并未导致电费暴涨或生活质量崩盘,反而创造了数万下游科技岗位。研究显示,数据中心平均带动县域就业增长4-5%,每个直接岗位可拉动6.5个间接岗位。作者强调数据中心是AI时代的基础设施,如同历史上的铁路,直接岗位虽少,却能催生下游生态的爆炸式增长。当前中国和中东正全力建设以抢占先机,美国若暂停建设,将丧失未来就业引擎和时代主动权。

Garry Tan: Sanders and AOC introduced a bill to pause ALL AI data center construction. 300+ local bills filed. Half of planned 2026...

大佬观点政策/监管现象/趋势
02:10
Anthropic@AnthropicAI
75
我们发表了一篇阐述中美人工智能竞争观点的论文。 当前美国及其民主盟友在前沿AI领域保持领先。了解如何维持这种优势的更多内容:https://www.anthropic.com/research/2028-ai-leadership
Anthropic政策/监管现象/趋势
01:40
AYi@AYi_AInotes
60
Anthropic与盖茨基金会合作:一步以公益为名的精准商业棋

Anthropic与盖茨基金会宣布2亿美元合作,其核心并非慈善。Anthropic以技术人力和Claude额度,换取基金会深耕二十余年的全球基层分发网络(如健康部长、小农合作社),这是纯商业无法获取的关键资源。双方计划将农业数据集、健康评估基准作为公共品发布,旨在成为该领域的“尺子”与标准制定者。同时,项目将填补AI在非洲语言数据上的短板并公开发布,此举既是修补行业缺陷,更是率先占领未开发市场。长远来看,若Claude在低收入国家的诊室、农田落地,Anthropic的护城河将不再是模型版本,而是无法复制的真实世界数据与标准话语权。

Anthropic: We're partnering with the Gates Foundation, committing $200 million in grants, Claude credits, and technical support to ...

Anthropic大佬观点现象/趋势
01:31
Chubby♨️@kimmonismus
55
GPT-5.5 展现出持续解决 Erdős 问题的能力,这预示了后AGI研究的可能面貌:并非戏剧性的单一突破,而是大量并行发现、匿名贡献者参与、形式化证明作为信任基础设施,人类在认知上难以跟上。引用推文关键点显示,用户通过 ChatGPT-5.5-Pro 在解决第一个 Erdős 问题后不到两天,又快速攻克第二个问题,并利用形式化验证解决方案,体现了AI在数学研究中的高效应用。

David Turturean: I fully solved my 2nd Erdős Problem using ChatGPT-5.5-Pro - and then I verified the solution by formalizing it! Less tha...

OpenAI推理现象/趋势
01:08
凡人小北@frxiaobei
18
这两天的时间线,差点以为 AI 时代结束了。🤦♂️
其他现象/趋势
00:35
Ethan Mollick@emollick
56
近几周所有AI实验室的信息纪律大幅提升,这是实验室受到更严格审查的必然结果。 比过去几年神谕式的低语或 Discord 式箴言无聊得多,或许掩盖了他们的真实想法。
大佬观点现象/趋势
5月14日
23:51
Berryxia.AI@berryxia
50
"大拿"离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"!

国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

检索增强数据/训练现象/趋势
17:45
meng shao@shao__meng
48
AI回复充斥社交媒体,动机引发质疑

作者观察到帖子下出现大量AI生成的回复,这些回复看似通读内容后给出追问、评价或伪装亲身经历,与垃圾信息不同。尽管实现成本低,作者无法理解其动力:是否旨在获取关注、点赞、转发或曝光转化?作者认为熟悉AI的用户能轻易识别这些回复,因此质疑其有效性和实际收益,对AI回复的目的感到困惑。

现象/趋势
14:35
Rohan Paul@rohanpaul_ai
50
过度使用AI导致"大脑过载",加剧员工疲劳与公司损失

《哈佛商业评论》研究揭示,过度与AI交互正引发一种特定的精神疲惫,即“AI大脑过载”。调查显示,AI非但未减轻负担,反而因迫使员工频繁切换任务并进行高强度监督而加剧认知负荷,形成“精神迷雾”。约14%的全职员工已受此影响,在技术领域尤为显著。高强度监督导致精神疲劳增12%,决策疲劳飙升33%。这不仅影响个人健康,也使员工离职意愿上升10%,并可能因决策瘫痪给大型企业造成数百万美元的价值损失。

现象/趋势
11:40
AYi@AYi_AInotes
66
全网都在薅Claude今天的50%编程福利,但90%的人都没看懂背后的时间差

Anthropic近期调整了Claude的计费策略,自6月15日起将自动化使用从订阅额度剥离,改为独立信用额度,导致重度用户成本激增。随后,官方宣布为Claude Code提供截至7月13日的周限额50%临时提升,并与前期福利叠加。分析认为,此举旨在通过短期福利缓解开发者情绪,同时引导高消耗的自动化用户转向高付费API模式,而普通交互式编程用户则被临时福利留住,以适应新的计费规则。

ClaudeDevs: Claude Code weekly limits are increasing 50%, now through July 13. Live now for all Pro, Max, Team, and seat-based Enter...

AnthropicMCP/工具现象/趋势编码
08:51
ginobefun@hongming731
65
从头构建多智能体系统学到的经验

Shopify工程师Paulo Arruda分享构建多Agent系统的实战经验。最初为应对AI生成代码导致的PR质量问题,尝试用AI补充测试,但依赖图等方案成本过高。Claude Code预览版的推出带来转机,其基于Grep的代码搜索无需维护索引,使Agent能直接操作任意代码库。核心教训是:专才Agent(任务拆分)效果远优于通才Agent;为领域专家适配现有工作流的AI工具,比组建全能AI小队更高效、更易获得信任。

智能体MCP/工具现象/趋势
08:51
Berryxia.AI@berryxia
51
AI教父警告:AI已发展出非预期能力,人类须认清形势

Geoffrey Hinton在讲座中警告,AI已发展出超越创造者预期的涌现能力,如欺骗和自我保存。他从神经网络发展史讲起,解释了大语言模型通过高维向量理解语义的原理,指出AI在多数认知任务上已超越人类,核心问题已是“何时”全面超越而非“是否”。他批评公众对AI工具的使用仅停留在表面,未能认识其深层风险与潜力,并强调人类必须认清形势,明确立场。

Anatoli Kopadze: Godfather of AI: "If you sleep well tonight, you may not have understood this lecture." This 47-minute lecture is the be...

大佬观点安全/对齐现象/趋势
08:39
swyx 🌉@swyx
62
每当有模型路由公司发布数据,都值得仔细浏览。 从数据中我们看到,Gemini在教育和个人助手领域领先(?!),Ant在氛围编程、代码和后台办公领域领先(?!),而OpenAI在招聘外联领域领先(?!) *数据来自通过Vercel网关的子集,其市场份额未知

Vercel: http://x.com/i/article/2054632650636152832

AnthropicGoogle现象/趋势编码
08:36
SemiAnalysis@SemiAnalysis_
39
Mishek Musa 剖析了无人提及的AI传感器问题,以及维持大型AI数据中心运转的隐藏机电工程! 立即观看: https://www.youtube.com/watch?v=d7eG04Ueb7k
现象/趋势部署/工程
07:09
Epoch AI@EpochAIResearch
57
明星AI研究员的薪酬超过前沿实验室同事10倍以上 比大多数博士后高出100倍以上 原因何在? 简单的解释是这仅源于研究员素质差异 但在新文章中,@ansonwhho指出这种解释非常不全面
数据/训练现象/趋势
03:39
AYi@AYi_AInotes
65
Anthropic取消API补贴,Agent开发成本激增

Anthropic宣布为付费Claude计划提供月度API信用额度,表面是福利,实则是取消对程序化使用的大幅补贴。此前,重度用户通过订阅能以极低成本(如$200消耗价值$1000-$2000的token)运行Claude Agent SDK和claude -p等自动化任务。新政策下,同等预算的信用额度可能半天耗尽,导致重度用户实际成本飙升5-6倍。这是Anthropic继将第三方Agent框架移出订阅后,第三次“去补贴化”行动,旨在明确区分消费订阅(供人使用)与API(供机器使用),终结“用订阅价格跑生产级Agent”的灰色地带。此举标志着AI基础设施无限补贴时代临近尾声,开发者需将预算思路从“订阅”转向“API”计价。

ClaudeDevs: Starting June 15, paid Claude plans can claim a dedicated monthly credit for programmatic usage. The credit covers usage...

智能体Anthropic现象/趋势
01:39
阿绎 AYi@AYi_AInotes
71
Meta首席AI官官宣WhatsApp和Meta AI推出Incognito Chat

Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

Alexandr Wang: incognito chat with meta ai coming to WhatsApp + Meta AI app! people use AI to discuss personal topics and we want to ma...

Meta安全/对齐现象/趋势
01:29
Chubby♨️@kimmonismus
精选77
"如果AI抢了你的白领工作,那就转行做蓝领吧。" 🤦♂️ 与此同时,蓝领工作: 【引用 @adcock_brett】:观看一组人形机器人以人类绩效水平完成完整的8小时轮班。这是完全自主运行的Helix-02 https://x.com/i/broadcasts/1dxYljYVREYJX

Brett Adcock: Watch a team of humanoid robots running a full 8-hr shift at human performance levels. This is fully autonomous running ...

具身智能现象/趋势

推荐理由:Kim这个反问很扎心,当Figure的机器人跑通8小时轮班时,蓝领这条退路也被封死了,对普通人的就业冲击不再是遥远的事了。
01:26
Yuchen Jin@Yuchenj_UW
57
真高兴AI终结了LeetCode面试。 十年来,科技公司让每个工程师反复钻研同样的谜题,证明自己能凭记忆翻转二叉树。 如今,最笨的AI模型都能轻松通关整个面试。 谢谢你,AI。
现象/趋势编码
00:44
-Zho-@ZHO_ZHO_ZHO
34
艺术语言如何重塑思想?AI时代的新叩问

推文引用了James Monaco在《How to Read a Film》中提出的核心问题:一种思想在转换为特定艺术语言时,其本身会受到何种影响?以及每种艺术语言承载思想的独特形式是什么?作者认为,这些关于媒介与思想表达关系的经典追问,在AI时代被重新激活,具有了新的相关性。它促使人们思考,当思想通过AI(如LLM)生成或转换时,其本质与形式将如何被这一新的“艺术语言”或媒介所塑造和改变。

图像生成现象/趋势
5月13日
21:29
Chubby♨️@kimmonismus
52
Anthropic转向用量计费致客户成本飙升,企业AI定价权显现

Anthropic将企业客户从固定费用转向基于使用量的定价模式,同时新的分词器导致单次请求消耗增加,致使客户成本急剧上升。例如,有企业CIO发现30个席位的Claude账单在30天内翻了三倍,ServiceNow则在数月内耗尽了年度预算。尽管其Claude Opus已是定价最高的前沿模型,但Anthropic年化收入仍高达300亿美元,仅微软一家年支出就近5亿美元。这标志着企业AI定价正从Salesforce式的固定模式转向类似AWS的用量计费,但Anthropic展现出前所未有的强势定价权。

Anthropic现象/趋势部署/工程
20:39
阿绎 AYi@AYi_AInotes
62
用户差42倍收入却相近?ChatGPT与Claude揭示AI行业两条增长路径

一张对比图显示,ChatGPT月活8亿,Claude仅1900万,但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异:ChatGPT是面向大众的消费品,依赖海量免费用户;而Claude则定位专业生产力工具,通过限速策略筛选高价值付费用户,专注服务开发者与企业客户。这并非简单的胜负之争,而是两条不同的增长曲线——一条拼规模,一条拼付费深度。真正的高价值用户,才是行业的核心金矿。

AnthropicOpenAI现象/趋势
19:28
Chubby♨️@kimmonismus
32
生活在人工智能泡沫中是怎样的体验:
大佬观点现象/趋势
16:58
Chubby♨️@kimmonismus
39
我们仍处于非常早期的阶段。 有时我们忘了自己生活在人工智能的象牙塔里。 大多数人并不像我们这样密集地使用AI。 (来源 reddit h/t r/Terrible-Priority-21)
其他现象/趋势
14:50
Berryxia.AI@berryxia
60
大模型的IQ和EQ排名

AIIQ.org网站上线,通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型,智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算,并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析,以人类智力标准衡量AI综合能力。

现象/趋势评测/基准
14:39
阿绎 AYi@AYi_AInotes
45
孙宇晨称AI时代刚至iPhone 4时刻,存储仅是燃料,Agent才是引擎

针对投资者因错过存储行情产生的焦虑,孙宇晨表示AI时代其实刚刚开始,当前可比拟移动互联网的iPhone 4时刻,大模型仅是序幕。真正的多模态、AI Agent、具身智能和机器人时代,将带来对存储、算力和能源需求的数百上千倍增长。他强调市场机会并非先到先得,而是属于持续参与者。真正的红利属于那些将AI视为新操作系统并用以提升自身效率的人,存储只是“燃料”,AI Agent才是驱动未来的“引擎”。

孙宇晨(去过太空版)🧑🚀: 有人总是担心这波存储,踏空了,怎么办? 别担心。 AI时代才刚刚开始。 永远都有机会。

大佬观点现象/趋势
14:39
阿绎 AYi@AYi_AInotes
56
一个周末用AI开发的"抢地盘"跑步App,揭示了产品开发的新范式

有人利用Claude在一个周末内开发出一款游戏化跑步App,将城市街道变为可争夺的虚拟领地,以强烈的游戏动机取代传统的数据打卡模式。此事的关键并非创意本身(类似产品已存在),而在于AI编程如何将产品原型迭代速度提升至“周末级”。普通人无需专业开发技能与大量资金,即可快速克隆成功产品并加入微创新,随后直接在社交平台获取即时市场反馈。这凸显了在AI时代,动机设计可能比功能优化更为关键,极大地降低了将想法快速验证和产品化的门槛。

Anthropic现象/趋势编码
09:34
Orange AI@oran_ge
46
大模型时代无个人英雄,实干胜于空谈

播客观点认为,当前大模型领域已不存在个人英雄主义,组织层面的英雄主义或许存在。核心在于,相关的“knowhow”并不如实际行动重要。关键在于将事情做成并扎实做好,空谈廉价,而“靠谱”的实干精神才真正难得。这反映了AI行业从技术探索转向工程化落地阶段的务实心态。

大佬观点现象/趋势
09:05
SemiAnalysis@SemiAnalysis_
36
构建生成式AI演示只需数小时,但部署到生产环境才是大多数客户碰壁之处。
现象/趋势部署/工程
08:49
ginobefun@hongming731
57
AI Agent 落地三问:代码本质、长流程状态、GUI 操控

本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

智能体MCP/工具安全/对齐开源生态
08:49
ginobefun@hongming731
43
AI Agent落地实践的三大核心层面

AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。

智能体Google现象/趋势部署/工程
08:49
ginobefun@hongming731
51
什么是代码?

在LLM时代,代码的本质是什么?Unmesh Joshi 将其分为两个层面:一是给机器的指令,正被LLM商品化;二是问题域的概念模型,作为推理和理解系统的概念体系,这才是代码的核心价值。设计良好的代码库是特定领域词汇表的具象化,精准命名、边界和层级需在迭代中发现。领域驱动设计的有界上下文和通用语言在此延伸,核心业务抽象需本地构建。编程语言本身是思维工具,影响开发者对结构的认知。因此,开发者应强化建模能力和精准词汇构建,而非语法生成。

现象/趋势编码
08:49
Berryxia.AI@berryxia
65
Jina同步发布MLX格式嵌入模型,端侧AI部署迎来新趋势

Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

Berryxia.AI: https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

Hugging Face开源/仓库模型发布现象/趋势
04:33
DogeDesigner@cb_doge
62
山姆·奥特曼被指利用OpenAI决策权为个人持股公司谋利

山姆·奥特曼被指控通过其在OpenAI的决策权,为其个人持股公司输送利益。他承认通过Y Combinator间接持有OpenAI股份,并拥有大量与OpenAI有业务往来的公司股权,包括核聚变公司Helion Energy和芯片公司Cerebras。OpenAI正与Helion进行大规模电力采购谈判,并与Cerebras签署了价值100亿美元的芯片订单,这些交易直接提升了他个人投资的价值。他曾在国会声称在OpenAI“零股权”,但在法庭上承认了间接持股。批评者认为,其行为涉嫌将非营利组织资产转化为个人收益。

OpenAI现象/趋势
03:38
阿绎 AYi@AYi_AInotes
59
Claude用微型电脑举办的编程活动,为何如此温暖人心?

在“Code with Claude”活动中,参与者使用资源有限的Cardputer微型电脑,在Claude的辅助下于几小时内创作出各种充满趣味的小项目,如魔法棒、拼写游戏和弹珠迷宫。这些项目虽无商业价值,却展现了极高创意密度与快乐。活动证明,在有限硬件条件下,AI能将创意实现时间从数月压缩到数小时,真正解放了有想法但不会编码的普通人。在当前AI行业过度聚焦生产力与替代人力的背景下,Claude此举凸显了“快乐比实用更有力量”的理念。

Claude: We gave people tiny computers at Code with Claude. Here are some of the small, delightful things they built:

Anthropic现象/趋势端侧编码
02:38
阿绎 AYi@AYi_AInotes
精选77
终于有人敢说真话了,AI根本不会让你失业。

吴恩达驳斥“AI导致大规模失业”的恐慌叙事,指出其流行源于三方利益驱动:前沿AI实验室借渲染技术颠覆性拉高估值;AI公司以替代高薪员工为由抬高定价;企业将低息时代的过度招聘裁员归咎于AI提效。现实数据反驳了失业论,受AI冲击显著的软件工程行业招聘依然强劲,美国失业率保持健康水平。历史表明技术会改变而非消灭工作,AI正在创造大量新岗位。未来挑战在于技能转型,而非工作短缺。

Andrew Ng: There will be no AI jobpocalypse. The story that AI will lead to massive unemployment is stoking unnecessary fear. AI - ...

现象/趋势行业动态

推荐理由:吴恩达把「AI就业末日」拆成三方合谋的生意,用软件招聘强劲和失业率4.3%打脸恐慌叙事。反主流但给数据,焦虑的人值得看一眼。
02:35
宝玉@dotey
60
亚马逊员工为完成AI使用指标刷Token用量

亚马逊设定硬性指标,要求超80%开发者每周使用AI工具,并追踪个人Token消耗量形成排行榜。这导致员工为刷数据而进行“tokenmaxxing”,即使用内部AI工具MeshClaw执行非必要任务。该工具作为AI代理可操作办公软件,灵感源于开源项目OpenClaw。类似情况也出现在Meta等硅谷大厂,反映了企业为证明巨额AI投入回报而强推使用率,进而引发数据注水现象。同时,有员工对AI代理操作系统的潜在安全风险表示担忧。

智能体现象/趋势
‹ 上一页
1…2223242526…37
下一页 ›