AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2407 条
全部一手资讯X论文
标签「大佬观点」清除
SemiAnalysis@SemiAnalysis_ · 5月17日53

At Stanford CS153 Frontier Systems, Jensen states word for word that he "would like to be at low MFU all the time" & the reasoning Jensen gives is that he wants be so smart, he over-provisioned the work like flops, networking, memory, etc. maybe the kernel folks at @xai are following this philosophy too

译在斯坦福CS153前沿系统课程中,Jensen Huang逐字表示他“希望始终保持低MFU”,其给出的理由是:他希望系统足够智能,以至于超额配置了如浮点运算、网络、内存等工作负载。或许@xai的内核团队也在遵循这一理念。

Orange AI@oran_ge · 5月17日65

http://x.com/i/article/2055834613973684224 # 我的奥德赛时期 最近很多人在说自己处于"奥德赛时期"。 奥德修斯打完仗漂了十年才回家,人们用这个词来形容毕业之后方向未定,没找到主线的漂泊状态。 这个说法流行的一个原因是人们认为以前的路径看起来是清晰的。上学,进大厂,赚钱,买房,结婚,退休。互联网时代给了很多人这条路,大厂需要大量的人,机会多,方向明确。 但现在互联网时代结束了,大厂不再需要那么多人了。AI 来了,它需要的人更少。 旧路径失效了,新的还没出现,大家开始迷茫。 我理解这种感觉,但从我的个人经验来说,即便是在互联网时代,这个路径也只是很少人走通的。 我在2005年高考的时候也是600多分,学校第一名,大学刚毕业之后也一样没有班上。后来和朋友一起做软件创业,再后来大厂,小厂,中厂,各个地方走了一圈。每一段都有收获,但一直感觉人生没有一条主线。 2022年,从所谓的公司体系里出来之后,回想过去,才慢慢感受到曾经自己最快乐的时光,就是大学毕业之后那一小段创业的时光。 因为那段时光最为真实。 自己做软件,自己卖,自己承担风险,自己赚钱养活自己。那时候不觉得在"漂泊",因为每一天都有真实的反馈。做对了就有人买,做错了就没饭吃。 我一直觉得人最厉害的成就,就是能自己赚钱养活自己。 但在各种厂子里打工的时候,感觉不是这样,感觉大多数时候没有什么意义。 最近在读塔勒布的《Skin in the Game》,里面有一句话: 生活需要付出牺牲和承担风险。承担了风险,并做出了牺牲,那才是你的生活。 我觉得这就是在大厂感觉没意义的原因。你没有在承担真实的风险,你的决策没有真实的后果。做对了是公司的,做错了也是公司的。你只是一个零件。 当你创造的价值比你的工资低的时候,高薪就成了诅咒。 很多人会把找到工作作为一个终点,成功应聘到一个著名的公司,觉得终于到了,可以在这里歇着了。结果歇着歇着人就废了,后来离开的时候发现,那个著名公司的标签跟他没有一点关系。 因为你一直没有承担风险,你就一直没有在进化。 进化就是筛选的力量,没有风险共担就没有进化。 这世界上真正厉害的人,财富自由对他们只是起点。他们一直在一种改变世界的游戏状态。世界对他们来说一直是新鲜的,永远都有事情需要去做。 "猛干几年然后退休"是一个幻觉。人们想象不出来财富自由的状态,所以觉得那种退休特别好,但其实退休是世界上最无聊的状态,因为那代表没有人需要你了。 人总想做点什么,有一份工作才会有身份认同感、社会认同感,才会感觉自己没有被社会抛弃。 为什么这么多人迷茫? 可能是因为人生中那些真正重要的事情,从来没有人教过我们。 怎么从一件小事里找到商业模式,怎么跟人建立信任然后深度长期地合作。这些最重要的东西,学校都不教。 有句话叫 have a good past。每一段都好好过,要对得起自己的成长。听起来太朴素了,但你真做到了,你就不需要依赖任何人给你安全感。 你的过去是你亲手创造的资产。 王登科最近做了一个产品叫 The One,技术上没什么复杂的,三天就一百万人注册。他把做 AI 社交的那些积累接入到微信里,让大家打开就能用。想到了就做了,三天搞定。 这个时代,执行力可以完全交给 AI 了,真正稀缺的东西是想象力,判断力,好奇心,还有你想对这个世界做点什么的那种冲动。 模型已经很强了,你不用非要跟模型去比谁更强。老子庄子已经在那了,这个世界需要更多道士去布道。 但即使你做的任何东西都不如 AI 好了,AI 还是无法替你承担风险。 AI 不会死,所以它不会真正地"在乎"。人会死,时间不可逆,所以你的每一次选择都是真实的。这就是你比 AI 强的地方。 保护好这些东西,然后投入自己的精力去创造,去真实的世界去验证。创造—验证—创造。 这个循环是成长最快的路径,因为实践是获得真理和获悉真相的唯一途径。 很多人想要一个安全垫,可大厂工资不是安全垫,公务员薪资也不是。那些东西随时可以消失。 你的安全垫只有一个,就是你自己的快速成长。 这世界永远充满未知,永远有新的冒险等待着你。 人的一生都是奥德赛时期。 永远不要停下来。

译“奥德赛时期”指年轻人毕业后的迷茫状态,源于旧有清晰路径在互联网时代结束后失效。作者认为,即便在过去,这条路径也少有人走通。问题的核心在于是否承担真实风险与创造价值。在大厂打工常感无意义,因为个人决策无真实后果,高薪可能成为诅咒。真正的成长来自“风险共担”,进化需要筛选力量。AI时代,执行力可交给模型,稀缺的是想象力、判断力与改变世界的冲动。AI无法替人承担风险,人的选择因生命有限而真实。真正的安全垫并非稳定工作,而是自身的快速成长与“创造-验证”循环。人的一生皆是奥德赛时期,需持续在真实世界中冒险进化。

Rohan Paul@rohanpaul_ai · 5月17日42

Satya Nadella's energy is something here. 🔥 "Tokens per Dollar per Watt" The new equation for the AI age for every Company or Industry or Country. "And that means Infrastructure, Infrastructure and Infrastructure."

译Satya Nadella的能量在此彰显。🔥 “每瓦特每美元的Token数” 这是每个公司、行业或国家在AI时代的新公式。 “这意味着基础设施、基础设施,还是基础设施。”

meng shao@shao__meng · 5月17日21

Antigravity 要崛起了? 不太能想象到,唯一的可能,是 Gemini 4 真的断档的强?全面内置 Nano Banana Pro 和 Veo 4? 不过即便这样,也很难再动摇 Codex 和 Claude Code 了吧?

Ethan Mollick@emollick · 5月17日24

That explains this startup.

译这就解释了这家初创公司。 [引用 @deepfates]:旧金山的新潮流不再是参谋长或MTS,而是巫师。每家公司都必须有位巫师。如果你的公司没有巫师和万年宇宙计划,那就注定失败。在某些顶级初创公司,每位高管都配有专属巫师。

Berryxia.AI@berryxia · 5月17日61

讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练! Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。 这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖的数学家之一,说: 今天大模型背后的数学其实非常简单。 线性代数、矩阵乘法,再加一点微积分,本科生就能完全掌握。 我们清楚知道怎么训练、怎么运行它们。 但真正让人困惑的是:为什么它们在某些任务上表现惊人,在另一些任务上却突然翻车,而且我们完全无法提前预测。 核心原因在于现实世界的数据,自然语言文本。 它既不是纯噪声,也不是完全结构化的数据,而是坐在“中间地带”:部分有序、部分随机。目前数学界对这个中间区域的理论还非常薄弱。 所以我们能造出强大的模型,却没法可靠预测它的能力边界。 这个“简单机制 vs 不可预测行为”的矛盾,才是当前 AI 最核心的 puzzle。 完整访谈视频在这里(Dr Brian Keating 频道)👇🏻:

译菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。

ginobefun@hongming731 · 5月17日57

当软件容易被创作,新时代的产品长什么样? 大多数关于 AI 创业的讨论都在谈机会,新工具带来了哪些新可能,哪些赛道被打开了,怎么抓住这个窗口期。 42 章经最近一期播客的嘉宾 Albert 的开场很直接:「最近行业里可以说是哀鸿遍野。」他说的「难」,不是技术上做不出来,而是做出来之后很难过得了他自己设定的发布门槛,因为同等质量的东西别人也可以以相似的成本做出来。 他给出的判断是:「智能不是最高层次的价值。」当 AI 让做产品这件事变得空前容易,功能层面的稀缺性就消失了。真正稀缺的,是那些带有独特情感触点的产品,是创作者和用户之间的具体连接,他用「回响」来描述这种价值。 这个判断背后有一个洞察:模型厂商正在越来越主动地收割商业价值,直接在垂直领域落地产品,压缩了中间层的生存空间。在这种结构里,与模型能力正面竞争几乎没有胜算;但品味、情感连接和社群认同,是模型厂商很难用规模化方法复制的东西。 他用泡泡玛特做类比,未来的软件格局可能会出现大「小而美」的产品,每个都有自己的「粉丝」,付费理由不只是功能,还有对这个产品背后的创作者和世界观的认同。这对「什么是好产品」这个问题给出了一个很不一样的答案。

译AI创业当前的核心挑战并非技术实现,而是功能同质化导致产品发布门槛提高。随着大模型降低开发成本,功能稀缺性已消失,价值转向独特的情感触点与用户连接。模型厂商正直接涉足垂直领域,挤压中间层生存空间,正面竞争模型能力难以取胜。未来或涌现众多“小而美”产品,像泡泡玛特一样,依靠独特品味、社群认同和世界观吸引付费用户,重新定义好产品的标准。

ginobefun@hongming731 · 5月17日68

Box CEO Aaron Levie 是在 SaaS 时代就完整经历过一个软件公司从 0 到成熟的操盘者,他的最新观点认为现在是创立 AI 公司的最佳时机。 他的判断是:AI 是大型机、PC、互联网、云之后又一次十年一遇的平台级迁移,现在处于早期,大约有三年窗口。在这个窗口关闭之前能建立起数据和工作流优势的玩家,之后的护城河会很深,因为后来者不只是功能落后,而是数据积累上的结构性劣势。 他同时反驳了「AI 会消灭软件工程师」的说法。代码生成确实被 AI 解决了,但把 AI 生成的代码安全部署到生产环境、处理集成问题、对后果负责,这些依然需要人。他提出「问责差距」这个概念:AI Agent 不能被起诉、不能被追责,所以工作流的两端必然还是人,创业者部署的 Agent 越多,越像一个压力山大的「Agent 经理」。 对于选择赛道,他指向了垂直 AI 、Agent 基础设施,以及那些在服务交付上 AI 能显著提升效率的专业服务类公司。 https://www.youtube.com/watch?v=ExgNR94SrfI

译Box CEO Aaron Levie认为,AI是继大型机、PC、互联网和云之后又一次十年一遇的平台迁移,目前仍处早期,存在约三年的黄金创业窗口。成功关键在于在此期间建立起数据和工作流的优势,以构建结构性护城河。他反驳了“AI将取代软件工程师”的观点,指出部署、集成和问责仍需人类,并提出了“问责差距”概念。看好的方向包括垂直AI、Agent基础设施及AI能显著提升效率的专业服务公司。

meng shao@shao__meng · 5月17日63

Atomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比,引发 OpenClaw 和 Hermes Agent 两位大佬辩论 OpenClaw 创始人 @steipete 转发了这个抓取 GitHub 仓库(OpenClaw & Hermes)的 star 历史、分析增长 spike 原因,并构建实时浏览器仪表盘的任务。 视频实测结果 · OpenClaw:12分01秒,203k tokens。直接调用GitHub API、处理分页、拉取star-history JSON、发现安全事件、修复SVG与HTML,最终输出干净仪表盘(还写了bash脚本)。 · Hermes Agent:33分01秒,257k tokens。采用并行工具调用(API+搜索+浏览器),遇Google限流自动切换DuckDuckGo,抓取文章、标注关键事件,最终也完成仪表盘(写了SKILL.md)。 Hermes 联创 @Teknium 直接反击称此基准不科学。 · 单次运行、无重复测试、无总 tokens/TPS 报告。 · Qwen 35B是“最随机长度”的模型之一,易循环,单次结果波动大。 · Hermes 在所有公开质量基准(尤其是开源模型)上全面领先,附 Wildclawbench(InternLM)截图:同等速度下 Hermes 结果显著更好。 · 真实用户数据:Hermes 上线后,OpenClaw token throughput 急剧下降;Hermes 3天内接近并超越,目前接近 2.5x OpenClaw 的日 token 量,用户用脚投票。还附 WolfBench 证据(Hermes 在真实任务中优于 Claude & OpenClaw)。

译Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。

Ethan Mollick@emollick · 5月17日37

ChatGPT for personal finance is interesting, but you need to know what questions to ask and have enough experience to fact-check assumptions. It really needs to ship with some pre-built skills to help guide people to productive use cases & give the AI better instructions as well

译将ChatGPT用于个人理财很有趣,但你需要知道该问什么问题,并有足够的经验来验证假设。 它确实需要内置一些预设功能,来引导人们实现高效用例,并为AI提供更好的指令。

Greg Brockman@gdb · 5月17日39

tokens are rapidly becoming the universal input for solving problems

译tokens 正迅速成为解决问题的通用输入

宝玉@dotey · 5月17日47

吐槽一下 Claude Code Desktop 的设计: 1. 如果你上一个会话是用了 Plan mode,那么下一次会话默认就会是 Plan mode,这会导致新开会话忘记改掉的话,简单任务也要写个 plan 2. 左侧 sidebar 完全不会根据 Projects 分组,一大坨放在一起,新建会话,需要二次点击才能设置正确的 Project 3. 右侧的 Panel 列表摆在一起相互挤占空间,多开几个就看不见了,不如 tabs 简单直接 4. Cowork 和 Code 真心没必要分开做成两套不同的产品

译用户集中批评了Claude Code Desktop的几项设计缺陷:会话模式缺乏智能记忆,默认沿用上次的Plan模式;项目管理混乱,所有项目混杂在侧边栏;右侧面板并排布局,多开时相互挤占空间;此外,用户认为将Cowork和Code拆分为两个独立产品并无必要。

Emad@EMostaque · 5月17日30

Who’s building nanobots? Seems the last leg of Kurzweil’s predictions

译谁在建造纳米机器人? 这似乎是库兹韦尔预测的最后一步

Chubby♨️@kimmonismus · 5月17日60

Im seriously confused. Apparently Claude Mythos now appears in the Google Cloud console. After all the official statements Anthropic has made about concerns that a Claude Mythos release would pose too great a risk, I simply cannot imagine them doing a complete about-face now. On the contrary, that would make them look unprofessional. Moreover, numerous recent examples demonstrate that Claude Mythos is indeed an extremely strong model. Example: https://x.com/kimmonismus/status/2055571960260645125?s=20 tl;dr i cannot think of any scenario that they are gonna release Mythos.

译Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。

elvis@omarsar0 · 5月17日71

Interesting interpretability paper on tool-using agents. The authors probe hidden states and find the model often recognizes it should call a tool, but fails to actually call one. The mismatch ranges from 26 to 54%, and it concentrates entirely in the cognition-to-action transition, not in cognition itself. In other words, the model usually knows it should call the tool. The internal probe direction is decodable. But the late-layer last-token regime rotates that signal nearly orthogonal to the action it produces. This work tries to predict which interventions will actually work and which will not. Most will blame bad prompting or weak tool-call training, and probably ignore the late-layer geometry. If you have been A/B testing tool-use prompts and getting weird ceilings, this work might offer a good explanation to that behavior. Paper: https://arxiv.org/abs/2605.14038 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。

Peter Steinberger 🦞@steipete · 5月17日42

deslop your Claude code if you haven’t yet switched to Codex.

译如果你还没有切换到 Codex,就开发你的 Claude 代码。

宝玉@dotey · 5月17日18

每次 Codex 一重置就后悔之前没多用一点

AYi@AYi_AInotes · 5月17日63

在我刚入行那几年, 记得代码库里有一种人是被默默崇拜的, 他能在十几层调用栈里一眼看出 N+1,能在火焰图里指出哪个函数被多调了三次, 今天 Greg Brockman 转的那个 Codex Skill, 第一次让这件事不再是少数人的特权。 性能优化为什么过去这么稀缺, 你得会用 Chrome DevTools 拉火焰图,会用 Node --prof 跑 profile,会读 perf report, 你得对渐进复杂度有近乎本能的敏感,能在嵌套十几层的代码里识别出 O(n²) 长什么样, 你还得踩过几百个真实生产事故,知道哪种模式在百万级数据下会爆, 这三样能力叠加起来,是十年项目经验才能稳定输出的活,在团队里就是稀缺资源,工资溢价就来自这里。 Greg 转的这个 Complexity Optimizer,是社区开发者做的一个 Codex Skill, 一行 npx --yes codex-complexity-optimizer 装完,在项目根目录跟 Codex 说一句 analyze my codebase,几秒钟跑完, 它专挖 O(n²)、O(n*m)、N+1、循环里套循环、每次渲染都扫全表那种隐藏坑,每一条都精确到文件 + 行号 + 当前复杂度 + 优化后复杂度 + 推荐改法 + 风险等级, 最重要的设计是它默认只报告不动代码,每条标 low 或 medium 风险,还告诉你上线前要补哪些测试, 也就是说 AI 不绕过人类决策,它做的是把人类做决策所需的信息全部准备好。 但这个 Skill 真正让我感兴趣的,不是它能干什么,而是它意味着什么, 过去两年 AI 写代码的故事,焦点一直在让代码写得更快上, 可是写代码的速度,从来不是开发者真正的瓶颈, 真正的瓶颈一直是看见自己看不见的问题——架构隐患、性能坑、安全漏洞、依赖陷阱,这些东西高度依赖个人经验积累,集中在少数资深开发者手里, Complexity Optimizer 真正的信号是,这类需要十年经验才能输出的能力,第一次被压进了一个可以一行命令调用的 Skill 里, 这条路一旦走通,下一波 Skills 不会等太久——安全审计、依赖风险扫描、架构腐烂检测、内存泄漏侦察,全都会涌出来。 总的来说,资深开发者的护城河不会消失,但定义在变, 过去的护城河是看见问题的眼力, 未来的护城河是判断 AI 给出的方案在你的业务场景下能不能落地的判断力, 十年经验值正在被压缩成一行 npx 命令, 这件事也许从今天就开始咯。

译Greg Brockman转发的Codex Skill "Complexity Optimizer"通过一行npx命令安装,能在几秒内扫描代码库,精准定位O(n²)、N+1查询等性能问题,并提供文件、行号、优化建议和风险等级。其核心设计是仅报告问题而不自动修改,将决策权留给开发者。这标志着AI的关注点正从“更快地写代码”转向“发现人类难以察觉的复杂问题”,将十年项目经验才能积累的诊断能力封装成可一键调用的技能。未来,类似的安全审计、架构检测等工具将大量涌现。资深开发者的护城河因此被重新定义:从依靠个人眼力发现问题,转向依靠业务判断力来评估和落地AI提供的解决方案。

Greg Brockman@gdb · 5月17日27

using codex from the ChatGPT app is such a freeing experience. makes you realize how tethered you normally are to your computer.

译在ChatGPT应用中使用Codex是如此自由的体验 让你意识到平时被电脑束缚得有多深

Yann LeCun@ylecun · 5月17日49

Tired of winning

译厌倦了胜利 [引用 @DrCatharineY]:美国科学正面临巨大风险。

Greg Brockman@gdb · 5月17日43

the Codex app is in a category of its own. “agentic excel on mac” is an interesting description.

译Codex应用独树一帜。 “Mac端的智能Excel”是个有趣的描述。

Berryxia.AI@berryxia · 5月17日48

重复造轮子的人不是傻子, 有没有一种可能只是真的是在拿AI练手和提升「熟练度」!😊

Chubby♨️@kimmonismus · 5月16日38

This is what you’re competing with. 1.3 million tokens in 30 days. Burn more tokens or you’re not gonna make it.

译这就是你要面对的竞争。 30天130万token。 燃烧更多token,否则你将无法成功。 [引用 @steipete]:The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

Ethan Mollick@emollick · 5月16日55

The talk about AI & politics seems to be oddly missing a segment (a) assumes extremely capable AI is possible soon and (b) has a strong belief about how to use this technology to make human life better according to the political project they believe in. It is a moment of action.

译关于AI与政治的讨论似乎奇怪地缺失了一个环节:(a)假设极高能力的AI即将实现,(b)坚信如何根据其信仰的政治计划运用该技术改善人类生活。此刻正是行动之时。

Chubby♨️@kimmonismus · 5月16日17

Veo 4 would be almost more exciting than Gemini 3.5. It's surprising how long Seedance 2.0 has remained state of the art. Oh and maybe an update to Genie, googles world model. Google i/o can’t come fast enough

译Veo 4 可能比 Gemini 3.5 更令人兴奋。 Seedance 2.0 能长期保持领先地位实在令人惊讶。 对了,或许还有谷歌世界模型 Genie 的更新。 谷歌 I/O 大会快点到来吧。

Rohan Paul@rohanpaul_ai · 5月16日58

Terence Tao says the math behind today’s LLMs is actually simple. Training and running them mostly uses linear algebra, matrix multiplication, and a bit of calculus, material an undergraduate can handle. We understand how to build and operate these models. The real mystery is why they work so well on some tasks and fail on others, and why we cannot predict that in advance. We lack good rules for forecasting performance across tasks, so progress is largely empirical. A key reason is the nature of real-world data. Pure noise is well understood, perfectly structured data is well understood, but natural text sits in between, partly structured and partly random. Mathematics for that middle regime is thin, similar to how physics struggles at meso-scales between atoms and continua. Because of this gap, we can describe the mechanisms but cannot yet explain capability jumps or give reliable task-level predictions. That mismatch, simple machinery versus hard-to-predict behavior, is the core puzzle. ---- Video from 'Dr Brian Keating' YT Channel (Link in comment)

译陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

Chubby♨️@kimmonismus · 5月16日37

Claude is lazy, but has taste and context (no talking about 4.7 tho) Codex is eager, but still lacks some taste and context. Once Codex gets both, it’s over.

译Claude有些懒散,但具备品味和语境理解力(不谈4.7版本) Codex则充满热情,但仍欠缺一些品味和语境理解力。 一旦Codex两者兼备,游戏就结束了。

Orange AI@oran_ge · 5月16日50

今天看到一个牛逼的公式: 智力=速度x正确。 这是控制论里对智力的定义,一个人或一个组织在单位时间内进行正确选择的能力。 AI 可以无限放大速度,但是正确呢?还是个问号。 AI 可以让你 coding 的速度变得无限快,但是不能告诉你到底要做什么产品。(这正是一个组织的核心要做的最重要的事情。) 什么时候 AI 能告诉你选择做什么能直接赚钱了,就是在智力上到达 AGI 了。

译推文引用控制论对智力的定义:智力=速度x正确,即单位时间内做出正确选择的能力。作者指出,AI能极大提升速度(如编程),但无法保证“正确性”,尤其体现在无法做出能直接创造商业价值的核心战略选择(如决定开发何种产品)。作者认为,当AI能告知“做什么能直接赚钱”时,才意味着在智力上达到了AGI水平。

Rohan Paul@rohanpaul_ai · 5月16日46

Google's "Attention is All You Need" paper came from trying to get a 3% gain in Google Translate. Innovation is a consequence of production. "If you don't make the thing, you cede your opportunity to innovate on the thing." ~ Palantir's CTO @ssankar

译Google的《Attention is All You Need》论文源于试图让Google Translate提升3%的性能。 创新是生产的产物。"如果你不去创造,就放弃了在该事物上创新的机会。" ~ Palantir首席技术官 @ssankar

Rohan Paul@rohanpaul_ai · 5月16日55

Fei-Fei Li warns that AI may be staring too hard at language models. The world is not just text on a screen. It is physical, visual, spatial, and always changing. Most of the economy runs on seeing, moving, interacting, and embodied intelligence.

译Fei-Fei Li警告,人工智能可能过度专注于语言模型。 世界不仅仅是屏幕上的文字。 它是物理的、视觉的、空间的,并且始终在变化。大部分经济活动依赖于看见、移动、互动和具身智能。

swyx 🇸🇬 AIE Singapore!@swyx · 5月16日51

gotta say Codex is completely unrecognizable from 3 months ago. guys went extreme founder mode on this thing @gabrielchua was demoing this and i was like “you guys have agentic excel on mac”

译不得不说Codex和三个月前相比已经完全认不出来了。 团队在这件事上开启了极限创始人模式 @gabrielchua 演示时我就在想“你们居然做出了代理式Excel for Mac”

宝玉@dotey · 5月16日20

用回 Sublime 了,内存只要 300 多 MB,相比 vscode 动辄 10 来个 G 还是节约内存多了! 主要是现在基本不用手写代码了,VSCode 很多功能都用不上了,反而像 Sublime 这样语法高亮加文件编辑足够了。 https://www.sublimetext.com/

译一位开发者重新使用Sublime Text,因其内存占用仅300多MB,远低于动辄占用10GB以上的VSCode。转变的主要原因是其工作流发生变化:现在基本无需手写代码,导致VSCode的许多高级功能变得不再必要。相比之下,Sublime Text提供的语法高亮和基础文件编辑功能已完全满足其当前需求,突显了在AI辅助编程时代,轻量级编辑器因其资源效率而重新获得青睐的趋势。

swyx 🇸🇬 AIE Singapore!@swyx · 5月16日29

holy shit lmao @Gavriel_Cohen he's seriously using this thing for conducting the foreign policy/parliamentary affairs of singapore - and sharing his stack on how he is hacking around WhatsApp and doing graph memory on SQLite wtf is this vibecoded country man

译新加坡内阁部长Vivian Balakrishnan作为NanoClaw的重度用户,正实际运用该AI工具处理国家外交政策与议会事务。他公开分享了如何利用技术栈破解WhatsApp限制,并在SQLite上实现图记忆的具体方法。这一实践案例在AI工程师社区活动中引发关注,该活动汇聚了来自OpenAI、Cursor AI、Vercel、ElevenLabs等公司的众多AI领域专家,共同探讨前沿AI应用。

Berryxia.AI@berryxia · 5月16日62

转自GG老哥👇 以下是更多关于这些AI智能体的观察结果(我还会不断补充这个列表): 1. Hermes智能体在完成每项任务后都会将相关信息存储在自己的内存中。 这意味着,如果你现在就开始使用这些智能体,与6个月后才开始使用相比,你会获得明显的优势。 2. 我们可能再过12个月左右,就能拥有这样的智能体:它们能够观察你一周的工作过程,然后在没有任何指令的情况下自行完成你的工作。 目前,通过屏幕录制、智能体的记忆功能以及本地模型的组合,这一目标已经变得可行了。 3. 对于创业者来说,本地模型的重要性在于:你可以推出一种完全在用户设备上运行AI技术的产品,而无需接触用户的任何数据。 这样一来,就完全没有隐私风险、服务器成本,也不用担心合规问题。 这种技术会瞬间改变你可以进入哪些行业进行销售——医疗、法律、金融等所有那些不允许将数据传输到云端的领域,都会因此变得可行。 4. 在这些智能体真正发挥作用之前,每家公司都需要将自己重新打造成一个“第二大脑”——即一个能够辅助人类进行工作的智能系统。 这意味着:每一个流程、每一个决策,以及每一项机构知识,都必须以Agent能够理解的形式存在(即必须以Agent能够读取的格式进行表达)。 然而,大多数公司在这方面都做得非常糟糕(即这些信息并没有以代理能够理解的形式被保存或使用)。 5. 代理的薪酬成本实际上已经取代了传统的人力成本; 对于许多公司来说,将总人力资源成本的 50% 以上用于购买代币(tokens)也并不算什么疯狂的决定。 6. 代理们在无意中在企业内部引发了竞争:营销人员和销售人员虽然都在为不同的目标而努力,但他们实际上是在相互抵触、互相妨碍对方的工作效率。 而人类花了数十年时间才建立起跨部门之间的协作机制。对于这些“代理”来说,这个问题却从未被真正考虑到过。 7. YAML 配置文件正在逐渐取代传统的组织结构图:谁向谁汇报、他们拥有哪些权限、可以使用哪些工具——所有这些信息都通过 YAML 配置文件来定义。 公司的整体结构实际上就是一个可以被版本控制、分叉(fork)并部署的文件罢了……这确实是一个全新的模式。 8. 那些第一批能够识别出骗局的公司,将会因此获得巨大的价值(甚至可能价值数十亿美元)。 目前,许多代理人会毫不犹豫地将资金转给那些格式看似合法的虚假发票;他们的判断完全缺乏任何信任机制或理性分析。 9. 实际上,很多所谓的“专业知识”不过只是对某些信息的记忆罢了——比如税法规定、判例法内容、以及不同供应商的收费标准等。 只有当代理人能够将这些信息放在具体情境中加以理解时,他们的价值才会真正体现出来(即他们能够判断出哪些信息才是真正重要的)。具备这种能力的人其实非常少。 10. 我们都在使用相同的模型。 真正的区别在于我们为这些模型提供了什么样的输入数据。两位创始人即便使用相同的代理人、相同的模型和相同的工具,最终得到的结果也可能大相径庭——这完全取决于他们所掌握的知识质量。 如果输入的信息质量低劣,那么输出的结果自然也会很糟糕(这种情况会永远持续下去)。 11. 目前人工智能领域发展最为滞后的领域就是为老年人服务的智能辅助系统; 有约7000万的婴儿潮一代需要帮助填写医疗表格、处理保险索赔以及安排预约等事务。 12. 代理人的响应速度(即处理任务的速度),已经相当于网页的加载速度了。 如果你的客服代表需要 45 秒才能回复客户,那么客户很可能已经转而使用那些响应速度更快(仅需 13 秒)的客服服务了。 13. “技能文件”(Skills files)实际上就是新的“应用程序”; 一个能够指导客服代表如何高效完成某项任务的文档(如 SKILL.md),比那些通过登录界面来提供相同功能的 SaaS 服务更有价值。 14. 在人工智能硬件领域,如何开发出既实用又受消费者欢迎的产品呢? 其实只需要一个价格约为 30 美元的插件,就能将人工智能功能添加到现有的普通设备中。 比如,智能烤面包机并不需要从头开始设计;只需将这个插件连接到价值 15 美元的普通烤面包机上即可。 15. 客服代表的阅读速度远超人类的思考速度; 目前,每个客服工作流程中的瓶颈都在于人工审批环节——人类本身才是效率最低的部分。这确实是个令人反思的现象。 16. 客服代表让“80/20 规则”(即工作中 80% 的任务由人工完成、20% 的任务由自动化系统完成)变得更加明显。 如今,只有那 20% 的关键任务仍由人类负责,而剩下的 80% 的工作内容早已被自动化系统取代了。 许多原有的工作描述其实都隐藏在那些“被自动化处理”的任务中。 17. 我一直反复强调的一点是:如今最成功的商业模式,都是由那些比他们的客户稍微领先一点的人创造的——这种领先幅度既不是十年,也不是六个月。 这样的领先程度既能确保他们能够引领市场的发展,同时又足够接近客户的实际需求,使他们能够被客户真正理解。

译AI智能体通过记忆功能形成使用先发优势,预计12个月内将出现能自主学习并替代人类工作的智能体。本地模型使AI产品可在终端设备运行,为医疗、法律等受监管行业提供无数据隐私风险的解决方案。企业需将内部流程与知识转化为AI可读的“第二大脑”,而代理成本正逐步取代传统人力成本。智能体可能引发部门间无意识的竞争,公司结构可通过YAML配置文件定义和版本化。输入数据质量直接决定输出效果,技能文件比传统SaaS更具价值,而人类审批环节成为工作流中的主要瓶颈。

ginobefun@hongming731 · 5月16日46

#BestBlogs 早报 2026-05-16 AI 当编程助理已经不算新鲜,更值得看的是把它当成思考伙伴的方式。 Google 的 Julie Qiu 谈如何在九语言客户端库里和 AI 一起读懂、试验、再设计; Abridge 用八千万次问诊把环境抄写做成医疗智能层; OpenAI 在 Podcast 第 19 期复盘 Imagen 2.0 的字渲染、多语言与 Creative Agents 路线。 三篇都不爆炸,但都耐看。

译本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。

Greg Brockman@gdb · 5月16日48

run codex on every commit

译在“tokens成本无关紧要”的未来设想下,项目通过云端持续运行约100个Codex实例,实现软件开发全流程自动化。系统自动化审查每次代码提交以发现安全问题,处理所有PR和issue:自动关联并关闭陈旧issue、去重问题并聚类报告、监控新issue并自动创建PR。智能代理能复现复杂环境、进行演示、监听会议并主动启动工作(如创建PR),同时扫描评论垃圾、验证性能基准。结合clawpatch.ai进行功能单元拆分和Vercel deepsec安全审计,最终达成极精简的自动化运营。

SemiAnalysis@SemiAnalysis_ · 5月16日57

As we've come to expect from a DeepSeek release, DeepSeek V4 comes with more flashy ML systems optimizations. This time? MegaMoE, a 1400 line fused CUDA kernel that computes the entire MoE forward pass. Let's see how it works (1/4) 🧵

译正如我们对DeepSeek发布的期待,DeepSeek V4带来了更多炫目的ML系统优化。 这次是MegaMoE,一个1400行融合CUDA内核,可计算整个MoE前向传播。 让我们看看它是如何工作的(1/4)🧵

Orange AI@oran_ge · 5月16日25

老黄当年决定做 CUDA 的时候 大概也没想到后来会有一万个人为这个决定辩经 人类太沉迷寻找证据寻找因果了

译推文以英伟达黄仁勋早年押注CUDA为例,指出后人热衷于为此决策寻找因果证据,实则反映了人类决策的普遍模式:决策主要由压力环境下的激素驱动,而非纯粹依靠理智。人们往往先做决定,再事后寻找证据证明其正确性。决策者必须亲身承担决策失误的风险与损失(即skin in the game),才能在真实压力下驱动激素,做出更正确的决定。

Chubby♨️@kimmonismus · 5月16日71

The CEO of the world's most valuable semiconductor company just told a room full of computer science grads that electricians and plumbers have a better shot than they do. Jensen Huang at Carnegie Mellon, class of 2026: "Electricians, plumbers, iron workers, technicians, builders. This is your time." The numbers back him up. Randstad analyzed 150M+ US job postings. Skilled trades demand is growing 3x faster than professional desk roles. Robotics technician postings up 107%. HVAC engineers up 67%. Electricians, welders, construction workers up 18–30% since late 2022. Meanwhile, a Stanford study found a 16% decline in early-career employment across AI-exposed jobs. Developer employment ages 22–25 dropped almost 20% from its late 2022 peak. Top electricians earn $ 106K+. Plumbers $ 105K+. No degree, no student debt. You get paid from day one through apprenticeships. US tech companies are spending $700B this year on data center buildout. McKinsey projects $7T globally by 2030. Every dollar of that requires humans pulling wire, laying pipe, pouring concrete. AI can't build its own infrastructure. And the workforce isn't there. For every 100 young workers entering manufacturing, 102 are leaving. The irony is sharp. The biggest winner of the AI era isn't the prompt engineer. It's the person who can wire a 100MW data center in the Nevada desert.

译英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

Emad@EMostaque · 5月16日39

The total addressable market for humanoid robotics may well be larger than the TAM for human labour

译人形机器人的总可寻址市场规模很可能超过人类劳动力的总可寻址市场 [引用 @EMostaque]:本周花时间研究了人形机器人的经济影响,其规模远超数字AI

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月17日
10:42
SemiAnalysis@SemiAnalysis_
53
在斯坦福CS153前沿系统课程中,Jensen Huang逐字表示他"希望始终保持低MFU",其给出的理由是:他希望系统足够智能,以至于超额配置了如浮点运算、网络、内存等工作负载。或许@xai的内核团队也在遵循这一理念。
大佬观点数据/训练
10:40
Orange AI@oran_ge
65
我的奥德赛时期

“奥德赛时期”指年轻人毕业后的迷茫状态,源于旧有清晰路径在互联网时代结束后失效。作者认为,即便在过去,这条路径也少有人走通。问题的核心在于是否承担真实风险与创造价值。在大厂打工常感无意义,因为个人决策无真实后果,高薪可能成为诅咒。真正的成长来自“风险共担”,进化需要筛选力量。AI时代,执行力可交给模型,稀缺的是想象力、判断力与改变世界的冲动。AI无法替人承担风险,人的选择因生命有限而真实。真正的安全垫并非稳定工作,而是自身的快速成长与“创造-验证”循环。人的一生皆是奥德赛时期,需持续在真实世界中冒险进化。

大佬观点现象/趋势
10:40
Rohan Paul@rohanpaul_ai
42
Satya Nadella的能量在此彰显。🔥 "每瓦特每美元的Token数" 这是每个公司、行业或国家在AI时代的新公式。 "这意味着基础设施、基础设施,还是基础设施。"
Microsoft大佬观点现象/趋势
10:23
meng shao@shao__meng
21
新模型或撼动代码助手格局

Antigravity 要崛起了? 不太能想象到,唯一的可能,是 Gemini 4 真的断档的强?全面内置 Nano Banana Pro 和 Veo 4? 不过即便这样,也很难再动摇 Codex 和 Claude Code 了吧?

Logan Kilpatrick: Very excited for all the stuff the @antigravity team has been cooking :)

大佬观点编码
10:08
Ethan Mollick@emollick
24
这就解释了这家初创公司。 【引用 @deepfates】:旧金山的新潮流不再是参谋长或MTS,而是巫师。每家公司都必须有位巫师。如果你的公司没有巫师和万年宇宙计划,那就注定失败。在某些顶级初创公司,每位高管都配有专属巫师。

🎭: The new thing in San Francisco is no longer chief of staff or MTS. It's wizards. Everybody's got to have a wizard. If yo...

大佬观点现象/趋势
09:54
Berryxia.AI@berryxia
61
陶哲轩点破AI核心矛盾:简单数学与不可预测的行为

菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。

Rohan Paul: Terence Tao says the math behind today's LLMs is actually simple. Training and running them mostly uses linear algebra, ...

大佬观点推理
08:54
ginobefun@hongming731
57
当软件容易被创作,新时代的产品长什么样?

AI创业当前的核心挑战并非技术实现,而是功能同质化导致产品发布门槛提高。随着大模型降低开发成本,功能稀缺性已消失,价值转向独特的情感触点与用户连接。模型厂商正直接涉足垂直领域,挤压中间层生存空间,正面竞争模型能力难以取胜。未来或涌现众多“小而美”产品,像泡泡玛特一样,依靠独特品味、社群认同和世界观吸引付费用户,重新定义好产品的标准。

大佬观点现象/趋势
08:54
ginobefun@hongming731
68
Box CEO Aaron Levie:现在是创立AI公司的最佳时机

Box CEO Aaron Levie认为,AI是继大型机、PC、互联网和云之后又一次十年一遇的平台迁移,目前仍处早期,存在约三年的黄金创业窗口。成功关键在于在此期间建立起数据和工作流的优势,以构建结构性护城河。他反驳了“AI将取代软件工程师”的观点,指出部署、集成和问责仍需人类,并提出了“问责差距”概念。看好的方向包括垂直AI、Agent基础设施及AI能显著提升效率的专业服务公司。

智能体大佬观点现象/趋势
08:53
meng shao@shao__meng
63
Atomic Bot发布Qwen 35B任务视频对比,引发OpenClaw与Hermes创始人性能辩论

Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。

Peter Steinberger 🦞: Looks like our focus on performance paid off.

智能体大佬观点现象/趋势
08:08
Ethan Mollick@emollick
37
将ChatGPT用于个人理财很有趣,但你需要知道该问什么问题,并有足够的经验来验证假设。 它确实需要内置一些预设功能,来引导人们实现高效用例,并为AI提供更好的指令。
OpenAI大佬观点
07:35
Greg Brockman@gdb
39
tokens 正迅速成为解决问题的通用输入
OpenAI大佬观点
06:46
宝玉@dotey
47
吐槽一下 Claude Code Desktop 的设计

用户集中批评了Claude Code Desktop的几项设计缺陷:会话模式缺乏智能记忆,默认沿用上次的Plan模式;项目管理混乱,所有项目混杂在侧边栏;右侧面板并排布局,多开时相互挤占空间;此外,用户认为将Cowork和Code拆分为两个独立产品并无必要。

Anthropic大佬观点编码
06:43
Emad@EMostaque
30
谁在建造纳米机器人? 这似乎是库兹韦尔预测的最后一步
其他大佬观点
06:03
Chubby♨️@kimmonismus
60
Claude Mythos惊现Google Cloud控制台引困惑

Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic大佬观点推理
05:08
elvis@omarsar0
71
工具使用代理认知与行动脱节机制研究

该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。

智能体MCP/工具大佬观点
04:41
Peter Steinberger 🦞@steipete
42
如果你还没有切换到 Codex,就开发你的 Claude 代码。

Chris Baker: Yeah that was a lot lol. Lots more to fix. Nice work @steipete https://clawpatch.ai/

大佬观点编码
03:16
宝玉@dotey
18
每次 Codex 一重置就后悔之前没多用一点

Tibo: Codex usage limits have now been reset across all paid plans. Enjoy the weekend!

OpenAI大佬观点
02:43
AYi@AYi_AInotes
63
AI工具将十年开发经验压缩成一行命令

Greg Brockman转发的Codex Skill "Complexity Optimizer"通过一行npx命令安装,能在几秒内扫描代码库,精准定位O(n²)、N+1查询等性能问题,并提供文件、行号、优化建议和风险等级。其核心设计是仅报告问题而不自动修改,将决策权留给开发者。这标志着AI的关注点正从“更快地写代码”转向“发现人类难以察觉的复杂问题”,将十年项目经验才能积累的诊断能力封装成可一键调用的技能。未来,类似的安全审计、架构检测等工具将大量涌现。资深开发者的护城河因此被重新定义:从依靠个人眼力发现问题,转向依靠业务判断力来评估和落地AI提供的解决方案。

Greg Brockman: codex for improving computational complexity

MCP/工具大佬观点编码
02:35
Greg Brockman@gdb
27
在ChatGPT应用中使用Codex是如此自由的体验 让你意识到平时被电脑束缚得有多深
OpenAI大佬观点
01:58
Yann LeCun@ylecun
49
厌倦了胜利 【引用 @DrCatharineY】:美国科学正面临巨大风险。

Dr. Catharine Young: American science is at extraordinary risk. NIH has awarded less than half as many grants as it has compared to the past ...

Meta大佬观点政策/监管
01:05
Greg Brockman@gdb
43
Codex应用独树一帜。 "Mac端的智能Excel"是个有趣的描述。

swyx 🇸🇬 AIE Singapore!: gotta say Codex is completely unrecognizable from 3 months ago. guys went extreme founder mode on this thing @gabrielchu...

智能体OpenAI大佬观点
00:54
Berryxia.AI@berryxia
48
重复造轮子的人不是傻子, 有没有一种可能只是真的是在拿AI练手和提升「熟练度」!😊
大佬观点
5月16日
23:33
Chubby♨️@kimmonismus
38
这就是你要面对的竞争。 30天130万token。 燃烧更多token,否则你将无法成功。 【引用 @steipete】:The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

大佬观点部署/工程
22:08
Ethan Mollick@emollick
55
关于AI与政治的讨论似乎奇怪地缺失了一个环节:(a)假设极高能力的AI即将实现,(b)坚信如何根据其信仰的政治计划运用该技术改善人类生活。此刻正是行动之时。
大佬观点安全/对齐
21:33
Chubby♨️@kimmonismus
17
Veo 4 可能比 Gemini 3.5 更令人兴奋。 Seedance 2.0 能长期保持领先地位实在令人惊讶。 对了,或许还有谷歌世界模型 Genie 的更新。 谷歌 I/O 大会快点到来吧。
Google大佬观点
20:38
Rohan Paul@rohanpaul_ai
58
陶哲轩论大型语言模型:简单数学与不可预测行为之谜

陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

大佬观点推理现象/趋势
19:03
Chubby♨️@kimmonismus
37
Claude有些懒散,但具备品味和语境理解力(不谈4.7版本) Codex则充满热情,但仍欠缺一些品味和语境理解力。 一旦Codex两者兼备,游戏就结束了。
AnthropicOpenAI大佬观点编码
18:38
Orange AI@oran_ge
50
智力公式揭示AI瓶颈:速度易得,正确性难求

推文引用控制论对智力的定义:智力=速度x正确,即单位时间内做出正确选择的能力。作者指出,AI能极大提升速度(如编程),但无法保证“正确性”,尤其体现在无法做出能直接创造商业价值的核心战略选择(如决定开发何种产品)。作者认为,当AI能告知“做什么能直接赚钱”时,才意味着在智力上达到了AGI水平。

大佬观点现象/趋势
17:38
Rohan Paul@rohanpaul_ai
46
Google的《Attention is All You Need》论文源于试图让Google Translate提升3%的性能。 创新是生产的产物。"如果你不去创造,就放弃了在该事物上创新的机会。" ~ Palantir首席技术官 @ssankar
大佬观点现象/趋势
15:38
Rohan Paul@rohanpaul_ai
55
Fei-Fei Li警告,人工智能可能过度专注于语言模型。 世界不仅仅是屏幕上的文字。 它是物理的、视觉的、空间的,并且始终在变化。大部分经济活动依赖于看见、移动、互动和具身智能。
具身智能大佬观点现象/趋势
11:47
swyx 🇸🇬 AIE Singapore!@swyx
51
不得不说Codex和三个月前相比已经完全认不出来了。 团队在这件事上开启了极限创始人模式 @gabrielchua 演示时我就在想"你们居然做出了代理式Excel for Mac"

swyx 🇸🇬 AIE Singapore!: @Gavriel_Cohen and @thsottiaux casually dropping some hints on the Codex roadmap in his keynote! https://x.com/angadsg/s...

智能体产品更新大佬观点
10:15
宝玉@dotey
20
开发者回归Sublime Text,轻量高效替代内存占用量大的VSCode

一位开发者重新使用Sublime Text,因其内存占用仅300多MB,远低于动辄占用10GB以上的VSCode。转变的主要原因是其工作流发生变化:现在基本无需手写代码,导致VSCode的许多高级功能变得不再必要。相比之下,Sublime Text提供的语法高亮和基础文件编辑功能已完全满足其当前需求,突显了在AI辅助编程时代,轻量级编辑器因其资源效率而重新获得青睐的趋势。

大佬观点编码
09:17
swyx 🇸🇬 AIE Singapore!@swyx
29
新加坡内阁部长Vivian Balakrishnan作为NanoClaw的重度用户,正实际运用该AI工具处理国家外交政策与议会事务。他公开分享了如何利用技术栈破解WhatsApp限制,并在SQLite上实现图记忆的具体方法。这一实践案例在AI工程师社区活动中引发关注,该活动汇聚了来自OpenAI、Cursor AI、Vercel、ElevenLabs等公司的众多AI领域专家,共同探讨前沿AI应用。

AI Engineer: All @aiDotEngineer SG talks kick off in 22 mins! Tune in live: https://www.youtube.com/watch?v=_xQnSNlBP_w - @VivianBala...

智能体大佬观点
08:54
Berryxia.AI@berryxia
62
关于AI智能体发展的关键观察与影响

AI智能体通过记忆功能形成使用先发优势,预计12个月内将出现能自主学习并替代人类工作的智能体。本地模型使AI产品可在终端设备运行,为医疗、法律等受监管行业提供无数据隐私风险的解决方案。企业需将内部流程与知识转化为AI可读的“第二大脑”,而代理成本正逐步取代传统人力成本。智能体可能引发部门间无意识的竞争,公司结构可通过YAML配置文件定义和版本化。输入数据质量直接决定输出效果,技能文件比传统SaaS更具价值,而人类审批环节成为工作流中的主要瓶颈。

GREG ISENBERG: More AI agent observations below (I keep adding to the list): 1. Hermes agents write to their own memory after every tas...

智能体大佬观点
08:54
ginobefun@hongming731
46
#BestBlogs 早报 2026-05-16:AI作为深度协作的"思考伙伴"

本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。

GoogleOpenAI多模态大佬观点
08:05
Greg Brockman@gdb
48
在"tokens成本无关紧要"的未来设想下,项目通过云端持续运行约100个Codex实例,实现软件开发全流程自动化。系统自动化审查每次代码提交以发现安全问题,处理所有PR和issue:自动关联并关闭陈旧issue、去重问题并聚类报告、监控新issue并自动创建PR。智能代理能复现复杂环境、进行演示、监听会议并主动启动工作(如创建PR),同时扫描评论垃圾、验证性能基准。结合clawpatch.ai进行功能单元拆分和Vercel deepsec安全审计,最终达成极精简的自动化运营。

Peter Steinberger 🦞: People freaking out over my AI spend. What nobody sees: Part of what excites me so much about working on OpenClaw is tha...

智能体OpenAI大佬观点编码
07:09
SemiAnalysis@SemiAnalysis_
57
正如我们对DeepSeek发布的期待,DeepSeek V4带来了更多炫目的ML系统优化。 这次是MegaMoE,一个1400行融合CUDA内核,可计算整个MoE前向传播。 让我们看看它是如何工作的(1/4)🧵
DeepSeek大佬观点数据/训练部署/工程
06:07
Orange AI@oran_ge
25
推文以英伟达黄仁勋早年押注CUDA为例,指出后人热衷于为此决策寻找因果证据,实则反映了人类决策的普遍模式:决策主要由压力环境下的激素驱动,而非纯粹依靠理智。人们往往先做决定,再事后寻找证据证明其正确性。决策者必须亲身承担决策失误的风险与损失(即skin in the game),才能在真实压力下驱动激素,做出更正确的决定。

Orange AI: 人只有在真实的环境里才能做出正确的决定。 人类学研究表明,人类的决策过程主要是由激素推动的,知识,经验,理智在这个过程中所起的作用并不大。 我们往往是做出决定之后,再用智慧去寻找证据以便证明自己的决定是正确的。 如果决策者本人不承担决策失误...

大佬观点现象/趋势
06:02
Chubby♨️@kimmonismus
71
英伟达CEO称技工前景优于计算机科学毕业生

英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

大佬观点现象/趋势行业动态
05:42
Emad@EMostaque
39
人形机器人的总可寻址市场规模很可能超过人类劳动力的总可寻址市场 【引用 @EMostaque】:本周花时间研究了人形机器人的经济影响,其规模远超数字AI

Emad: Spent some time this week looking at the economic impact of humanoid robots and its so much bigger than digital AI The n...

具身智能大佬观点
‹ 上一页
1…3536373839…50
下一页 ›