AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2412 条
全部一手资讯X论文
标签「大佬观点」清除
Rohan Paul@rohanpaul_ai · 5月30日56

Terence Tao: "We lived in a world with cognitive friction until very recently, where every task required us to use our brain. So we didn't really think about it, we just thought this was the cost of doing something intellectual. But now we have AI and the other technologies that can bring these frictions down to zero." Most research time is not spent having cinematic insights. It is spent checking cases, chasing references, translating intuition into computation, testing a path, finding it false, and deciding whether the failure taught you anything. AI changes the cost of that loop. Terence Tao says that now he can try “crazier things,” and that makes so much difference. Because unconventional ideas are often not rejected by proof, but by inconvenience. A mathematician may avoid a strange direction not because it is foolish, but because the bookkeeping, coding, or literature search needed to test it is too expensive for a hunch. This is where cognitive friction becomes scientific friction. Lowering it does not make taste, judgment, or proof disappear; it makes more weak signals cheap enough to inspect before they are abandoned. AI is making hesitation less expensive, and that is often where discovery begins.

译陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。

宝玉@dotey · 5月30日67

有时候反过来也成立的,复杂任务让它们一起做是最优的解法 赛博赛马法

译有用户分享使用体验:通过 Codex 调用新的 Claude 4.8 模型并开启最高思考模式查找代码 bug,效果不佳,仅发现一些不重要的问题;而 GPT 5.5 则成功定位了问题。基于此,主推文提出,在面对复杂任务时,最优解法或许不是依赖单一模型,而是让多个模型协同工作。

OpenAI@OpenAI · 5月30日46

AI can give researchers the freedom to pursue “crazier” ideas. For Terence Tao, AI creates more room to experiment, test unexpected paths, and discover what might otherwise stay out of reach.

译AI能赋予研究者追求“更疯狂”想法的自由。 对陶哲轩而言,AI创造了更多空间去实验、测试意想不到的路径,并发现那些原本可能无法触及的东西。

宝玉@dotey · 5月30日33

我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

swyx@swyx · 5月30日54

guys Opus 4.8 is very very good at writing agent code (zero dependencies, all llm 1P SDKs not just claude, sorry agent frameworks) you should try it. think they trained @ErikSchluntz's and @barry_zyj's Building Effective Agents into this thing

译各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里

AYi@AYi_AInotes · 5月30日64

Greg Isenberg 说了句挺多人不爱听的话, Claude Opus 4.8 发布,他不打算在自己的播客 startupideaspod 里专门讲一期, 理由很简单,它没比 GPT-5.5 强出一个值得你花一小时的身位。 他拿 iPhone 打了个比方,早期每代都是大跃进, 现在变成相机好了一点点、边框圆了一点点, benchmark 说进步明显,真上手的人 vibes 却说不太清。 4.6 到 4.7 再到 4.8,模型这条线大概率已经卷到边际收益递减, 真正能把活儿撬动的,基本都是模型外面那层东西, Claude Code 同周上线的 Dynamic Workflows,能让 Claude 自己写编排脚本、并行拉一堆子代理互相验证, Codex 那个带内置浏览器的桌面 App,把写代码和查资料缝进了同一个界面。 说白了,模型现在越来越像发动机, 你上一次打车,问过司机这车装的什么发动机吗, 没有吧,你只关心它能不能准时把你送到公司。 Greg 赌六个月内没人会在乎你用哪个模型, 就跟没人在乎 Uber 用什么引擎一个道理。 也就是说,模型正在变成电,谁家发出来的电都一样亮, 真正决定你能干成什么的,是你家里装了哪些电器。 说白了,聪明是模型的事,能不能帮你交活,是它外面那层壳的事。

译Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。

Yuchen Jin@Yuchenj_UW · 5月30日38

I asked Opus 4.8 how Anthropic implements this. It told me @ClaudeDevs isn’t an official Anthropic account. True AGI. 😂

译我问 Opus 4.8 Anthropic 是如何实现这个的。 它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。 真正的 AGI。😂

François Chollet@fchollet · 5月30日16

Einstein on (not) using NL for invention: "The words or the language, as they are written or spoken, do not seem to play any role in my mechanism of thought"

译爱因斯坦谈(不)用自然语言进行发明:"书面或口头的语言文字,在我的思维机制中似乎不起任何作用"

宝玉@dotey · 5月30日63

> 5、在工程组织上,他把 Notion 重构成一个杠铃结构。 一端是非常 junior 的工程师,刚毕业或者职业早期;另一端是少数非常 senior 的架构师和技术带头人。 中间那类常规中高级工程师反而被刻意压缩,整个分布像一根两头重、中间瘦的杠铃。 他这个观点是有问题的: 1. 少了中层衔接 初级工程师做出来的东西不靠谱,然后高级的工程的就要花大量时间经历去引导和验证,还得照顾新人的情绪,比自己做还累。 2. 初级会成长为中层 就算说这个杠铃结构是好的,那么经过1-3年,杠铃一头会变成中间那部分,杠铃变三角锥了,难不成隔一段就开除掉中间那一段重新招新人? 这理论用在 AI 上还靠谱一点,一个人指挥几个 AI 比指挥junior工程师省心多了 Notion 创始人给我感觉就是每次写文章都很厉害,写出来的东西都能传播一波,但 Notion 在 AI 时代有啥惊艳的产品吗?

译该推文质疑了Notion创始人Ivan Zhao提出的“杠铃结构”工程组织模式。该模式主张在团队两端配置大量初级工程师和少数顶尖架构师,刻意压缩中层。推文指出其两大问题:一是缺少中层衔接,导致初级工程师产出需高级工程师花费大量精力引导和验证,成本可能高于自己完成;二是结构不具可持续性,初级员工在1-3年内会成长为中层,导致“杠铃”退化为三角形。推文还认为此理论更适合应用于指挥AI智能体,而非人类工程师,并质疑Notion在AI时代缺乏惊艳的产品创新。

Rohan Paul@rohanpaul_ai · 5月30日76

I had to test it myself to believe this unreal inference speed. 3,000 tokens/s for 1 user on standard datacenter GPUs. They leveraged a hidden efficiency gap in how GPUs generate tokens. @Kog__AI just achieved 3,000 tokens/s on 8× AMD MI300X GPUs and 2,100 on 8× NVIDIA H200 (FP16, no speculative decoding). Their tech preview is on a 2B model, and they show how their techniques will scale to large frontier MoE models at similar speeds. That's a huge number because normal low-batch GPU decoding for 2B to 8B models is usually closer to 100 to 300 tokens/s per request, so Kog is claiming something like a 10X to 30X jump in the speed one user actually feels. Their trick: they are getting the speed by treating LLM decoding as a memory streaming problem, not mainly a math problem. For 1 user at batch size 1, the GPU is not doing big, efficient matrix-matrix work like in training or large-batch serving; it is repeatedly pulling the model’s active weights from high-bandwidth memory for each new token, so speed depends on how smoothly those weights keep flowing. Normal inference stacks keep breaking that flow. They run many separate GPU programs for different parts of the model, move intermediate results through memory, wait at synchronization points, talk back to the CPU for scheduling or sampling, and then repeat this token after token. Kog’s answer is to co-design 3 things that are usually tuned separately: the runtime, the low-level GPU code, and the model architecture. The biggest engineering move is the monokernel, where the whole decode pass runs as 1 persistent GPU-resident program, including sampling, so the system does not keep stopping for kernel launches, CPU scheduling, and intermediate memory round trips. They also rebuilt synchronization, because their own measurements say grid sync was eating around 35% of token-generation time; instead of making every compute unit wait at a broad barrier, each unit waits only for the exact data it needs. On AMD MI300X, they also map memory access around the chiplet layout, because memory latency changes depending on which die makes the request. Then their Laneformer model uses Delayed Tensor Parallelism, which lets cross-GPU communication happen in the background instead of blocking every layer.

译Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

Yuchen Jin@Yuchenj_UW · 5月30日35

Google is fighting every final boss at once: OpenAI & Anthropic in models, Nvidia in chips, AWS & Microsoft in cloud, Meta in ads, Tesla in self-driving, Apple in phones and OS. At $4.6T, it feels weirdly undervalued.

译Google正在同时对抗所有最终Boss: 在模型领域对抗OpenAI和Anthropic, 在芯片领域对抗Nvidia, 在云服务领域对抗AWS和Microsoft, 在广告领域对抗Meta, 在自动驾驶领域对抗Tesla, 在手机和操作系统领域对抗Apple。 市值4.6万亿美元,却感觉被奇怪地低估了。

Google AI@GoogleAI · 5月30日64

Hear the architects of Gemini reflect on their journey to continue pushing the frontier of AI, on this episode of Release Notes. @JeffDean, @koraykv, @OriolVinyalsML, and @NoamShazeer sit down on camera together to share a behind-the-scenes look at the people behind the model, and how they saw the vision come together.

译聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程,本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜,分享模型背后团队的幕后故事,以及他们如何见证愿景的实现。

Orange AI@oran_ge · 5月29日67

当 AI 把我的时间节省之后 我竟然发现自己无事可做 人类面对时间自由手足无措的样子 很有趣

译推文探讨了AI带来时间节省后的悖论效应:当人们终于获得所追求的自由时间时,反而感到手足无措。引用@fortelabs的观点指出,AI节省时间后暴露出许多人生活的核心问题——缺乏深厚的业余爱好、社群联系和文化积累,生活完全以工作为中心。面对意外获得的自由,人们非但无法有效利用,反而更可能将自己更深地埋头于工作中,形成循环。最终,“自由”本身成了最令人无所适从的东西。

Orange AI@oran_ge · 5月29日47

也许会有一种新的软件商业模式 第一版免费 后续更新每次都收费 毕竟 AI Coding 第一版是最简单的… 维护是很费心力的… 或者 agent 自己迭代的版本免费 人类迭代的版本收费

Peter Steinberger 🦞@steipete · 5月29日41

“clanker” is not a slur. “vibe coding” is.

译“clanker”不是贬义词。“vibe coding”才是。

Chubby♨️@kimmonismus · 5月29日40

o3 should have been named GPT-5. Time to say goodbye. Great model.

译o3 本该被命名为 GPT-5。 是时候说再见了。 很棒的模型。

AYi@AYi_AInotes · 5月29日60

今晚把红杉闭门会的纪要看完了,红杉把150位AI领域创始人与OpenAI、Google、英伟达的核心高管聚在一起,闭门六小时, 我印象里最狠的一句话不是说AGI要来了,是有大佬把我们这几年练的本事,比作了铝。 1884年美国给华盛顿纪念碑封顶, 用的是当时比黄金还贵的金属,铝。 后来电解法一出来,铝价直接崩了99.5%, 才有了今天我们拿铝箔包个三明治,吃完可以随手就扔。 红杉的Buhler说,AI对认知工作干的就是这件事。 你花十几年练出来的写代码、写文案、做分析、看合同, 正在以肉眼可见的速度,从奢侈品变成铝箔。 但咱们也先别急着慌, 就跟当年铝跌成白菜价之后天也没塌, 反倒是飞机、高楼、易拉罐这些全新行业, 全是踩着便宜的铝长出来的。 也就是说认知能力变便宜,杀死的不是有本事的人, 反而是那些只会把本事当存货、舍不得贱卖的人。 所以真正的问题并不是我的本事会不会贬值,这个是肯定会的。 最重要的是什么? 是当思考变得像铝箔一样随手可得的时候, 你能不能用这堆白菜价的脑力, 去造一个以前根本造不起的东西。

译红杉资本举办闭门会议,聚集150位AI领域创始人与OpenAI、Google、英伟达的核心高管。与会者将AI对认知工作的影响,比作电解法让铝价暴跌99.5%,使铝从比黄金贵的建筑材料变为廉价的铝箔。这隐喻写代码、写文案等长期练就的认知能力正迅速贬值。但观点强调,认知能力变便宜并非危机,真正的挑战是:当思考变得像铝箔一样随手可得时,能否用这些“白菜价”的脑力,去创造以前根本造不起的新事物。

Peter Steinberger 🦞@steipete · 5月29日57

No LLMs for finding bugs even?

译多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

Ethan Mollick@emollick · 5月29日57

Reconstructing software engineering around AI is going to take work (even as the ability of AI to code increases at a rapid rate). Organizations are ideally spending tokens for two things: 1) building stuff 2) experiments to figure out best practices (which involves failure)

译围绕AI重构软件工程仍需努力(即使AI的编码能力正以极快的速度增长)。 理想情况下,组织应将token用于两件事: 1) 构建产品 2) 探索最佳实践的实验(这必然包含失败)

Chubby♨️@kimmonismus · 5月29日38

This feels like the 2026 version of the old ‘LLMs are just stochastic parrots’ take

译推文主推文将教皇方济各(Pontifex)的言论比作“随机鹦鹉”论调的2026年新版,意指此类质疑在当下重新流行。引用的核心观点强调,AI不具备人类的亲身经历、身体感知、情感(如喜悦与痛苦)、道德意识,也无法真正理解爱、工作或责任,因其缺乏人类成长所需的感知、关系与精神视角。推文认为,尽管形式更新,这类对AI本质的否定性判断本质未变。

AYi@AYi_AInotes · 5月29日52

今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的——真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思考。 这段话最近反复在我脑子里出现, 但我觉得他还少说了一句: 这个认知,到底从哪来? 首先肯定不是看几本书、刷几条推就能来的, 我觉得至少得是你自己上手干过、踩过坑、改过错,这个认知才能慢慢长出来, 这就是以术入道。 就像做菜,你得自己掌过勺,才知道一道菜真正的好坏在哪,AI 也一样,你得先用过、踩过坑、改过错,才能判断它给你的建议到底对不对。 我现在的判断是,AI 工具大概率会分成两条路。 一条是 agent 型,Claude Code、Codex、Hermes 那种,你给个目标它自己跑,你睡觉时它也跑,手机戳一戳继续跑,像一辆自动驾驶汽车。 另一条是 实习生型,典型代表是 Cursor, 每一步都要你判断:diff 改对了吗? 这个建议要不要采用?要不要切 MAX 模型重跑一次? 它有判断力,但没有自主决策权,你不在跟前盯着,它就停下来。 agent 是替你思考,实习生是和你一起思考,而只有后者,才是真正以术入道的过程。 agent 型工具的核心是省时间,你用它做事,实习生型工具的核心是磨判断力,你用它的过程,就是你长出自己那个道的过程。 但实习生型工具有个致命瓶颈——你不在跟前,它就停了。 自从被官方投喂 $10000 额度之后,我现在是个 Cursor 重度用户, 家里专门放了一台 Mac 跑 Cursor, 结果它就变成一个必须我在场才能用的稀缺资源。 直到最近朋友给我推了 UU 远程,网易做的,都免费两年了,而且没广告没会员,一开始我都有点不敢相信。 试了下发现真香,手机一打开就能接进家里那台 Mac,4K 144 帧,几乎感觉不到延迟, 看 Cursor 实时 diff、处理报错、切模型,跟坐电脑前没区别。 最让我惊喜的是,手机能直接开终端, 以前出门想登家里 Mac 跑命令行, 得 Tailscale 再 ssh 再 tmux,折腾半天, 还原生支持一个完整终端,跟敲 zsh 没区别, Cursor 跑一半要 git status、kill 进程、npm install, 手机抬手就办了,特别方便。 更新版本的时候我才发现,UU 远程刚好做到第二年, 周年庆重申不收费,继续打磨产品给大家免费用,还预告了几个新功能:安卓屏幕共享、小窗模式、精细化权限管理、文件夹共享、笔记本设备性能优化。 一个免费做了两年、还在持续往里砸功能的产品,我觉得是真有长期主义、想把产品做好的。 话说回来,AI 发展到这个阶段,我们真正需要的,我理解已经不是更厉害的 AI了,而是一种能让你随时和你的 AI 一起思考的连接方式。 目前看,Cursor和UU 远程这类体验和功能都做的非常丝滑极致的产品, 对我来说就是这个连接方式, 把我和家里那个顶级实习生之间的物理距离消除了, 让我能在任何地方,磨我自己的那个道。 毕竟 AI 工具的尽头,不是替我们做事,是把我们磨成那个,值得被它认真回答的提问者, 以上和大家共勉,一起在学习和使用AI的这条路上,达到以术入道,以道御术的境界。

译本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

歸藏(guizang.ai)@op7418 · 5月29日63

Agent 就是 3D 打印机,Token 就是虚拟世界 3D 打印机的 PLA 材料 它是通用的,但最后打印出来的东西都不一样。

译此推文用3D打印机比喻AI智能体(Agent),Token是其“打印材料”。这一比喻旨在说明软件正从功能固定、彼此隔绝的“应用房间”,转变为用户可塑造、组合的“可编程材料”。旧模式是选择工具,新模式是表达意图并与系统协作。界面(UI)也随之变化,从固定菜单变为响应意图的“黏土”。最终,软件不再仅由程序员创造,而成为人人可塑造的媒介,如同“可执行的纸张”。

Rohan Paul@rohanpaul_ai · 5月29日64

Stronger agents will not come only from larger models, but from better systems around them. The problem is that many AI agents are judged as if the model alone did the work, even though the real behavior also depends on memory, tools, context, routing, checks, and permissions. This surrounding setup around the agent is called harness, meaning the system that decides what the model sees, what tools it can use, what it remembers, and what actions get checked. Progress should come from scaling this harness, especially 3 parts: better context control, more trustworthy memory, and better routing to tools or helper agents. Long context is not the same as usable context, memory is not the same as trustworthy memory, and having many tools is not the same as knowing when to use them. A stale note can be more dangerous than no note, because it gives the agent confidence exactly when it should re-check the world. A specialized subagent can also fail quietly if its output sounds plausible but no later layer verifies whether it is true. This is why one-shot benchmark scores feel increasingly thin. Two agents can reach the same final answer, while one burns far more tokens, makes riskier tool calls, carries corrupted memory, or succeeds only by accident. The next frontier is not just scaling the mind inside the machine. It is scaling the discipline around it. ---- Link – arxiv. org/abs/2605.26112 Title: "From Model Scaling to System Scaling: Scaling the Harness in Agentic AI"

译推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

Rohan Paul@rohanpaul_ai · 5月29日23

Google omni is underrated indeed.

译Google omni确实被低估了。

歸藏(guizang.ai)@op7418 · 5月29日49

已经刷到好几个拿藏师傅的 PPT Skills 和小红书配图 Skills 做出千赞内容的小红书的博主了 说明这玩意儿确实有用。 你们再发的话可以艾特一下我,我还得给你们点点赞

宝玉@dotey · 5月29日23

我赌codex明天会重置额度

Orange AI@oran_ge · 5月29日39

Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新

Ethan Mollick@emollick · 5月29日61

Claude really can roleplay an economist. I love this little comment Claude made after some robustness checks on the paper it wrote: "On a 1–10 identification scale, I'd now put the paper at about 4.5 — better than the 3.5 I'd have given before these tests, but well short of quasi-experimental (~7). The framing "conditional association consistent with…" is still the right calibration. I shouldn't claim causal identification."

译Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文,经由 GPT-5.5 Pro 担任审稿人并指出错误后,Claude 对论文质量进行了量化自评:在1-10的识别度量表上,其稳健性检验后的评分从之前的3.5分提升至4.5分,但认为仍未达到准实验水平(约7分)。因此,Claude 将论文定性为“条件关联一致”的谨慎表述,而非声称因果识别。

meng shao@shao__meng · 5月29日65

活人开发者的注意力是整个 AI Coding 系统里最稀缺、最慢、最不能并行的资源! 启动 Agent 很容易,但理解结果、判断质量、处理冲突、决定能不能合并,仍然必须由人完成。Agent 可以并行工作,但人的判断不能并行。所以真正限制产出的,不是 Agent 数量,而是人的审查与决策能力。 @addyosmani 把这个问题称为 Orchestration Tax,可以理解为“编排成本”或“调度成本”。 你启动 10 个、20 个 agent,看起来很忙,界面上也有很多任务在跑。但这些任务最后都会排队等待你: · 看结果是否正确 · 判断是否符合架构 · 检查代码质量 · 处理不同 Agent 之间的冲突 · 决定哪些可以合并 这一步无法完全交给机器,因为它涉及系统理解、工程判断和长期维护责任。 所以,多 Agent 并不等于多了几个“你”。最后真正承担责任的,还是一个人。 最关键的工程类比 第一是 Python 的 GIL。线程可以很多,但真正执行关键部分时,要经过一个单线程限制。Addy 说,人就是 AI Agent 系统里的 GIL。Agent 可以同时跑,但一到需要理解、判断、合并时,都要等你。 第二是 Amdahl’s Law。系统加速的上限,取决于仍然无法并行的那部分。在 AI 编程里,无法并行的部分就是人的判断。Agent 数量增加,只是让等待你审查的任务变多,不会自动提高最终交付质量。 这也是文章最重要的技术含义:优化非瓶颈部分,不会提高系统吞吐量。 如果瓶颈是审查和判断,继续增加 Agent,只会制造更多待处理工作。 为什么“忙”不等于“高产” Addy 反复强调:现在的工具确实让人更有生产力,但也让人更累。 原因是,多 agent 工作会带来大量上下文切换。你每次去看一个 agent 的结果,都要重新加载它的任务背景、改动范围、相关代码和潜在风险。CPU 的上下文切换很快,但人的上下文切换很慢,而且恢复不完整。 所以 5 个 agent 不是 5 倍产出,而可能是: · 5 次重新进入不同问题 · 5 组需要审查的改动 · 持续担心哪个任务正在出错 · 更容易降低审查标准 最危险的情况是,人因为太累,开始接受自己并没有真正理解的代码。短期看似推进了,长期会损害对系统的理解。 所以真正成熟的 AI 编程能力,不是同时开更多 agent,而是知道: · 哪些任务适合交给 agent · 哪些任务必须自己深度参与 · 什么时候应该批量审查 · 什么时候应该停止调度,专心思考一个复杂问题 · 哪些验证可以让机器先完成,减少人的负担 Addy 给出的实践原则 第一,Agent 数量要按你的审查能力来定,而不是按工具界面能开多少来定。多数人真正能认真审查的并行任务,可能只是个位数。 第二,把任务分层。隔离、明确、低耦合的任务适合放给后台 Agent;复杂 bug、架构设计、关键重构,不适合同时并行太多,因为这些任务本身就需要人的判断。 第三,批量审查。频繁来回查看不同 Agent,会消耗大量注意力。让 Agent 多跑一段时间,然后集中审查,比不断切换更有效。 第四,把人的注意力留给真正需要判断的部分。测试、截图、格式检查、基础验证,可以要求 Agent 自己先完成。人主要看关键设计、边界条件、风险和可维护性。 第五,保护深度思考时间。有些时候最高价值的动作不是继续管理 Agent,而是停止多线程工作,完整地思考一个核心问题。

译AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。

Ethan Mollick@emollick · 5月29日56

Interesting that the GPT-5 Pro series models have consistently been the best models for single-shot attempts at the hardest problems since last summer. There has been no real competition in all that time.

译有趣的是,自去年夏天以来,GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。

Orange AI@oran_ge · 5月29日50

昨天从北京飞上海,在高空中觉得脑子里有个奇妙的连接,于是写了一篇文章《顿悟》。 但是北京到上海的飞行时间太短了,写得不够过瘾,于是晚上办完事之后,在酒店里对着西岸的江景,录了这期播客《橘座·顿悟》。 这期播客聊的是一个我思考了很久的问题: 为什么人们总是争吵,为什么人们总是意见不一致。这世界到底是否存在客观的真相、理性的判断。 结论也很简单:人类是喜欢解释的动物,会用解释掩盖自己的真实判断。 屁股决定脑袋——这句话竟然是真理。 但如果我们追根溯源去看一下,为什么人类会这样呢? 原来人的意识本身就是对身体信号的一个解释。 聊着聊着就聊到了 AI 为什么永远取代不了人,聊了尼采精神三变,聊了为什么顿悟这件事不能靠读书。 实践是获得真理的唯一方法。 这是《橘座》的第 1 期,在评论区等你。🎙 https://www.xiaoyuzhoufm.com/episode/6a1866b2ac7bdb080c325c58

译作者由北京至上海的飞行激发灵感,撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源,追问是否存在客观真相与理性判断。核心观点是:人类作为喜欢解释的动物,习惯用解释掩盖真实判断,“屁股决定脑袋”是事实;而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述,并提及尼采精神三变与实践是获得真理的唯一方法。

Berryxia.AI@berryxia · 5月29日39

hugging face的创始人Victor M使用Opus 4.8 使用three.js 构建通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

译Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

Ethan Mollick@emollick · 5月29日36

Did this actually happen? It seems very suspicious.

译这事是真的吗?看起来非常可疑。

宝玉@dotey · 5月29日34

写作4.6肯定比4.7强,是不是比4.8强还在测试中,目前感觉还是4.6好

译推文讨论了写作模型不同版本的性能比较。作者认为写作4.6版本明显优于4.7版本,4.7版本不遵循指令的问题较为突出。对于4.8版本,作者表示尚在测试中,目前未明确其是否优于4.6。用户@himself65在引用中补充,4.7版本相比4.6确实表现不佳,并认为4.6应是当前的基准版本。

Rohan Paul@rohanpaul_ai · 5月29日23

Google Omni deserves a more hype.

译Google Omni 值得更多关注。

Rohan Paul@rohanpaul_ai · 5月29日66

AWS CEO Matt Garman: The idea that AI will replace junior developers is “the dumbest thing I have ever heard.”

译AWS CEO Matt Garman:AI将取代初级开发者的说法是“我听过最愚蠢的事”。

Chubby♨️@kimmonismus · 5月29日54

Opus 4.8 is clearly a strong model, but my impression is that Anthropic is increasingly playing catch-up with OpenAI rather than setting the pace. It feels like GPT-5.5 has shifted the benchmark again, and if OpenAI keeps this trajectory, GPT-5.6 could very plausibly become the stronger overall model. Initial testing is that 4.8 is good-ish

译Opus 4.8显然是个强模型,但我的印象是,Anthropic越来越像是在追赶OpenAI,而不是引领节奏。 感觉GPT-5.5再次改变了基准,如果OpenAI保持这个轨迹,GPT-5.6很可能成为整体更强的模型。 初步测试显示4.8表现尚可。

Nathan Lambert@natolambert · 5月29日58

Licenses are probably the top very un-sexy things that help the open ecosystem become more long-term stable and economically viable. Excited about this!

译许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋!

Chubby♨️@kimmonismus · 5月29日51

„4.8 understands nuances better, feels much more natural to talk to, and is overall a stronger collaborator on everything from coding to knowledge work.“ So big. Is 4.8 being our good old friend 4.6 just better?? Testing time

译Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Ethan Mollick@emollick · 5月29日62

This is a skill & having standards issue. I use AI in book writing. But I write the full draft of the text myself (using AI for feedback or when stuck to give options), use advanced models that hallucinate rarely, read every reference AI finds, & have multiple models check work.

译推文对比了负责任的AI用法(如使用高级模型、人工复核引用)与行业现状。文章引用《纽约杂志》报道,指出媒体创业者Steven Rosenbaum在其著作《The Future of Truth》中被发现包含多条错误归因或伪造的引文,疑似由AI生成,凸显了非虚构出版业对模型幻觉的脆弱性。问题核心在于,行业长期缺乏确保事实准确的合同义务与系统性核查流程。业内人士表示漏洞普遍存在,许多AI生成的内容正被当作原创作品使用。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
05:16
Rohan Paul@rohanpaul_ai
56
陶哲轩:AI让"疯狂实验"不再昂贵

陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。

OpenAI: AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...

OpenAI大佬观点推理
04:09
宝玉@dotey
67
有用户分享使用体验:通过 Codex 调用新的 Claude 4.8 模型并开启最高思考模式查找代码 bug,效果不佳,仅发现一些不重要的问题;而 GPT 5.5 则成功定位了问题。基于此,主推文提出,在面对复杂任务时,最优解法或许不是依赖单一模型,而是让多个模型协同工作。

akazwz: codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。

AnthropicOpenAI大佬观点
04:08
OpenAI@OpenAI
46
AI能赋予研究者追求"更疯狂"想法的自由。 对陶哲轩而言,AI创造了更多空间去实验、测试意想不到的路径,并发现那些原本可能无法触及的东西。
OpenAI大佬观点
03:39
宝玉@dotey
33
我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

jason: did you wish codex ask__user_question tool was available outside of plan mode

智能体OpenAI大佬观点编码
03:38
swyx@swyx
54
各位,Opus 4.8在编写智能体代码方面非常非常出色 (零依赖,全部使用大语言模型第一方SDK,不仅仅是Claude,抱歉了智能体框架们) 你们应该试试。我觉得他们把@ErikSchluntz和@barry_zyj的《Building Effective Agents》训练进了这个模型里
智能体Anthropic大佬观点
03:34
AYi@AYi_AInotes
64
Greg Isenberg:模型迭代已进入边际收益递减阶段

Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。

GREG ISENBERG: I didn't cover Claude Opus 4.8 on my pod because I don't think it's MEANINGFULLY better than GPT 5.5 as of May 29th. We'...

AnthropicOpenAI大佬观点现象/趋势
03:15
Yuchen Jin@Yuchenj_UW
38
我问 Opus 4.8 Anthropic 是如何实现这个的。 它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。 真正的 AGI。😂

ClaudeDevs: With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...

Anthropic大佬观点推理
02:15
François Chollet@fchollet
16
爱因斯坦谈(不)用自然语言进行发明:"书面或口头的语言文字,在我的思维机制中似乎不起任何作用"
大佬观点推理
02:09
宝玉@dotey
63
对Notion"杠铃结构"工程组织模式的质疑

该推文质疑了Notion创始人Ivan Zhao提出的“杠铃结构”工程组织模式。该模式主张在团队两端配置大量初级工程师和少数顶尖架构师,刻意压缩中层。推文指出其两大问题:一是缺少中层衔接,导致初级工程师产出需高级工程师花费大量精力引导和验证,成本可能高于自己完成;二是结构不具可持续性,初级员工在1-3年内会成长为中层,导致“杠铃”退化为三角形。推文还认为此理论更适合应用于指挥AI智能体,而非人类工程师,并质疑Notion在AI时代缺乏惊艳的产品创新。

小盖: Notion 创始人这期分享确实很精彩。 大家千万别错过 Notion CEO Ivan Zhao 在红杉聊的这期播客,观点特别有见地。 甚至我觉得,这是近半年来所有创业者都应该认真精读的一期内容。 相当解惑。Ivan 把 AI 时代里一个...

大佬观点现象/趋势
01:15
Rohan Paul@rohanpaul_ai
精选76
亲测为实:难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

大佬观点推理部署/工程

推荐理由:Rohan亲自测完Kog AI的3000 token/s,把单用户推理速度拉高了10-30倍,这套monokernel设计可能改写低延迟推理的玩法,做实时AI产品的团队必须盯紧。
01:15
Yuchen Jin@Yuchenj_UW
35
Google正在同时对抗所有最终Boss: 在模型领域对抗OpenAI和Anthropic, 在芯片领域对抗Nvidia, 在云服务领域对抗AWS和Microsoft, 在广告领域对抗Meta, 在自动驾驶领域对抗Tesla, 在手机和操作系统领域对抗Apple。 市值4.6万亿美元,却感觉被奇怪地低估了。
Google大佬观点现象/趋势
00:07
Google AI@GoogleAI
64
聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程,本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜,分享模型背后团队的幕后故事,以及他们如何见证愿景的实现。
Google多模态大佬观点
5月29日
23:26
Orange AI@oran_ge
67
推文探讨了AI带来时间节省后的悖论效应:当人们终于获得所追求的自由时间时,反而感到手足无措。引用@fortelabs的观点指出,AI节省时间后暴露出许多人生活的核心问题--缺乏深厚的业余爱好、社群联系和文化积累,生活完全以工作为中心。面对意外获得的自由,人们非但无法有效利用,反而更可能将自己更深地埋头于工作中,形成循环。最终,"自由"本身成了最令人无所适从的东西。

Tiago Forte: I think the main thing AI has taught me, through all the time savings it brings, is that I'm not a very interesting pers...

大佬观点
22:56
Orange AI@oran_ge
47
也许会有一种新的软件商业模式 第一版免费 后续更新每次都收费 毕竟 AI Coding 第一版是最简单的… 维护是很费心力的… 或者 agent 自己迭代的版本免费 人类迭代的版本收费
大佬观点行业动态
22:49
Peter Steinberger 🦞@steipete
41
"clanker"不是贬义词。"vibe coding"才是。

Armin Ronacher ⇌: More musings after some people got upset about the word clanker. https://lucumr.pocoo.org/2026/5/26/clankers/

大佬观点编码
22:45
Chubby♨️@kimmonismus
40
o3 本该被命名为 GPT-5。 是时候说再见了。 很棒的模型。

Tibor Blaho: OpenAI is retiring o3 from ChatGPT on August 26, 2026 and GPT-4.5 on June 27, 2026 (these changes apply only to ChatGPT,...

OpenAI大佬观点
22:34
AYi@AYi_AInotes
60
AI让认知变廉价,关键在能否用它造新东西

红杉资本举办闭门会议,聚集150位AI领域创始人与OpenAI、Google、英伟达的核心高管。与会者将AI对认知工作的影响,比作电解法让铝价暴跌99.5%,使铝从比黄金贵的建筑材料变为廉价的铝箔。这隐喻写代码、写文案等长期练就的认知能力正迅速贬值。但观点强调,认知能力变便宜并非危机,真正的挑战是:当思考变得像铝箔一样随手可得时,能否用这些“白菜价”的脑力,去创造以前根本造不起的新事物。

AYi: http://x.com/i/article/2057668634579714048

大佬观点现象/趋势
22:19
Peter Steinberger 🦞@steipete
57
多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

The Lunduke Journal: While the Linux Kernel is quickly becoming "Vibe Coded", many other Open Source projects are outright banning all AI / L...

大佬观点开源生态编码
22:14
Ethan Mollick@emollick
57
围绕AI重构软件工程仍需努力(即使AI的编码能力正以极快的速度增长)。 理想情况下,组织应将token用于两件事: 1) 构建产品 2) 探索最佳实践的实验(这必然包含失败)
大佬观点编码
21:45
Chubby♨️@kimmonismus
38
推文主推文将教皇方济各(Pontifex)的言论比作"随机鹦鹉"论调的2026年新版,意指此类质疑在当下重新流行。引用的核心观点强调,AI不具备人类的亲身经历、身体感知、情感(如喜悦与痛苦)、道德意识,也无法真正理解爱、工作或责任,因其缺乏人类成长所需的感知、关系与精神视角。推文认为,尽管形式更新,这类对AI本质的否定性判断本质未变。

Pope Leo XIV: Artificial intelligences do not undergo experiences, do not possess a body, do not feel joy or pain, do not mature throu...

大佬观点推理
20:34
AYi@AYi_AInotes
52
今天,把一件关于 AI 很底层的事,彻底想透了。

本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

智能体大佬观点编码
16:42
歸藏(guizang.ai)@op7418
63
此推文用3D打印机比喻AI智能体(Agent),Token是其"打印材料"。这一比喻旨在说明软件正从功能固定、彼此隔绝的"应用房间",转变为用户可塑造、组合的"可编程材料"。旧模式是选择工具,新模式是表达意图并与系统协作。界面(UI)也随之变化,从固定菜单变为响应意图的"黏土"。最终,软件不再仅由程序员创造,而成为人人可塑造的媒介,如同"可执行的纸张"。

Ryo Lu: from apps to material software used to be something you opened an app was a room with walls: calendar here, notes there,...

智能体大佬观点现象/趋势
16:15
Rohan Paul@rohanpaul_ai
64
更强的智能体将不仅来自更大的模型,而是来自其周围更好的系统

推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

智能体大佬观点部署/工程
15:15
Rohan Paul@rohanpaul_ai
23
Google omni确实被低估了。
Google多模态大佬观点
11:42
歸藏(guizang.ai)@op7418
49
已经刷到好几个拿藏师傅的 PPT Skills 和小红书配图 Skills 做出千赞内容的小红书的博主了 说明这玩意儿确实有用。 你们再发的话可以艾特一下我,我还得给你们点点赞
MCP/工具大佬观点
10:09
宝玉@dotey
23
我赌codex明天会重置额度

Tibo: Codex Thursday has exceptionally moved to another day. Friday it is.

OpenAI大佬观点
09:55
Orange AI@oran_ge
39
Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新
Anthropic大佬观点模型发布
09:43
Ethan Mollick@emollick
61
Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文,经由 GPT-5.5 Pro 担任审稿人并指出错误后,Claude 对论文质量进行了量化自评:在1-10的识别度量表上,其稳健性检验后的评分从之前的3.5分提升至4.5分,但认为仍未达到准实验水平(约7分)。因此,Claude 将论文定性为"条件关联一致"的谨慎表述,而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

AnthropicOpenAI大佬观点论文/研究
09:39
meng shao@shao__meng
65
人类开发者的注意力是AI编程系统的核心瓶颈

AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。

Addy Osmani: http://x.com/i/article/2059839454370828288

智能体大佬观点编码
09:12
Ethan Mollick@emollick
56
有趣的是,自去年夏天以来,GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。
OpenAI大佬观点评测/基准
08:54
Orange AI@oran_ge
50
从飞行顿悟到人类意识的本质

作者由北京至上海的飞行激发灵感,撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源,追问是否存在客观真相与理性判断。核心观点是:人类作为喜欢解释的动物,习惯用解释掩盖真实判断,“屁股决定脑袋”是事实;而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述,并提及尼采精神三变与实践是获得真理的唯一方法。

大佬观点现象/趋势
08:32
Berryxia.AI@berryxia
39
Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

AnthropicHugging Face大佬观点编码
08:12
Ethan Mollick@emollick
36
这事是真的吗?看起来非常可疑。

Tracy Alloway: "An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing...

Anthropic大佬观点行业动态
08:09
宝玉@dotey
34
推文讨论了写作模型不同版本的性能比较。作者认为写作4.6版本明显优于4.7版本,4.7版本不遵循指令的问题较为突出。对于4.8版本,作者表示尚在测试中,目前未明确其是否优于4.6。用户@himself65在引用中补充,4.7版本相比4.6确实表现不佳,并认为4.6应是当前的基准版本。

Bread🍞: @dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline

Anthropic大佬观点
06:14
Rohan Paul@rohanpaul_ai
23
Google Omni 值得更多关注。
Google多模态大佬观点
06:14
Rohan Paul@rohanpaul_ai
66
AWS CEO Matt Garman:AI将取代初级开发者的说法是"我听过最愚蠢的事"。
大佬观点现象/趋势编码
04:14
Chubby♨️@kimmonismus
54
Opus 4.8显然是个强模型,但我的印象是,Anthropic越来越像是在追赶OpenAI,而不是引领节奏。 感觉GPT-5.5再次改变了基准,如果OpenAI保持这个轨迹,GPT-5.6很可能成为整体更强的模型。 初步测试显示4.8表现尚可。
AnthropicOpenAI大佬观点
02:07
Nathan Lambert@natolambert
58
许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋!

NVIDIA AI: We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...

大佬观点开源生态
01:14
Chubby♨️@kimmonismus
51
Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Alex Albert: Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...

Anthropic大佬观点模型发布
01:12
Ethan Mollick@emollick
62
推文对比了负责任的AI用法(如使用高级模型、人工复核引用)与行业现状。文章引用《纽约杂志》报道,指出媒体创业者Steven Rosenbaum在其著作《The Future of Truth》中被发现包含多条错误归因或伪造的引文,疑似由AI生成,凸显了非虚构出版业对模型幻觉的脆弱性。问题核心在于,行业长期缺乏确保事实准确的合同义务与系统性核查流程。业内人士表示漏洞普遍存在,许多AI生成的内容正被当作原创作品使用。

New York Magazine: In May, the New York 'Times' reported that media entrepreneur Steven Rosenbaum had included "more than a half-dozen misa...

大佬观点安全/对齐
‹ 上一页
1…2526272829…50
下一页 ›