codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。
codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。
did you wish codex ask__user_question tool was available outside of plan mode
Greg Isenberg 认为,Claude Opus 4.8 的发布并未带来比 GPT-5.5 更有意义的提升,模型迭代(如4.6到4.7再到4.8)已进入类似 iPhone 常规升级的边际收益递减阶段。他指出,当前真正的创新发生在模型外围工具,例如 Claude Code 上线的 Dynamic Workflows 和 Codex 发布的带内置浏览器的桌面应用。他预测,模型正变得像“电”或 Uber 发动机一样可互换,未来用户将不再关心具体使用哪个模型。
I didn't cover Claude Opus 4.8 on my pod because I don't think it's MEANINGFULLY better than GPT 5.5 as of May 29th. We'...
With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...
文章简要指出,在“Token至上”的时代可能告一段落之后,对于人工智能(AI)的未来,存在两组截然不同的预测。
该推文质疑了Notion创始人Ivan Zhao提出的“杠铃结构”工程组织模式。该模式主张在团队两端配置大量初级工程师和少数顶尖架构师,刻意压缩中层。推文指出其两大问题:一是缺少中层衔接,导致初级工程师产出需高级工程师花费大量精力引导和验证,成本可能高于自己完成;二是结构不具可持续性,初级员工在1-3年内会成长为中层,导致“杠铃”退化为三角形。推文还认为此理论更适合应用于指挥AI智能体,而非人类工程师,并质疑Notion在AI时代缺乏惊艳的产品创新。
Notion 创始人这期分享确实很精彩。 大家千万别错过 Notion CEO Ivan Zhao 在红杉聊的这期播客,观点特别有见地。 甚至我觉得,这是近半年来所有创业者都应该认真精读的一期内容。 相当解惑。Ivan 把 AI 时代里一个...
作者基于超过35年的技术面试经验指出,该流程存在根本性缺陷。面试结果极不可靠,面试官意见高度不一致,且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为,当前的人才评估方式亟需一场根本性的变革。
Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。
“技能提炼”是一种知识转移方法,由前沿大模型(如 Opus 4.7、GPT-5.1、Gemini 3 Pro)负责撰写并优化标准化的 SKILL.md 流程文件。然后,本地运行的小模型(如 Qwen 35B、Gemma 26B)直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG,其核心是提取并转移操作流程,让小模型按步骤执行,从而形成前沿模型作教师、小模型作执行者的循环。
Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。
I think the main thing AI has taught me, through all the time savings it brings, is that I'm not a very interesting pers...
More musings after some people got upset about the word clanker. https://lucumr.pocoo.org/2026/5/26/clankers/
OpenAI is retiring o3 from ChatGPT on August 26, 2026 and GPT-4.5 on June 27, 2026 (these changes apply only to ChatGPT,...
红杉资本举办闭门会议,聚集150位AI领域创始人与OpenAI、Google、英伟达的核心高管。与会者将AI对认知工作的影响,比作电解法让铝价暴跌99.5%,使铝从比黄金贵的建筑材料变为廉价的铝箔。这隐喻写代码、写文案等长期练就的认知能力正迅速贬值。但观点强调,认知能力变便宜并非危机,真正的挑战是:当思考变得像铝箔一样随手可得时,能否用这些“白菜价”的脑力,去创造以前根本造不起的新事物。
http://x.com/i/article/2057668634579714048
While the Linux Kernel is quickly becoming "Vibe Coded", many other Open Source projects are outright banning all AI / L...
Artificial intelligences do not undergo experiences, do not possess a body, do not feel joy or pain, do not mature throu...
本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。
from apps to material software used to be something you opened an app was a room with walls: calendar here, notes there,...
推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。
谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测,AGI 研发速度远超预期,最快可能在 2029 年至 2030 年前后出现。作为 AlphaGo、AlphaFold 的主导者,他认为当前 AI 智能体是未来更强智能的预演,随着多模态和自主决策能力成熟,三年内迎来 AGI 关键突破已非科幻。但他同时警示,全球社会对 AGI 到来的准备严重不足,必须提前建立规则与防护机制。
在未来汽车先行者大会上,赛力斯董事长张正萍就华为乾崑智驾与特斯拉 FSD 的对比表示,两者孰优孰劣应交由市场评判。他以全新一代问界 M9 为例,指出其搭载 6 颗激光雷达及 40 个传感器,在硬件方面“不输给 FSD”。技术上,他认为 FSD 模拟人类视觉逻辑,而华为乾崑智驾则能超越人眼视觉范围。此外,张正萍透露问界品牌用 46 个月达成第 100 万辆交付,其辅助驾驶累计里程已超 77 亿公里。
作家莫言强调,人工智能无法取代文学创作,因为AI是靠一代又一代作家写出来的作品“喂”出来的。他认为作家最宝贵的是原创能力,即创作前所未有的作品。假设所有创作者都停止原创,AI的水平也会停滞。AI可作为辅助工具介入翻译、影视制作等领域,但原创作品依然是根本。
英伟达CEO黄仁勋在员工大会回应AI消耗Token的担忧,称“浪费一点钱没关系,但千万不要浪费时间”。他要求同事积极拥抱AI,指出不使用AI才会被裁员,“你不会被AI取代,但会被懂得使用AI的人取代”。黄仁勋强调AI绝非裁员借口,而是避免裁员的良方,并认为这是缩小科技鸿沟的最佳时机。
I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...
AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。
http://x.com/i/article/2059839454370828288
作者由北京至上海的飞行激发灵感,撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源,追问是否存在客观真相与理性判断。核心观点是:人类作为喜欢解释的动物,习惯用解释掩盖真实判断,“屁股决定脑袋”是事实;而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述,并提及尼采精神三变与实践是获得真理的唯一方法。
wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...
Rivian 软件负责人表示,随着智能体 AI 加速落地,汽车正从“软件定义”走向“AI 定义”,传统的“屏幕镜像”车联方案(如苹果 CarPlay)将变得“过时”。该公司希望为用户打造一体化的导航、控制与 AI 助手服务,而非将中控主导权交给 iPhone。内部数据显示,要求支持 CarPlay 的用户比例已从交付初期的“超过 70%”降至最近一次调查的“不到 25%”。