Codex has changed how you interact with our models, and, despite what you may have thought, you don't need any technical...
Codex has changed how you interact with our models, and, despite what you may have thought, you don't need any technical...
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。
big upgrade for codex today! try it for non-coding computer work.
Andrej Karpathy指出,LLM的核心价值并非加速现有工作,而是创造以前不可能存在的事物,例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型,解释LLM能力不均的现象:高价值、可验证领域因经济驱动获得密集训练,能力突出;其他领域则依赖泛化,表现不稳定。未来产品将被解构为感知、执行与逻辑,横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。
Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...
开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。
Many people do not seem to want data centres built near them, despite the fact that they don't cause that much traffic a...
Karpathy指出,LLM的核心价值在于创造新可能性(如取代传统代码的MenuGen、.md技能和知识库),而非仅加速旧流程。模型能力呈现“锯齿状”分布,由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济,基础设施需面向智能体设计,强调信息的可读性,Agentic Engineering成为新兴工种,神经计算可能主导任务处理,经典CPU退化为协处理器。
Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...
Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。
A new feature sneaked in the Codex app's latest update. You can now do /side (or use the ... menu) to spawn a side chat!...
Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。
http://x.com/i/article/2050006014297346048
作者以“结构”为核心,系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”;开发Agent是构建管理上下文的框架;训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出,当前一些大厂的AI转型仅“加石头”而不变革组织架构,尤其由中层主导改革存在根本矛盾。最终强调,改变命运需从改变底层结构开始。
xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...
Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。
http://x.com/i/article/2049616699541090304
Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。
Follow @navalpodcast. We are posting more clips there.
AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。
It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...
LIVE TRIAL UPDATE: OpenAI's counsel asked Musk whether xAI has ever "distilled" technology from OpenAI. Musk: "Generally...
It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...
Lenny推荐了五款在其工作流中不可或缺、专注优雅的Mac生产力工具,旨在替代日益臃肿的主流软件。这些工具包括截图工具CleanShot、替代Loom的录屏工具Supercut、文本片段扩展器TextExpander、极简表情符号选择器Rocket,以及辅助专注进入心流状态的音乐服务Brain.fm。其核心观点是选择更专注、更优雅的小众工具来提升效率。
A few lesser-known products I love and use a ton: 1. https://cleanshot.com/ for screenshots 2. https://supercut.ai/ repl...
安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。
Anthropic被曝通过其官方Claude Code工具检测用户Git提交历史,若发现包含“openclaw”字符串,便将该用户识别为第三方工具使用者,并触发“out of extra usage”错误,导致服务被拒或强制额外收费。开发者实验证实此为人为设置的字符串匹配规则。此举被视为Anthropic为将用户锁定在自家生态、打压更灵活的第三方竞品而采取的粗暴手段,与其此前塑造的开放、不监控形象相悖,引发了开发者社区的强烈不满和抗议。
卧槽,Anthropic这次真把开发者当傻子。 知名开发者Theo做了个实验:建了个空Git仓库,只commit一行JSON {"schema": "openclaw.inbound_meta.v1"}, 调用官方Claude Code就直...
OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。
我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...
《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。
谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。
@karpathy and I are back! At @sequoia AI Ascent 2026. And a lot has changed. Last year, he coined "vibe coding". This ye...
you can outsource your thinking but you cannot outsource your understanding
GPT-5.5 is on par with Claude Mythos - GPT-5.5 average pass rate of 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5...
近期用户感觉GPT和Claude“变笨”,实因模型能力进化导致提示工程要求改变。官方指南揭示,两大模型进化方向相反:Claude Opus 4.7趋向字面执行指令,而GPT-5.5则更自主,能根据目标自行选择路径。因此,旧提示失效原因也相反——模糊提示在Claude上输出变窄,详细步骤在GPT上反成噪声。提示工程的核心已从“教模型做事”转变为“先结构化人类思考”,未来优势将属于思考最清晰、最明确自身需求的人。