Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。
Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。
推文指出,Markdown作为AI编程的“源代码”存在根本缺陷。首先,其结果缺乏确定性,同一份Markdown因使用模型、Agent Harness及操作者的不同,最终产品千差万别。其次,难以清晰描述UI交互,导致生成的界面质量仅为“凑合能用”,不足以达到商用标准。该观点引用了@jianshuo的相关讨论作为背景。
http://x.com/i/article/2059196541693562880
Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。
Anthropic 黑客松冠军,把自己的 AI 编程工作台开源了。 项目叫 ECC。作者 Affaan Mustafa 和队友用 Claude Code 8 小时做出 http://zenith.chat 拿了冠军,后来把背后的工作流整理成...
A new tab dedicated to Grok Build is being worked on in Grok Web. It is called "Build" and links to https://grok.com/bui...
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。
推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。
拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...
这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。
Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...
一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。
智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。
Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。
推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。
原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。
http://x.com/i/article/2057201109002059776
推文指出,AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息,在不到30分钟内就完全迁移了一个全栈AI应用,该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点,认为在实践中,可以通过“随心构建”可拆解的完整项目,并利用技能和审查来引导大语言模型,就能在无需更多额外努力的情况下高效地进行平行开发,成果显著。
Try it out! Favorite features: - <1 second web/X search - Editing and creating assets with Imagine - Great subagent/work...
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
xAI 正式推出命令行工具 Grok Build 并开启测试,直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放,核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务,以及完整的会话管理。此外,它通过 MCP 集成外部工具,支持自定义技能与插件,并具备多模态能力,可通过命令生成图片与视频。用户可通过指定命令安装启动。
xAI的终端编程智能体Grok Build现已以Beta版向所有SuperGrok和X Premium+用户开放,此前仅限SuperGrok Heavy用户。用户通过单条命令一键安装,即可用自然语言指令(如“制作一个过山车模拟器”)驱动其工作。Grok Build支持规划模式(创建步骤供用户审核)、并行子智能体处理复杂任务、多文件编辑、使用git、运行测试、搜索网页,并能直接调用Imagine生成图片和视频。此外,它支持构建自动化流程或完整编排器,并可将会话转化为可复用的“技能”。
Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...
Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...
xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具,专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程,支持在编码前制定结构化计划,并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令,可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力,支持以无头模式在CI/CD管道中运行,并能在沙盒环境中执行代码。
用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。
TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0
We heard concerns that Antigravity consumes many tokens for simple tasks now. So, we're adding Gemini 3.5 Flash (Low) as...
Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...
AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。
推文赞扬 DeepSeek 践行长期主义与大道至简,指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户,而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点,将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”,并希望 DeepSeek 能改变这一行业格局。
推文质疑用书学习AI知识的可行性,指出Claude Code、Agent框架等知识更新极快,书易过时。同时质疑AI写书的质量,认为审查难度高。此外,作者对国内书籍常使用“白皮书”“蓝皮书”“橙皮书”等命名方式表示好奇。
本文反驳了“有了AI智能体,工程师无需深度思考代码”的观点。核心论点是:AI不会降低对“理解系统”的要求,反而会提升工程师的核心价值。这主要源于责任不可转移——生产环境事故需由工程师负责,AI无法承担决策后果。AI被定位为加速日志分析等环节的加速器,但最终决策仍需由人做出。由此推导的行业趋势是:工程师应更注重系统的可理解性与可控性,如减少依赖、偏好简单系统,并将时间投入系统设计与维护。最终,行业稀缺资源正从“写代码速度”转向“对系统理解的深度”,计算机基础与判断力将更加重要。
You might believe you should spend less time thinking about code because of AI. I strongly disagree! We're watching this...