After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.
Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......
用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。
Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...
Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...
AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。
作者在从北京飞往上海的航班上,以意识流的方式记录近期认知变化,坦诚文章缺乏打磨和吸引人的开头,但认为后半部分内容有价值。行文过程中,作者提到手动打字效率不如 AI,并因使用 Obsidian 卡顿而感到困扰。
http://x.com/i/article/2059839164837982208
飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。
@UnderwaterBepis @Lari_island yeah, Golem XIV feels very prescient
推文阐述其关于人类独特性的核心观点:人类决策本质上由激素等生理反应驱动,而理性思考常是对这些决策的事后解释。基于此,作者认为AI智能体(Agent)因缺乏激素驱动机制,永远无法真正取代人类。人的本质在于意志力而非工具性,其独特性体现在能通过意识自我解释,并利用激素控制自身,这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法,阅读只能印证已有认知。
推文探讨AI智能体生成结果是否需要人工审查,关键在于验证方法的可靠性及模型理解与执行验证的能力。以编写代码为例,中间结果可减少检查,但初始规划与最终审查仍需人工把关。人工更适合定义总目标,而智能体的思路可能更优。
@dotey 每一步完全人工审核。问题是,进场能力那么强,人工可能都跟不上。对非专业架构师来说,人工是不是反而可能把项目带偏。 我的意思是,人工可以定义总目标、总需求。但是这个过程,Agent给的思路应该更好吧
Every公司CEO Dan Shipper指出,全员使用Codex和Claude Code的公司员工数反而翻倍,揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示,人类得分85-90分,而AI模型平均仅约30分,GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题,却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态:一是公司共用由专人维护的超级AI智能体;二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业,而是要求每个人都学会“驾驭模型”,将AI用在真实工作场景中。
观点认为,AI越强,人的工作量反而越大(如Every公司员工翻倍)。AI自动化创造了管理自动化这一新工作,且每个智能体都需要专人照料。实践中,更可行的模式是公司共用一个智能体,由专人维护。CLI时代结束,GUI是主战场。SaaS不会消亡,反而会因智能体获得更多用户。将AI嵌入SaaS是错误方向,应反向进行。产品经理和全栈设计师将迎来最好时代。AI只是裁员借口,是过度招聘的修正。大规模失业不会发生,但不会使用AI的人将被使用AI的人替代。
http://x.com/i/article/2059821245093560320
MCP协议新版本将于7月28日发布,包含几个关键特性:服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制,以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么,并表示自己感觉几乎没有了。
Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。
Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural l...
文本指出AI领域存在核心张力。Anthropic联合创始人Chris Olah主张前沿AI实验室需要严肃的外部道德审查,因其激励可能与“做正确的事”冲突。与此同时,Anthropic CEO Dario Amodei的叙事正从“AI可能消灭大量白领工作”转向更市场友好的生产力提升与工作转型论述(如杰文斯悖论)。然而,Yale Budget Lab的跟踪数据显示,自ChatGPT发布以来,美国劳动力市场职业构成无明显变化,AI暴露岗位的失业并未加速。因此,当前AI能力曲线与实际就业数据之间的差距可能比以往更大,这构成了讨论的起点。
Dario Amodei predicted last year that AI would eliminate 50% of entry-level white-collar jobs within years. Unemployment...
本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。
introducing howtoeval dot com. the no-bullshit guide to eval'ing AI agents. from personal experience, and from working w...
Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。
What are your top 3 dream companies to work for right now?
a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。
http://x.com/i/article/2059491657683443712
GPT 5.5 found a 27-year-old RCE introduced in April of 1999. I've triple-checked the flow and commit history, it's real....
推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。
Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
One reason I started teaching my "progress" class is the vibes vs reality gap. Coming into the greatest decade in human ...
推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。
不要用传统的人员组织框架来限制AI组织,设计什么不同的agent角色互相通过聊天来传递上下文,这都是愚蠢的做法
🆕Railway's Agent-Native Cloud: 3M users, 100K signups/week, $200K+ coding agent spend, production forks, & the death of...
本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。
这就是所有 ToB AI 软件的最终形态,只要不是这样,就肯定设计错了。我说的。如果你会搞点儿VibeCoding,拿起我推荐的 Mastra 框架,上山下乡,走到小公司去,走到一切尚未正确拥抱AI的公司去,帮助他们把业务抽象成工具调用,让...