@theo Seeing different paths ioenclaw started as a heavy package and became lean now hermes becomes the heabty trash pac...
watching codex control my browser to do things it can't do in the harness is a holy shit experience
Anthropic自始至终专注编程,被视为“智能力公司”而非编程公司。其策略基于Claude智能扩展后将应用于所有人类智能领域。相比之下,OpenAI和Google频繁分心开发其他产品(如Sora、图像模型、音乐模型等),OpenAI甚至停用Sora。Anthropic凭借专注在企业计算领域取得领先,而OpenAI正效仿其路线,放弃副项目,聚焦Codex与ChatGPT等核心模型竞争。
Anthropic is not a coding company. It is an intelligence company that chose to focus on coding first. As Claude's intell...
nothing like switching to claude for a few days to try out a new model and going back to codex xhigh to remind you how m...
推文认为,通用AI智能体将成为未来的操作系统,当前的App将演变为三种形态:被其内置能力取代而消亡、转化为CLI或MCP形式通过技能供其调用、或作为其GUI插件补充图形界面操作。为此,SaaS服务需推出CLI + 技能模式以适应趋势。
@dotey 以后的应用形态会不会都是通用 agent,目前的那些 app 都将沉入历史的河流当中?
推文指出AI在汽车中的应用将成为真正的游戏规则改变者,特斯拉正通过将Grok集成到Tesla OS中来引领这一趋势。作者回忆了儿时《霹雳游侠》中与汽车对话的科幻场景,认为其正成为现实。Google和Apple的CarPlay是初步尝试,但未来汽车将能实时解析错误信息、提供路线更新、管理日程,结合全自动驾驶(FSD)成为完整的移动办公室。
推文呼吁 Kimi Code、DeepSeek Harness 等 AI 编程工具应尽早提供图形界面(GUI),并拓展对通用办公任务的支持,以进化为通用 Agent。作者认为,仅在终端界面(TUI)和单一编程能力上竞争没有前途,尽管编程是核心基础。同时,推文引用并关注了另一个新选手 Grok Build,指出其更新迅速、潜力较大。
@dotey 还有两个新选手值得关注:Kimi Code、Grok Build。更新速度都很快,潜力不小
ChatGPT 的翻译功能做得不像前沿 AI 团队的作品,像 10 年前互联网产品经理的水平,ChatGPT 团队被 Codex 团队合并并非没有理由。
OpenAI is working on a new "Translation Block" widget in ChatGPT Fun fact - one of the supported languages is "High Valy...
现在周围人发文件都变成 Markdown 和 HTML 了,但是微信这俩格式一个都不支持,而且相当封闭,想用其他应用打开都费劲,真是受不了。 如果是在外面用手机,别人发过来的 Markdown 和 HTML 文件都不知道怎么打开。 感觉得做...
文章批评当前一些公司以“AI提效”为名进行裁员,认为这并非真正的变革。核心观点是,这种做法是用最小成本假装改变,回避了更根本的挑战:即在旧有业务模式结束后,公司未来的新战略方向是什么。作者指出,若无法回答这个关键问题,大规模裁员也无济于事。
http://x.com/i/article/2060890772099170304
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
文章对比2022-23与当前裁员潮,指出后者常以“AI改变经营方式”为由,但其真实性存疑。例如,有公司同日宣布高利润与大规模裁员,并归因于AI提效。作者提出AI native三层框架:1.找到AI原生新业务;2.构建新组织;3.用AI工具提升个人效率。他认为多数公司跳过前两层直接裁员,并以此证明转型成功,但这回避了核心问题:旧业务增长见顶后,真正的新增长点是什么?文章以赵武灵王胡服骑射为喻,指出仅以提效为名裁员是假装变革,若找不到新方向则无济于事。
Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...
用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。
推文指出,在AI时代,单一的“功能性”技能正在变得廉价。无论是编程、写作还是外语,作为独立的专业技能其稀缺性在下降。核心观点是,能够将这些工具技能(如编程)整合起来,用以创造有价值产品的“工程能力”或应用能力,才真正稀缺且保值。引用推文也支持此观点,认为计算机技术虽重要,但其单纯的功能属性价值会越来越低。
现在,计算机技术和编程技术我觉得愈发的前所未有的重要的了。 但不等于计算机专业是个年轻人应该选择的专业,因为作为一个曾经黄金的功能性技能,单纯的功能属性会越来越廉价。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标,暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元,目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变:从显卡供应商,转型为定义整机核心方案的提供商,将直接冲击 Intel、AMD 和高通在 PC 市场的地位。
A new era of PC. 25.0528, 121.5990
推文指出,AI智能体执行能力趋强,可能使prompt、skills等执行性技能最先贬值。OpenAI的Greg Brockman在红杉闭门会上强调,AI让执行变得近乎无限便宜,真正的稀缺资源是人的判断力——即决策事情是否该做、成果是否符合预期的能力。AI无法替代个人明确自身需求并最终拍板。
http://x.com/i/article/2057668634579714048
在需要长时间运行的动态工作流、大型代码库处理或深度研究任务中,聊天窗口不足以展示成果。HTML Artifacts提供了必要的验证与决策层,已成为作者与AI智能体协作的核心界面。作者将其广泛用于日志记录、实验跟踪、头脑风暴、代码审查、智能体会话管理、深度研究与写作等场景,并构建了标签页系统进行管理。文章最后引用Karpathy的观点:随着智能体应用走向更高级、输出更复杂,我们将需要包括交互式神经视频/模拟在内的更高级交互形式。
作者指出,HTML工件正日益成为其与AI智能体协作的核心媒介,尤其在需要呈现长程任务成果的场景中。随着智能体处理动态工作流、大型代码库及深度研究任务,传统聊天窗口已力不从心。HTML工件提供了关键的验证层,使用户能审核智能体的工作成果并作出决策。作者在日志记录、实验跟踪、头脑风暴、代码审查等众多任务中应用HTML工件,并提及Karpathy关于未来需要更高级AI交互形式(如交互式神经模拟)的观点。
We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...
推文感叹Tesla FSD在中国路测中的会车能力表现惊艳,堪称“遥遥领先”。引用推文进一步探讨了AI工具的使用本质,提出工具分为替人思考的“Agent型”和与人共思的“实习生型”(以Cursor为代表),后者是使用者“以术入道”、磨炼判断力的过程。其关键瓶颈是必须在场,而作者通过免费工具UU远程(4K 144帧、原生终端支持)在手机上远程操控运行Cursor的Mac,解决了此限制。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
When we go from GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5, the number incrementing goes with improvements in capabilities and...
AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...
http://x.com/i/article/2059811469081141248
Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。
作者认为MCP(模型上下文协议)对AI智能体的未来至关重要,其核心价值不仅在于工具连接,更在于它所启用的抽象能力。作者以自身构建的自我改进系统为例,该系统完全通过MCP驱动,展示了MCP如何赋能智能体间交互、实现复杂协调、版本控制、评估工作流及工具集成等关键功能。作者强调,尽管新事物可能不断涌现,但MCP协议本身对于未来所有进展将是必要且关键的基础。
如何构建你自己的 Agent Harness? 先看几个问题: · 生产级 Harness 是“选一个框架”就能搞定的吗? · 生产级 Harness 必须承担的 15 项真实职责是什么? · 每项职责如何做成可安装、可版本化、可换语言的 worker? · 单次 turn 如何跑通? · 策略、审批、预算、trace 在生产级 Harness 里为什么重要? @mfpiccolo 在他的「How to Build Your Own Agent Harness」中给出了完整答案,强烈建议阅读原文: https://iii.dev/blog/how-to-build-your-own-agent-harness/ [引用 @mfpiccolo]:http://x.com/i/article/2060024515619397638
http://x.com/i/article/2060024515619397638
有经济学家提出,真正的技术革命总伴随对能源的颠覆,而互联网和移动互联网时代并未真正做到。AI(人工智能)不同,它直接消耗原始能源,正推动绿色能源、化石燃料及元素周期表中多种元素的需求与价格飙升。作者认为,这种“重写比特容易,重写原子困难”的摩擦,证明我们正处于一场巨大的范式转移中。当技术浪潮同时推高能源、储能和基础元素成本时,只有两种可能:要么是史上最大的泡沫,要么是奇点正在到来。
Someone once told me: "You should be the last one to reinvent something" -- not sure how useful this is, but this is a c...
My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...