推文呼吁 Kimi Code、DeepSeek Harness 等 AI 编程工具应尽早提供图形界面(GUI),并拓展对通用办公任务的支持,以进化为通用 Agent。作者认为,仅在终端界面(TUI)和单一编程能力上竞争没有前途,尽管编程是核心基础。同时,推文引用并关注了另一个新选手 Grok Build,指出其更新迅速、潜力较大。
@dotey 还有两个新选手值得关注:Kimi Code、Grok Build。更新速度都很快,潜力不小
Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...
从真实世界Python仓库抓取11039个基于属性测试(PBT),自动将其中的2772个翻译为9415个带sorry占位符的Lean 4规范(平均每个PBT约3个形式化)。翻译采用三智能体LLM流水线,需建模Python语义、推断命令式PBT中的逻辑属性并处理依赖类型编程。所有抓取代码、智能体代码及数据均已开源,为AI辅助真实软件形式化验证提供基准。
前沿大语言模型在LiveCodeBench上已饱和,易分题Pass@1超99%,平均超90%。新提出的BenchEvolver框架以解决方案为中心,通过结构化变换自动进化已有编码问题的参考解,再从进化后解推导题目与测试用例,从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后,进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题,前沿模型Pass@1仅27.5%–62.6%,恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性,可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3,超出仅用原始任务训练的增益70.7%和34.8%。
LongAttnComp 是一种针对长上下文适配的方法,它通过微调一个轻量级跨注意力评分层,并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调:第一阶段基于 NIAH 风格数据构建通用检索基础,第二阶段通过多跳和推理数据进行扩展。实验表明,在 InfiniteBench Code-Debug 上,LongAttnComp 能够匹配或超越全上下文精度,并显著优于无训练基线。在 LongBench v2 上,两阶段配方在多文档推理任务上有效缩小了性能差距,同时保持了代码调试性能,并可跨三个模型族的四个目标模型进行转移。
今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。
http://x.com/i/article/2060576148472676352
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
微软旗下 GitHub Copilot 的黄金时代似乎正在终结。其新推出的计费模式改为按 token 计量,这一变化引发了开发者的广泛担忧与不满。
本文介绍了Codex平台的四个模型及其选择策略。其中,gpt-5.4-mini(输入$0.75、输出$4.50/百万tokens)是性价比首选,适合日常编码与内容整理;gpt-5.5(输入$5.00、输出$30.00/百万tokens)为旗舰,用于复杂推理与编码;gpt-5.4-nano专攻简单批量任务。核心建议是:大多数任务优先使用gpt-5.4-mini,仅在遇到复杂需求时升级至gpt-5.5,并用gpt-5.4-nano处理末端轻量工作,以此构建成本最优的流水线。
💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...
OpenAI的Codex应用现已在Windows 11上支持“Computer Use”功能。该功能允许AI自主控制计算机程序,独立进行应用测试和漏洞查找。当电脑无人值守时,用户可通过ChatGPT移动应用远程启动并监控这些任务。
grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...
Salesforce宣布已将整个开发组织迁移至Anthropic的Claude Code,并取消了token限制。其2026年4月报告显示,每位开发者的pull request数量增加了79%,生产事故减少了5%。这些数字未经独立验证。此次迁移突显了编码领域对智能体化转型的巨大分歧:这究竟是真正的革命,还是前所未有的技术债务积累?
xAI has been shipping Grok Build updates non-stop If you have not been keeping track, here is what xAI has rolled out up...
Chrome的CDP调试在使用Codex或Claude Code时,每次调用都弹出确认对话框,尤其在远程服务器或Mac Mini上运行技能时影响自动化执行。由于强制确认且无配置文件调整,用户让Codex编写脚本自动点击确认,虽可能不安全,但个人电脑上可接受。这启发将电脑重复操作脚本化,避免使用Computer Use等方案,因其速度慢且成本高。
Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。
Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'...
Hacker News上一篇题为“MCP 死了?”的文章引发讨论,获得了103分。文章来自quandri.io,发布于2026年5月29日,但未提供关于MCP(模型上下文协议)现状的具体论述或结论。
If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...
指出将工作流写入Memory方案的根本问题在于Agent需每次重新理解意图,导致token消耗大且不稳定。最佳实践是采用“Agent技能+脚本”架构:LLM仅负责将自然语言转译为SQL,所有确定性步骤由脚本执行。此方案可大幅降低token消耗。
10h 45m was codex picking the 5.5 party guests codex > settings > profile
在人工智能时代,专业能力面临重新定义。AI改变了专业知识的实践方式,但系统化的知识、经验积累与实践智慧仍然是专业能力的核心。真正的专长在于提出正确问题、进行创造性整合与做出关键判断,而AI在这些方面目前仍是辅助工具。专业价值正从单纯的信息处理,转向对复杂情境的解读与引导。
tokens
grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)xAI:News(网页)If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...
If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...
研究人员警告,虽然AI正在帮助程序员更快地编写代码,但其产出的代码质量未必更高。这种依赖可能在未来给程序员自身带来问题。
阶跃星辰发布 Step 3.7 Flash,这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力,支持 256k 上下文窗口,并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。
did you wish codex ask__user_question tool was available outside of plan mode