Simon Willison 开发了“粘贴文件编辑器”工具原型,灵感源于 Claude.ai 能将大段粘贴文本自动转为文件附件的功能。该工具支持粘贴文本、直接打开文件(包括图片缩略图显示)以及拖拽文件。它是由 Codex 桌面版协助构建的。
Simon Willison 开发了“粘贴文件编辑器”工具原型,灵感源于 Claude.ai 能将大段粘贴文本自动转为文件附件的功能。该工具支持粘贴文本、直接打开文件(包括图片缩略图显示)以及拖拽文件。它是由 Codex 桌面版协助构建的。
“Chipotlai Max”项目在 Hacker News 上获得了 102 点热度,并提供了其 GitHub 仓库地址。
根据曝光的截图,微软正在开发“Copilot 超级应用”,内部口号是“Delivering one Copilot”,旨在统一所有 Copilot 工具入口。该应用计划整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 及内部代号为 Autopilot 的新智能体能力。应用内包含一个代码页,形态类似 Claude Code 面板,带有一个名为 Scout 的常驻 AI 智能体。用户可通过该页面管理代码仓库、切换模型并安排定时任务。另一个 Cowork 标签页用于汇总数据并提供提示词。
Claude Code v2.1.160版本主要增强安全性和稳定性。新版本在向shell启动文件和.git/config等文件写入内容前增加提示,防止意外命令执行;acceptEdits模式在写入.npmrc等构建配置文件前也会提示。此次更新修复了多个问题,包括Windows/WSL剪贴板、会话恢复、后台会话连接等,并优化了自动模式延迟和后台清理流程。此外移除了JetBrains插件建议,将动态工作流触发词从workflow重命名为ultracode。
EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。
Cursor Teams计划推出三项更新:增加Composer特定使用池,将第一方模型(Composer和Auto)与第三方API的使用额度分开计费;推出Premium席位,提供5倍于标准席位($40/月)的使用量,价格为$96/月(年付);仪表盘现可实时显示用户额度使用情况,管理员可通过Slack或邮件配置智能提醒。
GitHub Copilot 正从固定订阅制转向基于使用量的计费系统。部分用户反映,其单日用量就消耗掉了整月的“AI credit”配额,引发用户对成本控制的担忧。
OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。
中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。
MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)在人工智能时代,产品原型设计的速度正迎来显著变化。文章探讨了AI工具如何影响原型制作的流程与效率,讨论了从概念到实现的加速可能性。
OpenAI 的 AI 编程工具 Codex 在推特上分享,它为缺少 sudo 权限的电脑系统找到了一种变通方法。该发现获得了 Hacker News 社区的关注,目前有 117 个赞。
v2.1.159 版本更新包含内部基础设施改进,未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。
作者引用David Wilson的观察指出,AI编码工具(如Claude)能将模糊想法在不到一小时内转化为带测试和文档的完整项目,但用户往往因此创建超过16个难以维护的项目。这些工具输入门槛低、反馈即时,却像“热核级ADHD放大器”,导致注意力严重分散和项目废弃。文章质疑这种“廉价奖励”模式的可持续性,认为当前缺乏有效管理方式,关键可能在于培养使用纪律。
thoughtshmmz.org 于2026年5月31日发布的文章《解决办法可能是取消我的AI订阅》,在Hacker News上获得114积分。
版本控制系统 Rsync 的 3.4.3 版本代码库中,包含数百个由 AI 模型 Claude 完成的代码提交。
从真实世界Python仓库抓取11039个基于属性测试(PBT),自动将其中的2772个翻译为9415个带sorry占位符的Lean 4规范(平均每个PBT约3个形式化)。翻译采用三智能体LLM流水线,需建模Python语义、推断命令式PBT中的逻辑属性并处理依赖类型编程。所有抓取代码、智能体代码及数据均已开源,为AI辅助真实软件形式化验证提供基准。
前沿大语言模型在LiveCodeBench上已饱和,易分题Pass@1超99%,平均超90%。新提出的BenchEvolver框架以解决方案为中心,通过结构化变换自动进化已有编码问题的参考解,再从进化后解推导题目与测试用例,从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后,进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题,前沿模型Pass@1仅27.5%–62.6%,恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性,可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3,超出仅用原始任务训练的增益70.7%和34.8%。
LongAttnComp 是一种针对长上下文适配的方法,它通过微调一个轻量级跨注意力评分层,并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调:第一阶段基于 NIAH 风格数据构建通用检索基础,第二阶段通过多跳和推理数据进行扩展。实验表明,在 InfiniteBench Code-Debug 上,LongAttnComp 能够匹配或超越全上下文精度,并显著优于无训练基线。在 LongBench v2 上,两阶段配方在多文档推理任务上有效缩小了性能差距,同时保持了代码调试性能,并可跨三个模型族的四个目标模型进行转移。
微软旗下 GitHub Copilot 的黄金时代似乎正在终结。其新推出的计费模式改为按 token 计量,这一变化引发了开发者的广泛担忧与不满。
OpenAI的Codex应用现已在Windows 11上支持“Computer Use”功能。该功能允许AI自主控制计算机程序,独立进行应用测试和漏洞查找。当电脑无人值守时,用户可通过ChatGPT移动应用远程启动并监控这些任务。
Salesforce宣布已将整个开发组织迁移至Anthropic的Claude Code,并取消了token限制。其2026年4月报告显示,每位开发者的pull request数量增加了79%,生产事故减少了5%。这些数字未经独立验证。此次迁移突显了编码领域对智能体化转型的巨大分歧:这究竟是真正的革命,还是前所未有的技术债务积累?
Hacker News上一篇题为“MCP 死了?”的文章引发讨论,获得了103分。文章来自quandri.io,发布于2026年5月29日,但未提供关于MCP(模型上下文协议)现状的具体论述或结论。
在人工智能时代,专业能力面临重新定义。AI改变了专业知识的实践方式,但系统化的知识、经验积累与实践智慧仍然是专业能力的核心。真正的专长在于提出正确问题、进行创造性整合与做出关键判断,而AI在这些方面目前仍是辅助工具。专业价值正从单纯的信息处理,转向对复杂情境的解读与引导。
研究人员警告,虽然AI正在帮助程序员更快地编写代码,但其产出的代码质量未必更高。这种依赖可能在未来给程序员自身带来问题。
阶跃星辰发布 Step 3.7 Flash,这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力,支持 256k 上下文窗口,并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。
Braintrust的工程师正在使用Codex结合GPT-5.5模型,以加速其实验运行与代码编写的流程。
Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。
Anthropic发布了Claude Opus 4.8,这是对Claude Opus 4.7的升级,改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用,API名称为claude-opus-4-8。
该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。
v2.1.156 版本修复了一个问题,该问题在使用 Claude Opus 4.8 模型时,会导致 thinking blocks(思考过程块)被意外修改,从而引发 API 调用错误。
针对可验证奖励强化学习(RLVR)中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题,提出原子分解与重组(ADR)框架。ADR 将代码任务分解为原子元素并受控重组,从而生成真正新颖且高难度的可验证代码任务。实验表明,ADR 在原创性、难度、多样性和测试质量上均优于现有基线,并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。