天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,支持百万token上下文,深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6,在OpenClaw任务上接近更大规模模型,定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化,适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork,开放2至4周免费试用,并提供兼容OpenAI格式的免费API调用。
谷歌针对Antigravity用户抱怨额度消耗过快,推出了新模型Gemini 3.5 Flash(Low)。该版本通过调整推理投入强度,处理简单任务时的token消耗比Medium版本减少约45%。同时,谷歌重置了所有免费和付费Gemini计划的配额。
一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。
本文讨论了在使用人工智能辅助编程时存在的一种权衡关系。主要观点是,采用人工智能工具来生成或辅助编写代码,其核心目标在于产出质量更高、更可靠的代码。然而,这一过程可能会以牺牲开发速度为代价,使得编码的整体进程相对变慢。这揭示了在追求代码质量与开发效率之间的一种潜在平衡。
智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。
Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。
推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。
原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。
http://x.com/i/article/2057201109002059776
RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。
该研究引入了Verus-SpecBench基准测试集,包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务,以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制,并使用官方测试用例和对抗性用例进行评测。结果显示,最强模型Gemini 3.1 Pro解决了77.8%的任务,其他前沿模型解决率为51.1%-57.8%,开源模型仅为21.5%-25.5%。分析发现,LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及,但仍显脆弱。
多名开发者在 OpenAI Codex 后端日志中发现未官宣的 GPT-5.6 模型,内部代号 iris-alpha。该模型将支持 150 万 token 的上下文窗口,较当前 GPT-5.5 的 105 万 token 提升约 43%,有望于今年 6 月发布。测试显示,在输入达到 90 万 token 时仍能流畅响应。同系列还发现了 ember-alpha 与 beacon-alpha 版本。此外,GPT-5.6 在前端界面生成能力上也有所提升。基于爆料信息,Anthropic Claude、Google Gemini 及 xAI Grok 也可能瞄准同期发布新模型。
推文指出,AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息,在不到30分钟内就完全迁移了一个全栈AI应用,该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点,认为在实践中,可以通过“随心构建”可拆解的完整项目,并利用技能和审查来引导大语言模型,就能在无需更多额外努力的情况下高效地进行平行开发,成果显著。
Try it out! Favorite features: - <1 second web/X search - Editing and creating assets with Imagine - Great subagent/work...
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
xAI 正式推出命令行工具 Grok Build 并开启测试,直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放,核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务,以及完整的会话管理。此外,它通过 MCP 集成外部工具,支持自定义技能与插件,并具备多模态能力,可通过命令生成图片与视频。用户可通过指定命令安装启动。
xAI的终端编程智能体Grok Build现已以Beta版向所有SuperGrok和X Premium+用户开放,此前仅限SuperGrok Heavy用户。用户通过单条命令一键安装,即可用自然语言指令(如“制作一个过山车模拟器”)驱动其工作。Grok Build支持规划模式(创建步骤供用户审核)、并行子智能体处理复杂任务、多文件编辑、使用git、运行测试、搜索网页,并能直接调用Imagine生成图片和视频。此外,它支持构建自动化流程或完整编排器,并可将会话转化为可复用的“技能”。
Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...
Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...
xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具,专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程,支持在编码前制定结构化计划,并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令,可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力,支持以无头模式在CI/CD管道中运行,并能在沙盒环境中执行代码。
用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。
TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0
We heard concerns that Antigravity consumes many tokens for simple tasks now. So, we're adding Gemini 3.5 Flash (Low) as...
程序员 George Hotz 在经过六个月测试后警告,AI 编程智能体将成为软件开发领域代价最昂贵的错误之一。他认为 LLM 虽然能快速生成原型,但在细节上会崩溃,产生越来越难以发现的 bug。他的立场体现了 AI 社区对于 LLM 在软件开发中角色的深刻分歧。
Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...
AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。
推文赞扬 DeepSeek 践行长期主义与大道至简,指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户,而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点,将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”,并希望 DeepSeek 能改变这一行业格局。
推文质疑用书学习AI知识的可行性,指出Claude Code、Agent框架等知识更新极快,书易过时。同时质疑AI写书的质量,认为审查难度高。此外,作者对国内书籍常使用“白皮书”“蓝皮书”“橙皮书”等命名方式表示好奇。
本文反驳了“有了AI智能体,工程师无需深度思考代码”的观点。核心论点是:AI不会降低对“理解系统”的要求,反而会提升工程师的核心价值。这主要源于责任不可转移——生产环境事故需由工程师负责,AI无法承担决策后果。AI被定位为加速日志分析等环节的加速器,但最终决策仍需由人做出。由此推导的行业趋势是:工程师应更注重系统的可理解性与可控性,如减少依赖、偏好简单系统,并将时间投入系统设计与维护。最终,行业稀缺资源正从“写代码速度”转向“对系统理解的深度”,计算机基础与判断力将更加重要。
You might believe you should spend less time thinking about code because of AI. I strongly disagree! We're watching this...
Bug fixes shipping to Grok Build 0.1.219 (release notes will be available in the TUI) - fixing usage limit bugs with pro...
论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性,特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时,其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。
对于正在进行中的/goal长任务,可通过输入 /side 指令开启一个侧边对话来查询进度,该对话会话共享当前上下文且不影响主线程。任务启动后,输入框上方提供暂停、编辑或删除等操作选项。
如何在 Codex App 使用 /goal 的简单说明: 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令: > codex features enable goals 或者手动修改 ~/.codex/con...