OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
v0 推出 Design Systems 2.0,可将设计系统(组件、tokens、约定)一次性导入,此后对话均用真实组件库生成应用。该功能以一个 skill 保存,作为适配器指明源码位置、安全可用的组件/props/tokens,以及如何接入新应用。导入工作流分 5 步:收集来源(GitHub、npm、Storybook、Figma 等)、配置 NPM_TOKEN 等环境变量、补充备注、自动生成 v0.json、审查 starter 后保存。v0.json 承载只读参考源(最多 3 个)、环境变量链接和启动应用。使用时从提示工具栏附加 skill;更新需告知 v0 变更,但不会自动修改已有项目。最佳实践:来源真实且新、覆盖运行时层、凭证先行。
v0 Design Systems 2.0 is here. Import your design system from GitHub, npm, Storybook, Figma, and more. Build with your r...
You've been asking for this one... Now in preview: Codex in the ChatGPT mobile app. Start new work, review outputs, stee...
May 2026: we announced native Android app building in AI Studio Today: more than 1M Android apps have been created in AI...
Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...
Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
Google将数月前成立的AI编码突击队扩展为更正式的“midtraining”小组,位于预训练与后训练之间,旨在提升Gemini编码能力,并延伸至创建演示文稿等商业任务。此前,Noam Shazeer因计算资源变动转投OpenAI,Nobel奖得主John Jumper调至该团队后也加入Anthropic。Google承认,仅靠强大基座模型不够,编码已成为AI最明确的变现层,Anthropic借此获得收入增长。Google需专用训练、计算和更清晰的产品闭环来追赶。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
印度头部金融科技公司CRED创始人Kunal Shah表示,目前公司90%的代码由AI编写。他认为,每家人工智能创业公司中约10%的员工已因AI获得指数级生产率提升,与其余90%员工形成“完全不同物种”般的差距,感觉周围一切流程和人都变得缓慢。该言论来自“Thrive by Groww”YouTube频道访谈。
火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》字节Seedance 2.0推出4K视频模型,一条15秒4K视频约88元,一分钟广告片约700元,但官方API无折扣,代理商加价1.2-1.5倍仍供不应求,每天为字节带来超3000万元收益。红果短剧平台AI短剧已完全碾压真人短剧,ROI优势显著。大模型公司优先选择coding等高价值场景训练,遵循“资源有限时,算力和资本流向边际收益率最高处”的ROI定律。用户应关注价值而非价格:若能用AI创造超过成本的价值,再贵的模型也划算。找到自己比别人好10倍的场景,才能获得10倍ROI。
通过飞书Cli工具与Codex结合,实现自然语言记账:终端执行npx @larksuite/cli@latest install安装飞书Cli,再在Codex中创建“日常开销记录”项目,用对话指令生成多维表格,之后可直接在手机端查看和修改,无需额外记账软件。
宝玉分享 GitHub 项目 decode-codex,用于反编译闭源 coding agent Codex App。项目含两个 Skills:codex-app-ref-refresh(解包 app.asar 并格式化)和 deobfuscate-javascript(反混淆 JS 为可读代码)。用法:先解包再反混淆,后者需配合 /goal。用户 @LinearUncle 此前询问反编译模型推荐,宝玉以此项目回应。项目地址:https://github.com/JimLiu/decode-codex
@dotey @lovevfp 宝哥,反编译哪个模型最强?哪些模型不会拒绝,我正在搜索你的推特帖子呢,以前我看你写的是gemini,现在呢? 这个月token 实在太富裕了,闲来无事,想反编译一个闭源的coding agent
开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。
You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...
AI 行业商业化的核心是“2boss”——付费方不是使用者(程序员、抽卡员),而是他们的老板。以 Claude/Codex 和 Seedance 为例,老板愿为提升效率的工具付费。中国 2B 市场进入“2boss”时刻,老板买单意愿强烈;独立开发者等自费者也扮演自己的老板。
How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...
Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 workflows/.md 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
Genspark 推出 Genspark Design,由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统,支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出:文本、图像、背景、组件保持分离,用户可直接修改设计本身,无需要求模型重新生成。支持上传 Figma 文件或保存设计,一键生成可交付代码(基于 Genspark Code),无需设计背景即可使用。
🎨 Introducing Genspark Design The next-gen AI for design and creation, powered by Claude Opus 4.7. From rough idea to p...
ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。
字节火山引擎大会上,洪定坤分享了AI开发的三个核心方法论:1. 原型驱动开发——用AI生成可交互原型替代PRD,提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理,能将可交付性从40~60分提升至80分。