AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2079 条
全部一手资讯X论文
标签「编码」清除
Rohan Paul@rohanpaul_ai · 6天前83

OpenAI's Codex active users grew more than 5X the first half of 2026, and the fastest growth came outside the original developer audience. Usage exploded (per OpenAI's new research report): - Longer tasks are becoming the new normal. By May 2026, 80.6% of sampled individual users had asked Codex to do work that would take a human more than 30 minutes. 70.2% had asked for tasks over 1 hour, and 25.6% had requested jobs above 8 hours. - AI agents are not staying with developers. Engineers adopted Codex first, but Legal, Finance, Recruiting, and other non-technical teams quickly joined in. Within OpenAI, Codex now generates 99.8% of weekly output tokens. - Non-developer adoption is rising fastest. Since August 2025, non-developer Codex usage grew about 137x among individual users and 189x among organizational users. - Agents are expanding what workers can take on. Non-technical employees are using Codex for automation, data transformation, debugging, tooling, analysis, and technical tasks beyond their usual jobs.

译OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。

Ethan Mollick@emollick · 6天前55

Great experiment testing how good AIs are getting at very ambitious end-to-end coding tasks. Opus 4.7, in 14 hours, was able to build a software package that would take 2-17 weeks of human engineering work. It cost $251. The models are still not perfect, but are improving fast.

译一项很棒的实验,测试AI在极为雄心勃勃的端到端编码任务上的表现。Opus 4.7在14小时内构建了一个人类工程师需要2-17周才能完成的软件包。成本251美元。 模型还不完美,但进步迅速。

Epoch AI@EpochAIResearch · 6天前63

What are the largest software engineering tasks AI can perform? To answer this, we built MirrorCode, our long-horizon SWE benchmark that lets AI code autonomously for days at a time. The best models complete some tasks we estimate would take human engineers several weeks.

译AI能执行的最大软件工程任务是什么? 为此,我们构建了MirrorCode,一个长期SWE基准测试,允许AI一次自主编程数天。 最好的模型完成了一些我们估计人类工程师需要数周的任务。

eric zakariasson@ericzakariasson · 6天前68

http://x.com/i/article/2070417295810166784 # Human in the /loop What I like most about coding with agents right now is the room to leave a few runs going and still get on with other work. When something finishes or needs a call, I show up. This post is a short explainer of the setup I use, a definition of done the agent can score, a loop that keeps going until it should stop, pings so I know when to lean in. ## Find something the agent can verify Before kicking off a longer running task, I lock a definition of done. Examples I actually use: - Model or eval work. Target is a score. Change the approach, run the eval, keep the change only if the number moved the right way. Closest to Karpathy's autoresearch for ML training loops. - Web app or UI. Target is a QA pass. Load the page or run Playwright, screenshot it, make sure it still does the thing. - Backend or refactor. Target is the test suite. Failing tests first, then green, and it has to stay green. - Speed or flakiness. Target is a number (p95, a benchmark). Change and measure until you're under the line you set. - Data or content cleanup. Target is a count. Loop until zero rows fail validation, or every item passes the check. Writing the loop is mostly writing how you'd check the work yourself. Some tasks need every step on the page. Others I give a goal and a rough direction and let the model fill in the middle. I start more explicit than I think I need, then loosen it once I see what it can infer. ## Wrap it in a loop Definition of done in hand, I tell the agent to loop on it. Change something, measure, keep or revert, go again. Doesn't have to be one tiny edit each time. The step just has to be measurable against the target. I care most about the stop conditions, which might be - Metric hits the target - No improvement after a few tries - Out of ideas - Blocked or unsure (stop and ask) ## Get pinged instead of babysitting So the agent gets a notify path (MCP plus /notify) and reaches me there. Usually Slack, because that's where everything else already is. Same setup could be iMessage or whatever. I treat it as a generic notification channel, not full Slack access for the agent. Status updates and "I need a decision" show up like normal messages. When I answer, that reply is the next thing the loop runs on. ## Run it in the cloud Most of this doesn't stay on my laptop. It runs in the cloud so a loop can keep going for hours without my machine being open. I use my own client as the orchestrator and fan work out to cloud agents from there. ## Then start the next one Once a loop is running, I start another. Usually three or so, sometimes five. And that's only the long loops. I often have other agents up at the same time on shorter work: a PR, a one-off investigation, something that isn't a multi-hour hill climb. If things are quiet I fire off another. If three are waiting on me I stop starting stuff and go review. ## Prompting Rough template of how i prompt. /loop drives the iterations and /notify keeps me posted If you're running loops, I'd love to hear how we can make it easier for you!

译Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。

Chubby♨️@kimmonismus · 6天前77

This looks to good to be true. A 397B open source model on par or even outperforming Claude Opus 4.8? I need to check it out.

译Ornith-1.0 是专为智能体编程设计的开源大语言模型家族,提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种尺寸。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架与解决方案的自我改进策略。在多个编码基准上取得开源模型最优:Terminal-Bench 2.1(77.5)、SWE-Bench Verified(82.4)/ Pro(62.2)/ Multilingual(78.9)、NL2Repo(48.2)、SWE Atlas(QnA 41.2 / RF 42.6 / TW 39.1)、ClawEval(77.1)。所有模型以 MIT 许可证开源,支持商业与研究使用。主推文称其 397B 版本性能媲美甚至超越 Claude Opus 4.8。

meng shao@shao__meng · 7天前67

v0 发布 Design Systems 2.0 它让 v0 一次性学会你的设计系统(组件、tokens、约定),此后所有对话都能用它真实的组件库来生成应用——而不是每次重新描述、也不是靠贴文档。 Design Systems 2.0 在 v0 中被保存为一个 skill,但它不是源代码的副本,也不是文档的镜像,是一个"适配器": · 指明真实源代码在哪里(GitHub 仓库、消费应用) · 声明哪些组件 / props / tokens 是可安全使用的 · 告诉 v0 如何把这套系统接入新应用(providers、全局样式、字体、主题) 这个抽象的精妙之处在于:单一可信源仍是你的仓库和包,skill 只是让 v0 知道怎么找到它、读懂它、正确使用它。文档明确强调了一个原则——"基于真实源验证",凡是从来源中无法验证的组件、prop 或 token,v0 都不应使用。 导入工作流(5 步) 1. 收集来源:设计系统包 + 源仓库 + 真实消费应用 + Storybook/文档 + Figma 2. 环境变量:私有包凭证(如 NPM_TOKEN)配为 Development 共享环境变量 3. 备注:补充源码推断不出的信息 4. v0.json:v0 自动生成,通常无需手改 5. 审查 starter:v0 构建一个小型启动应用,暂停等你批准后才保存 v0.json:可复用设置的真实来源 它只承载"机器可复用"的部分,结构很克制: · referenceWorkspace.sources —— 只读 GitHub 参考源(最多 3 个),含 repo / ref / 挂载路径 · environment.providers —— 链接的环境变量(shared-env-vars 或 vercel-project) · starter —— 构建前应用的启动应用(通常 skill-directory 指向 assets/starter) 一个重要区分:Figma frames、文档链接、附件是导入输入,v0 会把它们"提炼"成 skill 指令和引用,而不会作为长期 v0.json 来源保留。也就是说,视觉/文档类材料是"教材",源码才是"长期凭证"。 使用与维护 · 使用:从提示工具栏附加 skill,或在提示中引用;也可从 Design Systems 页面试用内置示例。 · 更新:在聊天中告诉 v0 变更(新版本、迁移指南、破坏性变更),它会改 skill 并重新验证 starter以防回退。可重复导入的建议——GitHub 源固定到 ref,包版本固定到 package.json。 · 关键边界:更新 skill 不会自动更新已有项目。要让旧项目用上新版,需显式让 v0 用更新后的 skill 重写该应用代码。 这条边界是合理的:skill 是"未来工作的起点 + 约定",不构成对历史产出的自动迁移,避免静默改动人家的代码库。 最佳实践的三条主线 1. 来源要"真"且"新"——优先当前文档/当前包版本/可用示例,而非详尽但过时的参考;保持单一设计系统 + 单一框架栈。 2. 覆盖"运行时"层——除了组件源码,务必补齐 providers、主题包装器、字体、CSS 导入、Tailwind 配置、必需环境变量等全局设置,这些最易在源码中遗漏。 3. 凭证先行——私有包要么提前配 NPM_TOKEN,要么直接挂 .tgz,别让 v0 卡在安装环节。

译v0 推出 Design Systems 2.0,可将设计系统(组件、tokens、约定)一次性导入,此后对话均用真实组件库生成应用。该功能以一个 skill 保存,作为适配器指明源码位置、安全可用的组件/props/tokens,以及如何接入新应用。导入工作流分 5 步:收集来源(GitHub、npm、Storybook、Figma 等)、配置 NPM_TOKEN 等环境变量、补充备注、自动生成 v0.json、审查 starter 后保存。v0.json 承载只读参考源(最多 3 个)、环境变量链接和启动应用。使用时从提示工具栏附加 skill;更新需告知 v0 变更,但不会自动修改已有项目。最佳实践:来源真实且新、覆盖运行时层、凭证先行。

🚨 AI News | TestingCatalog@testingcatalog · 7天前45

OpenAI is working on support for Gifts in Codex! > Send Codex credits to a friend to help them turn their ideas into reality. Codex credits are a new currency 👀

译OpenAI 正在为 Codex 开发礼物支持! > 向朋友发送 Codex 积分,帮助他们将想法变为现实。 Codex 积分是一种新货币 👀

OpenAI Developers@OpenAIDevs · 7天前57

Builders Unscripted with @skirano Pietro talked to @romainhuet about pushing the creative edges of GPT-5.5 and using Codex to turn ideas into software. 03:45 Images into sound 07:57 Multi-agent Codex workflows 14:34 Reviving hardware with Codex 25:27 From doing to directing

译Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥

OpenAI Developers@OpenAIDevs · 7天前62

You can now spin up a persistent cloud development environment in one prompt with the @DigitalOcean plugin for Codex. It runs in your DigitalOcean account and keeps working when you step away.

译你现在可以通过 @DigitalOcean 的 Codex 插件,在一个提示词内启动一个持久的云开发环境。 它在你的 DigitalOcean 账户中运行,当你离开时仍会持续工作。

OpenAI Developers@OpenAIDevs · 7天前66

Codex in the ChatGPT mobile app is now generally available. Connect your phone and computer more securely with one-to-one device pairing. We’ve also added notifications, goals, side chat, file previews, and inline review comments. https://x.com/OpenAI/status/2055016850849993072

译OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放(GA),并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确,用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步,而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

Google AI Developers@googleaidevs · 7天前55

When we hit 2 million apps, we have to build the real statue, right?

译AI Studio 原生 Android 应用构建功能于 2026 年 5 月宣布,目前已有超过 100 万款 Android 应用在 AI Studio 中创建。主推文调侃:等达到 200 万时,是不是该建一座真雕像?

jason@jxnlco · 7天前38

tony stark does not use a keyboard, with a 2 hour voice memo, codex made: 1. a product announcement 2. a launch video script 3. and the PR

译Jason Liu 用两小时语音备忘录替代键盘操作,将对话转录输入 Codex,后者直接生成了产品公告、发布视频脚本和公关材料。引用推文补充,此前他与 @guinnesschen 进行了两小时漫谈,涵盖功能想法、设计哲学、AI 未来等,原始转录交给 Codex 后产出的 PR 和创意作品几乎完美捕捉了对话意图。

jason@jxnlco · 7天前14

when you use codex do you want to choose the model and reasoning effort yourself? should the product just pick based on the task? what would make you trust that choice? Are you someone who always uses extra high, or do you think about using low when you don't need that much thinking

译当你使用 Codex 时,你是想自己选择模型和推理努力程度吗? 产品应该根据任务自动选择吗? 什么会让你信任那个选择? 你是那种总是使用 extra high 的人,还是在不需要太多思考时会考虑使用 low?

xAI@xai · 7天前48

You can now use your SuperGrok and X subscriptions inside T3code

译你现在可以在 T3code 中使用你的 SuperGrok 和 X 订阅。

Berryxia.AI@berryxia · 7天前76

卧槽!最近开源大模型太卷了啊! 这不又一个专注agentic coding的开源模型家族来了,叫Ornith-1.0。 它覆盖了从9B到397B MoE的全尺寸,在Terminal-Bench、SWE-Bench等agent coding benchmark上达到了当前开源模型里的顶尖水平。 最有意思的是它的训练方式:不是只让模型生成答案,是用RL同时优化“任务脚手架(scaffold)”和最终解决方案,让模型自己学会怎么搭建更好的执行框架。 这个思路挺有意思的,很多agent失败不是因为不会写代码,恰恰是因为不会组织执行流程。 Ornith直接把“怎么搭框架”也变成了可学习的信号。 模型全系列MIT开源,还提供了GGUF版本,能在Ollama、Unsloth等工具里直接跑。 本地党又多了一个强力选择。 地址见评论区👇

译Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。

Rohan Paul@rohanpaul_ai · 7天前72

Another fantastic open source release. DeepReinforce just dropped Ornith-1.0, an MIT-licensed open-source family of agentic coding LLMs. The flagship Ornith-1.0-397B MoE (17B-active) is the most powerful model in the release, reporting 82.4 on SWE-Bench Verified and 77.5 on Terminal-Bench 2.1 - surpassing Claude Opus 4.7 on both benchmarks. Built on top of pretrained Gemma 4 and Qwen 3.5 Employs a novel self-improving training strategy. With this Ornith changes the training target by asking the model to improve both the answer and the task scaffold, meaning the plan, memory pattern, tool rhythm, error handling, and search process that shape the answer. During RL, the model proposes a better scaffold first, then uses it to produce solution rollouts, and the reward updates both stages together. That makes the model less like a coder following one rigid checklist and more like a coder learning which checklist works for each type of bug, repo, or terminal task. The most interesting result is the 9B model reaching 69.4 on SWE-Bench Verified

译DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。

Chubby♨️@kimmonismus · 7天前58

Google is reorganizing its AI coding strike team as it tries to close the gap with Anthropic in one of the most lucrative parts of the AI market. According to The Information, the months-old team is being expanded into a more formal "midtraining" group, sitting between pretraining and post-training. The goal is to improve Gemini’s coding abilities and extend those capabilities into broader business tasks like creating presentations. The move comes after two major departures: Noam Shazeer reportedly left for OpenAI after changes to his compute access, while Nobel Prize winner John Jumper is heading to Anthropic after recently being moved to the coding strike team. That is the uncomfortable part for Google. It has world-class researchers, TPUs, Gemini, Cloud, Search, YouTube, and enormous distribution. But coding has become the clearest monetization layer in AI, and Anthropic has turned that advantage into massive revenue momentum. Google now seems to be admitting that strong base models alone are not enough. Coding needs specialized training, dedicated compute, and a much sharper product loop.

译Google将数月前成立的AI编码突击队扩展为更正式的“midtraining”小组,位于预训练与后训练之间,旨在提升Gemini编码能力,并延伸至创建演示文稿等商业任务。此前,Noam Shazeer因计算资源变动转投OpenAI,Nobel奖得主John Jumper调至该团队后也加入Anthropic。Google承认,仅靠强大基座模型不够,编码已成为AI最明确的变现层,Anthropic借此获得收入增长。Google需专用训练、计算和更清晰的产品闭环来追赶。

🚨 AI News | TestingCatalog@testingcatalog · 7天前74

DeepReinforce has released Ornith-1.0, their new self-improving family of open-source models designed for agentic coding. > Ornith-1.0 learns to write its own task scaffolds during training rather than relying on human-designed harnesses. > The 397B MoE flagship can match Claude Opus 4.7 on coding benchmarks, and the compact 9B Dense variant is optimized for edge devices.

译DeepReinforce 发布 Ornith-1.0 系列开源模型,专为智能体编码设计。参数覆盖 9B Dense、31B Dense、35B MoE 和 397B MoE,基于 gemma4 和 qwen3.5 微调。采用自我改进训练策略:强化学习同时生成解决方案和任务脚手架。旗舰 397B MoE 在编码基准上匹配 Claude Opus 4.7,9B Dense 针对边缘设备优化。评测成绩包括 Terminal-Bench 2.1 77.5、SWE-Bench verified 82.4、SWE-Bench Pro 62.2、NL2Repo 48.2 等。全部模型以 MIT 许可证开源,可商用和研究使用。

François Chollet@fchollet · 7天前71

Agentic coding forces you to design clean interfaces and document them well. An agent cannot read the implicit mental model shared by your engineering team, it can only read your API contracts and docstrings.

译Agentic coding 迫使你设计出干净的接口,并为它们编写良好的文档。一个 AI 智能体无法读取你工程团队共享的隐性心智模型,它只能读取你的 API 合约和文档字符串。

gabriel@gabriel1 · 7天前65

"hey codex give me 20 variants of this page with one button per page to navigate between them" "okay pick variant 4" ai models are great at brainstorming and awful at making decisions, so use them as such

译“嘿 Codex,给我这个页面做 20 个变体,每页一个按钮用来切换” “好,选变体 4” AI 模型很擅长头脑风暴,但不擅长做决定,所以这样用它们就好。

Rohan Paul@rohanpaul_ai · 7天前55

The head of WhatsApp and CRED founder Kunal Shah just said that 90% of code at CRED is written by AI now. (CRED is a fintech company, and is considered one of India’s most prominent tech startups.) "10% of every tech startup’s employees are becoming a completely different species compared to the other 90%. Because their productivity is now at this exponential scale, they are actually finding every single person around them and every other process to be slow." ---- From "Thrive by Groww" YouTube channel, (link in comment)

译印度头部金融科技公司CRED创始人Kunal Shah表示,目前公司90%的代码由AI编写。他认为,每家人工智能创业公司中约10%的员工已因AI获得指数级生产率提升,与其余90%员工形成“完全不同物种”般的差距,感觉周围一切流程和人都变得缓慢。该言论来自“Thrive by Groww”YouTube频道访谈。

向阳乔木@vista8 · 7天前82

http://x.com/i/article/2070045816782217216 # 豆包Seed 2.1实测:编程可用,识鱼封神! 前天,火山引擎将在年度Force大会上发布了最新基模Seed-2.1系列(Pro、Turbo)。 模型特点在这里: > https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 到底如何,我们还是看实际场景表现。 乔帮主从常规测试、工作场景和个人爱好出发,带着大家一起测 Seed-2.1-Pro 。 一句话总结:Agent 和 Coding 迈过生产级可用线,多模态识别有惊喜! ## 小汽车测试 Django Web 框架的联合创始人之一 Simon Willison。 每次模型发布,他都会做 “鹈鹕骑车” ,来测模型推理和SVG生成能力。 最近 Reddit 流行一个新测试,我称之为“小汽车测试”,中文翻译提示词如下 > 用一个单独的 HTML 文件实现全屏画布,不使用任何库。以侧视角模拟一辆行驶中的汽车作为主体。保持汽车在前景中可见,同时背景景观持续滚动,营造出汽车向前行驶的感觉。使用分层场景实现景深效果:近处地面、路边元素、树木、电线杆以及远处的山丘或山脉应以不同速度移动,形成自然的视差效果。真实地动画化车轮旋转,并添加细微的车身运动,使汽车感觉与道路相连。让环境在车后平滑地流过,场景重复但富有变化,使运动感觉真实可信。使用电影级光效和统一的天空(如日落、黄昏或日光)来增强氛围。整体运动应感觉平静、沉浸且真实,具有无缝循环动画效果。 这个测试很妙,一次性考察大模型物理建模、无缝循环动画、空间层次、美学和编程能力。 如果模型编程能力不强,很难通过测试,因为要求不能用第三方库,只能从头生成原生 JS 代码。 JS 代码一旦出错,很容易白屏加载不出画面。 Seed 2.1 Pro 出来效果如下,感觉有点超预期。 虽然背景树木时高时低有点怪,小汽车轮子太靠上,但整体完成很不错。 ## 前端网页开发 用大模型,很多时候是为了开发网站,前端网页开发能力多少得测下,提示词如下: > 设计并实现一个面向 CFO 的「AI 财务预测平台」官网首页,要求包含首屏 Hero、可信客户 Logo、3 个核心卖点、一个实时财务预测仪表盘预览、客户证言、价格入口和 CTA。输出可运行的单文件 HTML/CSS/JS 或 React 组件。要求视觉风格接近 Linear/Stripe/Notion 的高级感,但不能照抄任何品牌。 界面简洁清晰,提示词遵循也不错,图表展示效果不错,但整体中规中矩,算符合超预期。 https://www.32kw.com/view/ed38b2d ## 后台功能开发 身边 AI Coding 厉害的朋友,现在都是用文档驱动开发(Spec开发)。 先让 AI 生成需求文档,自己检查没问题后,丢给 AI 开发即可。 最常见案例就是开发个 CMS(内容管理系统),大部分网站基础就是这个,复杂点会加上注册登录、用户权限管控、页面SEO页面优化、Rest API 等。 试下 Seed 2.1 Pro 是否能完美执行这套工作流: > 读取这个PRD,开发CMS系统:[文档地址] Seed 2.1 Pro 选择了 nextjs 框架、sqlite数据库,还设计了 REST API 接口。 5 分钟左右完成开发,增删改查正常,功能完全符合文档要求,除界面不够 fancy,挑不出别的问题。 这么看,一些常规编程任务也可以用 Seed 2.1 Pro 了。 ## 生成炸裂标题 不是人人都需要编程,但日常写文章,取个标题,是最常见不过的任务。 大聪明(赛博禅心)一直跟我说,做自媒体要研究新智元。 喷归喷,但人家起标题真的是一绝。 新智元发布了5000多篇文章,让 AI 分析了 2688 篇,提炼了一套新智元标题生成 Skill > npx skills add joeseesun/qiaomu-xinzhiyuan-title 虽然用 Prompt 也能生成标题,但用 Agent 能读取飞书、公众号页面,再参考 Skill 的 Reference 文档,生成标题质量更稳定、更轻松。 这里我们继续用开篇文章,提示词也简单: > 用新智元标题Skill生成10个候选标题,读取这里的内容:https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 是不是有那个味道了?😂 没想到老实巴交的豆包 Seed 2.1,也能瞬间变标题党,相当炸裂! ## 竞品调研报告 很多人的日常工作,经常要做一些产品分析调研,把下面提示词发给 Seed 2.1 Pro: > 调研 3 个「AI 会议纪要工具」的官网、价格、核心功能、集成生态、隐私合规表述和用户评价。输出一张竞品矩阵,并给出面向中小企业的 MVP功能优先级、差异化定位和 90 天 Roadmap。 生成内容很长,我补了一句:“写入飞书文档”,精准调 lark-doc 写入文档,效果如下: 指令遵循不错,各项任务都完成了。 直接抓取被拦截时,还会调用 Playwright 读页面获取信息。 ## 生成信息卡图 将任意文本或链接一键转化为杂志质感信息卡片,自动截图输出图片,适合分享到 X、小红书、微信。 先安装下面乔帮主的 Skill > npx skills add joeseesun/info-card-designer 然后把开篇的微信文章发给 Seed 2.1 Pro,提示词: > 读取 https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 用信息卡skill生成卡片 默认生成了蓝紫渐变图 😂 ,让它调整生成白色简洁风格信息图。 ## 制作电子书 互联网上有些博客写的非常好,很值得做成 epub 电子书,导入微信读书随时看。 安装下面的 Skill,一句话生成电子书。 > npx skills add joeseesun/qiaomu-epub-book-generator 比如 Paul Graham 的博客,常读常新。 此任务可以测试 Seed 2.1-pro的 Skill 调用和执行能力,提示词很简单: > 抓取 Paul Graham 最新 x 条博客,用乔木 epub 制作 skill 生成epub电子书 不仅顺利下载翻译博客文章为中文。 还能遵循 Skill 封面设计规范,先设计网页,再调用 Playwright 截图,生成电子书封面。 ## 拍照识鱼 乔帮主作为钓鱼佬,最近在开发一款自用 iOS App。 产品需求:拍照后 AI 自动读取相片 exif 信息记录钓点,同时识别渔获,什么鱼种,有几条。 之前测试 Gemini 3.1 Flash,竟把白条识别成“泥鳅”,非常恼火。 听火山发布会说 Seed 2.1 Pro 多模态不错。 抱着试试看心态,给了一张没抹去 exif 信息的图片,输入提示词: > 读取这张图片的地理位置信息,并识别图中有几条鱼,什么鱼 附件原图: 结果让人感动,不仅调用 exif 工具读取了图片地理位置(温榆河),还准确识别了鱼种和数量。 连泥水中看不太清楚的两条都识别到了,还给我科普了白条的拉丁名和其他俗名,震惊! > 鱼种:几乎全是白条鱼(学名䱗,Hemiculter Leucisculus,俗称餐条、青鳞子、游刁子) 我的钓点记录 App 终于有救了。 ## 如何体验? 虽然豆包专业版-办公模式、TRAE、TRAE WORK、扣子都上线了 Seed-2.1-Pro。 但企业和专业用户一般会接 API,在Claude Code等工具中使用。 为还原实际能力,避免产品系统提示词影响,上面测试都用是 CC Switch + 火山方舟 API ,终端用的 cmux。 ## 写在后面 可能最近牛 X 模型太多了,豆包 Seed 2.1 Pro 感觉稍微有点中规中矩。 好消息是 Agent 能力达到可用线,常规编程、调工具、写文档、截图、生成电子书都能搞定,这对依赖 AI 工作流的人来说,体感差异很明显,且价格还不错。 最大惊喜来自多模态,至少我测试的场景,明显领先 Gemini 3.1 Flash。 等后面有空我再测下自动化视频剪辑,这个更考验多模态实力。 上面测试的 Skill 都是开源的,直接 ⁠npx skills add 就能用。 如果想在 Claude Code 中调用,直接去火山方舟申请 API 即可,已经全量开放。

译火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

Orange AI@oran_ge · 7天前64

http://x.com/i/article/2070039227166072832 # 大模型的ROI定律 昨天 Seedance 2.0 出了 4K 模型。有人用了一下,算了算价格就被惊到了: 一条 15 秒 4K 视频大概 88 块,一条一分钟的广告片,算上抽卡大概 700 块。 是的,这个模型是很贵的。 但这么贵的东西,每天给字节带来的收益超过 3000 万人民币。 而且官方 API 没有任何折扣,代理商加价 1.2 到 1.5 倍在卖,依然供不应求。火山引擎那边90%的小客户根本无人接待,因为大客户太多了,用量夸张到服务不过来。 这里的大客户也不是以前那种大公司,而可能只是一个10人团队,每年就可以消耗500万。 一个东西又贵又抢手,只能说明一件事:在买它的人眼里,它是便宜的。每一笔交易能成交,都是因为买卖双方都觉得自己赚到了。 就跟股票一样,每一次成交背后,双方各自认为这笔交易对自己有利。能成交,就证明价值远高于价格。 就像一条一分钟的广告片,成本是 700,在外面的报价是多少钱呢,1万起步。 ## AI 视频的 ROI 昨天和一堆朋友聚餐,大家聊到很多有趣的观察。 歸藏说他现在看红果短剧,里面已经全都是 AI 短剧了。 红果是完全靠算法推荐的短剧平台,这说明在短剧的 ROI 方面,AI 短剧已经完全碾压真人短剧了。 算法的背后,就是人们生理性的爱看。 电影电视本质上是造梦的艺术。 短剧的大制作不多,大多预算都很低。在极限压缩成本的情况下,真人短剧不可能精致,只能凑合。 AI 生成的画面没有凑合这个概念,每一帧都是它能做到的最好。 在造梦这件事上,AI 的 ROI 是碾压级的。 ## 大语言模型的 ROI 说完短剧和视频模型,再来说说大语言模型的 ROI。 为什么现在所有大模型公司都在做 coding? 技术上的原因当然是 Coding 的可验证性最好。 但更深层次的原因是 ROI 的计算。 RL 是一个通用的技术,并不局限于领域,善恶都可以被 RL。 但模型训练要选场景,肯定选价值最高的,因为每个团队的算力、精力、时间都是有限的。 这样,Coding 就同时成了中美大模型公司的第一选择。 据说 OpenAI 的研究员在选方向的时候,就是把各个把职业按 GDP 贡献占比排序,排在前面的优先去做 RL 和 scaling。 金融、法律、咨询、技术、生物医药。 可以做的事情很多的时候,就出现了机会成本的选择。 这就是大模型公司分配资源的 ROI 算法,他们管这个叫 Agentic ROI。 ## 大模型的 ROI 定律 经济学里有一个经典原理:资源有限的时候,资本一定流向边际收益率最高的地方。 这是市场最基本的运作方式,钱会自己找到最值得去的地方。哪里回报高,钱就往哪里涌。 大模型行业也有完全一样的规律: 大模型的 ROI 定律:资源有限的时候,算力和资本一定流向边际收益率最高的地方。 这个定律包含了两个层面的推论: 推论一: 模型公司选高价值场景来训练,因为训练成本高,必须投值得的方向,才有 ROI。 推论二:用户选高价值场景来用,因为调用成本高,必须用在算得过来收益的事情上,才有 ROI。 两边的逻辑完全一致。 ## 大模型 ROI 定律对我们的启发 没有找到 AI 价值场景的人,觉得 AI 没什么用,贵,玩玩就算了。 找到了真实场景的人,觉得 AI 太有用了,恨不得显卡再多一点。 同一个模型,同一个价格,两种完全不同的感受。区别只在于你能不能用它创造出超过成本的价值。 昨天向阳乔木跟我说了一件事。他看到妹妹在用一个很中庸的大模型,于是就向她推荐了一个好的模型。 他妹妹用了之后跟他说:我过去一个礼拜过的事情都白做了,它一次就给我做好了。 一个礼拜的时间,换成一次对话。如果你把时间算进 ROI,这个模型其实便宜到离谱。 我们使用生产力工具的核心是用这些东西是为了解决问题。问题解决了,ROI 就出来了。 不要老盯着价格本身看,要看它帮你省了多少时间、创造了多少价值。 ## 反过来想,一定要反过来想 跟同行交流的时候,发现很多人老期待 AI 免费、AI 降价。 但有没有可能,如果能免费那反而是大公司的大机会,和你关系不大。 反而是今天比较贵的情况下,有很多小场景值得去挖掘,你才有机会。 也不要觉得场景小。卖千元机和卖 iPhone,同样数量,肯定是卖 iPhone 赚得多。 不然为什么只有 iPhone 黄牛,没有红米黄牛呢。 如果你都能卖得动的话,贵一点的永远是更好的。 做应用创业也好,做产品也好,要找到一个新的价值,不要老想去替代以前的东西。替代是存量竞争,发现新价值才是增量。 ROI 不要只看 I,更重要的是看 R。 ## 如果大模型就是电网 大家都说模型是未来的水电煤,此话不假。 现在很多人,甚至传统行业、能源行业、政客,都在做中转站的生意。 AI 是水电煤,我做电网配套设施,分一杯羹,稳定不赔。 另一种思路:找到一个高价值的场景,才能把 token 卖出溢价。 爱迪生的电厂客户,最开始全是华尔街的金融机构和高档办公室。 这是生产力使用的 ROI。 ## 找到自己的 10 倍 ROI 但每个事情做起来,都是【值得我做】和【适合我做】的交集。 大家都知道有本书叫 10x 比 2x 更容易。 它的核心原理是你要找到自己比别人好 10 倍的地方,才能做出比别人好 10 倍的产品和服务。 以前是生产力匮乏的时代,你只要满足了用户需求,或比别人好一点点就可以了。 现在是生产力过剩时代。只有 10 倍好,用户才会迁移,用户才会付钱。你比别人好 2 倍,人家懒得动的。 【(新体验/旧体验)>10=用户迁移】 获得用户不再是普通的减法,而是10倍好的乘法。 所以不要随波逐流,不要看别人做什么就跟着做什么。 把你的注意力钉在你比别人好 10 倍的地方。找到那个锐利的切入点。 用同样的时间和精力,你能不能做出比别人好 10 倍的东西? 这是投资时间和注意力的 ROI。 ## 为什么要叫它"定律" 大模型的 ROI 定律:资源有限的时候,算力和资本一定流向边际收益率最高的地方。 文章要看完了,你会发现这个东西这么简单,道理我们都懂啊,为什么还要叫定律呢? 越是简单的道理,越容易被忽略。 ROI 定律就是这么简单的东西,但很多人在思考 AI 的时候都会忘掉它。 可能还是移动互联网时代的思想钢印太重了吧。 让我们把【服务大量免费用户】这样天真的观念从脑子里抛开吧。 正视高贵的价格,为它找到高价值的场景。 尊重你自己的时间,算出你自己的 ROI。

译字节Seedance 2.0推出4K视频模型,一条15秒4K视频约88元,一分钟广告片约700元,但官方API无折扣,代理商加价1.2-1.5倍仍供不应求,每天为字节带来超3000万元收益。红果短剧平台AI短剧已完全碾压真人短剧,ROI优势显著。大模型公司优先选择coding等高价值场景训练,遵循“资源有限时,算力和资本流向边际收益率最高处”的ROI定律。用户应关注价值而非价格:若能用AI创造超过成本的价值,再贵的模型也划算。找到自己比别人好10倍的场景,才能获得10倍ROI。

向阳乔木@vista8 · 7天前59

飞书Cli + Codex,连记账软件都不需要了! 做法: 1. 安装飞书cli,终端输入指令: npx @larksuite/cli@latest install 2. Codex中创建一个项目文件夹:日常开销记录 3. 跟 Codex 说:创建个多维表格,用于日常开销记录 对话就能记账,还能持续迭代表头。 手机打开多维表格能查看修改

译通过飞书Cli工具与Codex结合,实现自然语言记账:终端执行`npx @larksuite/cli@latest install`安装飞书Cli,再在Codex中创建“日常开销记录”项目,用对话指令生成多维表格,之后可直接在手机端查看和修改,无需额外记账软件。

OpenClaw🦞@openclaw · 7天前14

Check out episode 1 of The Clawcast, our official OpenClaw podcast, with @hrudolph, @Pat_Erichsen, and @GosuCoder! Great convo around skills, Clawhub, securing OpenClaw deployments, and more. https://youtu.be/IfJJnR1LIE0?si=ruSYAHPE-QqYxoTR

译收看 The Clawcast 第一集,我们的官方 OpenClaw 播客,嘉宾 @hrudolph、@Pat_Erichsen 和 @GosuCoder! 围绕技能、Clawhub、保障 OpenClaw 部署等话题的精彩对话。 https://youtu.be/IfJJnR1LIE0?si=ruSYAHPE-QqYxoTR

jason@jxnlco · 7天前9

Recognize any of these?

译认出这些了吗?

宝玉@dotey · 7天前73

如果你 token 多的用不完,又没啥好玩的事情,给你一个项目 decode-codex 玩玩:反编译 Codex App 代码 这个项目当前就两个 Skills: 1. codex-app-ref-refresh skill 解包已安装的 http://Codex.app(app.asar)到 ./ref 并格式化./ref/ 2. deobfuscate-javascript skill 把 ref/webview/assets 里打包的 JS 反混淆成命名有意义的可读代码./restored/ 用法很简单,确保你安装了 Codex App。 先使用 codex-app-ref-refresh skill 把里面的代码解包提取出来。 然后使用 deobfuscate-javascript skill 把提取出来的代码变成可以正常阅读的代码,这一步要配合 /goal,不然还原不了多少文件。 项目地址:https://github.com/JimLiu/decode-codex 建议 fork 到自己的Repo,自己测试。

译宝玉分享 GitHub 项目 decode-codex,用于反编译闭源 coding agent Codex App。项目含两个 Skills:codex-app-ref-refresh(解包 app.asar 并格式化)和 deobfuscate-javascript(反混淆 JS 为可读代码)。用法:先解包再反混淆,后者需配合 /goal。用户 @LinearUncle 此前询问反编译模型推荐,宝玉以此项目回应。项目地址:https://github.com/JimLiu/decode-codex

meng shao@shao__meng · 6月25日47

165K ✨ 开源 Skills 系列 Skills For Real Engineers 新添一个 Skill「loop-me」:目前还在 in-progress 阶段,在多轮会话里,用当前目录作有状态工作区,通过「拷问」把想法磨成可落地的工作流规格。 https://github.com/mattpocock/skills/tree/main/skills/in-progress/loop-me loop-me 和 grill-me 共用 grilling 纪律,但产出物不同: · grill-me 对齐任意计划 · loop-me 只产出 workflows/*.md # loop-me 核心概念 Loop 透镜 Loop = 生活中可识别的重复模式:职业节奏、每周节奏、早晨例行、某类固定活动。生活可被看成「大 loop 套小 loop」。 价值在于:可预测 → 可委托。Agent 应主动帮用户发现「你没意识到但在重复做的事」,而不只写用户已说出的那几项。 Workflow Workflow = 某一个 loop 的规格说明书;loop 的一次运行 = 该 workflow 的一次实例。 规格存放在 workflows/*.md,是唯一真相源。会话过程中可创建、编辑、删除这些文件,随拷问推进而收敛。 拷问纪律(grilling) · 一次一问:多问并行会让人迷失 · 每问附带推荐答案:降低回答成本,加速收敛 · 走完整棵决策树:分支依赖逐个解决 · 能查代码库就先查:不把本该自己调研的问题抛给用户 · 有状态:跨会话延续,工作区文件承载进度 完成标准(Definition of Done) 实现 agent 读 spec 后不需要再问任何问题。 拷问未消尽疑点 = 未完成。这与 to-prd(从已有对话合成 PRD)不同:loop-me 是主动挖空未知,直到 spec 自洽。 设计哲学(精简) 1. 从重复模式出发,而非从「我要一个 AI agent」出发。 2. 规格是唯一交付物;实现是后续步骤。 3. 人类时间最贵——Push right + Brief,把人的角色压缩为「晚到的单次决策」。 4. 反模板化——结构由场景决定,不由 skill 预设。 5. 状态外置到文件,支持跨会话、可版本化、可 diff。 在 Skills 生态中的位置 👇

译开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

meng shao@shao__meng · 6月25日65

The Coming Loop @mitsuhiko 即将到来的 Loop 与我们让渡的判断力! 在 Claude Code 构建者 Boris Cherny 和 OpenClaw 构建者 Peter Steinberger 几乎同时提出「Loop Engineering」的概念后,这篇对 Loop 的反思更值得认真阅读。 https://lucumr.pocoo.org/2026/6/23/the-coming-loop/ 把 Loop 区分为两层循环 1. 内层是 agent loop(模型说"完成"即止) 2. 外层是 harness loop——由 harness 判定"完成"是否为真,否则续接 session、注入任务、转交他机,把任务生命延长到模型本会主动停下的点之外。 对 loop 的抗拒:循环放大了 LLM 代码的系统性缺陷 LLM 产出的代码本就过度防御、回避强不变量、用 fallback 兜底而非让坏状态不可表达(Karpathy 称其"恐惧异常")。 循环会放大这一倾向:每轮叠加一层局部防御,系统在看似更健壮的同时变得更难理解,越放手越严重。 作者甚至判断,当下放手式 harness 产出的代码反而不如去年秋天——因为模型现在能连续无人干预运行数十分钟。 loop 真正有效的领域及共性 移植(Bun 从 Zig 到 Rust、MiniJinja 到 Go)、性能探索、安全扫描、研究——共性是要么不产生新代码(只变换已有代码),要么产出无需长寿(POC、机械翻译)。 关键在于 harness 续接所需的信号不必客观二元,只需"有用到足以驱动下一轮"。 核心隐喻:从"机器"到"有机体" · 传统工程文化追求可剥开理解的确定性机器 · LLM 把我们推向"软件即有机体"——用机器写、用机器诊断施治、生产事故首步已是机器读日志提补丁并被另一机器 review 合入。 我们治疗、监控、稳定它,但未必理解它。 为何无法退出:安全与竞争的双重夹击 即便你不 loop,攻击者与安全研究者会持续对你的软件 loop(curl 维护者已被 AI 报告淹没,防御方也不得不 loop 来分流复现);竞争上,少数掌握机器编排的团队将以极小规模跑出过去几十人的速度。速度、试错、覆盖率至上的领域,循环几乎无可阻挡。 最深的隐忧:认知依赖 金钱依赖之外更危险的是认知依赖。 若代码库由循环产出、review、打补丁、维持生命,一旦失去同类系统访问权(贸易限制、成本失控、或团队彻底丧失不靠机器理解代码的能力)将如何? 这已在发生:人合并不完全能解释的代码,不借 LLM 就写不出 issue、聊不清问题。 本质:判断与责任的让渡 内层循环里人仍 steering、能学习;外层循环里"完成"信号失去意义,只被传递给另一台机器评判,人的角色退化为信使。 作者立场清醒:问题不再是"是否会 loop"(答案已是"会"),而是"在循环的未来里,如何不让渡判断力、保留工程规则、确保人能持续监督、重新思考代码架构以维持理智"。 他对 Pi 的态度亦如此——不抵制循环,但必须主动实验以理解如何让这个未来有界、可存活。

译文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。

MiniMax (official)@MiniMax_AI · 6月25日40

M3 is now the default builder model in Kimchi Coding by @cast_ai not every coding task should go through the same model. Kimchi routes work based on complexity, cost, and deployment needs. that makes it a natural fit for M3: open weights, 1M context, and strong coding performance with more control. article in the comments. #MiniMaxM3 #AICoding

译M3 现在已成为 @cast_ai 旗下 Kimchi Coding 的默认构建模型。 并非所有编码任务都应使用同一个模型。Kimchi 根据复杂度、成本及部署需求来路由任务。 这使得 M3 成为自然之选:开放权重、1M 上下文、更强的编码性能且更可控。 文章见评论。 #MiniMaxM3 #AICoding

Nathan Lambert@natolambert · 6月25日53

GLM 5.2 being on the Opus frontier for cost of CursorBench is what drives frontier lab margins down

译GLM 5.2 在 CursorBench 上处于 Opus 前沿(在成本方面),这正是导致前沿实验室利润下降的原因。

Lee Robinson@leerob · 6月25日65

You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. Results from our evals ↓

译你现在可以在 Cursor 中试用 GLM 5.2! 很高兴看到更多有用的开放模型,感谢 Fireworks 在此合作。我们的评估结果如下 ↓

Orange AI@oran_ge · 6月25日50

AI 行业商业化的本质可能是 2boss 程序员不愿意为软件付费 但 Claude 和 codex 这样的东西,老板愿意为程序员付费 中国人不愿意为软件付费 但 seedance 这样的东西,老板愿意为抽卡员付费 中国 2B 进入了历史上最有趣的 2 boss 时刻 老板的买单意愿非常强烈,甚至有些焦虑 这是一个挺大机会 当然 独立开发者还是愿意为了 codex 付费的 自媒体和短剧 OPC 也愿意为了 sd 付费的 不过他们其实也是自己的 boss

译AI 行业商业化的核心是“2boss”——付费方不是使用者(程序员、抽卡员),而是他们的老板。以 Claude/Codex 和 Seedance 为例,老板愿为提升效率的工具付费。中国 2B 市场进入“2boss”时刻,老板买单意愿强烈;独立开发者等自费者也扮演自己的老板。

Nathan Lambert@natolambert · 6月25日68

A much needed data release! Excited to tinker with the data.

译如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Ethan Mollick@emollick · 6月25日31

The ability of Codex (and Code) to solve problems on my various Windows machines has saved me so much effort. Just one of the most annoying uses of time, and an example of a clear small win.

译Codex(和Code)在我各种Windows机器上解决问题的能力为我节省了大量精力。这只是最令人烦恼的时间消耗之一,也是一个明确的小胜利的例子。

Berryxia.AI@berryxia · 6月25日61

大家都在疯狂建“能做一切”的AI Agent…… 但Matt Pocock最新发布的 /loop-me 技能反而反其道而行。 它先强迫你把自己的日常工作彻底“审一遍”,找出真正值得委托给AI的重复循环。 这不是又一个“让AI替你干活”的玩具,而是帮你把混乱的日常工作系统化、精确化的利器。 很多开发者用AI写代码、处理任务时,最大的问题不是AI不够聪明,而是你自己都没想清楚哪些事是重复的“loop”,哪些该自动化、哪些该留给人。 Matt Pocock的skills库一直强调“真实工程”而非vibe coding,这次 /loop-me 就是针对这个痛点。 后果:用完之后,你会得到一系列清晰的 `workflows/.md` 规范文件。 一个实施者(人类或AI)看完就能直接执行,不用再来回问问题。 结果是:认知负荷大幅下降、可重复工作真正被委托出去、你的时间能聚焦在高价值决策上。 别人最容易忽略的细节: - 它用的是“grilling”严苛面试法:一次只问一个问题,还附带推荐答案, relentless( relentless)追问直到模糊点全部消除。 - 核心概念是“Loop”(循环):把你每天/每周重复的模式提炼出来,再定义Trigger、Checkpoint、输出等。 - 最终产出必须达到“完成的定义”——任何实施者都不需要再问任何问题。 - 目前是进行中状态,但已经能直接用,还会持续迭代。 - 它不是让你直接让AI接管,而是先帮你把“什么该接管”这件事彻底想清楚。 这才是真正聪明的AI使用方式:不是盲目让AI干活,而是先把自己的工作流程打磨到能被AI理解的程度。 你会试试 /loop-me 吗?还是更喜欢直接扔任务给AI? 地址见评论区👇

译Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 `workflows/.md` 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。

Rohan Paul@rohanpaul_ai · 6月25日64

Genspark just launched Genspark Design. Turns rough prompts into editable UI, posters, videos, HTML animations, and working code through Claude Opus 4.7. The point is that it treats design as a reusable system, not a one-off image, so logos, colors, typography, spacing, and components can be saved once and applied across new assets. the most useful idea here the is layered output, where text, images, backgrounds, and components stay separate, so users can revise the design itself instead of asking the model to regenerate everything. One prompt or brief can become a UI prototype, social kit, landing page, animation, or video, while keeping the parts editable rather than flattened into a pretty dead end.

译Genspark 推出 Genspark Design,由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统,支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出:文本、图像、背景、组件保持分离,用户可直接修改设计本身,无需要求模型重新生成。支持上传 Figma 文件或保存设计,一键生成可交付代码(基于 Genspark Code),无需设计背景即可使用。

Berryxia.AI@berryxia · 6月25日67

ACL 2026发表,Github 开源斩获7200星! EverOS 让AI Agent记住一切,27B模型碾压397B! 每一个用过AI写代码的人都经历过这件事。 早上打开终端,跟AI说"继续昨天的工作"。 AI问你:什么工作? 你昨天花了三个小时解释你的代码库结构,你告诉它为什么不用Redux而用Zustand。 你让它记住你偏好函数式写法,你花了一个小时调通了一个bug,它帮你找到了根因。 今天早上,全部消失了。你需要从头再来。 这其实不是Bug,这是当前所有AI Agent的默认状态。 它们没有记忆,每次对话都是一张白纸。 2026年,一个叫EverOS的项目在ACL上发表。它不是又一个向量数据库,不是RAG换了更好的Prompt。 它是一个完整的记忆操作系统,坐在AI Agent的底层,让它真正记住事情。 核心技术叫HyperMem。 传统记忆方案是把文本切成块,转成向量,存进数据库,每次对话时搜索最相似的片段还给你。这是平面查找。 EverOS用超图结构组织记忆——主题层、事件层、事实层,一条超边连接多个节点。跨时间关联和多跳推理内建在结构里。 结果是,长期对话任务的召回率超过93%。传统RAG大约45%。 但真正让人震惊的数据是另一个。他们的基准测试显示,给一个27B参数的模型加上Skills自进化策略,任务成功率提升234.8%。性能追平了397B的模型。 一个小15倍的模型,因为有了记忆,打败了没有记忆的巨型模型。 这不是在说记忆是一个好功能,这是在说记忆是基础设施。 没有记忆的模型就像没有硬盘的电脑,CPU再强,每次重启都归零。 安装只需要三行命令。 所有记忆以Markdown文件存储,可以用Git版本控制,可以在Obsidian里打开,可以用grep搜索。本地优先,不依赖MongoDB、Elasticsearch或Redis。 GitHub上斩获7200颗星,14个fork。 Apache 2.0协议。支持Claude Code、Codex、OpenClaw等主流Agent框架。 有人用它做了阿尔茨海默症辅助记忆系统。 有人集成到AI可穿戴设备,25个可运行的用例。 问题已经不是AI能不能记住事情。 问题是,当AI开始记住一切,你会怎么用它。 项目地址:https://github.com/EverMind-AI/EverOS

译ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。

向阳乔木@vista8 · 6月25日58

字节火山引擎大会上洪定坤的分享,有几点值得参考: 1. 用原型驱动开发:用 AI 生成可交互原型替代 PRD,基于这个讨论,提前暴露分歧。 2. AI Development系统化:AI写 Spec → 功能实现→ Browser Use 验证→自动提交上线 3. Harness 基建:上下文工程 + 架构约束 + 团队知识 Memory + 技术债梳理 ,能把可交付性从 40~60 分提到 80 分 原文见评论

译字节火山引擎大会上,洪定坤分享了AI开发的三个核心方法论:1. 原型驱动开发——用AI生成可交互原型替代PRD,提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理,能将可交付性从40~60分提升至80分。

Lee Robinson@leerob · 6月24日61

Personal update, I'm starting a new role at Cursor! I'm moving into ML, working on training Composer. I'll be researching how to improve model behavior and personality.

译个人动态,我在 Cursor 开始新职位! 我正在转向 ML,负责训练 Composer。 我将研究如何改进模型行为和个性。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月27日
00:23
Rohan Paul@rohanpaul_ai
同事件精选83
OpenAI Codex 2026年上半年活跃用户增长超5倍,非开发者增速最快

OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。

智能体OpenAI编码行业动态
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
推荐理由:非开发者半年增长137倍,Codex从工程师帮手变成全组织的自动化引擎,这是AI工具走出专业圈的第一个规模化证据,企业决策者该认真评估了。
00:18
Ethan Mollick@emollick
55
一项很棒的实验,测试AI在极为雄心勃勃的端到端编码任务上的表现。Opus 4.7在14小时内构建了一个人类工程师需要2-17周才能完成的软件包。成本251美元。 模型还不完美,但进步迅速。
编码评测/基准
6月26日
23:44
Epoch AI@EpochAIResearch
63
AI能执行的最大软件工程任务是什么? 为此,我们构建了MirrorCode,一个长期SWE基准测试,允许AI一次自主编程数天。 最好的模型完成了一些我们估计人类工程师需要数周的任务。
智能体编码论文/研究
21:13
eric zakariasson@ericzakariasson
68
Eric Zakariasson:用AI智能体编程的"人参与循环"工作流

Eric Zakariasson 分享其AI智能体编程工作流:先设定可验证的完成标准(如模型评估分、测试全绿、p95阈值等),再将任务包装成循环——智能体反复修改、测量、保留或回退,直到达标、多轮无改进、思路用尽或遇阻。通过MCP和/notify向Slack发送通知,需要决策时主动联系人类。循环在云端运行,可同时启动多个长循环,并穿插PR、一次性调查等短任务。提示词模板用/loop驱动迭代、/notify保持更新。

智能体教程/实践编码
20:05
Chubby♨️@kimmonismus
77
Ornith-1.0 是专为智能体编程设计的开源大语言模型家族,提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种尺寸。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架与解决方案的自我改进策略。在多个编码基准上取得开源模型最优:Terminal-Bench 2.1(77.5)、SWE-Bench Verified(82.4)/ Pro(62.2)/ Multilingual(78.9)、NL2Repo(48.2)、SWE Atlas(QnA 41.2 / RF 42.6 / TW 39.1)、ClawEval(77.1)。所有模型以 MIT 许可证开源,支持商业与研究使用。主推文称其 397B 版本性能媲美甚至超越 Claude Opus 4.8。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

开源生态模型发布编码
09:22
meng shao@shao__meng
67
v0 发布 Design Systems 2.0

v0 推出 Design Systems 2.0,可将设计系统(组件、tokens、约定)一次性导入,此后对话均用真实组件库生成应用。该功能以一个 skill 保存,作为适配器指明源码位置、安全可用的组件/props/tokens,以及如何接入新应用。导入工作流分 5 步:收集来源(GitHub、npm、Storybook、Figma 等)、配置 NPM_TOKEN 等环境变量、补充备注、自动生成 v0.json、审查 starter 后保存。v0.json 承载只读参考源(最多 3 个)、环境变量链接和启动应用。使用时从提示工具栏附加 skill;更新需告知 v0 变更,但不会自动修改已有项目。最佳实践:来源真实且新、覆盖运行时层、凭证先行。

v0: v0 Design Systems 2.0 is here. Import your design system from GitHub, npm, Storybook, Figma, and more. Build with your r...

GitHub产品更新编码
08:15
🚨 AI News | TestingCatalog@testingcatalog
45
OpenAI 正在为 Codex 开发礼物支持! > 向朋友发送 Codex 积分,帮助他们将想法变为现实。 Codex 积分是一种新货币 👀
OpenAI产品更新编码
06:51
OpenAI Developers@OpenAIDevs
57
Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥
智能体OpenAI教程/实践编码
05:51
OpenAI Developers@OpenAIDevs
62
你现在可以通过 @DigitalOcean 的 Codex 插件,在一个提示词内启动一个持久的云开发环境。 它在你的 DigitalOcean 账户中运行,当你离开时仍会持续工作。
OpenAI产品更新编码
05:21
OpenAI Developers@OpenAIDevs
精选66
OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放(GA),并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确,用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步,而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

OpenAI: You've been asking for this one... Now in preview: Codex in the ChatGPT mobile app. Start new work, review outputs, stee...

OpenAI产品更新编码

推荐理由:Codex 移动端全面开放,终于可以在手机端管理编码任务了,对习惯远程操控的开发者是个实用里程碑。
04:45
Google AI Developers@googleaidevs
55
AI Studio 原生 Android 应用构建功能于 2026 年 5 月宣布,目前已有超过 100 万款 Android 应用在 AI Studio 中创建。主推文调侃:等达到 200 万时,是不是该建一座真雕像?

Google AI Studio: May 2026: we announced native Android app building in AI Studio Today: more than 1M Android apps have been created in AI...

Google产品更新端侧编码
03:13
jason@jxnlco
38
Jason Liu 用两小时语音备忘录替代键盘操作,将对话转录输入 Codex,后者直接生成了产品公告、发布视频脚本和公关材料。引用推文补充,此前他与 @guinnesschen 进行了两小时漫谈,涵盖功能想法、设计哲学、AI 未来等,原始转录交给 Codex 后产出的 PR 和创意作品几乎完美捕捉了对话意图。

Guinness Chen: Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...

OpenAI教程/实践编码语音
02:43
jason@jxnlco
14
当你使用 Codex 时,你是想自己选择模型和推理努力程度吗? 产品应该根据任务自动选择吗? 什么会让你信任那个选择? 你是那种总是使用 extra high 的人,还是在不需要太多思考时会考虑使用 low?
OpenAI大佬观点编码
01:47
xAI@xai
48
你现在可以在 T3code 中使用你的 SuperGrok 和 X 订阅。
xAI产品更新编码
00:19
Berryxia.AI@berryxia
精选76
Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模

Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码

推荐理由:Ornith-1.0 不是又刷 benchmark,而是第一次把‘任务脚手架’的生成也纳入 RL 优化,这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF,本地党可以立刻跑起来。
6月25日
23:53
Rohan Paul@rohanpaul_ai
72
DeepReinforce 发布开源智能体编码大模型家族 Ornith-1.0(MIT 许可)

DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码
23:35
Chubby♨️@kimmonismus
58
Google重组AI编码突击队为"midtraining"小组,缩小与Anthropic差距

Google将数月前成立的AI编码突击队扩展为更正式的“midtraining”小组,位于预训练与后训练之间,旨在提升Gemini编码能力,并延伸至创建演示文稿等商业任务。此前,Noam Shazeer因计算资源变动转投OpenAI,Nobel奖得主John Jumper调至该团队后也加入Anthropic。Google承认,仅靠强大基座模型不够,编码已成为AI最明确的变现层,Anthropic借此获得收入增长。Google需专用训练、计算和更清晰的产品闭环来追赶。

AnthropicGoogleOpenAI编码
22:44
🚨 AI News | TestingCatalog@testingcatalog
74
DeepReinforce 发布 Ornith-1.0 系列开源模型,专为智能体编码设计。参数覆盖 9B Dense、31B Dense、35B MoE 和 397B MoE,基于 gemma4 和 qwen3.5 微调。采用自我改进训练策略:强化学习同时生成解决方案和任务脚手架。旗舰 397B MoE 在编码基准上匹配 Claude Opus 4.7,9B Dense 针对边缘设备优化。评测成绩包括 Terminal-Bench 2.1 77.5、SWE-Bench verified 82.4、SWE-Bench Pro 62.2、NL2Repo 48.2 等。全部模型以 MIT 许可证开源,可商用和研究使用。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

开源生态模型发布编码
22:24
François Chollet@fchollet
71
Agentic coding 迫使你设计出干净的接口,并为它们编写良好的文档。一个 AI 智能体无法读取你工程团队共享的隐性心智模型,它只能读取你的 API 合约和文档字符串。
大佬观点编码
22:24
gabriel@gabriel1
65
"嘿 Codex,给我这个页面做 20 个变体,每页一个按钮用来切换" "好,选变体 4" AI 模型很擅长头脑风暴,但不擅长做决定,所以这样用它们就好。
OpenAI教程/实践编码
18:53
Rohan Paul@rohanpaul_ai
55
CRED创始人:90%代码已由AI编写,生产率差距拉大

印度头部金融科技公司CRED创始人Kunal Shah表示,目前公司90%的代码由AI编写。他认为,每家人工智能创业公司中约10%的员工已因AI获得指数级生产率提升,与其余90%员工形成“完全不同物种”般的差距,感觉周围一切流程和人都变得缓慢。该言论来自“Thrive by Groww”YouTube频道访谈。

大佬观点编码
15:37
向阳乔木@vista8
同事件精选82
豆包Seed-2.1实测:编程可用,识鱼封神!

火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

智能体多模态编码评测/基准
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
推荐理由:乔木的实测很有说服力,Seed 2.1 Pro 在编程和 Agent 任务上已能用,多模态识鱼甚至反超 Gemini,对正在选模型的开发者是及时且扎实的参考。
15:19
Orange AI@oran_ge
64
大模型的ROI定律:字节Seedance 2.0 4K视频模型日均收益超3000万

字节Seedance 2.0推出4K视频模型,一条15秒4K视频约88元,一分钟广告片约700元,但官方API无折扣,代理商加价1.2-1.5倍仍供不应求,每天为字节带来超3000万元收益。红果短剧平台AI短剧已完全碾压真人短剧,ROI优势显著。大模型公司优先选择coding等高价值场景训练,遵循“资源有限时,算力和资本流向边际收益率最高处”的ROI定律。用户应关注价值而非价格:若能用AI创造超过成本的价值,再贵的模型也划算。找到自己比别人好10倍的场景,才能获得10倍ROI。

大佬观点编码
12:07
向阳乔木@vista8
59
飞书Cli+Codex实现对话记账

通过飞书Cli工具与Codex结合,实现自然语言记账:终端执行npx @larksuite/cli@latest install安装飞书Cli,再在Codex中创建“日常开销记录”项目,用对话指令生成多维表格,之后可直接在手机端查看和修改,无需额外记账软件。

MCP/工具教程/实践编码
11:47
OpenClaw🦞@openclaw
14
收看 The Clawcast 第一集,我们的官方 OpenClaw 播客,嘉宾 @hrudolph、@Pat_Erichsen 和 @GosuCoder! 围绕技能、Clawhub、保障 OpenClaw 部署等话题的精彩对话。 https://youtu.be/IfJJnR1LIE0?si=ruSYAHPE-QqYxoTR
编码行业动态
11:12
jason@jxnlco
9
认出这些了吗?
大佬观点编码
10:21
宝玉@dotey
73
宝玉分享 decode-codex 项目:反编译 Codex App

宝玉分享 GitHub 项目 decode-codex,用于反编译闭源 coding agent Codex App。项目含两个 Skills:codex-app-ref-refresh(解包 app.asar 并格式化)和 deobfuscate-javascript(反混淆 JS 为可读代码)。用法:先解包再反混淆,后者需配合 /goal。用户 @LinearUncle 此前询问反编译模型推荐,宝玉以此项目回应。项目地址:https://github.com/JimLiu/decode-codex

LinearUncle: @dotey @lovevfp 宝哥,反编译哪个模型最强?哪些模型不会拒绝,我正在搜索你的推特帖子呢,以前我看你写的是gemini,现在呢? 这个月token 实在太富裕了,闲来无事,想反编译一个闭源的coding agent

GitHub开源/仓库编码
08:51
meng shao@shao__meng
47
开源 Skills 系列新增「loop-me」技能:通过拷问挖掘重复模式生成工作流规格

开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体开源/仓库编码
08:51
meng shao@shao__meng
65
《The Coming Loop》:AI循环工程的两层困境

文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。

智能体大佬观点编码
07:10
MiniMax (official)@MiniMax_AI
40
M3 现在已成为 @cast_ai 旗下 Kimchi Coding 的默认构建模型。 并非所有编码任务都应使用同一个模型。Kimchi 根据复杂度、成本及部署需求来路由任务。 这使得 M3 成为自然之选:开放权重、1M 上下文、更强的编码性能且更可控。 文章见评论。 #MiniMaxM3 #AICoding
开源/仓库编码行业动态
06:19
Nathan Lambert@natolambert
53
GLM 5.2 在 CursorBench 上处于 Opus 前沿(在成本方面),这正是导致前沿实验室利润下降的原因。

Lee Robinson: You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...

开源/仓库模型发布编码
06:07
Lee Robinson@leerob
65
你现在可以在 Cursor 中试用 GLM 5.2! 很高兴看到更多有用的开放模型,感谢 Fireworks 在此合作。我们的评估结果如下 ↓
开源/仓库模型发布编码
05:49
Orange AI@oran_ge
50
AI 行业商业化的本质可能是 2boss

AI 行业商业化的核心是“2boss”——付费方不是使用者(程序员、抽卡员),而是他们的老板。以 Claude/Codex 和 Seedance 为例,老板愿为提升效率的工具付费。中国 2B 市场进入“2boss”时刻,老板买单意愿强烈;独立开发者等自费者也扮演自己的老板。

大佬观点编码视频
02:19
Nathan Lambert@natolambert
68
如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Richard Zhuang: How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...

智能体开源生态模型发布编码
01:45
Ethan Mollick@emollick
31
Codex(和Code)在我各种Windows机器上解决问题的能力为我节省了大量精力。这只是最令人烦恼的时间消耗之一,也是一个明确的小胜利的例子。
OpenAI大佬观点编码
01:18
Berryxia.AI@berryxia
61
Matt Pocock 发布 /loop-me 技能:用"严苛面试法"梳理工作循环,输出可执行规范

Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 workflows/.md 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体GitHub教程/实践编码
00:18
Rohan Paul@rohanpaul_ai
64
Genspark Design 发布:由 Claude Opus 4.7 驱动的可编辑设计系统

Genspark 推出 Genspark Design,由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统,支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出:文本、图像、背景、组件保持分离,用户可直接修改设计本身,无需要求模型重新生成。支持上传 Figma 文件或保存设计,一键生成可交付代码(基于 Genspark Code),无需设计背景即可使用。

Genspark: 🎨 Introducing Genspark Design The next-gen AI for design and creation, powered by Claude Opus 4.7. From rough idea to p...

产品更新多模态编码
00:18
Berryxia.AI@berryxia
67
EverOS HyperMem超图记忆架构:ACL 2026发表,27B模型性能追平397B

ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。

智能体开源/仓库编码
00:05
向阳乔木@vista8
58
字节火山引擎大会:洪定坤谈AI开发新范式

字节火山引擎大会上,洪定坤分享了AI开发的三个核心方法论:1. 原型驱动开发——用AI生成可交互原型替代PRD,提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理,能将可交付性从40~60分提升至80分。

大佬观点编码部署/工程
6月24日
21:34
Lee Robinson@leerob
61
个人动态,我在 Cursor 开始新职位! 我正在转向 ML,负责训练 Composer。 我将研究如何改进模型行为和个性。
编码行业动态
‹ 上一页
1…34567…50
下一页 ›