Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedl...
关联讨论 1 条X:swyx (@swyx)Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedl...
关联讨论 1 条X:swyx (@swyx)用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。
让不同的 agent 交叉 review 的后果就是代码越改越多。。。
Datacurve发布了新编程基准DeepSWE,旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上,GPT-5.5得分为70%,而GPT-5.4为56%,Claude Opus 4.7为54%,突显了模型间的显著差异。与旧有基准不同,DeepSWE使用原创任务,要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍,输出token约2倍,反映了开发者日常工作中的实际挑战。
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
To simplify our Codex compute fleet management, we will be sunsetting GPT-5.2 and GPT-5.3-Codex in Codex on June 2nd whe...
Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。 当然你也可以只选择部分文件,目前只支持 Mac https:...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快
Cognition AI完成超10亿美元融资,投前估值达260亿美元。其年化收入从3700万美元增长至4.92亿美元,客户包括Goldman Sachs和Mercedes-Benz,标志着其产品Devin正进入生产环境。Devin定位为自主初级工程师,能通过多步骤工作流规划、测试和部署代码。Cognition采用自有模型与OpenAI、Anthropic相结合的模型无关技术路线,而非依赖单一模型。此外,该公司于去年7月同意收购编程初创公司Windsurf的剩余资产。
年近70岁的一位阿姨,做眼科教学和临床四十多年 微信对我留言:Vibe Coding出了自己的一个公益小网站 我看了下,这个网站,非常精致,也很有特点: 1、不用登录,打开就能做眼肌放松练习,也可以顺便了解一些科学用眼、日常护眼的小知识 2...
Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。
Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...
DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。
This is the first code bench that actually aligns with how it feels to use these models coding.
@Shaughnessy119 https://poolside.ai/blog/introducing-laguna-xs2-m1 All models will be open going forward
测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。
If you know one thing about every right now, it's that we're heavily Codex pilled. So we wrote a guide on how to use Cod...
开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。
说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词...
Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....
一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。
如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入...
Claude Code 推出新插件 security-guidance,通过一个写代码的 Claude 实例和一个审查代码的独立 Claude 实例进行协作。两个实例完全隔离,拥有全新上下文和独立提示词。审查过程分三层:每次编辑进行正则匹配、对话轮次结束时审查 diff、在提交/推送时进行读取调用链的智能体审查。任何一层都不直接阻断写入,审查结果会反馈给写代码的实例进行自我修正。关键创新在于审查实例因无“路径依赖”,能发现原实例的盲点。该插件基于 hooks 实现并公开源码,同时支持通过 claude-security-guidance.md 文件添加组织特定策略。
You can add org-specific rules in a claude-security-guidance.md file. Drop it in your repo or distribute via MDM. The pl...
Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》@dotey 宝玉老师,有没有比较好的skill管理工具推荐
开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。
I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...
Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。
Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...
It took me like 2 months, but I've grown to love gpt-5.5. You have to prompt entirely different and put some time into y...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Codex Mobile is making me a better developer in a way I didn't expect: I step away from my laptop and stop micromanaging...