邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型,第一天体验感受:速度快、好用。但对比另一工具 Codex,Zcode 在能力全面性上仍有差距,尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。
邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型,第一天体验感受:速度快、好用。但对比另一工具 Codex,Zcode 在能力全面性上仍有差距,尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。
I almost stopped testing new models altogether. Not because they were bad. Because every call left a number climbing in ...
贝恩在测试收购目标时,使用vibecoding(AI快速原型开发)重建目标软件的粗略AI副本。这些副本并非完美克隆,但能暴露产品界面、分析、自动化或工作流逻辑是否容易被复制,帮助评估公司的竞争护盾。贝恩已构建数百个原型,该工具已从专业工程师扩展到普通顾问。案例:销售数据分析工具,AI可快速生成类似仪表盘和推荐。该方法揭示软件价值实际所在(代码、工作流、客户关系、数据等),也让买家预见AI如何重塑产品未来。此举正值生成式AI降低软件开发成本、挑战SaaS商业模式。
为解决多 Agent 下 Skills 存放混乱问题,宝玉提出:Skills 只装在项目内以节省 LLM 上下文窗口;所有原件统一存放于 ~/GitHub,每个项目通过软链接指向原件,再为 Claude Code 创建 .claude/skills → .agents/skills 入口。更新只需拉取一次源码,所有项目自动同步;修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接,无需记忆命令。
我快疯了。日常同时用 4个 coding agent,skills 各写各的: /.agents/skills、/.codex/skills、~/.claude/skills 已经一团浆糊,CC 里找不到 Codex 的 skill,反过来...
OpenAI 发布 Codex Remote 工程实践官方博客。核心心智模型:手机是“控制面”而非终端——开发机跑代码,手机负责启动、指挥、审批、审查。十大高杠杆能力包括 Queue vs Steer、Side Chat、Plan vs Goal、对话内 Code Review、细粒度权限管理等。另有 /status /compact /fork 命令与五个典型工作流(Release Captain、中断修复、移动端审查等)。对 AI coding agent 的启示:异步协作、注意力与状态机管理、目标约束、生产级权限粒度。
If you missed last week, Mastering Codex Remote for Engineering is now available as a blog post on our developer platfor...
Anthropic 为 Claude Tag 推出智能体身份模型,Claude 在团队频道拥有独立账号,权限按频道配置可覆写,撤销身份即可终止访问。AI 编码代价方面,Meta 一次 AI 生成代码(无人工验证)导致 Instagram 密码重置漏洞,CISO 离职;Amazon 核心平台中断;GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程:同一 LLM 换装更精巧外架构后,TerminalBench 2.0 通过率从 52.8% 升至 66.5%,排名从 30 名外进入前 5。
Anthropic 为 Claude Tag 推出智能体身份访问模型,赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞
http://x.com/i/article/2069568375752445952
GLM-5.2 近期火爆出圈,尤其海外用户兴奋,国内用户则因抢不到 coding plan 而不爽。Flowith 的 Matrix 产品已接入智谱 GLM-5.2,提供 1M 上下文窗口,适用于 long-horizon coding、产品构建和复杂多步执行。Matrix 作为 agentic workspace,用户可直接在其中构建产品、部门、工作流甚至整个 agent 公司。所有 Matrix beta 用户可领取 1000 万免费 tokens(限时),这标志着强模型与执行环境的进一步融合,个人或小团队的能力边界被推远。
matrix @matrix_build is partnering with @Zai_org to bring glm-5.2 directly into the hands of anyone who creates real com...
Lineup for Inside The AI Coding Stack (7/1): @nvidia - Harry Kim on GPU infra for AI-native workloads @FriendliAI - Gon ...
Run Cline on Local AI models with Atomic Chat! @cline is a coding agent trusted by 8M+ developers. Write, refactor, ship...
http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能,这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev
Added new transitions to http://transitions.dev There are now 21 transitions you can copy as CSS or React code or use as...
Anthropic 将 Claude Code 嵌入 Slack,推出 Claude Tag。AI 以团队成员身份加入频道,具备频道专属记忆、主动监控、独立跑代码并提 PR,任务完成自动标记 ✅。内部产品团队 65% 新增代码由 Claude Code 产出。三层架构:独立身份+频道隔离记忆(不同项目上下文不混淆,沙箱任务结束销毁);主动自主执行(设置规则后全天盯频道、答疑、汇总);原生 Claude Code 代码能力(拉取仓库、调试、测试、提 PR),多层安全防护。支持知识库检索、新人答疑、代码迭代、故障排查等。仅 Enterprise 与 Team 付费计划开放 Beta。建议低风险频道测试并人工复核。
Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...
AI is writing more code than ever, but the bugs are scaling right along with it. momentic just put out how they're closi...
网友Vista通过AI分析新智元标题风格,总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律,并发布名为joeseesun/qiaomu-xinzhiyuan-title的Skill,可用npx skills add安装,生成类似标题。
看看这个skill生成的标题,是不是有新智元的味道了😂
Paul Bakaus 宣布成立 Renaissance Geek(Impeccable 母公司),获 a16z 投资并与 GitHub 合作。他认为 AI 降低了创作门槛,但未自动提高上限;真正优秀的工作仍需清晰意图、迭代、判断力与工艺。公司方向为“增强工艺”——让人类深度参与智能体循环的最后 20%。首款产品 Impeccable 为 AI coding agent 提供设计词汇表,支持在真实代码库视觉迭代,避免低质量输出。同时提出“文艺复兴极客”画像:T 型通才、高品味、高主动性、强好奇心,AI 赋能其跨领域移动,而品味与判断力是 AI 最稀缺的能力。
http://x.com/i/article/2069426743950417920
Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。
http://x.com/i/article/2069421203073490944
Exciting news: GLM-5.2 (Max) ranks #2 in Code Arena: Frontend, with +29pt over Claude Opus 4.7 (Thinking) and only behin...
Three announcements from our keynote at Compile, including how we're training a new model with SpaceX.
Post your best codex billboard
用户反映 Codex 在后台持续写入大量日志文件,即使电脑闲置时也在高频擦写固态硬盘(SSD)。SSD 寿命由写入量决定,此类行为会加速硬盘损耗。虽然单次写入仅几百兆,但底层频繁擦写机制持续消耗硬盘寿命,相当于“偷跑”写入量。
Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍(1.6分钟vs 4.7分钟)、token少一半(660K vs 1.1M)、价格贵一倍($0.81 vs $0.41),修好bug但生产构建崩溃,留下类型错误。GLM多花67% token、多2.3倍工具调用(28次vs 12次)、价格便宜一半,不仅修好bug还主动清理死代码,构建干净通过。根本差异在于训练目标:GLM被强化学习训练出验证文化,多花token跑构建、查类型、防回归;Opus追求高效却忽略隐患。排行榜只测修bug能力,测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。
We've kept hearing how GLM-5.2 beats Opus 4.8, and are skeptical of benchmarks - so we tested them on a real bug from th...
This week we're launching new skills for HyperFrames, each built around a workflow Today is pr-to-video Nobody reads pul...
智谱AI近期大热,作者收到针对「智谱 AI」的付费咨询邮件,但因对 GLM-5.2 尚未深入使用,且 Coding Plan 抢不到、Zcode 使用限流,也无法获取 Zcode 商单和赠送 Token,最终含泪拒绝了这次付费咨询。