AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2081 条
全部一手资讯X论文
标签「编码」清除
Andrew Milich@milichab · 6月18日15

Try Grok Build 0.1 on code review

译尝试在代码审查中使用 Grok Build 0.1

ClaudeDevs@ClaudeDevs · 6月18日67

Claude Code and Claude Design now sync both ways. Run /design-sync to pull your design system into your repo and build against your real components, or push what you've built back into Claude Design and keep editing on the canvas.

译Claude Code 和 Claude Design 现在可实现双向同步。 运行 `/design-sync` 可将你的设计系统拉取到仓库中,并基于真实的组件进行构建;或者把你构建的内容推送回 Claude Design,继续在画布上编辑。

MiniMax (official)@MiniMax_AI · 6月18日51

image input with M3 carrying a full sim. good build @coldopn

译MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句“将此截图动画化为可工作的黑洞模拟器”的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

eric zakariasson@ericzakariasson · 6月18日28

mobilemaxxing cursor (app is soon GA)

译现在可以更轻松地将本地智能体迁移到云端,合上笔记本后它们仍可继续工作。你还能从手机向Cursor发送提示词,并行运行多个智能体,并收到带有演示的拉取请求。Cursor移动端应用即将正式发布。

AK@_akhaliq · 6月18日34

LoopCoder-v2 Only Loop Once for Efficient Test-Time Computation Scaling

译LoopCoder-v2 仅循环一次实现高效测试时计算缩放

elvis@omarsar0 · 6月18日70

You can only truly get this level of output when using orchestrator agents that can coordinate multiple agents across projects. Build your own orchestration layer now. And own it.

译金融科技公司 Block 自建内部 AI 系统 Builderbot,可跨整个代码库协调多个智能体。工程师在 Slack 中标记后,系统自动研究、规划并交付。当前日处理 20 万次操作,每周合并 1500 个 pull request,贡献了 Block 全部生产代码变更的 15%,将原需数月的流程缩短至数天。DAIR.AI 创始人 Elvis Saravia 强调,只有通过编排层协调多个智能体才能实现此类输出,建议团队自建编排层。

xAI@xai · 6月18日62

Use VMs with Grok Build preinstalled with one click

译一键使用预装 Grok Build 的虚拟机

elvis@omarsar0 · 6月18日56

I was a bit suspicious of the claim, but GLM-5.2 is pretty good at designing stuff. Obviously not at the level of a professional designer, but it has that Opus-level quality. Great at: - games - landing pages - HTML artifacts - 3D worlds Wish I had Fable 5 to compare with.

译GLM-5.2 在 Design Arena 上以 Elo 1360 跃居第一,超过已下架的 Claude Fable 5,排名提升 4 位、Elo 提高 27 分,且为开源权重。DAIR.AI 的 Elvis Saravia 实测认为其设计能力不错,虽未达专业设计师水平,但具备 Opus 级质量,擅长游戏、落地页、HTML artifacts 及 3D 世界等任务。

AYi@AYi_AInotes · 6月18日76

被 vibe coding 反噬过的AI玩家和开发者们看过来,这个工具包把 Token 消耗砍掉了 63%,注意可不是单纯的砍功能,主要是砍废话。 @mattpocockuk Pocock(Total TypeScript 作者,前 Vercel)把资深工程师开工前的肌肉记忆拆成了可触发的技能——/ask-matt,就好像他本人站你身后一样,你扔任务进去,它先推荐该用哪个技能,再让 AI 按流程走,需求拷问、领域建模、TDD 红绿,每一步都有纪律。 v1 版更狠的地方是 AI 可以自己判断时机触发技能,你不用盯着喊停,有点像个老钳工把动手前先划线灌进了 AI 的身体里。 现在有人把 prompt 当咒语攒,有人把 prompt 当流程拆,v1属于后者。 开源在 GitHub,链接放评论区啦~

译Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

Claude@claudeai · 6月18日66

New in Claude Design: it stays on brand with your design system across projects, lets you edit directly on the canvas, syncs with Claude Code, and connects to more of the tools you already use.

译Claude Design 新功能:它在跨项目时与你的设计系统保持品牌一致,支持直接在画布上编辑,与 Claude Code 同步,并连接到更多你已经在使用的工具。

Replit ⠕@Replit · 6月18日69

Design in Claude. Build in Replit You can now send your design from Claude Design to Replit to turn it into a working app

译在Claude中设计。在Replit中构建。 你现在可以将Claude Design中的设计发送到Replit,将其变成一个可工作的应用。

elvis@omarsar0 · 6月18日60

Highly-recommended reading! After using /loops & /goal throughout my projects, I believe that verifiers and robust guardrails are imperative to get current/future coding agents to work right. You can't just YOLO your way with blind autonomous loops. It doesn't work!

译Rahul 指出,fable+ 类模型本质是英语→代码解释器,Fable 5 最差。diff 大小按风险管控:高风险区(身份/数据/网络/资金)用小 diff,可经验验证代码用大 diff。软件交付速度取决于审查/合并能力而非 PR 生成,瓶颈在 lint、测试、CI、影子验证。智能体需深度理解全栈,风险优先级为安全>正确性>性能。复杂性成本变化,可能值得多维护 50% 代码换 5% 性能提升。低风险时将代码块作黑盒仅做经验验证。逻辑逐行审查成本高,只用于关键处。更快迭代需借助权限 opt-in、影子模式等护栏。

DogeDesigner@cb_doge · 6月18日48

"My favorite enterprise AI service is Cursor. It is an AI coder & every one of our engineers, 100% is now assisted by AI coders & our productivity has gone up incredibly. These companies are some of the fastest-growing companies in world & they address enterprise" — Jensen Huang

译"我最喜欢的企业 AI 服务是 Cursor。它是一个 AI 编程器,我们的每一位工程师,100% 现在都由 AI 编程器辅助,我们的生产力有了难以置信的提升。这些公司是全世界增长最快的公司之一,而且它们解决企业需求。" ——黄仁勋(Jensen Huang)

Yuchen Jin@Yuchenj_UW · 6月17日77

The future of coding is not one agent. It's a whole AI team. Omnigent lets you run a team of agents in one live session: Claude Code, Codex, Cursor, Pi, and your own agents. It is a meta-harness for AI agents, built from our internal Databricks dev tools, and now open-sourced for everyone. Built by the legendary @matei_zaharia and the Databricks AI team. And yes, Matei still writes a lot of code, even the frontend code for Omnigent and our products.

译编程的未来不是单一智能体,而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队:Claude Code、Codex、Cursor、Pi,以及你自己的智能体。 它是一个面向AI智能体的元框架,基于我们内部的Databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和Databricks AI团队打造。没错,Matei仍然编写大量代码,包括Omnigent和我们产品的前端代码。

meng shao@shao__meng · 6月17日60

在你的 Coding Agent 里切换任意模型 推荐 @Jason_Young1231 的开源项目「CC Switch」 https://github.com/farion1231/cc-switch Github 103K ⭐️,远高于原作者的 X 关注数量,这不合理,关注 CC Switch 的朋友们,关注起来!

译邵猛推荐 @Jason_Young1231 的开源项目 CC Switch,GitHub 获 103K 星。该项目解决 OpenAI Codex Responses API 与多数第三方 API Chat Completions 接口不兼容的问题,使更多模型可在 Codex 中直接使用,完全开源免费。

小互@xiaohu · 6月17日74

OpenAI 格局大了 宣布Codex (包含 App 客户端、命令行 CLI 和开发包 SDK) 支持直接接入任何开源大模型 不强制绑定 OpenAI 自家的模型 并且放出了一个文档:手把手教开发者如何把 Codex 客户端底层的“大脑”,替换成免费的开源模型…

SiliconFlow@SiliconFlowAI · 6月17日72

Just dropped the entire War and Peace (~750K tokens) into GLM-5.2. Then asked it to analyze the book and build an interactive 3D character universe. The result: · 27 characters, 9 factions · ~50 relationships mapped across 66,000 lines No drift, no confusion, still had room to think GLM-5.2 is now live on SiliconFlow🔥 Time to give it a try and show us what you build👇

译智谱 GLM-5.2 已在硅基流动上线,完全开源。该模型将《战争与和平》(约750K tokens)完整输入后,成功分析并构建出包含27个角色、9个派系、约50组关系映射的交互式3D角色宇宙(66,000行代码),无漂移无混淆。GLM-5.2 在 CodeArena 排名第一的可用模型;支持1M上下文窗口,生产级编码能力与 Opus 4.8 相当;提供双思考模式(max 深度、high 质量-成本平衡)。定价:输入缓存/输入/输出分别为 $0.26/1.40/4.40 每百万 token。

OpenCode@opencode · 6月17日45

GLM-5.2 now available in Go text · 1M context · same pricing as 5.1

译GLM-5.2 现已在 Go 中可用 · 1M 上下文 · 定价与 5.1 相同

karminski-牙医@karminski3 · 6月17日73

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站, 那么都要搜一下附近有哪些换电站(这就会浪费一次tool_call), 而GLM-5.2直接就知道换电站的位置! 从来没用过搜索函数. 这种一开始就把需要的数据内化到上下文中, 并且能够贯穿整个1M上下文进行推理的能力真的是叹为观止. 除此之外, 本次测试后端代码的 Agentic Coding 能力也有提升, 来到了总榜的第二名. 而本次测试暴露出最大的短板则是空间理解. 其实成也萧何败也萧何, 它虽然把换电站的位置都背下来了, 但是去的换电站却不是最近的, 所以虽然记住了, 但是记住了之后在用之前再根据自己当前所在位置推理一下, 他还是没有做到的, 这也是最大的短板了, 强烈建议官方优化一波. #GLM52 #智谱 #智谱AI #AgenticCoding #长上下文能力

译GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。

Alibaba Cloud@alibaba_cloud · 6月17日28

See how Kilo Code scales multi-agent coding! 💻 Join Job Rietbergen, Head of Growth at http://Kilo.ai, at Alibaba Cloud VivaTech 2026 for real-world production insights. 🔗 Register: https://int.alibabacloud.com/m/1000414352/

译看看 Kilo Code 如何扩展多智能体编码!💻 加入 Kilo.ai 增长主管 Job Rietbergen,参加阿里云 VivaTech 2026,获取真实生产环境洞察。 🔗 注册:https://int.alibabacloud.com/m/1000414352/

小互@xiaohu · 6月17日67

Claude Code 之父自己的 CLAUDE.md 现在就两行... Claude Code 团队聊"少即是多"分享随着模型能力增加该如何和模型交流: “别跟模型较劲做加法,因为模型每代都在变强,你今天费劲搭的东西很快就白搭了。” 为什么 Claude Code 坚持做命令行不做 GUI? 因为模型进步太快,半年后可能界面就过时了... 具体落在四件事上: 1. CLAUDE.md 越短越好,定期清空重来 他自己的 CLAUDE.md 就两行,提 PR 自动合并、提 PR 发审批频道,其余规则全写进提交到代码库、全队每周共建的那份里。看到队友犯可避免的错,就直接在 PR 上 Claude 让它把规则加进去。 当系统提示"你的 CLAUDE.md 已经几千 token"时,他的建议是直接删掉重写:用最少的东西把模型拉回正轨,模型跑偏了再一点点加回来。而且你会发现,每换一代模型,要加的越来越少。 很多人的毛病是过度工程化。 2. 为什么坚持做命令行(CLI)而不做图形界面 因为模型进步太快,做不出一个半年后还不过时的 UI。 而且 CLI 反而降低门槛,用 Claude Code 不需要懂 Vim、Tmux、SSH,打开就有它带着走。团队里也有 Vim 死忠,"除非我死否则别想夺走我的 Vim",但他自己就用 VS Code,觉得自己是个普通工程师。 3. 终端输出"详细 vs 简洁"的拉锯 他个人喜欢啰嗦,能扫一眼发现模型跑飞,按 Esc 当场摁住。 半年前他想砍掉冗长的 bash 输出,结果 Anthropic 员工全员造反。最近把"读文件/搜文件"折叠成一行摘要(这放半年前发不出来,因为那时模型还常读错),GitHub 上又有人不干。于是加了 verbose 模式两边兼顾。 这套打磨方式就是:发布 → 自己用一个月 → 听用户骂 → 迭代。他说最爱的就是听用户到底想怎么用。 4. 用 AI 修 bug 的体验已经"离谱" 做好日志后,随口说"这个对象出错了",它就翻日志、自己搞清楚,甚至能开生产通道看线上数据库。 最戳他的一个例子:他自己查一个内存泄漏,做 heap dump、开 DevTools、翻代码翻半天没搞定。队友 Chris 直接把问题丢给 Claude Code,它自己写了个小工具分析 heap dump,比他更快找到了泄漏。 收尾的反思 他说"Agent 能做什么"这件事每换一代模型就变,新人往往比他这个老人用得还溜,"这事我得反复重新适应,因为我的脑子还停在过去。" 一句话总结:模型在飞涨,人的最优策略不是堆配置、堆脚手架、堆工具,而是做减法、保持轻、把判断让给越来越强的模型,并不断推翻自己过时的使用习惯。

译Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

Orange AI@oran_ge · 6月17日71

智谱发布的 GLM 5.2 今日正式开源 它的的意义在于 GLM 5.2 是首个编程 coding 能力达到 Opus 水平的开源模型 我们已经在第一时间将其接入 Cola,作为 beta 模型供大家测试。 模型定价与官方相同 欢迎大家体验和反馈

译智谱今日正式开源 GLM 5.2,这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试,定价与官方一致,欢迎体验和反馈。

SiliconFlow@SiliconFlowAI · 6月17日42

Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to be T+0 launch partner🔥 💰 Input Cache/Input/Output: $ 0.26/1.40/4.40 per 1M tokens 📚 Usable 1M context for entire codebases and project-scale workflows ⚙️ Reliable long-horizon execution that stays on track through complex tasks 💪 Production-grade coding on par with Opus 4.8 🧠 Dual thinking modes: max for depth, high for quality-cost balance And it's still fully open-source. Big shoutout to @Zai_org for keeping frontier model accessible to builders and the community 🙌 Get started today 👇

译智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发,定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token,支持 1M 上下文,具备可靠的长时间任务执行能力,编码性能与 Opus 4.8 持平。提供双思考模式:max 侧重深度,high 侧重质量成本平衡。模型完全开源。

karminski-牙医@karminski3 · 6月17日67

GLM-5.2正式发布啦!一会给大家带来评测视频~

译智谱(Z.ai)发布GLM-5.2模型,编程与智能体任务显著改进,支持1M上下文窗口。提供两种推理模式:GLM-5.2(max)追求极限性能,GLM-5.2(high)平衡性能与token效率。模型权重以MIT许可开源,API定价与GLM-5.1保持一致。

歸藏(guizang.ai)@op7418 · 6月17日79

智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 indexer,从而在百万 token 上下文下将每 token 的计算量降低约 2.9 倍。

译智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。

Orange AI@oran_ge · 6月17日76

GLM 5.2 的意义在于 开源模型的 Coding 能力第一次达到了 Opus 水平

译GLM-5.2 开源模型发布,其编程(Coding)能力首次达到Opus级别。该模型在编程与智能体(Agentic)任务上显著提升,支持1M上下文窗口,提供两级推理难度——GLM-5.2 (max) 追求极限性能,GLM-5.2 (high) 平衡性能与token效率。采用MIT许可证开源,API定价与GLM-5.1保持一致。

AYi@AYi_AInotes · 6月17日29

@cursor_ai CEO Michael Truell @mntruell 身上集齐了 AI 赛道里几乎少见的全部稀缺品质, 二十四五岁的年纪,手握即将达成六百亿美元规模的 SpaceX 收购合作,却依旧保持难得的纯粹与克制, 我觉得被老马招入麾下以后,以后的成就可能会并肩甚至超越ChatGPT的@sama和Anthropic的@DarioAmodei, 真的可以永远相信@elonmusk 的远见卓识和识人用人的眼光, 不信来看Michael Truell身上的这5个及其稀缺的品质:

译Cursor AI CEO Michael Truell在X上宣布与SpaceX联手,共同构建有用AI。据推文称,双方合作规模接近600亿美元。年仅二十多岁的Truell被评价拥有多项稀缺品质,主推文认为其未来成就可能并肩甚至超越OpenAI CEO Sam Altman和Anthropic CEO Dario Amodei。目前具体合作细节尚未披露。

小互@xiaohu · 6月17日60

Cursor 首席执行官 Michael Truell: “我们对 Cursor 的目标是发明一种新型编程” 人只管用最简洁的方式向计算机描述意图(软件该怎么运行、长什么样),,剩下的交给模型。 大意拆开是三层: 1. 目标:把"造软件"浓缩成"描述意图",凭现在还在飞速变好的模型,能造出一种层级更高、效率更高、门槛更低的开发方式,而且会逐渐告别今天写代码的样子。 2. 他反对两种主流设想(关键论点): - "一切照旧"派:未来还是敲文本、用TypeScript/Go/C/Rust 这些正式语言 → 他认为错,因为模型会变得好太多。 - "纯聊天机器人"派:对着 bot 说句话让它帮你建、帮你改,像跟工程部门聊天 → 他认为太不精确:人想完全掌控软件,就得能"指着"具体要改的地方,而不是在一个脱离整体的文本框里说"把我 App 这块改一下"。 3. 他自己的设想("代码之后"的世界):你会有一份对软件逻辑的表达,它更像用英文写的(类似伪代码),写下来、能在高层级编辑、能指着它改 不再是几百万行看不懂的代码,而是更简洁、更好懂、更易改的东西。 那些极难懂的符号,慢慢演变成人能读、能改的形式——这就是 Cursor 在做的方向。

译Cursor CEO Michael Truell提出目标:发明一种新型编程,让人用最简洁的方式描述意图,其余交给模型。他反对两种主流设想——“一切照旧”派(继续用TypeScript/Go等正式语言)和“纯聊天机器人”派(对bot说句话就改代码),认为前者低估模型进步,后者缺乏精确控制。他的设想是“代码之后”的世界:用类似英文伪代码表达软件逻辑,能在高层级编辑、精准指向修改,让难懂的符号变成可读可改的形式。

AYi@AYi_AInotes · 6月17日49

被SpaceX600亿收购刚落地, Cursor直接甩出了战略级王炸, 他们要做AI原生时代的GitHub, 新产品Origin,从底层为人类与AI Agent协同写代码而生。 传统GitHub是按照人的节奏设计, 人工提交,人工评审,低频平稳, Origin适配海量智能体并行开发, 每小时可承载八万一千次推送,天然处理高频合并冲突,基于S3实现无限副本,快速分发给不同Agent, 全程兼容原生Git,现有工作流无需改动。 这样就实现了IDE编辑器+代码托管+智能评审的全链路开发闭环, 开发者从写代码到提交合并,全程不用跳出Cursor生态。 可以说是GitHub定义了人机协作时代的开发标准, 而现在AI智能体时代的底层基建,要开始重新书写咯

译Cursor 发布新产品 Origin,定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计,可承载每小时 81,000 次推送,自动处理高频合并冲突,基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git,现有工作流无需改动,形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线,现已开放候补名单。

meng shao@shao__meng · 6月17日48

刚被 SpaceX 收购的 Cursor,要做 Agent 版 Github ?! 对,就是「代码托管与 Git 协作平台」—— Origin Cursor 已经不是那个简单的 VSCode fork 了,他们这次要做 Agent 时代设计的代码基础设施,秋天发布,在这加等待: http://cursor.com/origin Origin 正是由 Cursor 收购的 Graphite 在研发,收购时 Cursor 团队就认为: 写代码变快了,但 review、merge、协作 的方式几乎没变。 Origin 的战略意图:把 Cursor 从「AI Editor」升级为 端到端 Dev Platform ——写、存、审、合,全链路打通。

译刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin,目标是将自身从 AI Editor 升级为端到端开发平台,打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发,专为 Agent 时代设计:给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist,预计今年秋季正式上线。

Berryxia.AI@berryxia · 6月17日73

兄弟们,Claude Fable5 连夜下架! GLM-5.2 直接宣布免费开源啊! 而且直接把GLM-5.2的权重都开源了,而且还是MIT协议,1M上下文,在Coding和Agent任务上还有大幅提升。 他们这次重点强化了长程任务的Agent能力,覆盖大规模代码实现、自动化研究、性能优化和复杂调试。 实际表现上,Coding、Tool use、Reasoning都比GLM-5.1有明显进步,尤其在需要长时间规划和多步执行的场景里更稳。 还提供了Max和High两种推理模式,让你能在极致性能和Token效率之间自由切换。 API价格和上一代一样,同时在Slide生成、长文档处理、长文写作和长上下文角色扮演上也都有明显进步。 最关键的是权重彻底开源,社区已经在DeepSWE等基准上验证了它的实力。 这意味着有条件的开发者现在就能在本地或者自建环境里,跑起以前只有闭源大模型才能比较稳的长上下文Agent。 以前我们总觉得开源模型在真正硬核的Coding和Agent场景还差一截,现在这个差距又被拉近了一大步。 PS:我就希望可以算力更充足点… 😂 别无他求了 ……

译GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。

SemiAnalysis@SemiAnalysis_ · 6月17日45

Analyzing Internal SemiAnalysis usage, Claude still mogs for coding & deep research. Even though Codex has a better Desktop app UI, Claude still has better adoption.

译分析SemiAnalysis内部使用情况,Claude在编码和深度研究方面仍然碾压。尽管Codex的桌面应用UI更好,但Claude的采用率仍然更高。

Chubby♨️@kimmonismus · 6月17日69

Open Source is so back. Let’s freaking go

译GLM-5.2 以 Elo 1360 在 Design Arena 代码类别中跃居第一,超越现已下架的 Claude Fable 5,且权重开放。这是自该榜单启动以来代码类别的最高 Elo 分数之一,较之前提升了 4 个名次和 27 Elo 分。 Open Source is so back. Let’s freaking go

Emad@EMostaque · 6月17日79

are they going to rename it CodeX

译SpaceX 已行使期权,以全股交易收购 @cursor_ai,目标是打造世界上最有用的 AI 模型。过去几个月,SpaceXAI 与 Cursor 联合训练了一款模型,即将在 Cursor 和 Grok Build 中发布。Emad Mostaque 发文问:“他们会把它改名为 CodeX 吗?”

elvis@omarsar0 · 6月17日56

Impressive if true! Better than Claude Fable 5? Wow! Design is really lacking in these frontier models, so I'm very curious to test GLM-5.2 myself. Testing this already on a few internal use cases and will report back on findings.

译智谱发布GLM-5.2,在Design Arena评测中跃居第1名,Elo评分1360,超过已下架的Claude Fable 5,提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻,并称已在内部用例测试,后续将汇报结果。

elvis@omarsar0 · 6月17日70

No time wasting on the frontier of open-weight models. GLM-5.2 looks impressive based on the results I've seen. Very curious to see how it holds on long-horizon tasks.

译Z.AI 发布 GLM-5.2,采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升,支持 1M 上下文窗口,具备长时能力。提供两种推理力度:GLM-5.2 (max) 与 GLM-5.2 (high),后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻,并关注其长时任务表现。

swyx@swyx · 6月17日50

gentle irony that SpaceXAICursor, on its very first day of existence, announced a product that is a blue Origin (right after @JeffBezos announces Prometheus)

译Cursor/Graphite 的 TomasReimers 刚刚宣布了 Origin,这是 @cursor_ai 期待已久的 Git 竞争对手,可针对 agent 工作负载进行扩展,可通过 API 和 MCP 扩展,并内置合并冲突和协同故障 agent 解决功能。 颇具讽刺意味的是,SpaceX/AI/Cursor 在成立第一天就发布了一个“蓝色起源”产品 (就在 @JeffBezos 发布 Prometheus 之后)

jason@jxnlco · 6月17日28

http://x.com/i/article/2066964446086676480

译"原文为URL,无法翻译(http://x.com/i/article/2066964446086676480)"

Anthropic@AnthropicAI · 6月17日49

Our latest economic research introduces a framework for tracking Claude Code as it scales. Who is using Claude Code, and what are they using it for? How is the value of tasks changing? And how much does domain expertise shape whether a session succeeds? https://www.anthropic.com/research/claude-code-expertise

译我们最新的经济研究引入了一个框架,用于追踪 Claude Code 在规模化过程中的表现。 谁在使用 Claude Code,以及他们用它做什么?任务的价值如何变化?领域专业知识在多大程度上决定了会话是否成功? https://www.anthropic.com/research/claude-code-expertise

Nathan Lambert@natolambert · 6月17日45

Still hard to expect the unexpected with AI. It goes to show how skilled many of the scientists are in China. They're hitting high peaks with much less compute. Overall, I think the US models are really ahead, but you can't just discount the Chinese labs. Not at all.

译智谱(Zhipu AI)最新模型 GLM-5.2 在 Design Arena 上以 1360 Elo 跃居第一,超越已下架的 Claude Fable 5,并开源权重。此次排名上升 4 位、Elo 提升 27 分,创下该基准代码类别的历史最高分之一。AI 分析师 Nathan Lambert 评价称,中国科研团队用更少算力达到高水准,虽美国模型整体领先,但无法忽视中国实验室的进步。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
07:44
Andrew Milich@milichab
15
尝试在代码审查中使用 Grok Build 0.1

Kilo: http://x.com/i/article/2067331577449791488

大佬观点编码
07:43
ClaudeDevs@ClaudeDevs
67
Claude Code 和 Claude Design 现在可实现双向同步。 运行 `/design-sync` 可将你的设计系统拉取到仓库中,并基于真实的组件进行构建;或者把你构建的内容推送回 Claude Design,继续在画布上编辑。

Claude: New in Claude Design: it stays on brand with your design system across projects, lets you edit directly on the canvas, s...

Anthropic产品更新编码
关联讨论 1 条Claude:Blog(网页)
07:14
MiniMax (official)@MiniMax_AI
51
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub多模态编码评测/基准
06:43
eric zakariasson@ericzakariasson
28
现在可以更轻松地将本地智能体迁移到云端,合上笔记本后它们仍可继续工作。你还能从手机向Cursor发送提示词,并行运行多个智能体,并收到带有演示的拉取请求。Cursor移动端应用即将正式发布。

Cursor: It's now easier to move local agents to the cloud so they can keep working with your laptop closed. Prompt Cursor from y...

智能体产品更新编码
05:23
AK@_akhaliq
34
LoopCoder-v2 仅循环一次实现高效测试时计算缩放
推理编码论文/研究
05:18
elvis@omarsar0
70
金融科技公司 Block 自建内部 AI 系统 Builderbot,可跨整个代码库协调多个智能体。工程师在 Slack 中标记后,系统自动研究、规划并交付。当前日处理 20 万次操作,每周合并 1500 个 pull request,贡献了 Block 全部生产代码变更的 15%,将原需数月的流程缩短至数天。DAIR.AI 创始人 Elvis Saravia 强调,只有通过编排层协调多个智能体才能实现此类输出,建议团队自建编排层。

Block: We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...

智能体大佬观点编码部署/工程
05:18
xAI@xai
62
一键使用预装 Grok Build 的虚拟机

DigitalOcean: .@grok Build is on DigitalOcean Marketplace. 🆕☁️🤖 SSH in. Run grok. Build. @xAI's coding agent, pre-configured on Digi...

xAI产品更新编码部署/工程
04:48
elvis@omarsar0
56
GLM-5.2 在 Design Arena 上以 Elo 1360 跃居第一,超过已下架的 Claude Fable 5,排名提升 4 位、Elo 提高 27 分,且为开源权重。DAIR.AI 的 Elvis Saravia 实测认为其设计能力不错,虽未达专业设计师水平,但具备 Opus 级质量,擅长游戏、落地页、HTML artifacts 及 3D 世界等任务。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准
04:13
AYi@AYi_AInotes
精选76
Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63%

Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

Matt Pocock: Announcing mattpocock/skills v1 - Achieved a 63% reduction in token cost for skill descriptions - Split skills into mode...

GitHubMCP/工具开源/仓库编码

推荐理由:mattpocock 把资深工程师的编码流程拆成可复用的技能,Token 砍 63% 只是个结果,更有价值的是 AI 自触发技能的设计,vibe coding 进阶者必看。
03:46
Claude@claudeai
66
Claude Design 新功能:它在跨项目时与你的设计系统保持品牌一致,支持直接在画布上编辑,与 Claude Code 同步,并连接到更多你已经在使用的工具。
Anthropic产品更新编码
关联讨论 1 条Claude:Blog(网页)
03:43
Replit ⠕@Replit
69
在Claude中设计。在Replit中构建。 你现在可以将Claude Design中的设计发送到Replit,将其变成一个可工作的应用。
Anthropic产品更新编码
关联讨论 1 条Claude:Blog(网页)
00:45
elvis@omarsar0
60
Rahul 指出,fable+ 类模型本质是英语→代码解释器,Fable 5 最差。diff 大小按风险管控:高风险区(身份/数据/网络/资金)用小 diff,可经验验证代码用大 diff。软件交付速度取决于审查/合并能力而非 PR 生成,瓶颈在 lint、测试、CI、影子验证。智能体需深度理解全栈,风险优先级为安全>正确性>性能。复杂性成本变化,可能值得多维护 50% 代码换 5% 性能提升。低风险时将代码块作黑盒仅做经验验证。逻辑逐行审查成本高,只用于关键处。更快迭代需借助权限 opt-in、影子模式等护栏。

rahul: 1. as a mental model it is more correct to think of fable+ class models as english -> code interpreters - converts your ...

智能体大佬观点编码部署/工程
00:16
DogeDesigner@cb_doge
48
"我最喜欢的企业 AI 服务是 Cursor。它是一个 AI 编程器,我们的每一位工程师,100% 现在都由 AI 编程器辅助,我们的生产力有了难以置信的提升。这些公司是全世界增长最快的公司之一,而且它们解决企业需求。" --黄仁勋(Jensen Huang)
大佬观点编码
6月17日
23:49
Yuchen Jin@Yuchenj_UW
精选77
编程的未来不是单一智能体,而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队:Claude Code、Codex、Cursor、Pi,以及你自己的智能体。 它是一个面向AI智能体的元框架,基于我们内部的Databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和Databricks AI团队打造。没错,Matei仍然编写大量代码,包括Omnigent和我们产品的前端代码。
智能体开源/仓库编码

推荐理由:Databricks 把内部用来协调多个 AI 编码代理的工具开源了,集合了 Claude Code、Cursor 等,做 agentic coding 的开发者值得上手试试,可能会改变我们组合使用 AI 工具的方式。
23:15
meng shao@shao__meng
60
邵猛推荐 @Jason_Young1231 的开源项目 CC Switch,GitHub 获 103K 星。该项目解决 OpenAI Codex Responses API 与多数第三方 API Chat Completions 接口不兼容的问题,使更多模型可在 Codex 中直接使用,完全开源免费。

Jason Young: Love this direction from OpenAI. That's what we call being open. In practice, though, many third-party APIs are still Ch...

GitHubMCP/工具开源/仓库编码
22:19
小互@xiaohu
74
OpenAI Codex 宣布开放支持开源模型

OpenAI 格局大了 宣布Codex (包含 App 客户端、命令行 CLI 和开发包 SDK) 支持直接接入任何开源大模型 不强制绑定 OpenAI 自家的模型 并且放出了一个文档:手把手教开发者如何把 Codex 客户端底层的“大脑”,替换成免费的开源模型…

Tibo: Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...

OpenAI产品更新开源生态编码
21:03
SiliconFlow@SiliconFlowAI
72
智谱 GLM-5.2 已在硅基流动上线,完全开源。该模型将《战争与和平》(约750K tokens)完整输入后,成功分析并构建出包含27个角色、9个派系、约50组关系映射的交互式3D角色宇宙(66,000行代码),无漂移无混淆。GLM-5.2 在 CodeArena 排名第一的可用模型;支持1M上下文窗口,生产级编码能力与 Opus 4.8 相当;提供双思考模式(max 深度、high 质量-成本平衡)。定价:输入缓存/输入/输出分别为 $0.26/1.40/4.40 每百万 token。

SiliconFlow: Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...

开源生态模型发布编码
关联讨论 9 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)
19:45
OpenCode@opencode
45
GLM-5.2 现已在 Go 中可用 · 1M 上下文 · 定价与 5.1 相同
产品更新编码
17:12
karminski-牙医@karminski3
73
GLM-5.2实测:Agent能力质变,背下地图无需搜索

GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。

智能体推理模型发布编码
15:15
Alibaba Cloud@alibaba_cloud
28
看看 Kilo Code 如何扩展多智能体编码!💻 加入 Kilo.ai 增长主管 Job Rietbergen,参加阿里云 VivaTech 2026,获取真实生产环境洞察。 🔗 注册:https://int.alibabacloud.com/m/1000414352/
智能体编码行业动态
14:35
小互@xiaohu
67
Claude Code之父谈"少即是多":CLAUDE.md越短越好

Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

智能体Anthropic大佬观点编码
12:54
Orange AI@oran_ge
71
智谱开源 GLM 5.2,编程能力达 Opus 水平

智谱今日正式开源 GLM 5.2,这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试,定价与官方一致,欢迎体验和反馈。

开源生态模型发布编码
12:27
SiliconFlow@SiliconFlowAI
42
GLM 5.2 CodeArena登顶,全开源1M上下文

智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发,定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token,支持 1M 上下文,具备可靠的长时间任务执行能力,编码性能与 Opus 4.8 持平。提供双思考模式:max 侧重深度,high 侧重质量成本平衡。模型完全开源。

开源生态模型发布编码
11:38
karminski-牙医@karminski3
67
智谱(Z.ai)发布GLM-5.2模型,编程与智能体任务显著改进,支持1M上下文窗口。提供两种推理模式:GLM-5.2(max)追求极限性能,GLM-5.2(high)平衡性能与token效率。模型权重以MIT许可开源,API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
11:29
歸藏(guizang.ai)@op7418
79
智谱 GLM-5.2 发布并开源

智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
11:24
Orange AI@oran_ge
76
GLM-5.2 开源模型发布,其编程(Coding)能力首次达到Opus级别。该模型在编程与智能体(Agentic)任务上显著提升,支持1M上下文窗口,提供两级推理难度--GLM-5.2 (max) 追求极限性能,GLM-5.2 (high) 平衡性能与token效率。采用MIT许可证开源,API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布编码
11:06
AYi@AYi_AInotes
29
Cursor AI CEO Michael Truell与SpaceX联手合作

Cursor AI CEO Michael Truell在X上宣布与SpaceX联手,共同构建有用AI。据推文称,双方合作规模接近600亿美元。年仅二十多岁的Truell被评价拥有多项稀缺品质,主推文认为其未来成就可能并肩甚至超越OpenAI CEO Sam Altman和Anthropic CEO Dario Amodei。目前具体合作细节尚未披露。

Michael Truell: Lots to do together. Excited to be joining forces with @SpaceX to build useful AI.

大佬观点编码
09:59
小互@xiaohu
60
Cursor CEO Michael Truell:目标是发明一种新型编程

Cursor CEO Michael Truell提出目标:发明一种新型编程,让人用最简洁的方式描述意图,其余交给模型。他反对两种主流设想——“一切照旧”派(继续用TypeScript/Go等正式语言)和“纯聊天机器人”派(对bot说句话就改代码),认为前者低估模型进步,后者缺乏精确控制。他的设想是“代码之后”的世界:用类似英文伪代码表达软件逻辑,能在高层级编辑、精准指向修改,让难懂的符号变成可读可改的形式。

大佬观点编码
09:05
AYi@AYi_AInotes
49
Cursor 推出 Origin:面向 AI 智能体的代码托管平台

Cursor 发布新产品 Origin,定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计,可承载每小时 81,000 次推送,自动处理高频合并冲突,基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git,现有工作流无需改动,形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线,现已开放候补名单。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码
08:36
meng shao@shao__meng
48
Cursor 发布 Origin:要做 Agent 时代的 GitHub

刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin,目标是将自身从 AI Editor 升级为端到端开发平台,打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发,专为 Agent 时代设计:给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist,预计今年秋季正式上线。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码
08:35
Berryxia.AI@berryxia
73
GLM-5.2 开源发布:MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体Hugging Face开源/仓库模型发布
07:36
SemiAnalysis@SemiAnalysis_
45
分析SemiAnalysis内部使用情况,Claude在编码和深度研究方面仍然碾压。尽管Codex的桌面应用UI更好,但Claude的采用率仍然更高。
Anthropic现象/趋势编码
05:56
Chubby♨️@kimmonismus
69
GLM-5.2 以 Elo 1360 在 Design Arena 代码类别中跃居第一,超越现已下架的 Claude Fable 5,且权重开放。这是自该榜单启动以来代码类别的最高 Elo 分数之一,较之前提升了 4 个名次和 27 Elo 分。 Open Source is so back. Let's freaking go

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准
05:04
Emad@EMostaque
79
SpaceX 已行使期权,以全股交易收购 @cursor_ai,目标是打造世界上最有用的 AI 模型。过去几个月,SpaceXAI 与 Cursor 联合训练了一款模型,即将在 Cursor 和 Grok Build 中发布。Emad Mostaque 发文问:"他们会把它改名为 CodeX 吗?"

SpaceX: SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...

编码行业动态
关联讨论 11 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)The Decoder:AI News(RSS)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)Ars Technica:AI(RSS)
03:55
elvis@omarsar0
56
智谱发布GLM-5.2,在Design Arena评测中跃居第1名,Elo评分1360,超过已下架的Claude Fable 5,提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻,并称已在内部用例测试,后续将汇报结果。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

模型发布编码评测/基准
03:55
elvis@omarsar0
70
Z.AI 发布 GLM-5.2,采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升,支持 1M 上下文窗口,具备长时能力。提供两种推理力度:GLM-5.2 (max) 与 GLM-5.2 (high),后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻,并关注其长时任务表现。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体开源生态推理模型发布
03:55
swyx@swyx
50
Cursor/Graphite 的 TomasReimers 刚刚宣布了 Origin,这是 @cursor_ai 期待已久的 Git 竞争对手,可针对 agent 工作负载进行扩展,可通过 API 和 MCP 扩展,并内置合并冲突和协同故障 agent 解决功能。 颇具讽刺意味的是,SpaceX/AI/Cursor 在成立第一天就发布了一个"蓝色起源"产品 (就在 @JeffBezos 发布 Prometheus 之后)

swyx: Cursor/Graphite's @TomasReimers just announced Origin @cursor_ai's long awaited Git competitor, scalable for agent workl...

智能体MCP/工具产品更新编码
03:53
jason@jxnlco
28
"原文为URL,无法翻译(http://x.com/i/article/2066964446086676480)"
OpenAI其他编码
03:53
Anthropic@AnthropicAI
49
我们最新的经济研究引入了一个框架,用于追踪 Claude Code 在规模化过程中的表现。 谁在使用 Claude Code,以及他们用它做什么?任务的价值如何变化?领域专业知识在多大程度上决定了会话是否成功? https://www.anthropic.com/research/claude-code-expertise
Anthropic编码论文/研究
03:25
Nathan Lambert@natolambert
45
智谱(Zhipu AI)最新模型 GLM-5.2 在 Design Arena 上以 1360 Elo 跃居第一,超越已下架的 Claude Fable 5,并开源权重。此次排名上升 4 位、Elo 提升 27 分,创下该基准代码类别的历史最高分之一。AI 分析师 Nathan Lambert 评价称,中国科研团队用更少算力达到高水准,虽美国模型整体领先,但无法忽视中国实验室的进步。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

大佬观点开源生态编码
‹ 上一页
1…89101112…50
下一页 ›