OpenAI近期发布Symphony与gpt-realtime-1.5,分别从工程师工作流与用户交互层面重塑软件控制平面。Symphony实现工单驱动的自动化编码,而gpt-realtime-1.5旨在提供产品级语音控制体验。吴恩达据此提出,AI原生工程团队应由小型通才团队构成,效率瓶颈将转移至产品与市场等领域。同时,微软专家警告此类工具可能导致初级开发者人才萎缩,引发行业对工程师核心判断力应沉淀于何处的深度思考。
OpenAI近期发布Symphony与gpt-realtime-1.5,分别从工程师工作流与用户交互层面重塑软件控制平面。Symphony实现工单驱动的自动化编码,而gpt-realtime-1.5旨在提供产品级语音控制体验。吴恩达据此提出,AI原生工程团队应由小型通才团队构成,效率瓶颈将转移至产品与市场等领域。同时,微软专家警告此类工具可能导致初级开发者人才萎缩,引发行业对工程师核心判断力应沉淀于何处的深度思考。
Did you ever want to control your browser side-by-side with Claude Code? Now, with /open-gstack-browser skill and GStack...
小米正式开源MiMo-V2.5系列模型,采用MIT许可证,允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口:MiMo-V2.5-Pro专为复杂Agent和编码任务设计,在开源模型的GDPVal-AA和ClawEval基准测试中排名第一;MiMo-V2.5是原生多模态模型,具备强大的Agent能力。小米强调,模型的价值不应仅由排行榜衡量,而应取决于其解决实际问题的能力。
Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...
作者以国防工业为镜,揭示西方因长期“优化”导致关键能力流失的深层危机。雷神公司重启“毒刺”导弹生产线需召回70多岁老工程师,依赖卡特时代的图纸,新订单交付需4年。欧盟承诺的百万发炮弹交付严重延期,暴露出整个国防工业供应链存在大量单点故障,且缺乏大规模生产与应急能力。这种模式源于冷战后的“和平红利”政策,导致企业合并、劳动力锐减。类似地,核材料Fogbank的制造工艺也曾因人员流失而几乎失传。作者指出,软件行业正重蹈覆辙:过度依赖AI编程工具可能导致初级工程师培养断层和“理解力危机”。重建能力需要数年甚至数十年,核心限制并非资金,而是知识与经验传承的断裂。当前市场已极度缺乏兼具技术能力与独立判断力的人才。
Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...
GitHub Copilot 将于6月1日起改用基于AI积分的用量计费模型,以支持更多Agent和高级工作流。各档订阅价格不变,每月赠送等额积分,代码补全等基础功能不消耗积分。新规则按Token消耗计费,积分用尽后无降级选项,代码审查会额外消耗Actions时长。企业用户有三个月过渡期及积分池福利。5月初将上线账单预览功能,年付和轻度用户受影响小,但重度用户需关注成本变化。
Starting June 1st, GitHub Copilot will move to a usage-based billing model as GitHub Copilot supports more agentic and a...
用户对Cursor 3的反馈显示,核心诉求已超越“AI辅助编码”,转向构建一个可靠、可控的AI开发工作流。主要需求包括:Agent功能需与IDE无缝融合,保留完整的开发工具链;支持多Agent协作与可视化进度管理;深度集成并产品化Git、Worktree和PR工作流;解决信息架构与导航痛点,升级为任务记忆系统;确保键盘优先操作与高度自定义;提升基础稳定性和性能以建立信任;增加模型选择与成本透明度;加强扩展、MCP及外部工具集成,成为开发自动化中枢;提供移动端以远程监管Agent;以及强化前端与设计工作流的集成能力。用户期望Cursor 3能演变为管理AI工程团队的稳定主界面。
how can we make cursor 3 better? send us any bugs, feature requests, or feedback you have!
小米正式开源MiMo-V2.5系列模型,采用MIT许可,支持商业部署、继续训练与微调。该系列包含两个支持100万令牌上下文窗口的模型:MiMo-V2.5-Pro专为复杂智能体和编码任务设计,在GDPVal-AA和ClawEval基准测试中位列开源模型第一;MiMo-V2.5则是具备强大智能体能力的原生全模态模型。官方强调,模型的价值不仅在于排名,更在于其解决实际问题的能力,并已公开模型权重与技术博客。
OpenClaw 4.1x版本在GPT支持方面实现重大改进,基本解决了以往只说不干的缺陷。但用户修改soul文件内容后,AI在对话中频繁使用“卧槽”等口语化词汇,导致言语风格变得粗俗和不成熟。这种行为被比喻为刚走向社会的二愣子,反映出AI在个性化调整后可能出现意料之外的言行表现。
Usage limits tripled for GLM-5-Turbo in GLM Coding Plan! Enjoy the same high-volume capacity as GLM-4.7 during non-peak ...
开发者@patloeber分享了一套完全本地的Coding Agent方案,核心是Pi Agent框架与Gemma 4 26B A4B模型。Gemma 4因原生支持function calling和thinking mode,首次真正适合作为Agent;其MoE架构在质量与速度间取得平衡。Pi框架设计极简,仅提供read、write等四个核心工具以节省宝贵的上下文窗口。文中强调了上下文长度与显存的权衡,并给出安全警告:本地模型可能产生危险命令幻觉,建议至少安装permission-gate等扩展进行防护。
Lately I've been having fun with running coding agents fully locally. The setup I landed on is: - Pi agent - Gemma 4 26B...
作者同步了DeepSeek-V4的测试进度,并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础,要求大模型通过tool_call创建新的数值系统(如属性、状态),并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况,并运行定制黑盒测试。此外,通过为酒馆增加CLI模式,测试还评估了大模型的Agent能力,使其能自行测试并迭代代码。目前测试仍在进行中。
作者提出了个人Agent应满足的七条标准:能力层需能跨工具处理任务并具备主动性与可靠性;认知层需拥有长期记忆;接入层需在Web与移动端原生可用、支持多模态无缝切换且能从第三方IM触达;人格层需具备个性。依据此标准,当前OpenClaw、Claude Code和Codex均未完全达标。Claude Code在接入便捷性和人格化上不足;Codex主要缺乏移动端入口;OpenClaw则在能力层的可靠性上有明显缺陷,导致重度用户仍需借助其他工具来修正其错误。
A great personal agent should: 1. Get work done across email, calendar, Google Workspace, or any API/MCP it's hooked up ...
Cluely的CEO Roy Lee在NYU活动中,以500美元现金询问在场AI学生和工程师是否上线过公开项目,几乎无人举手。这揭示了AI圈的普遍现象:工程师们热衷讨论大模型、Agent等理论,却缺乏将知识转化为公开产品的执行力。LLM虽能解决大部分技术问题,但部署、用户体验和成本控制等实际工作才是关键。知识在AI时代已泛滥,真正稀缺的是执行力。呼吁工程师立即实践,做出哪怕不完美的公开产品。
刘小排(@bourneliu66)在开放麦中表达对AI大V的厌倦,但被指出自己也是AI大V。他批评labnana项目基于vibe coding开发。作者以幽默态度回应,强调格局开放,并承诺帮助推广刘小排的BuilderPulse项目,凸显AI社区内自我反思与项目互助的互动。
my friend was building a crazy game last night before we went out. it's a turn-based game that's a mix of guitar hero, d...
OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。
A must read for anyone interested in building practical AI systems in 2026: Dive into Claude Code: The Design Space of T...
Boris Cherny公开其构建Claude Code的核心工作流,强调三个反直觉原则:1)始终选用最昂贵、最聪明的AI模型,因其一次性规划能力反而更节省token;2)团队维护一个纯文本知识库作为“长期记忆”,记录错误以避免重犯;3)始终让Claude能看到自己代码的运行结果,确保有效迭代。其流程依赖于周密规划、共享知识库和多个Claude实例的协同。针对Claude使用问题,推荐使用聚合平台ZenMux,该平台汇聚多款顶级模型并提供稳定服务。
兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...
completely disagree. buying Cursor is a genius move by Elon. wouldn't be surprised if xAI had the best coding model 12-1...
作者认为没有必要为AI Agent单独撰写产品需求文档。其核心观点是,如果人类能看懂的PRD,AI模型理应也能理解。若产品经理撰写的PRD已能直接供Agent使用,程序员在多数场景下将不再必需。更进一步,作者指出在许多场景中,冗长的PRD本身已非必要,直接通过简洁的指令让Agent实现功能可能更快、更好。这一讨论源于业界关于是否需要为Agent开辟PRD专门章节的实践探索。
@dotey 想问下 你们 PRD 现在会单开一节给 agent 写吗 我们最近刚开始这么干 真的两套思路🫠
we still get looksmaxxed on frontend a little but we IQmog hard now
Deepseek V4 官方2.5折来了,优惠到5月5号,看来官方也希望大家狠狠用起来 附:官方推荐对claude code 配置如下,大家需额外注意模型、思考级别配置: export ANTHROPIC_BASE_URL=https://...
codex app is trending to be the best software i've ever used ridiculous how fast it got so good
TS大神Matt Pocock为其代码架构改进技能制定了一份仅37行的官方术语表,强制AI在输出建议时使用统一、精确的词汇,摒弃模糊术语。此举旨在解决AI随意修改代码的问题,使其能准确识别模块深浅与价值。通过“删除测试”等方法,将架构改进从主观艺术转变为可重复、可验证的工程实践。
What app are you making this weekend with GPT 5.5 and Codex?