linus was the original vibe coder before it was cool. dude just posts an angry email on the mailing list describing what...
linus was the original vibe coder before it was cool. dude just posts an angry email on the mailing list describing what...
GLM 5.2 is now on DeepSWE as the top open-source model on our leaderboard. With a pass@1 score of 44% at max effort, GLM...
Cognite CTO Geir Engdahl接受专访指出,工业AI失败的根源并非模型层,而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活,因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入,强调工作演示与可信系统之间存在巨大鸿沟。他预测,到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。
Ethan Mollick指出,Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计,只重最终代码,而多数知识工作的过程(研究、探索、原型分支等)与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作,用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节,是突破编程领域、扩展到其他知识工作的关键障碍。
不求设计师!Codex一句话生成App图标,加快项目开发速度。 开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...
推荐10个免费开源GitHub仓库:Recordly(免费屏幕录制,AGPL-3.0)、Stirling-PDF(PDF工具集,50+功能,MIT)、PhotoGIMP(GIMP转Photoshop界面)、Open Notebook(自托管NotebookLM,支持PDF/URL/YouTube,18+数据源,MIT)、Odysseus(PewDiePie开发的AI工作空间,本地优先,MIT)、FreeDomain(免费域名指向Cloudflare,AGPL-3.0)、Hyperframes(HeyGen的HTML/CSS转MP4引擎,Apache-2.0)、Web-to-App(网站转Android应用,支持Node/PHP/Python运行时)、ReClip(基于yt-dlp的多平台视频/音频下载)、Excalidraw(无限画布手绘图表,端到端加密,12万+好评)。
10 GITHUB REPOS THAT SHOULD BE ILLEGAL TO HAVE. all free. all open-source. bookmark this for later. 1️⃣ recordly - the f...
Nah kalau lo pakai Devin, bisa akses GLM 5.2 gratis dan unlimited🤯 cuma konteksnya maksimal 200 ribu, kalau pakai yg ve...
开发者整理出一套Agentic Engineering Workflow,覆盖任务拆解、工具调用、记忆管理到错误恢复全流程,让AI像工程师一样自主规划、写代码、调试和交付,而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度,以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通,强调工程方法比模型能力更重要。
目前看到关于 "Agentic Engineering Workflow"的最完整的介绍👇 花了一个小时完整看完了,完全可以做成一个付费教程。 内容涵盖了tmux,agent记忆,skills,语音输入,长任务执行,并行worktree管...
Claude psychoanalyzing Dario is the AI slop I didn't know I needed.
Claude Code 设置/effort 为ultracode,然后翻译英文文章,你就会收获一个自动的多智能体流水线翻译流程: 先让 3 位风格各异的译者各出一稿 → 双语编辑对照原文评审挑出最佳译法 → 综合成定稿 → 最后逐句校对纠错...
AI Native组织由人、Agent、上下文三层构成。人退守两端:战略/品味/判断与沟通/评审,AI吃掉中间执行。Agent自治需Clear Goal、Skills、Tools、Context四要素,并通过Skill Chain串联多个skill对抗幻觉。上下文层是护城河,五阶段循环:Capture→Curate→Store→Execute→Experience→回流。两个Live Demo验证:提案微站3-4分钟生成个性化页面,已带来数百万美元收入;10分钟产品闭环实现语音口述到高保真原型。创业方向是将三层系统打包服务,聚焦行业/职能/公司规模。
Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things.
OpenAI Codex 新增 Record & Replay 功能,用户可通过“演示一次工作流”创建可复用的 AI Skill。底层将 Skill 作为结构化上下文,回放时具备适应性,能调用当前环境中的工具完成任务。流程分两阶段:录制时 Codex 分析操作并自动起草 Skill(含使用时机、输入、步骤、验证);回放时用户提供新参数,Codex 自动执行。官方总结了五条高质量录制原则:短而完整、提前声明变量、真实但脱敏、补录隐性规则、及时停止。该功能与 Plugin 形成互补:适合个人快速 Skill 化,而非团队级分发。
We built the Codex App with models that were okayish at front-end. Wait to see what we can do when we finally improve fr...
UC Berkeley分析美国一所大型公立研究型大学超50万份成绩发现,自ChatGPT推出以来,写作和编程任务多的课程A等级比例跃升13个百分点,平均GPA上升0.12分。成绩涨幅主要来自家庭作业而非考试,口头展示类作业成绩未受影响,表明AI替代学生完成作业而非改善学习。研究建议重新设计作业格式。OpenAI CEO Sam Altman警告若不调整教育体系,批判性思维可能萎缩。挪威已在小学全面禁用AI。
用户卡兹克24年初被封的Google账号被Anthropic解封,随即充值200美元。目前该用户拥有两个分别充值200美元的Claude Max账号,并可使用Claude原生Chrome插件进行浏览器操控。
拜耳与Thoughtworks合作开发了云端平台PRINCE,利用Agentic RAG和Text-to-SQL整合数十年临床前安全研究报告。该系统从关键词搜索演进为能回答复杂问题并起草监管文档的智能研究助手。架构通过上下文工程控制信息路由,通过驾驭工程实现编排、错误恢复与可观测性。系统以透明度、可解释性和人工参与为核心信任机制,显著提升数据可访问性与研究效率,同时确保治理与合规。
OpenAI CEO Sam Altman 继续押注大语言模型的规模扩展,批评一代研究者过于自信地认为 scaling 行不通。在斯坦福回应 Yann LeCun 等批评者时,Altman 表示有些人将身份与立场绑定,即便数据证明他们错了也不愿放手。他指出 LLMs 已在某些领域超越人类智能,如 OpenAI 模型推翻了一个长期困扰数学家的猜想。但对于需要高判断力的长期复杂任务,LLMs 仍远不如人类。Anthropic CEO Dario Amodei 近期也表达了类似看法。
一篇文章通过亚马逊搜索“100000 whys”后出现的约150本儿童书籍封面拼图指出,这些封面高度雷同——如几乎所有顶部封面左上角都有一只咆哮的恐龙,以及反复出现的红白火箭、金毛犬、狮子等图案——正是AI生成内容的典型产物。作者认为LLM写作的独特之处不在于个体风格与人类不同,而在于它们面对几乎任何普通提示词都会调用同一套复杂手法,导致输出呈现准确定性相似。这种模糊信号在随意场景中可凭直觉识别,且随着内容生产成本远低于消费成本,这种直觉愈发重要。
邵猛发推讨论一项LLM对比投票,对比双方为GLM-5.2(智谱)与Gemini 3.5 Flash(Google DeepMind)。他认为结果毫无悬念,Gemini 3.5 Flash表现不佳,并感叹自Gemini 3.0多模态惊艳发布后,Google便一路沉寂。最后提问:目前几款国产LLM中,谁更强?
BestBlogs 第100期特刊《百篇回顾》发布,精选两年间AI领域100篇文章,梳理六条发展主线:一、模型从会回答到能干活;二、AI Coding实现变便宜、验证变贵;三、工程范式把隐性判断写成文字;四、Agent一套冷静的工程常识;五、产品商业从卖工具到卖结果;六、领袖思想答案变廉价、提问变值钱。提供阅读清单、24分钟播客和图文三种形式可选。
http://x.com/i/article/2068589784554250240
BestBlogs精选周刊发布第100期,回顾两年AI发展。作者认为每周信息虽碎,但整体脉络清晰:AI答案越来越便宜,提对问题、做对判断反而更值钱。从数百万篇内容中精选6000多篇,再从中挑出100篇,配上AI播客和图文,做成两年回顾导航图。
http://x.com/i/article/2068589784554250240
一个自学编程的人,用 Claude Code 破解了3500 年前克里特岛的 Linear A 文字🤯 过去三年我们一直在说 AI 会取代人类专家,Linear A 这个案例恰好反过来了,一个自学工程师用 Claude Code 写了几百行 Python,交叉比对两个公开数据库,输出了一套 408 词的词典,但他从头到尾没让 AI "自己判断",所有假设都是他提的,AI 只负责跑验证。 Tom 用的方法很朴素:
Cool way to use Claude Code: deciphering Linear A, a 3500 year old written language from Crete https://aiclambake.com/cl...
BestBlogs周刊第100期特刊回顾两年AI发展,核心洞察:答案变便宜,判断变贵。模型层:DeepSeek-V3(6700亿参数、每次激活370亿、训练成本约557万美元)和R1(纯强化学习推理开源)将效率与开源变成新范式。AI编程层:Codex案例中模型7小时迭代200轮测试仅改动500行代码,验证成为新瓶颈;Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器,人从写代码退到判断、验证和为结果负责的位置。
随着实现速度加快,审查AI生成代码成为新瓶颈。作者发现,即便遵循分阶段、小变更等良好实践,审查自己未亲手思考过的代码仍带来认知过载。他经常拒绝AI编码助手生成的全部代码并从头重写,理由包括:无法用自己的话解释其思路、diff大于问题本身、在未证明必要性前就引入抽象、本地能运行但让系统更难推理、信任输出超过理解。作者主张必须人工审查与AI审查结合,强调AI仍需优秀工程师引导才能产出可持续的解决方案。
腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如“帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致”),元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。
Vista分享开源乔木icon设计Skill,支持Codex内一句话生成App/网页图标。两种方案:1)调用Imagen生图,参考数百图标示例;2)搜索2万SVG图标,搭配纯色或渐变背景。适用于快速原型开发,精细设计仍需设计师。安装命令:npx skills add joeseesun/qiaomu-icon-generator。
钟二信发布了开源插件Cowart,结合Codex与无限画布工具,让用户直接在画布上用自然语言标注、修改图片。该过程比传统AI图片处理(发prompt、等生成、再迭代)更直观,也更容易留痕。插件还支持更自由地使用GPT Image 2。Cowart名字来自“Code with Art”。插件已开源至GitHub。
Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...
Levie now uses Salesforce 5x more than at any point before. The Box CEO @levie connected Salesforce's MCP server to Clau...