看到一个面向 Design Engineer 的 UI Skills 集合站 不过与其说是面向 Design Engineer,更像是面向有 UI/UX,甚至 Remotion 等跟设计、展示、交互、动画相关的设计师和开发者们的。 如果你在找 UI/UX/Remotion/Motion Graphics 等相关 Skills,这个网站可以看看: https://www.ui-skills.com/skills/
Thoughtworks提出结构化提示驱动开发(SPDD),以解决AI编码助手带来的团队协作与系统交付瓶颈。该方法将提示视为一等交付物,通过REASONS画布(需求、实体、方法、结构、操作、规范、保障)在编码前明确意图与约束,并配套工具链支持从分析到生成的全流程。SPDD强调抽象优先、对齐和迭代评审,适用于规模化、高合规场景,能提升交付确定性与可追溯性,但其价值高度依赖团队的抽象建模与系统分析能力。
GitHub Copilot宣布自2026年6月1日起,所有计划将改为按用量计费,取代原有的固定请求额度模式。微软称此举是因Copilot已演变为智能体式平台,计算和推理需求显著增加,原有定价模式不可持续。文章指出,这揭示了生成式AI行业普遍存在的经济错配问题。此前,包括微软、Anthropic和OpenAI在内的许多AI服务商都在以远低于实际计算成本的价格补贴用户,允许用户每月烧掉远超订阅费的token成本。作者认为,按月订阅模式对于基于LLM的服务本身就不合理,因为它将服务使用与真实的计算成本(token消耗)割裂开来。随着新的、更复杂的推理模型出现,推理成本不降反升,迫使服务商转向更能反映实际资源消耗的定价模式。
关联讨论 3 条Simon Willison 博客GitHub BlogHacker News 热门(buzzing.cc 中文翻译)微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。
纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。
当前,遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目;Thoughtworks推动提示词成为可版本化、可审查的一等交付物;NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力,工程挑战的核心正从“生成”转向“治理”,关键在于让AI持续理解项目上下文、使其输出可复用,并推动多模态技术落地生产环境。
Google Translate迎来20周年,其发展依赖多次技术飞跃。2006年部署基于万亿词训练的5-gram语言模型,实现质量突破;2016年转向深度神经网络,结合Sequence-to-Sequence模型和TPUs,性能提升30-80倍、延迟降低15-30倍,使大规模服务成为可能;近期集成Gemini模型进一步优化。这些进步均基于前沿研究,每次都为翻译质量带来显著提升。作为Google机器学习工作的初始实验,Google Translate最常见翻译短语如“thank you”体现了其连接全球用户的使命。
Sam Altman在OpenAI无直接股权且工资低廉,表面为爱运营。但真实收益来自外部投资,包括Helion Energy核聚变、Stoke Space火箭公司、Merge Labs脑机接口及Y Combinator投资组合。这些公司与OpenAI合作或交易时,价值提升,使Altman间接获益。这种安排掩盖了资金来源,使得利益流向难以追踪。
截至2025年中,已有约三分之一的网站内容由AI生成,而在三年前这一比例近乎为零。斯坦福AI研究员Jonáš Doležal指出,互联网在短短三年内经历了由人类主导到AI定义重大部分的急速转变,其速度令人震惊。相关背景信息显示,AI生成内容已在文章、视频、音乐及广告等多个领域占据显著比例,例如近半数歌曲、多数平台头部频道及广告内容已由AI创作,标志着数字景观正在被AI快速重塑。
Claude宣布接入Blender、Adobe、Autodesk等八个创意行业核心工具,标志着AI应用从聊天框生成转向深度嵌入专业工作流。用户可直接在软件内部调试场景、批量修改对象或编写脚本,处理重复性任务。这代表AI竞争焦点已从模型规模转向与普通人工作流的无缝融合,对创作者而言,掌握这类连接器比追逐新模型更具实际价值。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)Anthropic:Newsroom(网页)NVIDIA推出Nemotron 3 Nano Omni模型,其定位并非通用聊天机器人,而是作为智能体系统中的轻量级感知模块。该模型采用30B-3B混合专家架构,在处理视觉、音频和文本多模态输入时,吞吐量可比同类开源全模态模型提升高达9倍。它旨在充当多智能体栈中的“眼睛和耳朵”,负责感知屏幕、文档和音频等信息,并将结构化上下文传递给如Nemotron Super(执行)和Ultra(规划)等推理层,从而优化大规模、高频率调用的智能体工作流。模型完全开源,现已登陆Hugging Face。
以ChatGPT、Claude Web为代表的工具已超越传统聊天机器人,成为具备虚拟运行环境和工具调用能力的AI Agent。利用这一特性,用户可以让AI在执行任务时自行进行验证和迭代,而非仅进行对话。例如,在要求其生成或优化图像提示词时,可指令AI先自行验证并根据结果迭代改进,用户最终验收迭代后的成果,这种方法通常能获得更优的结果。
作者不再直接与多个AI Agent交互,而是通过核心AI搭档Finn来管理整个工作流。具体流程是:先在Codex中将单个Agent或技能调试稳定,然后交由OpenClaw平台运行,后续基本无需干预。用户只需向Finn提出需求,由其协调其他Agent执行,避免了与众多Agent直接对话导致的混乱。该系统已集成Obsidian、Google Workspace、飞书、GitHub等工具,并通过白名单、审计和能力边界限制确保安全。例如,处理年度烂账的流程被调试为固定技能后,Finn能自动填表、定时盘点并发送邮件,成为集私人助理、财务总监和技术总监于一身的角色。