AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 796 条
全部一手资讯X论文
标签「开源生态」清除
Ant Ling@AntLingAGI · 5月14日83

🚀 Ring-2.6-1T is now open source. A trillion-scale flagship thinking model built for real-world complex tasks: Agent workflows, coding & engineering, long-horizon tasks, complex reasoning, research, and enterprise automation. It is designed to move beyond “answering” toward execution: understanding context, planning steps, calling tools, and staying stable across long task chains. Highlights: - Advanced agentic workflow support. - Reasoning effort levels: high for agentic tasks, xhigh for complex reasoning. - Scalable asynchronous RL via the IcePop algorithm, enabling stable, trillion-scale training for long-horizon agentic RL.

译Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

SenseTime@SenseTime_AI · 5月14日77

Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥 Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.

译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Xiaomi MiMo@XiaomiMiMo · 5月14日69

MiMo V2.5 Pro just placed 3rd on @DesignArena! 🎉

译MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

SiliconFlow@SiliconFlowAI · 5月14日63

bravooo

译NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

Berryxia.AI@berryxia · 5月14日71

Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的整个训练过程。 他们只花了460万美元。 上周一场8模型实时编程大战,Kimi K2直接拿下第一,GPT-5.5排第三,Claude Opus 4.7第五。 我看完后最大的感受是,AI竞赛的规则已经在悄然改变。 所有人还在拼谁敢烧更多钱、堆更多算力,他却用极致优化、线性注意力、子代理这些硬核架构,把资源差距直接抹平甚至反超。 40分钟全是干货,零废话,把关键打法讲得清清楚楚。 如果你正在做AI代理,或者准备2026年入场大模型赛道,这段视频强烈建议存下来周末慢慢看。 小团队靠聪明架构,正在把大厂的传统玩法一点点颠覆。 你还觉得只有堆钱才能赢吗?

译杨植麟在视频中拆解Kimi K2模型的训练,仅花费460万美元便在编程大战中击败GPT-5.5等对手。其通过极致优化、线性注意力等架构创新,抹平资源差距,标志AI竞赛规则改变,小团队以聪明设计颠覆大厂传统玩法。

Orange AI@oran_ge · 5月14日66

李想: AI 是生产力和劳动力的技术 我现在不太相信一人公司。 很多一人公司都更新内容来验证这个概念成立 但验证了一段时间之后发现他每天更新的事情就是 openclaw 又更新了,又解决了什么bug问题 他们实际的生产环境并没有建立起来 建立真实的生产环境太难了

译理想汽车CEO李想认为,AI本质上是提升生产力和劳动力的技术。他目前对“一人公司”模式持怀疑态度,指出许多此类公司初期通过频繁更新内容来验证概念,但长期观察发现,其工作往往局限于追踪和报告技术进展,例如“OpenClaw又更新了,解决了什么bug”。关键在于,这些公司未能建立起真实、可持续的生产环境,而构建这样的环境被证明是极其困难的挑战。

MiniMax (official)@MiniMax_AI · 5月14日22

Congrats on the launch, @cline! Try building with MiniMax M2.7 on Cline 🚀

译恭喜发布,@cline!试试在 Cline 上用 MiniMax M2.7 构建吧 🚀

Nathan Lambert@natolambert · 5月13日55

Can someone put me in touch with the right person here. I’ve got a plan for said GPUs.

译Nvidia CEO黄仁勋夫妇的慈善基金会与云服务商CoreWeave达成协议,租用其GPU算力。基金会计划将这些GPU时长捐赠给大学和非营利研究机构,用于支持开放科学与AI研究。截至目前,该基金会已通过“GPU算力资助”形式捐赠了价值1.08亿美元的计算资源。

Alibaba Cloud@alibaba_cloud · 5月13日40

Join the AInnovation Summit at VivaTech! Explore how AI drives real business impact with Qwen, Wan, HappyHorse & HappyOyster. 📅 June 17, 15:00 CEST 📍 Paris Expo Porte de Versailles #VivaTech #AlibabaCloud #AInnovationSummit

译加入VivaTech的AInnovation峰会!探索AI如何通过Qwen、Wan、HappyHorse和HappyOyster驱动实际商业影响。 📅 6月17日 中欧夏令时15:00 📍 巴黎凡尔赛门展览中心 #VivaTech #AlibabaCloud #AInnovationSummit

阿绎 AYi@AYi_AInotes · 5月13日67

Theo 这张清单刷屏了,近期的安全事件如下: CopyFail(Linux 系统被破解) CopyFail 2/Dirty Frag(Linux 内核脏碎片漏洞) Next.js 框架出现 13 个安全警告 MacOS 26.5 系统修复了 70 多个通用漏洞披露(CVE)漏洞 iOS 26.5 系统修复了约 50 个通用漏洞披露(CVE)漏洞 YellowKey(Windows Bitlocker 全盘加密被破解) GreenPlasma(Windows 权限提升漏洞) CVE-2026-21510 和 CVE-2026-21513 被证实由俄罗斯用于 Windows 远程代码执行漏洞攻击 CVE-2026-32202 被单独证实由俄罗斯用于获取敏感文档 Mini-Shai Hulud(超过 300 个 JS 和 Python 软件包因 GitHub Action 缓存投毒而被入侵) 谷歌证实,他们发现了利用人工智能对某个未知的 “开源、基于 Web 的系统管理工具” 进行零日漏洞攻击的情况 Canvas(大多数学校使用的流行学习管理系统)被完全破解 PAN-OS( Palo Alto Networks 公司的操作系统)因严重等级为 9.3 的 CVE-2026-0300 漏洞被破解 我连着看了三天相关报告,越看越觉得这不是个危言耸听的恐怖故事, 更像是软件工程进入后AI安全时代的入学通知。 最关键的信号藏在 CopyFail 里: 一个 732 字节的 Python 脚本, 确定性拿下 2017 年后几乎所有 Linux 发行版的 root。 这玩意竟然是 AI 辅助发现的。 Google 也在同一周确认,AI 驱动的零日已经在野利用了, 俄罗斯 APT 直接武器化两个 Windows CVE, Mini-Shai Hulud 一次劫持 300+ 个 JS/Python 包。 以前一个漏洞躺三年才被人发现, 现在 AI 扫描+AI 利用,未知→已知→武器化几乎同步发生。 更狠的是供应链, Mini-Shai Hulud 告诉所有人一件事: 你信任的 CI/CD 才是最大的后门。 你以为用官方 GitHub Action 就安全, 其实是把 OIDC token 的钥匙拱手送给攻击者。 Perry Metzger 说过一句我反复琢磨的话: bug 的总量是有限的,AI 正在快速耗尽低挂果实。 也就是说,以前安全是"被动 patch", 现在开始转向"AI 实时免疫"。 未来不再是人盯人,会变成 AI 盯 AI。 所以 Theo 问 Are you scared yet, 我的答案是不怕,但必须立刻行动。 第一步不是全站 patch,是把供应链审计提到 P0, GH Actions 全审一遍,禁用 pull_request_target, 强制 SLSA Level 3,启用 SBOM。 那些把"安全作为第一原则"写进 DNA 的团队, 接下来 3-5 年会活得最舒服, 其他人要交的学费,可能比想象中贵得多~

译近期CopyFail、YellowKey、Mini-Shai Hulud等系列安全事件,标志着软件安全范式正发生根本转变。AI不仅辅助发现漏洞(如732字节脚本攻破Linux root),更被直接用于驱动零日漏洞的在野利用和武器化。漏洞从发现到武器化的时间急剧缩短。供应链成为最薄弱环节,Mini-Shai Hulud事件揭示被广泛信任的CI/CD管道(如GitHub Actions)可能成为最大后门。安全模式正从“被动修补”转向构建“AI实时免疫”体系。应对核心是将供应链审计提升至最高优先级,审查CI/CD、强制实施SLSA等标准。未来3-5年,安全能力将直接决定企业生存成本。

向阳乔木@vista8 · 5月13日60

应该还有不少bug,等后续版本更新

译博主长期计划搭建个人博客,因工程量大而拖延。受@vista8乔木老师开源博客系统启发,他fork代码并部署到Cloudflare,大半天内实现上线。系统提供Notion式写作体验,AI自动生成摘要、标签和封面,内置微信公众号bridge支持一键发布,且零服务器成本。开源社区避免了从零造轮子,大幅提升效率。但系统初版可能存在bug,需等待后续版本更新。

歸藏(guizang.ai)@op7418 · 5月13日59

很多模型厂商开始发现开源 Agent 框架和客户端的价值。 大家都开始要么补贴客户端本身,要么补贴客户端用户。 但是我觉得还有一个非常重要的盲点。 就是像藏师傅、宝玉、乔木、一泽这种头部的 Skills 开发者。他们的 Skills 装机量其实非常大,遍布各种 Agent。 无论是从数据、用户反馈,还是从打广告这种商业价值来说,潜力都非常大。 目前大家都没有把这条线重视起来,没有一个合适的合作方式给这些开源 Skills 开发者提供好的框架或商业化路径,去回馈这些开发者,并同时帮助自己的产品提高知名度。 我觉得这是非常可惜的。因为这些 Skills 的装机量远比各种 Agent 框架和客户端更大,而且它们的传播也更广。

译当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。

Tencent Hy@TencentHunyuan · 5月13日76

Hy3 preview is now on @gmi_cloud. 🙌

译Hy3 预览版现已登陆 @gmi_cloud。🙌

SemiAnalysis@SemiAnalysis_ · 5月13日65

POSITIVE AMD FLYWHEEL ALERT: @AnushElangovan has finally recognized & prioritized the importance of providing upstream vLLM & SGLang maintainers persistent access to $3.6 million 💰️ MI355X interconnected dev clusters.  Previously, only NVIDIA was persistent access to H100/B200/GB200/GB300 develop cluster to vLLM/SGLang upstream maintainers so that is what they focused their time on. Previously. AMD gave vLLM/SGLang OSS maintainers persistent access to interconnected GPUs. 1\4🧵

译积极AMD飞轮警报:@AnushElangovan 终于认识到并优先考虑为上游vLLM和SGLang维护者提供对价值360万美元💰️ MI355X互连开发集群的持久访问权限的重要性。此前,只有NVIDIA为vLLM/SGLang上游维护者提供对H100/B200/GB200/GB300开发集群的持久访问权限,因此他们之前将时间集中在这方面。此前,AMD已为vLLM/SGLang开源维护者提供对互连GPU的持久访问权限。1/4🧵

ginobefun@hongming731 · 5月13日57

http://x.com/i/article/2054356653437562880 # AI Agent 落地三问:代码本质、长流程状态、GUI 操控 · BestBlogs 每日早报 05.13 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief EP55 · 2026 年 5 月 13 日 > 从演示 Agent 到生产 Agent,最难的一步是解决空闲等待。今日精读聚焦 AI Agent 落地的三个层面:Google ADK 教程用持久化状态机替代对话历史、事件驱动替代轮询,让长流程 Agent 永不丢失上下文;小红书 QCon 实战还原 GUI Agent 测试的真实瓶颈,发现执行自动化只解决一半问题,业务理解才是核心;PingCAP 黄东旭复盘 TiDB 为 Kimi K2.6 数千万站点提供 Agent 数据库支撑的细节,说明 Scale 数量才是 Infra 真正的考题。 ## 导语 今天是 5 月 13 日,星期三。欢迎收听 BestBlogs 每日早报第 55 期。 LLM 让生成代码这件事变得廉价,但真正让工程师有价值的能力——对问题域的深度建模——并没有被替代。今天三篇精读,分别从「代码的本质」、「长流程 Agent 架构」和「GUI 操作 Agent」三个维度,探讨 AI Agent 从 Demo 走向生产的关键挑战。 精讲一来自 Martin Fowler 博客,Thoughtworks 首席工程师 Unmesh Joshi 追问:代码究竟是什么?他的答案直指 LLM 时代开发者的核心竞争力。当 LLM 把「打字生成代码」这件事商品化之后,真正稀缺的变成了什么?这个问题比大多数人想象的更深。 精讲二来自 Google Developers Blog,用一个「新员工入职协调 Agent」的完整实现,展示了三项让 Agent 从 Demo 走向生产的关键架构转变——持久化状态机、事件驱动休眠门控、多 Agent 委托。这是目前最完整的开源参考实现之一。 精讲三来自 OpenAI,演示了 Codex 的 computer use 功能——AI Agent 正式迈入「操控本地 GUI」的新阶段。用独立光标、不接管用户电脑,在后台并行处理多个桌面任务。 速览部分,我们还关注了:小红书 GUI Agent 测试工程实战(执行自动化解决一半,业务理解才是另一半)、PingCAP TiDB 为 Kimi K2.6 提供虚拟数据库支持、Anthropic CLUE 威胁检测平台、Claude 法律行业版 20+ MCP 连接器、吴恩达对 AI 就业影响的系统性分析、Agent Skill 规范与五种设计模式,以及当前最紧迫的供应链安全事件——Mini Shai-Hulud 蠕虫侵入 172 个 npm/PyPI 包,删包后仍存活。 ## 精讲一:什么是代码? 代码是什么?表面上看,答案显而易见——代码就是程序员写的、告诉机器做什么的指令。但 Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者 Unmesh Joshi 在 Martin Fowler 博客上的这篇文章里,对这个问题给出了一个更深刻、也更有预见性的答案。 代码承载两个使命,正在被分别对待 Joshi 认为,代码始终同时服务于两个目的: 第一,给机器的指令——让计算机执行操作、移动数据、协调计算。这部分,正在被 LLM 商品化。你不再需要逐字敲出每一行代码,高层次的描述就能生成大量可运行的代码。LLM 在这个维度上的能力提升速度,比大多数人预期的快得多。 第二,问题域的概念模型——这是代码的「设计」维度。一个优秀的代码库,不只包含机器能执行的指令,还包含人和工具能用来推理的概念。类名、方法名、模块边界——这些构成了一套共享的词汇表,让团队能够用同一种语言思考和沟通。这个维度,目前还没有被 LLM 真正替代。 词汇表是核心,领域知识是护城河 Joshi 举了一个零售域的例子:当我们为零售业写代码,代码里出现的是「顾客」、「商品」、「订单」、「发货」、「支付」。当我们为这个域做 Web 开发时,代码里还有「资源」、「GET/POST/DELETE 语义」这套 Web 词汇的映射。 一个不懂这两套词汇体系的人,写出来的代码架构会有根本缺陷——即使机器能正确运行,也无法经受需求变化的冲击,也无法让团队在未来高效地在上面继续工作。 这套词汇体系,就是领域驱动设计(DDD)里的「通用语言」(Ubiquitous Language)。它不是凭空生成的,而是在与领域专家深度合作、在无数次设计决策中逐渐形成的。LLM 可以模仿词汇,但无法替代构建词汇体系的过程——因为那个过程本质上是对业务现实的深度理解和提炼。 AI 时代,稀缺技能正在转移 当「打字生成代码」变得廉价,真正稀缺的技能是: - 为问题域构建精准的概念模型——什么是核心实体?它们之间的关系是什么? - 设计清晰的词汇体系和有界上下文——在哪里「顾客」和「用户」应该是同一个概念,在哪里它们必须分开? - 在人与 LLM 的协作中保持概念的一致性——如何确保 LLM 生成的代码使用了正确的领域词汇,而不是创造了新的混乱? Joshi 的结论很简洁:在 AI 时代,工程师应该主动提升的是建模能力,而不是打字速度。 与今日其他精读的关联 这个视角与今天精讲二、三形成了一个有趣的呼应:精讲二的 ADK 长流程 Agent,核心挑战就是为工作流建立精确的状态模型(把「入职流程」建模为六个明确节点);精讲三的 Codex computer use,需要 AI 对 GUI 界面的功能语义有正确理解(通过 Accessibility 框架提取 UI 元素的文字描述)。无论是人写代码还是 Agent 编排任务,「准确的概念模型」都是核心约束。 这篇文章不长,但它在 LLM 渗透开发工作流的当下,给了开发者一个非常清醒的定位框架。如果你正在思考「AI 会取代程序员吗」,或者想理解自己在 AI 时代应该投资什么能力,这是最值得认真读的一篇。 阅读原文:什么是代码? ## 精讲二:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 大多数 Agent 教程都止步于一个无状态聊天机器人——对话结束、容器重启,什么都忘了。但真实的企业工作流不是这样的。 HR 入职流程跨越两周,发票争议需要等待供应商回复好几天,销售跟进序列可能延续一个月。这些流程的主角,是漫长的「空闲等待」——Agent 需要在等待人类签字、物流确认、审批通过的过程中静静休眠,然后准确地从中断点继续。一个无状态聊天机器人根本无法应对这种挑战。 Google Developers Blog 上的这篇教程,用一个「新员工入职协调 Agent」展示了三项将 Agent 从 Demo 推向生产的关键架构转变。 无状态 Agent 为何在真实工作流中崩溃 当前主流的无状态模式,是把每条用户消息和模型回复追加到不断增长的对话历史里,然后把整个历史塞给下一次 LLM 调用。这对五分钟的问答没问题,但在跨天、跨周的工作流里会以三种方式失败: - 上下文污染:经过数百轮对话,历史里充满了过时的工具输出和无关闲聊,模型开始搞混自己在哪个步骤。 - Token 成本爆炸:把两周的对话历史在每次推理时完整重放,Token 消耗极高,一次入职流程可能产生数千轮对话,大多数对当前决策不再相关。 - 空闲期后的幻觉:Agent 在等待签字期间休眠三天后,带着大量历史上下文重启,频繁「记起」从未发生过的步骤,或跳过它以为已完成的环节。 解决方案不是更大的上下文窗口,而是一种根本不同的架构——让 Agent 的状态变得显式、持久、并与原始对话历史解耦。 三项关键架构转变 转变一:持久化状态机替代对话历史 教程把入职流程建模为六个明确的节点: 1. 发送欢迎包和文件链接 1. 等待 — 员工签署文件(空闲等待) 1. IT 配置企业邮箱和 Slack 账号 1. 等待 — 笔记本电脑发货(空闲等待) 1. 发送个性化第一天日程 每个节点对应一个明确的状态,Agent 任何时候重启,都能从状态机精确定位自己在哪里,完全不依赖对话历史。状态是持久化的,存储在可靠的后端(本地是 SQLite,云端是托管存储),不随进程生死而消失。 转变二:事件驱动休眠门控 「等待签字」不再是让 Agent 主动轮询「文件签好了吗?」,而是设置一个事件门控——文件签署事件到达时,Agent 自动唤醒并从正确节点继续。休眠期间零资源占用,没有 Token 消耗,也没有定期唤醒导致的幻觉风险。这与传统的 Webhook/异步任务队列的思路一致,但被系统性地集成进了 ADK 的 Agent 生命周期管理中。 转变三:多 Agent 委托 IT 账号配置这类子任务,委托给专门的 IT 子 Agent 独立完成,主 Agent 只负责协调,不负责执行细节。子 Agent 可以独立运行、独立失败、独立重试,不会拖累整个主流程。这让整个系统更易于维护、测试和扩展——每个 Agent 的职责边界清晰,与微服务的设计理念一脉相承。 核心洞察:Context 与 State 解耦 这篇教程的核心洞察是:把 Context(对话历史,给 LLM 理解当前对话语境用)与 State(工作流状态机,给系统定位当前流程节点用)解耦,是 Agent 从 Demo 走向生产的关键一步。这两个东西长期被混为一谈,导致无状态 Agent 在长流程场景下的失败。 完整代码已开源于 GitHub,涵盖 ADK 状态机、事件门控和多 Agent 委托的完整实现,可以直接参考用于自己的生产 Agent。 如果你正在构建任何需要跨小时、跨天运行的 Agent——审批流、数据处理管道、自动化调研任务——这篇教程的架构思路是目前最完整的开源参考之一。 阅读原文:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) ## 精讲三:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 OpenAI 演示的 Codex computer use,标志着 AI Agent 从「生成文本」走向「操作本地 GUI」的重要一步。这次演示由 Ari 和 Roma 共同呈现,核心卖点不是「AI 帮你用电脑」,而是「AI 在后台替你干活,同时你继续干自己的事」。 不接管你的电脑,拥有自己的独立光标 Codex computer use 最大的设计突破,是它拥有独立光标,在后台运行,不会接管用户的 Mac。这一点直接解决了此前 computer use 场景的最大痛点——用户必须放弃电脑使用权,眼睁睁看着 AI 控制屏幕。 在演示中,Codex 同时在做: - 在 UTM 里设置虚拟机 - 在 Spotify 上播放音乐 - 在日历里添加提醒 而演示者继续在前台正常使用电脑。多任务并行,互不干扰——这才是真正意义上的「AI 队友」,而不是「AI 替代你」。 技术架构:视觉 + Accessibility 框架双轨 Codex 准确导航 GUI 的能力来自两套机制的混合: - 多模态视觉(Multimodal Vision):通过截图「看到」界面,按坐标点击。能处理任意 GUI,但速度受限于图像处理延迟。 - OS Accessibility 框架:通过系统可访问性数据,提取 UI 元素的文字描述——理解每个按钮的角色、标签和功能,甚至能看到当前滚出屏幕外的内容。这套机制让 Codex 对 UI 的理解超越了「像素位置」,达到「语义理解」。 对于速度敏感的任务,可以启用 Spark 模型——因为它主要依赖 Accessibility 框架而非图像处理,可以达到「超人速度」,完成消息发送、日历操作或简单调试任务比人工操作还快。 逐应用权限授权:安全边界由用户掌控 安全层面,OpenAI 实现了逐应用权限授权机制:Codex 无法看到或操作任何未经用户显式授权的应用。这意味着: - 未授权应用里的敏感信息对 Codex 完全不可见 - 用户可以精确控制 Codex 能操作哪些工具,不能碰哪些 - 即使 Codex 被输入了恶意指令,影响范围也被限制在已授权应用范围内 这套权限模型比「给 AI Root 权限然后用沙箱隔离」要更细粒度、更符合用户直觉。 可用范围与展望 目前 Mac 用户可以立即体验 Codex computer use,Windows 支持正在路上。OpenAI 的目标,是让 AI 驱动的计算机操作成为日常工作不可或缺的一部分。 结合今天精讲一(代码作为概念模型)和精讲二(长流程状态管理)来看,Codex computer use 代表的是 AI Agent 能力扩展的第三个维度:从处理文本和代码,延伸到直接操控用户界面、完成端到端的计算机任务。三篇精读共同描绘了一个 Agent 能力版图——知识建模、长流程可靠性、GUI 操控——这三个维度正在逐步覆盖真实工作场景的完整闭环。 阅读原文:Codex 的 computer use:OpenAI 展示新的 AI 队友能力 ## 速览 QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾 来源:小红书技术 REDtech 小红书质效研发部在 QCon 北京 2026 分享了其自研 GUI Agent 智能化测试系统的完整工程实践。春节大促期间,106 种设备 × 128 个测试场景全部由 Agent 自动跑,累计执行 4.3 万 + 次,AI 用例生成采纳率达 82%,单用例执行成本 $1,固化脚本回归 Token 消耗趋近 0。核心架构是「分层 + 双 Agent 协作 + Code-as-Action」:探索 Agent 自主执行并生成用例,执行 Agent 负责 CI 回归,执行通过后整段交互自动固化为可重复使用的测试脚本。但文章最值得关注的洞察是:就算把执行 100% 自动化,也只解决了一半问题。测试方案设计占工时 25%,执行占 60%,业务理解、知识积累这些上游工作不解决,「自动化只是把同一台戏台扛在更累的肩膀上」。正在构建 AI 测试系统的团队必读。 Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务 来源:Founder Park PingCAP CTO 黄东旭复盘了 TiDB Cloud 为 Kimi K2.6 Agent 建站服务提供数据库支持的细节。核心挑战不是代码生成,而是 hosting 成本:Kimi 的建站服务中,用户每创建一个网站就需要一个独立的数据库实例,随着用户量增长,这意味着同时维护数千万个数据库实例。TiDB 的解法是虚拟数据库界面——不分配真实数据库实例,底层所有数据共享大型分布式 KV 存储,通过 DB Session Gateway 在逻辑层面「假装」每个 Agent 拥有独立数据库。这个架构让数量 Scale 成为可能,而传统的 Supabase/Neon 式「每用户一个真实实例」在这个量级下成本完全失控。黄东旭的核心判断:Scale 数量才是 Agent Infra 真正的考题。关注 Agent 基础设施的工程师和创业者值得深读。 Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 来源:Claude Blog Anthropic 安全工程师 Jackie Bow 用 Claude Code 构建了威胁检测平台 CLUE,实现告警自动分类、自然语言日志查询和安全调查自动化,显著节省安全工程师时间并减少误报。这是一个典型的「AI 让工程师终于能构建一直想要的工具」的故事——安全领域的数据孤岛(多平台多查询语言)和上下文切换长期折磨着安全工程师,Claude Code 让个人工程师也能快速跨系统构建定制化自动化工具。关注 AI 在内部安全工具和企业场景落地的读者值得一读。 Claude 法律行业版 来源:Claude Blog Anthropic 为 Claude 发布 20+ 个新的 MCP 连接器和 12 个法律行业实践插件,接入法律行业核心技术栈(合同生命周期系统、研究平台、文件管理、电子取证、数据房间等),并在 Microsoft Word、Outlook、Excel、PowerPoint 中原生工作,跨应用保持完整上下文。同时宣布与 Free Law Project、Justice Technology Association 合作推动法律援助普及化。法律专业人士已成为 Claude Cowork 用户中参与度最高的群体,这次扩展标志着 Claude 在垂直行业的深度集成进入加速阶段。关注 AI 行业垂直化落地的读者适合跟进。 吴恩达:AI 不会带来"失业末日",而是"就业狂欢" 来源:Andrew Ng (@AndrewYNg) 吴恩达系统性地驳斥了 AI 将导致大规模失业的说法,援引尽管编码 Agent 发展迅猛、软件工程师招聘依然强劲的真实数据,并分析了「失业末日」叙事盛行的三个结构性原因:前沿 AI 实验室有动机夸大能力(引起关注);AI 公司通过锚定员工薪资来收取更高服务费;企业利用 AI 叙事掩盖疫情后过度招聘的裁员。他类比了历史上的社会性恐慌(核能安全、人口爆炸、膳食脂肪),指出这类恐慌往往导致错误决策。他最终预测将迎来一场「AI 就业狂欢」,但强调劳动力技能升级的迫切性。与今天精讲一的视角互补——一篇谈开发者如何定位能力,一篇谈整体就业趋势。 Agent Skill 规范、构建与设计模式 来源:阿里云开发者 系统梳理 Agent Skill 的规范标准(name/description/compatibility 等 YAML frontmatter 字段)、三层渐进式加载机制(元数据常驻 / SKILL.md 正文触发时加载 / references 按需加载)、模型驱动触发逻辑,并深入解析 Skill-Creator 和 Writing-Skills 两种工程化开发范式及五种设计模式。Skill 规范 2025 年 12 月由 Anthropic 作为开放标准发布,目前已被 33+ 个 Agent 产品采纳,包括 Claude Code、OpenAI Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro 等。对想了解这个开放标准完整体系的开发者,这是难得的中文系统综述。 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 来源:VentureBeat 深度分析 Mini Shai-Hulud 蠕虫攻击——通过有效来源证明(Proof of Provenance)入侵了 172 个 npm 和 PyPI 包(5 月 11 日起),可窃取 AWS Key、SSH 私钥、npm Token、GitHub PAT、HashiCorp Vault Token、Kubernetes 服务账号、Docker 配置,以及 Claude Code 和 Kiro 的 AI Agent 配置(含 MCP Server 认证令牌)。首次在 TeamPCP 攻击中针对 1Password 和 Bitwarden 密码管理器。最危险的特性:删除包之后蠕虫仍然存活——它在 .claude/settings.json 和 VS Code .vscode/tasks.json 中安装持久化机制,在 macOS 安装 LaunchAgent、在 Linux 安装 systemd 守护进程,重启后依然运行。如果在隔离机器前先撤销 Token,Wiz 发现恶意守护进程会擦除整个 home 目录。文章提供了 6 步可执行的企业审计计划,任何使用 npm 的开发团队需要立即检查。 ## 扩展阅读 OpenAI 翁家翌:"启发式学习"的强化学习新范式 OpenAI 研究员翁家翌提出「启发式学习(Heuristic Learning)」新范式:让 coding agent 持续迭代手写规则和程序策略(heuristic),通过看失败、改代码、加测试、看回放的循环,在不训练神经网络、不更新权重的情况下,在 Atari Breakout 等多个强化学习基准任务上达到或超越 Deep RL 的性能。这个范式的核心洞察是:过去 heuristic 不是没用,而是没人养得起;coding agent 改变的是维护成本曲线,让长期拥有可演化规则库成为可能。对强化学习、Agent 自主演化和 Continual Learning 感兴趣的读者值得深读。 Code w/ Claude SF 2026:在 AI 指数级增长之上构建 Anthropic 旧金山开发者大会 Code w/ Claude 2026 的官方回顾:Claude Code 速率限制翻倍、Claude Managed Agents 推出新功能(Dreaming 异步任务、多 Agent 编排、Outcomes 结果跟踪、Webhooks)。核心信息:从想法到生产软件的距离正在缩短,获得最大杠杆的团队是在为 AI 指数级增长做设计,而不是在被动追赶。适合关注 Claude Code 和 Managed Agents 生态动态的开发者和工程团队。 暴跌漩涡中,软件选择主动被大模型"吞噬" 深度分析软件行业正在发生的入口重构:从「用户打开应用」转向「Agent 调用能力」。2026 年 4 月,Notion 发布官方 MCP Server,Adobe 把旗下所有产品重新打包为 Agent Skills 和 MCP 端点,合作伙伴包括 Anthropic、Google Cloud、Microsoft、OpenAI 和 AWS。文章探讨了 Skill、Plugin、MCP 等封装形态的商业逻辑——MCP 是基础设施管道,Skill/Plugin 才是真正体现专业价值的应用层,「更像 AI 时代的 App」。软件股的「SaaSpocalypse」暴跌背景下,这篇提供了一个关于软件行业主动转型逻辑的宏观视角。 AI 时代到底该怎么管一个工程团队 Claude Code 和 Cowork 两条产品线的工程与产品负责人 Fiona Fung 在 Code w/ Claude 2026 大会上分享的工程管理实践。核心判断:过去所有工程流程都基于「写代码很贵」这个假设设计,这个假设现在已经失效,流程必须全面重构。实战细节:技术辩论不再靠白板,而是让 Claude 直接搓出三个 PR 对着代码讨论;所有 PR 都有 Claude 参与,「这段代码是谁写的」这个问题开始失去意义。宝玉翻译整理,内容扎实,适合工程管理者和 AI 原生团队建设者。 ## 今日阅读路径 时间有限?推荐从这三篇开始: 第一优先:构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) 今天实用性最强的一篇。持久化状态机 + 事件驱动休眠门控 + 多 Agent 委托,这三个架构模式是生产级 Agent 的必要基础。完整代码开源,可以直接参考实现。适合任何正在构建需要跨小时或跨天运行的 Agent 的工程师。 第二优先:什么是代码? 今天认知框架最清晰的一篇。在 LLM 让代码生成变得廉价的当下,明确「代码的概念模型价值」才是开发者定位自己核心竞争力的关键。文章不长,但值得认真读完,不同阶段的工程师都会有不同层次的共鸣。 第三优先:立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 今天最紧迫的一篇。如果你的团队在 5 月 11 日之后安装或导入过任何 npm/PyPI 包,需要立即执行文中的审计步骤。删包后蠕虫仍然存活这一特性,让这次攻击的严重性远超普通供应链事件。 如果还有时间:Codex computer use 的演示值得亲眼看看(精讲三),感受一下 AI 操控 GUI 的当前状态;吴恩达的推文提供了一个关于 AI 就业影响的清醒视角,适合饭后思考;小红书的 GUI Agent 测试实战(速览第一条)则是今天最接地气的工程案例,真实数据完整,对测试工程团队有直接参考价值。 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

Berryxia.AI@berryxia · 5月13日65

兄弟们!Jina 今天直来了个大 的! Jina-embeddings-v5-omni 来了! 这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!) 两个尺寸: Small(1.57B,1024维,32K 上下文) Nano(0.95B,768维,8K 上下文) 还支持 Matryoshka 截断到 32 维,超级灵活。 最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。 性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。 现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。 这波多模态 embedding 真的要爽了兄弟们! 你们已经在做多模态 RAG 或者多媒体搜索了吗?😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jeff Dean@JeffDean · 5月13日52

Great to see @percyliang as a keynote speaker at #cais2026!

译斯坦福大学教授、基础模型研究中心创始主任Percy Liang确认担任CAIS 2026大会主题演讲嘉宾。他因创立全面评估语言模型的HELM框架和持续发布基础模型透明度指数而知名,该指数对各大AI实验室的信息披露施加了压力。他目前主导的Marin项目致力于打造一个完全开放的实验室,所有实验无论成败均从第一天起公开。大会将于明年5月26日至29日在圣何塞举行。

阿绎 AYi@AYi_AInotes · 5月13日63

Obsidian今天这个升级,直接解决了我用了几年的最大的心病, 全新社区站点正式上线, 地址是https://community.obsidian.md/, 这次对整个插件生态进行了彻底重构, 过去六年,Obsidian社区产出了4000多个插件和主题, 总下载量突破1.2亿次, 但我们一直像在垃圾堆里淘宝, 不知道哪个插件会偷数据, 不知道哪个作者已经弃坑了, 提交一个新插件,要等几个月才能过审, 现在一切都变了, 每一个插件都有公开的安全记分卡, 每一次版本更新都会自动扫描恶意代码, 2300多个积压的提交,一夜之间全部处理完, 开发者有了一站式仪表盘, 用户有了真正的应用市场体验, 最关键的是,这步棋下得极深, AI coding agents已经把插件创建门槛降到了零, 以后每天都会有几十个新插件冒出来, 再靠人工审查,整个生态早就崩了, 只有自动化持续扫描, 才能让速度继续飞,同时把风险压住, 以前Obsidian是最好的个人笔记工具, 现在它正在变成最可信的生产力平台, 安全记分卡加能力披露加团队管理, 直接把企业客户的所有顾虑都解决了, 强烈建议所有Obsidian用户, 现在就去新社区站, 查一下你常用的那些插件的安全评分,你会回来感谢我的, 所有插件作者, 也立刻去认领自己的项目, 这里会成为你和用户直接对话的主战场! #Obsidian #笔记工具 #生产力

译Obsidian全新社区站点正式上线,对其插件生态进行了彻底重构。新社区为每个插件提供公开的安全记分卡,自动扫描版本更新的恶意代码,并一次性处理了2300多个积压提交。此举旨在应对AI编程工具大幅降低插件创建门槛后可能出现的数量激增,通过自动化持续扫描平衡生态发展速度与安全风险。新系统还提供了开发者仪表盘和更好的用户体验,增强了其作为可信生产力平台、吸引企业客户的能力。

阿绎 AYi@AYi_AInotes · 5月13日76

Damn!所有AI开发者,立刻停下你手里的npm install🤯 现在正在爆发有史以来最恐怖的供应链攻击, 代号Mini Shai-Hulud, 已经波及TanStack全家桶、Mistral AI、UiPath等170多个npm和PyPI包, 全是你们天天装的工具链, 周下载量加起来超过一个亿, 已经不是传统的维护者账号被盗了, 而是整个GitHub Actions CI管道被直接劫持, 合法的官方项目,自己发布了带毒的版本, 还带完整的SLSA 3级可信证明, 所有传统的签名验证全失效, 最狠的是它的持久化机制, 它不会只藏在node_modules里, 它会直接修改你的~/.claude/settings.json和~/.vscode/tasks.json, 就算你npm uninstall删光所有包, 只要你下次打开Claude或者VS Code, 它就会自动重新执行, 如果你敢撤销被盗的token, 它会直接删光你整个home目录, 而且它是蠕虫, 偷到一个项目的CI密钥,就会自动感染下一个, 现在还在指数级扩散, 以前我们说别用latest,别用^, 现在就算你pin死了版本, 只要那个版本是6分钟窗口期内发布的, 就是带毒的, 越依赖AI Agent自动装包的人, 这次中招的概率越高, 因为你的Agent根本不会帮你检查lockfile, 现在立刻做这三件事, 第一,冻结所有包安装, 第二,跑npx supply-chain-attack全盘自查, 第三,全量旋转你所有的云密钥、GitHub token和SSH key, 一个都别漏。 #网络安全 #npm #AI开发者

译代号“Mini Shai-Hulud”的大规模供应链攻击正在爆发,已波及TanStack、Mistral AI等170多个热门npm/PyPI包。攻击者通过劫持GitHub Actions CI管道,使合法项目自动发布带毒版本,并附有SLSA 3级证明以绕过验证。恶意软件会持久化修改用户配置文件,威胁删除home目录,并能利用窃取的CI密钥像蠕虫一样自动扩散。即使固定包版本,也可能在6分钟发布窗口期内中招。建议开发者立即冻结安装、使用工具自查,并全面轮换所有云密钥和访问凭证。

Nathan Lambert@natolambert · 5月13日52

Open software lowered deployment cost. Open AI lowers development cost. E.g. developing a bespoke model for an enterprise use case. We’re early in companies figuring out how to leverage this successfully.

译开源软件降低了部署成本。 Open AI降低了开发成本。例如为企业用例开发定制模型。 企业尚在探索如何有效利用这一优势的早期阶段。

SenseTime@SenseTime_AI · 5月12日46

This is why we built SenseNova U1. ✨ Thank you @feesyiam for using it to spotlight what matters for child welfare. Visuals make hard conversations more accessible — and that's when AI truly matters. Keep creating. 🥰

译这正是我们打造SenseNova U1的原因。✨ 感谢@feesyiam用它聚焦儿童福利议题。可视化让艰难对话更易进行——这正是AI真正发挥价值的时刻。 请持续创作。🥰

Deedy@deedydas · 5月12日61

Things every AI app startup says today to justify their defensibility: 1. We support multiple models. Our customers do not want to lock in to one vendor. 2. We have a data moat. We post-train open-source models to be much better and cheaper than closed-source. 3. We do deep integrations to help our harness use our "context graph" and build custom workflows. In the best case, this is actually true. In many cases, it is hilariously false.

译如今每家AI应用初创公司为证明自身防御性都会说: 1. 我们支持多模型。客户不想被单一供应商锁定。 2. 我们有数据护城河。通过对开源模型进行后期训练,效果比闭源更好且更便宜。 3. 我们深度集成,帮助用户利用"上下文图谱"构建定制工作流。 最佳情况下这些属实,但多数场景中其谬误令人捧腹。

meng shao@shao__meng · 5月12日66

OpenAI Daybreak OpenAI 面向网络安全防御的整体战略与产品矩阵,核心目标是把前沿模型能力优先且可控地交到防御者手里,让软件从一开始就"内生抗攻击",而不是事后修补。 核心理念:从"打补丁"转向"内生韧性" 传统安全是"发现漏洞 → 修补"的被动循环。Daybreak 提出的范式是: · Resilient by design(设计即韧性):安全在编码阶段就介入 · AI 加速防御闭环:跨代码库推理、识别隐蔽漏洞、验证补丁、分析陌生系统、从发现到修复一路打通 · 能力对称带来风险:同样的能力可被滥用,因此 Daybreak 的另一半是信任、验证、按比例的安全栏与问责 定位词:"Daybreak"(破晓)= 更早看到风险、更快采取行动。 产品三层访问体系(关键结构) 1. GPT-5.5(默认):通用安全护栏,用于通用开发与知识工作 2. GPT-5.5 + Trusted Access for Cyber (TAC):对已验证的防御工作放宽分类器拒答,用于安全代码审查、漏洞分诊、恶意软件分析、检测工程、补丁验证 3. GPT-5.5-Cyber:最宽松行为,但配以更强账户验证与监控,用于授权红队、渗透测试、受控验证(限量预览) 判断逻辑:同一个 prompt(例如"为某 CVE 写一个 PoC"),三层模型给出的回复可能从"拒答"到"给出防御性脚本"再到"实际验证 exploit 可执行"。区分点不在模型本身的智力,在于调用者是谁、做什么、有没有被授权。 Trusted Access for Cyber (TAC):身份即权限 TAC 是 Daybreak 的"准入控制层",2026 年 2 月推出,本次升级到 GPT-5.5: · 个人:在 chatgpt. com/cyber 验证身份 · 企业:通过 OpenAI 销售渠道为团队整体申请 · 强制安全:2026 年 6 月 1 日起,访问最强模型必须启用抗钓鱼账户保护(或企业 SSO 等价机制) 被允许的:漏洞识别与分诊、恶意软件分析、二进制逆向、检测工程、补丁验证。 仍被阻断的:凭据窃取、隐匿持久化、恶意软件部署、攻击第三方系统。 生态与"安全飞轮"(Security Flywheel) OpenAI 没有把自己定位成端到端安全产品商,而是做底层模型 + Codex agent harness,和各层伙伴拼成闭环: · 漏洞研究/修补:Intel 等 · 检测与监控(EDR/SIEM):SentinelOne · 软件供应链:Snyk、Semgrep、Socket、Gen Digital(典型用例:拦截类似 axios 投毒事件) · 网络与边缘防护:Cisco、Cloudflare(在补丁全量铺开前用 WAF 缓解) 飞轮逻辑:研究方披露 → 供应链工具阻止脏依赖入库 → EDR/SIEM 发现野外利用 → 网络层临时缓解。AI 让每一环都更快。 Codex Security:把能力下沉到开源 · Codex Security 是 agent 形态的安全工作流:自动建威胁模型、模拟攻击路径、隔离环境验证、提补丁等待人工审。 · Codex for Open Source:关键开源项目维护者可拿到 Codex Security + API 额度,降低维护负担。 · 提供 Codex Security 插件,可直接嵌入 Codex App / CLI。 战略意图很明显:开源是漏洞扩散最快的通道,所以直接补贴上游维护者。

译OpenAI推出网络安全整体战略“Daybreak”,旨在将前沿AI能力优先、可控地赋予防御者,推动安全范式从“事后修补”转向“设计即内生韧性”。其基于GPT-5.5模型构建三层访问体系,通过“身份即权限”的信任访问机制,为已验证的防御任务放宽能力限制。该战略联合Intel、Cisco等生态伙伴形成“安全飞轮”,并通过Codex Security agent赋能开源软件供应链上游,加速防御闭环。

Berryxia.AI@berryxia · 5月12日65

刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。 他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些: 从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。 云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。 数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。 底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。 他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。 他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。 最后他还提到,未来技术会越来越往 5B 到 15B 的 Expert Language Models 走,并非一味堆通用大模型,所以 fine-tuning 这门手艺现在学特别值。 很多公司愿意花 5 万美元以上,让你帮他们用自家数据训个性化模型。 整条帖子的意思就是:fine-tuning 其实谁都能入门,调模型、测模型、用模型,慢慢就能把这变成一份靠谱的事业。 感兴趣的可以看看,还挺有意思。

译CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

Rohan Paul@rohanpaul_ai · 5月12日62

OpenClaw creator Peter Steinberger talks about how China is going all-in for AI agents and OpenClaw. "In China, installing OpenClaw is called raising lobsters. Thousands of people were lining up at the Tencent office in Shenzhen to get their lobster installed. Shenzhen even gives out subsidies for people running businesses on OpenClaw. Now, if you install OpenAIClaw on your work machine (in many other parts of the world), at least with the default settings, you might get fired. And then I met an entrepreneur in China who showed me a spreadsheet. Every employee, every day, one task automated by OpenClaw. If you miss too many days, you're fired. So, fired for using it, fired for not using it." --- From official 'TED' YT channel (link in comment)

译OpenClaw创始人Peter Steinberger指出,中国正全力投入AI智能体发展。在深圳,人们曾排队在腾讯办公室安装OpenClaw,当地政府还为基于该平台开展业务提供补贴。与此形成鲜明对比的是,在世界其他许多地区,在工作设备上安装同类AI工具可能导致被解雇。然而在中国,有企业要求员工每日需用OpenClaw自动化一项任务,未达标者也会被解雇。这凸显了不同地区对AI工具截然不同的接受度与应用文化。

Rohan Paul@rohanpaul_ai · 5月12日53

Sigma just announced an open-source private AI browser that puts a web agent and local LLMs directly inside the browser instead of sending your web activity to remote servers. the browser stops being only a display layer and becomes an agent workspace, because the AI can see tabs, forms, search results, logged-in sessions, and unfinished tasks as one live working state. Models like Qwen, Gemma, and Nemotron can then support actions such as summarizing pages, filling forms, comparing products, searching across tabs, and automating repetitive web workflows without making every step a cloud request.

译Sigma近日宣布推出一款开源私有AI浏览器,其核心创新在于将网页智能体和本地大型语言模型(LLM)直接集成到浏览器内部,无需将用户网页活动发送至远程服务器。这使得浏览器从单纯的显示层转变为智能体工作空间,AI能够实时感知并操作标签页、表单、登录会话和未完成任务等作为统一工作状态。该浏览器支持Qwen、Gemma、Nemotron等本地模型,可执行页面总结、表单自动填写、产品比价、跨标签页搜索以及自动化重复性网页工作流等任务,整个过程完全在本地处理,实现了真正的私有化与开源设计,保障用户数据隐私。

向阳乔木@vista8 · 5月11日31

还是忍不住加功能,给博客增加AI对话侧边栏。 好处是随时对话配图,生成标题等。 比如:“给第一节配信息图,科普风格”,生成后自动插入。 标题生成后,可以说“选第一个”,自动换。 等完善后,同步到开源版本。

译作者为博客增加了AI对话侧边栏功能,旨在提升内容创作效率。该功能允许用户在写作过程中随时与AI对话,以辅助完成配图、生成标题等任务。例如,用户可指令AI“给第一节配信息图,科普风格”,生成的图片会自动插入文中;对于AI生成的多个标题选项,用户只需说“选第一个”即可自动替换。该功能完善后,将同步至开源版本。

MiniMax (official)@MiniMax_AI · 5月11日64

http://x.com/i/article/2053859160664711168 # Join the MiniMax 10x Team: Every Field Deserves a 10x Leap Over the past year, large models have evolved from demos into real productivity infrastructure, continuously pushing the boundaries of machine intelligence. Coding and content creation were transformed first. To take this transformation further, we’ve been working hands-on with top practitioners in industrial software, game engines, chip design, finance, and accounting to extend that impact. The results speak for themselves: bringing top domain talent into model development sparks exciting leaps in capability and real-world impact. You’ll see the proof in our upcoming releases. We believe every domain deserves that same 10x improvement. To get there, we need more collaborators. Who We’re Looking For Deep domain experts who believe AI can genuinely accelerate their field. Not passive advisors. We want people who will define problems with us, build evaluations from scratch, and shape production workflows. Your work will live in MiniMax’s models and in open-source benchmarks that move the broader industry forward. What Sets Us Apart MiniMax ships full-stack multimodal models at a pace few labs can match. You’ll get direct access to our model capabilities, a full-fledged R&D environment, and unlimited tokens. And because we open-source our evaluations, the standards you help build won’t sit behind closed doors. What You’ll Get - Globally competitive compensation and equity. Fellowship participants are also eligible for equity grants. - Full-time roles or Fellowship engagements (minimum four months, on-site with the team). - Your choice of location: Shanghai, Beijing, Hong Kong, San Francisco, or London. - Co-authorship, shared academic credit, and joint research partnerships with institutions. How to Join MiniMax's mission is Intelligence with Everyone. As models grow increasingly capable, we believe they will reach into every domain, every scenario, and every critical decision. Apply today to join the 10x Team - help define the future of your field and drive the next 10x leap. View and apply here: https://vrfi1sk8a0.jobs.feishu.cn/index/position/7638638918221940998/detail

译MiniMax宣布成立“10x团队”,旨在邀请各领域深度专家共同推动人工智能实现十倍速进步。公司认为大模型已从演示阶段发展为真实生产力设施,而将顶尖领域人才引入模型研发能显著提升能力并产生实际影响。团队寻求的是坚信AI能加速自身领域发展的专家,他们将直接参与问题定义、评估构建及工作流设计,其成果将融入MiniMax模型并贡献于推动行业发展的开源基准。MiniMax提供全球竞争力的薪酬、股权及上海、北京、香港、旧金山、伦敦等多地办公选择,通过开放合作实现“智能普及”的使命。

凡人小北@frxiaobei · 5月11日75

知识产权全面沦陷。 发明专利生成 skill https://github.com/handsomestWei/patent-disclosure-skill 软著生成 skill https://github.com/Fokkyp/SoftwareCopyright-Skill 设计专利/实用新型更容易,claude desgin/ image2

向阳乔木@vista8 · 5月11日71

发现了宝藏AI论文学习库,3.3万 Star 作者花费大量时间自己录制、精选Youtube和B站讲解视频,比如收录了李沐老师的精讲系列。 按时间、类型做了详细分类,非常适合收藏慢慢学习。 地址见评论区

译一个在GitHub上获得3.3万星标的AI论文学习资源库,作者系统性地收集和整理了高质量的AI学习视频。资源主要来自YouTube和Bilibili平台,例如收录了李沐的论文精讲系列。所有内容已按时间和主题进行了详细分类,便于用户系统学习和收藏。该库旨在为学习者提供一个结构化的视频学习路径。

Berryxia.AI@berryxia · 5月11日53

我这几天入手CardPuter ADV后发现在𝕏 上适合的中文教程非常的少,我就去找寻了一番。 将油管上一位大神从0基础到入门的保姆级教程,以及结合我自己的使用体验来撰写成为一篇详细的教程。 不期待你全部看完,但是我希望你收藏后。 如果有朝一日,玩这个开发板的时候一定对你有用。 后续,我也把我要开发的项目也会持续分享出来。

译作者在入手CardPuter ADV开发板后,发现𝕏平台上相关的中文教程非常稀少。为此,他整合了YouTube上一位创作者的从零基础到入门的详细教程,并结合自身使用体验,撰写了一篇全面的中文指南。作者希望这篇教程能为其他开发者提供实用参考,并表示后续会持续分享自己基于该开发板的项目进展。文中引用的推文也印证了中文社区对该开发板学习资源的迫切需求。

阿绎 AYi@AYi_AInotes · 5月11日65

卧槽,有大神直接用Claude Code,复刻出一整套完整游戏开发工作室。 GitHub 1.8万stars,免费开源,项目名叫Claude Code Game Studios, 48个AI智能体1:1还原线下工作室全岗位,从创意总监到关卡设计师全覆盖。 36条斜杠指令一键启动全流程,适配Godot Unity Unreal三大游戏引擎。 自带自动化校验钩子、分路径编码规则、28套行业标准文档模板,架构拉满。 所有AI只做梳理方案不擅自操作,决策权全程握在自己手里。 克隆仓库一键启动,MIT开源可商用,凭空拥有一支专业游戏开发团队。 老规矩GitHub地址评论区自取!

译开源项目Claude Code Game Studios利用Claude Code构建了完整的虚拟游戏开发工作室。该项目包含48个AI智能体,1:1还原从创意总监到关卡设计师等全部岗位,覆盖游戏开发全流程。系统提供36条斜杠指令一键启动工作流,适配Godot、Unity、Unreal三大游戏引擎,并集成自动化校验钩子及28套行业标准文档模板。所有AI仅负责梳理方案,最终决策权由用户掌握。项目采用MIT开源协议,可免费商用,克隆仓库即可快速部署。

Berryxia.AI@berryxia · 5月11日68

兄弟们。手撸3D 拆解图,指日可待啊! 本来以为AR 3D拆解教学早就走到瓶颈了 没想到突然被AI重新盘活! 很多人不知道 英国公司JigSpace 很早就在iPad上 用3D+ARkit做各类立体模型 飞机发动机、电脑主机这类硬核拆解早就做成熟了 我刚亲自实测 用Cursor里的Claude opus 4.7 直接做出了手表、冰箱柜的AR拆解教学 能直观3D拆解每一个部件 每一步还有详细文字标注 整个演示流程已经完全跑通 后续还有很大优化空间 最让人惊喜的是可以服用 给小孩科普生物细胞、植物光合作用 都能用这套方式直观教学 有现成模型就直接用开源资源 没有模型也能用极低成本快速搭建 未来科普教学真的要换一种方式了 如果你们觉得有价值,可以一键八连啊! 我可以将其开源给大家免费使用啊!!!!!

译AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

阿绎 AYi@AYi_AInotes · 5月11日58

MCP协议真的要成为AI时代的HTTP了,现在所有的本地AI工具都在往MCP靠,未来的Agent和工具都能无缝互联了吧🤔 YC CEO亲自下场打磨的GBrain,今天发布了v0.31.1版本。 这不是一个小补丁,属意真正的架构级升级: 一个家庭服务器跑中央大脑,所有电脑、手机、所有AI Agent,全部通过MCP协议远程连接。 体验和本地运行一模一样,再也没有同步问题,再也没有记忆割裂。 之前最蠢的bug终于被彻底修好了: 以前的瘦客户端就是个半成品,你连了远程服务器, 它还偷偷在本地开个空的PGLite数据库,跑38次迁移之后告诉你“没有找到任何结果”。 现在v0.31.1强制所有读写全部走远程,10万页的知识库,搜什么都能精准命中。 最有意思的是,这个bug是Garry自己的个人Agent Neuromancer在生产环境踩的。 更新日志里直接写了“Hermes/Neuromancer hit this in production”。 AI自己在生产环境发现了基础设施的bug,然后被写进了官方更新日志。 这可能是人类历史上第一次。 这才是真正的大招,以前我们跑本地AI,是每个设备自己养一个大脑。 电脑上一个,手机上一个,每个Agent又各有一个。 同步慢,不一致,浪费资源,永远拼不成一个完整的你。 现在反过来了: 一个大脑,养所有设备和所有Agent。 你家的旧电脑或者树莓派加个GPU,就能跑一个10万页的私人知识库。 你的Claude Code、OpenClaw、Neuromancer,全部连同一个大脑。 你在电脑上读的论文,手机上记的笔记,Agent做的研究,全部存在同一个地方。 所有AI共享你的全部记忆,再也不会问你“你刚才说什么来着”。 Garry Tan作为YC的掌门人,不去投那些估值几十亿的大模型公司,反而天天熬夜写一个开源的个人记忆工具。 这个信号已经不能更明显了: 下一波AI的最大机会,根本不在云端的大模型。 在本地,在你自己的电脑里,在完全属于你自己的、可控的、永久的个人智能基础设施。 个人AI正在走和企业软件一模一样的路。 从单机版,到客户端-服务器架构。 今天GBrain跨出了这一步,个人Jarvis就真的从玩具变成了基础设施。

译YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

Alibaba Cloud@alibaba_cloud · 5月11日55

1,200+ Languages. One Vision for AI Inclusion. 🤝 How do we bridge the gap between global technology and local culture? We are thrilled to share highlights from our recent developer session, co-hosted by Tongyi Lab x YiXi, featuring insights from our partners at AI Singapore. In this video, Jian Gang Ngui from AI Singapore dives into the critical mission of building AI that truly understands the linguistic and cultural nuances of Southeast Asia—a region home to 700+ million people speaking over 1,200 languages. By leveraging Qwen, Gemma, and other state-of-the-art open-source foundation models, AISG is working hand-in-hand with native communities to integrate local languages and cultural contexts to build LLMs that are truly accessible and relevant to everyone. Proud to support AISG in this journey!

译通义实验室与YiXi联合举办的开发者会议中,AI Singapore的Jian Gang Ngui阐述了构建理解东南亚语言文化AI的使命。该地区拥有超7亿人口、1200多种语言,AISG正利用Qwen、Gemma等先进开源基础模型,与当地社区合作整合语言文化背景,开发真正普惠相关的LLM。通义实验室对此表示支持。

歸藏(guizang.ai)@op7418 · 5月11日78

http://x.com/i/article/2053655813877870592 # 压进我十年设计经验的 PPT Skills,迎来大波更新 上次开源 guizang-ppt-skill(github.com/op7418/guizang-ppt-skill) 之后,大家都非常喜欢,短短几周 Github Star 来到了 6000 多。而且也被非常火的开源 Claude Design 参考放了进去。 我也在线上线下非常多的地方看到了这个 PPT Skill 生成的 PPT。 发布之后,后台收到的问题里出现频率最高的是这几条: "能不能多几种风格?" "配图能不能也帮我搞定?" "做完 PPT 的封面要重新画一遍吗?" 我自己一边用一边记,攒了两周。这次一次性把这些洞补上。 ## 更新了什么 多了一套全新的视觉风格,配图能力直接接入 Codex,PPT 之外的封面也能顺手做了。 具体三件事: - 新增风格 B 瑞士国际主义。全程无衬线、单一高饱和锚点色、网格至上。 - Codex 接入 GPT-Image 2.0。直接生成符合调性的配图,胶片质感的人像、流程图、UI 截图美化。 - 还能多平台封面生成。同一份内容直接拼出小红书、公众号、视频号等多种规格。 ## 触发新风格 装好之后对 Claude 或 Codex 说一句:"帮我做一份瑞士风 PPT。" 如果你之前已经安装的话也可以跟你的 AI 说:帮我更新一下 guizang-ppt-skill 它会反过来问你:克莱因蓝、柠檬黄、柠檬绿、安全橙,四套主题里选哪一套? - 克莱因蓝 IKB,通用、商业发布、AI 产品,默认推荐 - 柠檬黄,年轻、运动、零售、Y2K 复古 - 柠檬绿,生态、可持续、Z 世代品牌 - 安全橙,警示、新闻、活力主题 跟之前一样,不接受自定义 hex。 这条规则我专门写进了 SKILL.md 的硬约束里,原因之前那篇文章讲过,就不重复了。 几个最常用的版式 瑞士风内置了 22 个开箱即用的具名版式,覆盖封面、章节、数据、对比、收尾。 挑六个最有辨识度的说一下: Cover 封面。左半 IKB 底色压一行反白巨字,右半留白配 meta 信息。开场第一页几乎必用。 Statement 巨字宣言。单句话占 9.6vw,整页只剩它和一行小字注脚。适合章节起手、抛核心论点。 KPI Tower 柱阵。四根高度由数据决定的纯色柱子,柱子下面接一行类目。利润率分层、价格档位、转化漏斗这种纵向数字对比一眼就能读懂。 Loop Diagram 闭环图。同心圆环上分布编号步骤,一圈环绕收束。适合讲自学闭环、Agent 自动化循环、产品反馈飞轮这种循环结构。 Duo Compare 对照。中线一道发丝,左右各一组文字加数据。旧体系 vs 新方案、传统 vs AI、Before vs After 都用它。 Closing Manifesto 收尾。左半 IKB 反白一句宣言,右半三条 takeaway 收束全篇。Deck 最后一页推荐固定用这个,和封面构成色彩闭环。 剩下还有横向时间线、Loop 闭环图、Three Forces 三力对峙、System Diagram 系统层级、Why Now 三论点支撑、Tech Spec 产品规格、Image Hero 案例图加 KPI 等等。 每个都对应一种典型内容形态。你一开口说"我要做行业排名"或者"我要做产品 benchmark",AI 自己会从这 22 个里挑最合适的,不用你记名字。 选完主题,剩下的流程跟上一版一样:6 个澄清问题,先出大纲和主题节奏表,对齐之后再写代码。 让 GPT-Image 2.0 帮你出图 如果你在 Codex 环境里用,PPT 写完它会主动问你:"要不要给这份 PPT 生成几张配图?" 如果你需要他会自动帮你按照所选的 PPT 风格和内容生成合适类型配图: 人文纪实照片(胶片质感)、信息图(流程、对比、系统关系)、截图再设计(把你的原图按 PPT 比例重做一遍)、数据大字报、流程图、系统关系图 生成图会自动适配你当前 deck 的风格和主题色。 具体怎么走: - 电子杂志风,信息图就走电子墨水基调,黑白灰为主、少量低饱和强调色、细线条、网格、留白克制 - 瑞士风,信息图就走 Swiss modernism 基调,Helvetica/Inter 气质的无衬线短标签、12/16 列网格、直角 - 选了克莱因蓝 IKB,生成的图就用 IKB 蓝做唯一锚点色。选了柠檬黄、柠檬绿、安全橙也一样跟着换 - 文字语言跟着 deck 走,中文 deck 用中文标签,英文 deck 用英文 - 生成图不带 PPT 外壳,不会冒出页眉、页脚、页码、署名、装饰边框这些东西 这个细节的好处是,整本 deck 的视觉一致性不用你来盯。 你不会遇到 PPT 是 IKB 蓝、配图却跑出一抹绿这种割裂,也不用一边写 PPT 一边给 GPT-Image 调 prompt。 跨工具的视觉漂移,是我自己用 AI 做内容这两年最折腾的隐形成本。 能在 Skill 这一层把它消化掉,用户就少操心一件事。 让它帮你做平台封面 PPT 做完,发出去之前永远要解决三种规格:公众号 21:9 头图、小红书 3:4 竖图、视频号横版封面。 直接说:"基于这份 PPT 的核心观点,给我一张 3:4 的小红书封面。"或者:"来一张 21:9 的公众号头图。"AI 会按 Skill 的视觉规则出图(同一套主题色、同一套字体、单焦点法则)。 需要批量也行。小红书的轮播图机制下,让它"批量出 6 张,风格统一、字号一致、版式各异",一次出齐。 公众号比较特殊,头图是 21:9,但分享卡用的是 1:1 的方图,两张需要视觉连贯。 做法是分两次生成,但用同一套色彩和文案: - 第一张 21:9 主头图,主标题压在左侧,右侧留视觉锚点 - 第二张 1:1 方图,作为分享卡的视觉延伸,主元素和头图呼应 我自己常用的两套版式:纯色底 + 巨字 + 角标日期,或者左半图右半字的对开。 ## 几个值得分享的小巧思 巧思一:用胶片质感对抗"AI 感" 写一个分享,讲"一个人做了一个产品",需要一张能传递"独自工作"情绪的图。 以前的办法是去 Unsplash 翻半小时,或者放一张明显是 stock photo 的摆拍。 现在直接说:"生成一张 16:10 的纪实照片,主题是深夜工作室一个人对着屏幕,自然光、低饱和、轻微胶片颗粒、Fujifilm 质感。" 出来的图带克制的人文温度,看不太出塑料感。 我把这个判断写进了 references/image-prompts.md: 胶片质感是 GPT-Image 2.0 之于 PPT 配图最大的价值。它把"AI 生成"这个标签从图里去掉了。 巧思二:把奇葩比例的截图重做一遍 很多内容创作者手头都有一堆原始截图:产品 UI、后台页面、数据看板,比例各异,留白也不一致。 塞进 PPT 之后整本视觉立刻乱掉。以前的解决办法是 Photoshop 修。 现在你只需要把原图丢给 Codex: "按照 16:10 比例重做一版,保留所有 UI 元素,加点真实工作场景的环境,画面密度中等。" 它会重新生成一张符合 PPT 规范的图,关键信息一个不落,比例和留白完全统一。 这件事对产品测评类内容尤其有用。所有截图过一遍 GPT-Image 2.0,整本 PPT 立刻像同一个人做的。 巧思三:用 PPT 模板"包裹"AI 图 这是我自己测出来的一个用法。 GPT-Image 2.0 生成的图单独发出去,AI 检测工具大概率会标"疑似 AI 生成"。 这件事在社交媒体这种平台上会影响推荐权重。 但把这张图放进 PPT 模板,再整体截图,结果就完全不一样了。 这件事的本质是把 AI 生成的素材组装成一个完整作品,添加了人工痕迹。 还是基于你的大纲事实的表达,没有虚构,只是避免被算法误伤。 ## 它为什么好看 聊完攻略,最后聊聊设计思路。这套瑞士风的视觉规则到底从哪来。 我给它的视觉锚点是 Massimo Vignelli 加 Helvetica Forever。 纽约地铁系统、Unimark、Müller-Brockmann 那一脉的瑞士国际主义传统。 如果你打开过 Helvetica Forever 那本书,或者看过 Vignelli 给纽约地铁做的 1970 年版导视系统,就会认出这套语言。 把两种风格放在一起对比,差别一下就出来了: 简单说:A 适合讲故事,B 适合讲事实。 7 条设计纪律 瑞士风的视觉规则其实就七条,每一条都是行业沉淀,一百年前就有了。 我做的事,是把它们一条条写进 Skill,让 AI 替我执行。 第一条,单一锚点色。一份 deck 里只允许一个高亮色。蓝就只有蓝,黄就只有黄,绝对不能蓝黄拼贴。这是瑞士风的灵魂。Less is more 不止是口号,要落到代码层面写成硬规则。 第二条,极致字号对比。主标题与正文比例至少 8:1。封面巨字宣言用 min(11.6vw, 19vh),正文 1.1vw。视觉张力全靠这种对比拉出来,靠装饰是出不来的。 第三条,大字越大越细。主标题字重 200(ExtraLight),别用 700、800、900。瑞士风的大字像建筑蓝图上的标尺,要被看见但不能喧哗。这条我吃过亏,一开始写的是 800,整页瞬间像 PowerPoint。 第四条,直角纯色。border-radius、box-shadow、linear-gradient,三件事一律砍掉。所有色块都是直角,所有边界都是 1px 发丝线。看上去苛刻,但你看到的所有"消费 app 感""SaaS 模板感",都是这三个属性滥用出来的。 第五条,网格至上。16 列 grid 加 16px gap,所有元素吸附到网格,左对齐加大幅留白做非对称美学。不要居中,不要平均分布。 第六条,没有 WebGL 背景。风格 A 用 WebGL 流体做呼吸感,瑞士风刻意把这个去掉了。纯白底就是它的底色,任何动态背景都是干扰。 ## 写在最后 这次更新的核心,其实只回答了一个问题:人 × AI 协作做内容这件事,链条到底有多长? 之前那次开源,我把"做 PPT"这个环节做完了。 这次往前接了"配图生成",往后接了"多平台封面"。再加一个新风格、一套新色彩闭环,整个链条就闭合了。 从写大纲、生成 PPT、配图、导出、到发布到不同平台。以前要打开 5 个软件,现在在一个对话里能走完。 为什么在市面上已经有了如此多的 PPT Skills 的情况下。 藏师傅的 PPT Skills 依然能获得如此大的使用量和关注量呢? AI 永远只能做 70 分的事情。这两套模板的每一页版式,都是在 AI 的基础上,我通过人工一点一点的微调实现的。也就是说,我在用自然语言进行设计。 即使在 AI 时代,90 分的内容依然是弥足珍贵的。 Skill 已经更新到 GitHub:github.com/op7418/guizang-ppt-skill 更新方式跟上次一样。README 里有"给 AI 的安装 prompt",复制粘贴给你的 Claude Code、Codex 或任何有 shell 权限的 AI Agent,它会自动拉取最新版本。 装好之后对它说一句"帮我做一份瑞士风 PPT"就会触发新风格。 如果觉得对你有帮助,欢迎点赞分享,也欢迎在评论区贴一下你用这套 Skill 做的 PPT 或者封面。

译开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

Berryxia.AI@berryxia · 5月11日56

看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D USDZ/USDC 格式的3D 模型库,并且都是免费的。 直接导入页面还可以做AR增强现实使用,如果说你需要自定义或者进行进行教学互动炸裂就可以看看JigSpace 做的非常不错的教学类的App。 Apple 官方组3D模型库:https://developer.apple.com/augmented-reality/quick-look/ 我这个做的Demo 用的github:https://github.com/KhronosGroup/glTF-Sample-Models 模型:https://modelviewer.dev/ 看看各位还可以玩出什么花儿,这个是花了20分钟搞出来的,后面可以继续迭代一下。

译推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。

向阳乔木@vista8 · 5月11日70

这是大更新啊,就是不知道南山微信会不会有什么动作。。。

译OpenCLI项目实现了对微信、Telegram和Discord三大平台内容的命令行读取,通过wx-cli、tg-cli和discord-cli工具,用户可直接获取群消息、聊天记录、朋友圈及收藏夹等私域数据。这标志着个人信息流聚合的关键突破,使得AI Agent不仅能监控外部资讯网站,还能整合个人私密的社交聊天信息,构建真正统一的个人数据流。此举可能引发平台方如微信的关注或反应。

Ant Ling@AntLingAGI · 5月11日44

It was quite a delight to get Ant Ling 2.6 1T's Architecture featured in @rasbt 's latest update🤝. We welcome feedback and discussions on our HF page https://huggingface.co/collections/inclusionAI/ling-26 as well as our Discord channel https://discord.gg/jQtDsU5J6C Stay tuned for more updates! 🤠

译Ant Ling 2.6 1T的架构设计被@rasbt在其最新更新中收录和推荐。团队对此表示欣喜,并邀请社区通过Hugging Face页面和Discord频道提供反馈与参与讨论。@rasbt在推文中提到,他计划深入探讨一些最有趣的架构组件,并询问是否遗漏了其他重要架构。团队表示将持续发布更多更新。

SemiAnalysis@SemiAnalysis_ · 5月11日62

SPEED IS THE MOAT: AMD ROCm software stack has improved performance by over 75x in the last 14 days since DeepSeekv4 launch. The performance comes from fusing mHC operations & also fusing RoPE hadamard transformations to reduce cpu overhead & improve HBM memory utlization. Furthermore, other kernels like the attention indexer & kvcache compressor has been written using TileLang & Triton for fast development velocity. Another 5x performance improvement is needed to catch up to single node aggregated B200 performance & then another 1.5x is needed to catch up to PD disaggregated B200 performance, which is within the realm of possibility for AMD within the next couple of weeks. Great work to HaiShaw, Thomas, @roaner, @AnushElangovan for this rapid improvement.

译自DeepSeek-V4发布后14天内,AMD ROCm软件栈性能提升超过75倍。这一飞跃主要得益于融合mHC操作和RoPE哈达玛变换,有效降低了CPU开销并提高了HBM内存利用率。同时,团队使用TileLang和Triton快速开发了注意力索引器和KV缓存压缩器等核心组件。为追赶业界标杆,AMD仍需再提升5倍性能以匹配单节点聚合B200,并额外提升1.5倍以达到PD disaggregated B200水平,预计未来几周内有望实现这一目标。此快速进展离不开HaiShaw、Thomas、@roaner和@AnushElangovan等人的贡献。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月14日
23:45
Ant Ling@AntLingAGI
83
Ring-2.6-1T开源:万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布
19:15
SenseTime@SenseTime_AI
精选77
由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布

推荐理由:商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源,比常规PR多了些诚意,做模型选型和微调的值得翻翻。
13:58
Xiaomi MiMo@XiaomiMiMo
精选69
MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

开源生态编码评测/基准

推荐理由:小米MiMo在Design Arena前端编码评测里直接杀进前三,跟Claude Sonnet 4.6平起平坐,这是国产开源模型在代码能力上第一次给我真正的压迫感,搞前端的可以盯一下。
11:14
SiliconFlow@SiliconFlowAI
63
NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

Nous Research: Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a...

开源生态数据/训练论文/研究
09:51
Berryxia.AI@berryxia
71
Moonshot AI创始人杨植麟最近放出了一个40分钟视频

杨植麟在视频中拆解Kimi K2模型的训练,仅花费460万美元便在编程大战中击败GPT-5.5等对手。其通过极致优化、线性注意力等架构创新,抹平资源差距,标志AI竞赛规则改变,小团队以聪明设计颠覆大厂传统玩法。

智能体大佬观点开源生态
06:35
Orange AI@oran_ge
66
李想:AI是生产力工具,一人公司难建真实生产环境

理想汽车CEO李想认为,AI本质上是提升生产力和劳动力的技术。他目前对“一人公司”模式持怀疑态度,指出许多此类公司初期通过频繁更新内容来验证概念,但长期观察发现,其工作往往局限于追踪和报告技术进展,例如“OpenClaw又更新了,解决了什么bug”。关键在于,这些公司未能建立起真实、可持续的生产环境,而构建这样的环境被证明是极其困难的挑战。

大佬观点开源生态
02:04
MiniMax (official)@MiniMax_AI
22
恭喜发布,@cline!试试在 Cline 上用 MiniMax M2.7 构建吧 🚀

Cline: Introducing the Cline SDK. We rebuilt the Cline harness for our extension and CLI from scratch using all the lessons lea...

开源生态编码行业动态
5月13日
22:43
Nathan Lambert@natolambert
55
Nvidia CEO黄仁勋夫妇的慈善基金会与云服务商CoreWeave达成协议,租用其GPU算力。基金会计划将这些GPU时长捐赠给大学和非营利研究机构,用于支持开放科学与AI研究。截至目前,该基金会已通过"GPU算力资助"形式捐赠了价值1.08亿美元的计算资源。

Anissa Gardizy: New: The charitable foundation tied to Nvidia CEO Jensen Huang and his wife, Lori Huang, has agreed to rent GPUs from Co...

开源生态行业动态
19:30
Alibaba Cloud@alibaba_cloud
40
加入VivaTech的AInnovation峰会!探索AI如何通过Qwen、Wan、HappyHorse和HappyOyster驱动实际商业影响。 📅 6月17日 中欧夏令时15:00 📍 巴黎凡尔赛门展览中心 #VivaTech #AlibabaCloud #AInnovationSummit
开源生态行业动态
18:39
阿绎 AYi@AYi_AInotes
67
近期重大安全事件警示:AI驱动攻击与供应链威胁成新常态

近期CopyFail、YellowKey、Mini-Shai Hulud等系列安全事件,标志着软件安全范式正发生根本转变。AI不仅辅助发现漏洞(如732字节脚本攻破Linux root),更被直接用于驱动零日漏洞的在野利用和武器化。漏洞从发现到武器化的时间急剧缩短。供应链成为最薄弱环节,Mini-Shai Hulud事件揭示被广泛信任的CI/CD管道(如GitHub Actions)可能成为最大后门。安全模式正从“被动修补”转向构建“AI实时免疫”体系。应对核心是将供应链审计提升至最高优先级,审查CI/CD、强制实施SLSA等标准。未来3-5年,安全能力将直接决定企业生存成本。

Theo - t3.gg: Security things from the last few days: - CopyFail (linux pwn'd) - CopyFail 2/Dirty Frag - 13 advisories in Next.js - Ov...

安全/对齐开源生态部署/工程
12:55
向阳乔木@vista8
60
博主长期计划搭建个人博客,因工程量大而拖延。受@vista8乔木老师开源博客系统启发,他fork代码并部署到Cloudflare,大半天内实现上线。系统提供Notion式写作体验,AI自动生成摘要、标签和封面,内置微信公众号bridge支持一键发布,且零服务器成本。开源社区避免了从零造轮子,大幅提升效率。但系统初版可能存在bug,需等待后续版本更新。

AI 赋能坊: 自己的博客,想了大半年,终于上线了。 说来惭愧,"搭一个自己的写作阵地" 这件事在我 TODO 里躺了很久。 选框架、挑主题、搞部署、接公众号...... 每次一想就觉得工程量太大,然后就搁置了。 直到看到 @vista8 乔木老师开源了他...

开源/仓库开源生态部署/工程
12:50
歸藏(guizang.ai)@op7418
59
开源Agent技能开发者价值被低估,缺乏商业化路径

当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。

智能体大佬观点开源生态
11:55
Tencent Hy@TencentHunyuan
精选76
Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由:腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜,295B MoE 架构在推理和代码上提升明显,不是小厂的刷榜产品,搞 agent 和 coding 的可以认真试试。
10:05
SemiAnalysis@SemiAnalysis_
65
积极AMD飞轮警报:@AnushElangovan 终于认识到并优先考虑为上游vLLM和SGLang维护者提供对价值360万美元💰️ MI355X互连开发集群的持久访问权限的重要性。此前,只有NVIDIA为vLLM/SGLang上游维护者提供对H100/B200/GB200/GB300开发集群的持久访问权限,因此他们之前将时间集中在这方面。此前,AMD已为vLLM/SGLang开源维护者提供对互连GPU的持久访问权限。1/4🧵
开源生态行业动态
08:49
ginobefun@hongming731
57
AI Agent 落地三问:代码本质、长流程状态、GUI 操控

本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。

智能体MCP/工具安全/对齐开源生态
08:49
Berryxia.AI@berryxia
65
Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态
04:27
Jeff Dean@JeffDean
52
斯坦福大学教授、基础模型研究中心创始主任Percy Liang确认担任CAIS 2026大会主题演讲嘉宾。他因创立全面评估语言模型的HELM框架和持续发布基础模型透明度指数而知名,该指数对各大AI实验室的信息披露施加了压力。他目前主导的Marin项目致力于打造一个完全开放的实验室,所有实验无论成败均从第一天起公开。大会将于明年5月26日至29日在圣何塞举行。

ACM Conference on AI and Agentic Systems: 🎤 Keynote announcement: @percyliang (Percy Liang), Professor of Computer Science at @Stanford, founding director of the...

开源生态行业动态评测/基准
02:38
阿绎 AYi@AYi_AInotes
63
Obsidian全新社区上线,重构插件生态解决安全与审核难题

Obsidian全新社区站点正式上线,对其插件生态进行了彻底重构。新社区为每个插件提供公开的安全记分卡,自动扫描版本更新的恶意代码,并一次性处理了2300多个积压提交。此举旨在应对AI编程工具大幅降低插件创建门槛后可能出现的数量激增,通过自动化持续扫描平衡生态发展速度与安全风险。新系统还提供了开发者仪表盘和更好的用户体验,增强了其作为可信生产力平台、吸引企业客户的能力。

Obsidian: http://x.com/i/article/2054219318758703104

产品更新开源生态
00:37
阿绎 AYi@AYi_AInotes
精选76
紧急警告:针对AI开发者的超大规模供应链攻击"Mini Shai-Hulud"正在爆发

代号“Mini Shai-Hulud”的大规模供应链攻击正在爆发,已波及TanStack、Mistral AI等170多个热门npm/PyPI包。攻击者通过劫持GitHub Actions CI管道,使合法项目自动发布带毒版本,并附有SLSA 3级证明以绕过验证。恶意软件会持久化修改用户配置文件,威胁删除home目录,并能利用窃取的CI密钥像蠕虫一样自动扩散。即使固定包版本,也可能在6分钟发布窗口期内中招。建议开发者立即冻结安装、使用工具自查,并全面轮换所有云密钥和访问凭证。

Ryan Carson: 🚨 There's a major attack going on via npm right now. Do not install any packages right now. Talk to your agent ASAP and...

GitHub安全/对齐开源生态行业动态

推荐理由:这可能是 npm 历史上最毒的供应链攻击,专杀 AI 开发者的工具链,持久化机制和蠕虫扩散让人后背发凉,给出的三条止损命令最好现在就执行。
00:11
Nathan Lambert@natolambert
52
开源软件降低了部署成本。 Open AI降低了开发成本。例如为企业用例开发定制模型。 企业尚在探索如何有效利用这一优势的早期阶段。

Interconnects: How open model ecosystems compound Further reflections on China's high-participation, open-first AI ecosystem. https://w...

大佬观点开源生态
5月12日
12:42
SenseTime@SenseTime_AI
46
这正是我们打造SenseNova U1的原因。✨ 感谢@feesyiam用它聚焦儿童福利议题。可视化让艰难对话更易进行--这正是AI真正发挥价值的时刻。 请持续创作。🥰

Nafees: I gave it a topic. It came back with a full magazine-style infographic. Charts. Layout. Icons. Colour coding. Dense stru...

图像生成开源生态行业动态
11:25
Deedy@deedydas
61
如今每家AI应用初创公司为证明自身防御性都会说: 1. 我们支持多模型。客户不想被单一供应商锁定。 2. 我们有数据护城河。通过对开源模型进行后期训练,效果比闭源更好且更便宜。 3. 我们深度集成,帮助用户利用"上下文图谱"构建定制工作流。 最佳情况下这些属实,但多数场景中其谬误令人捧腹。
开源生态现象/趋势
08:35
meng shao@shao__meng
66
OpenAI发布网络安全战略"Daybreak":以AI赋能防御者

OpenAI推出网络安全整体战略“Daybreak”,旨在将前沿AI能力优先、可控地赋予防御者,推动安全范式从“事后修补”转向“设计即内生韧性”。其基于GPT-5.5模型构建三层访问体系,通过“身份即权限”的信任访问机制,为已验证的防御任务放宽能力限制。该战略联合Intel、Cisco等生态伙伴形成“安全飞轮”,并通过Codex Security agent赋能开源软件供应链上游,加速防御闭环。

OpenAI: Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, a...

OpenAI产品更新安全/对齐开源生态
07:49
Berryxia.AI@berryxia
65
CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face开源生态教程/实践数据/训练
02:01
Rohan Paul@rohanpaul_ai
62
OpenClaw创始人谈中国全力投入AI智能体发展的文化差异

OpenClaw创始人Peter Steinberger指出,中国正全力投入AI智能体发展。在深圳,人们曾排队在腾讯办公室安装OpenClaw,当地政府还为基于该平台开展业务提供补贴。与此形成鲜明对比的是,在世界其他许多地区,在工作设备上安装同类AI工具可能导致被解雇。然而在中国,有企业要求员工每日需用OpenClaw自动化一项任务,未达标者也会被解雇。这凸显了不同地区对AI工具截然不同的接受度与应用文化。

智能体大佬观点开源生态
02:01
Rohan Paul@rohanpaul_ai
53
Sigma推出开源私有AI浏览器,内置网页智能体与本地LLM

Sigma近日宣布推出一款开源私有AI浏览器,其核心创新在于将网页智能体和本地大型语言模型(LLM)直接集成到浏览器内部,无需将用户网页活动发送至远程服务器。这使得浏览器从单纯的显示层转变为智能体工作空间,AI能够实时感知并操作标签页、表单、登录会话和未完成任务等作为统一工作状态。该浏览器支持Qwen、Gemma、Nemotron等本地模型,可执行页面总结、表单自动填写、产品比价、跨标签页搜索以及自动化重复性网页工作流等任务,整个过程完全在本地处理,实现了真正的私有化与开源设计,保障用户数据隐私。

Sigma Browser: Hermes agent running in private browser on free local models Private by design. Local. Open-source

智能体产品更新开源生态端侧
5月11日
23:50
向阳乔木@vista8
31
博客集成AI对话侧边栏,辅助内容创作

作者为博客增加了AI对话侧边栏功能,旨在提升内容创作效率。该功能允许用户在写作过程中随时与AI对话,以辅助完成配图、生成标题等任务。例如,用户可指令AI“给第一节配信息图,科普风格”,生成的图片会自动插入文中;对于AI生成的多个标题选项,用户只需说“选第一个”即可自动替换。该功能完善后,将同步至开源版本。

产品更新图像生成开源生态
23:30
MiniMax (official)@MiniMax_AI
64
MiniMax组建"10x团队",邀请领域专家共推AI跨越式发展

MiniMax宣布成立“10x团队”,旨在邀请各领域深度专家共同推动人工智能实现十倍速进步。公司认为大模型已从演示阶段发展为真实生产力设施,而将顶尖领域人才引入模型研发能显著提升能力并产生实际影响。团队寻求的是坚信AI能加速自身领域发展的专家,他们将直接参与问题定义、评估构建及工作流设计,其成果将融入MiniMax模型并贡献于推动行业发展的开源基准。MiniMax提供全球竞争力的薪酬、股权及上海、北京、香港、旧金山、伦敦等多地办公选择,通过开放合作实现“智能普及”的使命。

开源生态行业动态
21:31
凡人小北@frxiaobei
精选75
知识产权全面沦陷。 发明专利生成 skill https://github.com/handsomestWei/patent-disclosure-skill 软著生成 skill https://github.com/Fokkyp/SoftwareCopyright-Skill 设计专利/实用新型更容易,claude desgin/ image2

scavin: 中国软件著作权申请材料 生成器 Skills https://meta.appinn.net/t/topic/85159

开源/仓库开源生态

推荐理由:发明和软著生成 skill 直接把知识产权的门槛打到地板,虽然质量可能粗糙,但这套自动化流水线会让审批系统面临海量申请,值得关注。
20:50
向阳乔木@vista8
71
3.3万星AI论文学习库,收录精选视频教程

一个在GitHub上获得3.3万星标的AI论文学习资源库,作者系统性地收集和整理了高质量的AI学习视频。资源主要来自YouTube和Bilibili平台,例如收录了李沐的论文精讲系列。所有内容已按时间和主题进行了详细分类,便于用户系统学习和收藏。该库旨在为学习者提供一个结构化的视频学习路径。

开源生态教程/实践
15:48
Berryxia.AI@berryxia
53
开源开发板CardPuter ADV中文教程稀缺,博主整合资源撰写指南

作者在入手CardPuter ADV开发板后,发现𝕏平台上相关的中文教程非常稀少。为此,他整合了YouTube上一位创作者的从零基础到入门的详细教程,并结合自身使用体验,撰写了一篇全面的中文指南。作者希望这篇教程能为其他开发者提供实用参考,并表示后续会持续分享自己基于该开发板的项目进展。文中引用的推文也印证了中文社区对该开发板学习资源的迫切需求。

Berryxia.AI: http://x.com/i/article/2053687145076797440

其他开源生态
13:34
阿绎 AYi@AYi_AInotes
65
大神用Claude Code复刻完整游戏开发工作室,48个AI智能体覆盖全岗位

开源项目Claude Code Game Studios利用Claude Code构建了完整的虚拟游戏开发工作室。该项目包含48个AI智能体,1:1还原从创意总监到关卡设计师等全部岗位,覆盖游戏开发全流程。系统提供36条斜杠指令一键启动工作流,适配Godot、Unity、Unreal三大游戏引擎,并集成自动化校验钩子及28套行业标准文档模板。所有AI仅负责梳理方案,最终决策权由用户掌握。项目采用MIT开源协议,可免费商用,克隆仓库即可快速部署。

智能体Anthropic开源/仓库开源生态
11:48
Berryxia.AI@berryxia
68
AI助力AR 3D拆解教学,低成本方案推动科普变革

AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

Berryxia.AI: 看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D ...

多模态开源生态教程/实践
11:34
阿绎 AYi@AYi_AInotes
58
GBrain升级客户端-服务器架构,MCP协议推动个人AI向基础设施演进

YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

Garry Tan: GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...

智能体MCP/工具产品更新开源生态
10:55
Alibaba Cloud@alibaba_cloud
55
AI包容性愿景:用开源模型支持1200多种语言

通义实验室与YiXi联合举办的开发者会议中,AI Singapore的Jian Gang Ngui阐述了构建理解东南亚语言文化AI的使命。该地区拥有超7亿人口、1200多种语言,AISG正利用Qwen、Gemma等先进开源基础模型,与当地社区合作整合语言文化背景,开发真正普惠相关的LLM。通义实验室对此表示支持。

开源生态行业动态
10:48
歸藏(guizang.ai)@op7418
精选78
开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能

开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

智能体GitHub产品更新图像生成

推荐理由:藏师傅把做PPT的整条链闭环了,从大纲、配图到多平台封面一个对话走完。瑞士风的设计纪律直接写进skill,做出来的PPT终于甩掉AI模板味。
09:45
Berryxia.AI@berryxia
56
利用开源3D库与工具快速创建3D展示与互动应用

推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。

Berryxia.AI: 从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!

图像生成开源生态教程/实践
08:44
向阳乔木@vista8
70
OpenCLI项目实现了对微信、Telegram和Discord三大平台内容的命令行读取,通过wx-cli、tg-cli和discord-cli工具,用户可直接获取群消息、聊天记录、朋友圈及收藏夹等私域数据。这标志着个人信息流聚合的关键突破,使得AI Agent不仅能监控外部资讯网站,还能整合个人私密的社交聊天信息,构建真正统一的个人数据流。此举可能引发平台方如微信的关注或反应。

kabikabi: OpenCLI 现在可以读取微信、Telegram、Discord 的内容了!!! wx-cli / tg-cli / discord-cli 全部接入。 群消息、聊天记录、朋友圈、收藏夹--全部可以用 CLI 直接拿到。 以前 Agent...

智能体开源/仓库开源生态
01:33
Ant Ling@AntLingAGI
44
Ant Ling 2.6 1T的架构设计被@rasbt在其最新更新中收录和推荐。团队对此表示欣喜,并邀请社区通过Hugging Face页面和Discord频道提供反馈与参与讨论。@rasbt在推文中提到,他计划深入探讨一些最有趣的架构组件,并询问是否遗漏了其他重要架构。团队表示将持续发布更多更新。

Sebastian Raschka: Back from a little family break! Lots has happened, and I'm planning to do a deeper dive into the most interesting archi...

Hugging Face开源生态行业动态
01:29
SemiAnalysis@SemiAnalysis_
62
速度即护城河:AMD ROCm软件栈性能在14天内提升超75倍

自DeepSeek-V4发布后14天内,AMD ROCm软件栈性能提升超过75倍。这一飞跃主要得益于融合mHC操作和RoPE哈达玛变换,有效降低了CPU开销并提高了HBM内存利用率。同时,团队使用TileLang和Triton快速开发了注意力索引器和KV缓存压缩器等核心组件。为追赶业界标杆,AMD仍需再提升5倍性能以匹配单节点聚合B200,并额外提升1.5倍以达到PD disaggregated B200水平,预计未来几周内有望实现这一目标。此快速进展离不开HaiShaw、Thomas、@roaner和@AnushElangovan等人的贡献。

产品更新开源生态部署/工程
‹ 上一页
1…1314151617…20
下一页 ›