AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3062 条
全部一手资讯X论文
标签「Agent」清除
Ant Ling@AntLingAGI · 5月17日80

Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡

译又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

Ant Ling@AntLingAGI · 5月17日74

🥳You could always experience the latest, fastest and the most easy to use open model on SGLang, this time for our latest reasoning model release of Ring-2.6-1T (limited 75% discount on OR https://openrouter.ai/inclusionai/ring-2.6-1t) Thanks to @lmsysorg for another top notch day0 collaboration! 🥳

译Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Ant Ling@AntLingAGI · 5月17日66

Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users. It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t

译Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

宝玉@dotey · 5月17日65

让 AI 干很长时间的活,核心是规划和验证: 1. 如原推那样规划成小的阶段 2. 另外每个阶段最好有明确的验证方法,这一步很重要,可以是自动化测试(单元测试、集成测试、端到端测试) 所以长任务最适合的场景是那种测试覆盖完整的语言迁移,比如 bun 从 zig 迁移到 rust,一百万行代码的变更,但是测试覆盖完整,而且 AI 主要做的是“翻译”的工作,还可以验证,那连着跑几个几周都没问题,还不担心跑偏。 普通任务,如果没有办法让 Agent 自己验证,还跑很久,就很容易出现南辕北辙的情况,跑的时间越长,偏的越远。还是自己中间验证一下更好。

译让AI高效执行长时间任务,关键在于细致的规划和阶段性的验证。有效方法是将大任务拆分为小阶段,并为每个阶段设定明确的自动化验证(如单元测试)。例如,测试覆盖完整的语言迁移项目是理想场景,AI可专注“翻译”并持续验证,避免偏离。若缺乏验证机制,AI长时间运行极易“南辕北辙”,产出难以审查。高效做法应是由人先规划阶段,每步配合用例并由人审核,确保提交代码量可控。这强调了人的基础能力是决定AI工作质量的关键。

Peter Steinberger 🦞@steipete · 5月16日57

Lossless is a really interesting concept for OpenClaw to have an "infinite" context window/memory. It compacts conversations in blocks that the model can refer to, building a tree to look up past messages.

译Lossless为OpenClaw引入了一个实现“无限”上下文窗口或记忆的有趣概念。其核心机制是将对话内容压缩成可引用的数据块,并构建树状结构以检索历史信息。最新发布的lossless-claw 0.10.0版本旨在确保长对话的持久性,关键改进包括:采用全局压缩替代增量压缩以减少缓存抖动,保护高频提示缓存,修复启动与重启时的转录异常,并简化了新安装的配置流程。

Berryxia.AI@berryxia · 5月16日73

强烈建议搞 OPC 的兄弟们,周末花点时间必须把它看完! Anthropic刚刚把一本内部手册扔了出来,名字叫《Founder's Playbook》。 这不是鼓吹AI多牛的宣传册。 反而是他们看着自家Claude Code和一大批YC创始人踩过的坑,整理出的经验教训: AI会让创业失败率上升。 不是下降,是上升。 CB Insights那份报告说,42%的创业公司死于“造出了没人想要的东西”。 就是重复生产垃圾和自我感动的东西! 过去,这个坑至少要几个月才能踩出来,找联合创始人、谈预算、外包开发,时间本身就是保护机制。 现在Claude Code一个下午就能给你一个能跑的原型。 听起来是降维打击。 Anthropic直接点破:原型越容易做,创始人就越容易把“能跑”和“用户真的需要”画等号。 确认偏误配上研究引擎,AI会拼命给你找支持证据,把糟糕的想法包装成“有数据支撑”的完美BP。 他们把创业拆成Idea、MVP、Launch、Scale四个阶段,每个阶段都讲清楚AI到底会把哪个老坑放大成新雷区。 Idea阶段:原型不等于验证。 MVP阶段:小心“Agentic技术债”——每次会话从零推导,代码库慢慢失去连贯心智模型。 Launch阶段:你自己成了最大瓶颈,所有决策都要等你。 Scale阶段:真正护城河不是通用AI,而是你把行业边界情况、用户行为指纹、垂直知识全部结构化沉淀成专属Skills。 把36页全看完后明白了一句话是: “瓶颈不再是你能造什么,而是你选择造什么。” 执行成本被AI几乎抹平,判断力反而成了最致命的稀缺资源。 英文原版在这里:https://claude.com/blog/the-founders-playbook 中文PPT版在这里(已星标):https://github.com/yangliu2060/founders-playbook-zh

译Anthropic发布内部手册《Founder's Playbook》,核心观点是AI(如Claude Code)将提高创业失败率,而非降低。手册指出,AI能快速生成原型,易使创始人混淆“能运行”与“有市场需求”,并通过确认偏误和研究引擎强化错误想法。它将创业分为Idea、MVP、Launch、Scale四阶段,剖析AI放大的风险:如原型不等于验证、Agentic技术债、创始人成为决策瓶颈等。最终结论是,AI极大降低执行成本,使得判断力成为最稀缺资源,真正护城河在于将垂直领域知识结构化沉淀为专属Skills。

向阳乔木@vista8 · 5月16日66

如果有一台新的Mac电脑或Mac mini,都可以先安装Codex。 然后让它帮你安装开发环境,只需要说: “这是一台新Mac电脑,帮我安装各种开发环境,比如npm、github cli,你想想都需要安装什么常用的软件和工具,一步步执行”

译作者建议在新Mac或Mac mini上安装Codex,以简化开发环境的配置流程。用户只需向Codex发出指令,例如“这是一台新Mac电脑,帮我安装各种开发环境”,它就能自动规划并执行安装常用开发工具和软件(如npm、GitHub CLI)的步骤。该方法旨在利用AI助手自动化繁琐的初始设置工作,提升开发者的工作效率。

AYi@AYi_AInotes · 5月16日60

ChatGPT 有一个股票交易模式功能。 你可以用它来研究和交易任意股票, 就像专业的股票市场分析师一样, 以下是启用该功能的 7 个提示词:

译飞书官方 CLI 工具 lark-cli 开源45天后 GitHub star 数突破1万,成为国内首个破万星的办公套件开源项目。其核心在于允许 AI 通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可见、可预览、可审查,与 MCP 等云端不可见模式形成对比。更关键的生态指标是,飞书主干已合并了10位外部开发者的代码,而同类产品钉钉和企业微信则为零,体现了真实的开发者参与。这种透明可控的特性是开发者放心将任务交给 AI Agent 的重要前提。

meng shao@shao__meng · 5月16日67

Animate Text Skill:让 Agent 能创建好看的文字动画 这个 Skill 把 "反复复杂模糊的风格描述" 翻译成 "可执行规格",把 24 种精心打磨的文字动画固化为机器可读的 JSON,让 Agent 不再凭直觉生成动画,而是查表执行。 来自 Pixelpoint @alex_barashkov 安装地址: https://pixelpoint.io/skills/animate-text/ 架构上的两层设计 1. assets/specs/*.json —— 可移植的"动机合约"(portable motion contract) 描述动画的语义意图:目标粒度(整体/逐字/逐词/逐行)、入场出场时长、缓动曲线、from/to 状态、stagger 节奏、swap 切换策略。它是库无关的,意图能在 GSAP、Motion、WAAPI、CSS、Lottie、Rive 任意栈中复刻。 2. assets/effects/*.json —— 精确的"复现合约"(exact reproduction contract) 包含完整的渲染器算法、播放循环、运行时倍率、舞台宿主要求、渲染契约,以及针对 WAAPI/Motion/GSAP 三个库的适配器映射(imports、时间单位转换、缓动转换、关键帧形态、完成回调、库特定注意事项)。 这种分层很关键:当用户说"用 Framer Motion 做一个 Apple 风的标题",agent 走 portable 路径足够;当用户说"在我的 Remotion 项目里 1:1 复刻你网站上 kinetic-center-build 那个效果",必须走 exact effects 路径。 24 种文字动画效果的分类 · per-character(字符级):soft-blur-in、per-character-rise、typewriter、bottom-up-letters、top-down-letters、stagger-from-center、stagger-from-edges · per-word(词级):per-word-crossfade、spring-scale-in、shared-axis-y、blur-out-up、depth-parallax-words、kinetic-center-build、short-slide-right、short-slide-down · per-line(行级):mask-reveal-up、line-by-line-slide whole(整体):micro-scale-fade、shimmer-sweep、fade-through、shared-axis-x/z、scale-down-fade、focus-blur-resolve 与同类方案的差异 市面上类似的动画"库"通常走两条路:要么是 React 组件库(绑定栈),要么是 CSS 动画合集(绑定渲染方式)。这个 skill 走第三条路——只交付规格,不交付实现。 带来的直接好处: · 在 Remotion 里能用(关键帧驱动) · 在 Motion/GSAP 里能用(命令式时间轴) · 在纯 CSS 里能用(keyframes + animation-delay) · 在 Lottie/Rive 里也能用(设计师按规格在 AE 里手搓) 代价是 agent 必须做翻译工作——而这正是 skill 存在的意义:把翻译规则也写清楚(references/implementation-notes.md、library-adapters.json)。

译Animate Text Skill 将复杂的文字动画描述转化为机器可读的 JSON 规格,使 AI Agent 能通过查表而非直觉生成动画。其架构分为两层:可移植的“动机合约”描述库无关的动画语义意图;精确的“复现合约”提供针对 WAAPI、Motion、GSAP 等渲染栈的适配细节。该技能封装了24种按字符、词、行、整体分类的动画效果,仅交付规格而非绑定特定栈的实现,从而支持在 Remotion、CSS、Lottie 等多种环境中使用。

AYi@AYi_AInotes · 5月16日62

拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时代, 工程师不再是写代码的人, 而是管理一整队AI同事的团队经理, 现在Cursor内部30%的合并PR, 都是由异步云代理自动创建的, 单周运行两千多个并发代理,生成三百万行代码, 消耗几十亿个token, 一个任务发出去, 系统会自动拆成规划,编码,测试,发PR四个角色, 每个代理独占一台远程机器,并行在云端运行, 人类只需要在最开始定义范围, 和最后做一次最终审核, 中间所有的脏活累活,AI全部自己搞定, 这就是多代理比单代理强的根本原因,

译Cursor CEO的演讲指出,AI编程正经历根本性范式转移。当业界仍聚焦于比较不同模型生成代码的优劣时,Cursor已进入“多代理协作”时代。工程师角色转变为管理AI团队的经理,不再亲自编码。其系统单周运行超两千个并发代理,自动生成三百万行代码,并将任务分解为规划、编码、测试等角色并行处理。人类仅需定义任务与最终审核,中间流程全由AI自主完成,体现了多代理系统的核心优势。有用户亦证实其高效支持,迅速获得了高额权限与信用额度。

Peter Steinberger 🦞@steipete · 5月16日60

Looks like our focus on performance paid off.

译基于Qwen 35B本地模型的Hermes与OpenClaw智能体在相同任务中展现出不同策略与效率。任务要求抓取GitHub star历史、分析增长峰值原因并构建实时仪表盘。OpenClaw耗时12分钟,消耗203k tokens,通过编写bash脚本高效调用GitHub API,处理分页与JSON数据,并发现一次安全事件。Hermes耗时33分钟,消耗257k tokens,采用并行工具调用策略,在遭遇Google速率限制后自动切换至DuckDuckGo,最终整合内容并映射传播节点。两者均成功交付了包含增长图表和峰值标注的实时仪表盘。

歸藏(guizang.ai)@op7418 · 5月16日74

我终于知道昨天 OpenAI 官方的人回复我是啥意思了! Codex 除了用 ChatGPT 连接和远程控制以外,还可以在 Codex 再控制你的另一台电脑。 这样你就可以在 ChatGPT 上直接控制多台电脑,而不用在 ChatGPT 切换设备,只需要切换项目就好。 比如我这个 Mac Book 的 Codex 可以读取他本地的文件,也可以直接读取我另一台 Mac Mini 的上下文和文件。 说一下怎么做: 1. 首先你去“设置”里的“连接”,选择“控制其他设备”。 2. 在“控制其他设备”里点击加号,选择你其他已经安装 Codex 的设备。 3. 选择完了以后,你需要在新聊天下的“选择工作区”里连接远程项目。 4. 找到你另一个远程设备下需要让它访问的文件夹。 这样你就可以在 Codex 下看到另一个设备跑的项目,ChatGPT 选择这个设备时也能看到另一个设备的项目。 它们的上下文就共享了。这个太有用了!

译Codex除了通过ChatGPT连接和远程控制外,还能控制另一台电脑,实现在ChatGPT上直接管理多台设备而无需切换,只需切换项目即可访问不同设备的上下文和文件。引用推文补充,此功能还支持通过远程SSH设置其他VMs等,增强了多设备协作的灵活性和实用性。

Tibo@thsottiaux · 5月16日66

Codex🫸🫷Zed

译Codex🫸🫷Zed [引用 @zeddotdev]:你现在可以在Zed代理中使用你的ChatGPT订阅,享受与直接在Codex中相同的使用量和速率限制。我们感谢@openaidevs继续支持第三方工具的基于订阅的访问,即使其他公司正在转向基于使用量的计费。

Orange AI@oran_ge · 5月16日70

Notion 终于出了 CLI… 跟上了这个时代

译Notion正式推出开发者平台,核心组件包括Notion CLI终端工具、Workers计算服务、数据库同步功能以及多种Agent工具与API。平台旨在让开发者更便捷地在Notion基础设施上运行代码、连接外部数据源并构建自动化工作流。未来,即使非开发者也能通过AI Agent在Notion上构建应用。

宝玉@dotey · 5月16日60

帮转 DeepSeek 招 Agent Harness 产品经理 职位描述 团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力,转化为领先的 Agent 产品。这其中除模型本身以外的所有工作,都属于 Harness 的范畴。 你将加入 Harness 团队,与工程师、研究员紧密协作,参与 DeepSeek 桌面端 Agent 产品的全过程,定义 DeepSeek 对 Harness 的理解。 主要职责 • 规划 DeepSeek Harness 产品路线图,连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求,定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作,实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地,以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源,持续迭代产品能力。 • 维护 Harness 产品用户社群,从潜在海量用户群体中获取反馈、提取信号,指导产品迭代。 • 协助项目管理相关工作。 任职要求 • 2年以上产品经理从业经验,产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码,不一定需要技术背景。 • 能够设计系统性的收集数据的方法(包括问卷、访谈、A/B测试、灰度测试等),并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户,熟悉 Agent 产品的各种形态,对 Agent 有极大的热情,对模型行为有品味有判断力,对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品,并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理,包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。 加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。 团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力,转化为领先的 Agent 产品。这其中除模型本身以外的所有工作,都属于 Harness 的范畴。 你将加入 Harness 团队,与工程师、研究员紧密协作,参与 DeepSeek 桌面端 Agent 产品的全过程,定义 DeepSeek 对 Harness 的理解。 主要职责 • 规划 DeepSeek Harness 产品路线图,连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求,定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作,实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地,以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源,持续迭代产品能力。 • 维护 Harness 产品用户社群,从潜在海量用户群体中获取反馈、提取信号,指导产品迭代。 • 协助项目管理相关工作。 任职要求 • 2年以上产品经理从业经验,产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码,不一定需要技术背景。 • 能够设计系统性的收集数据的方法(包括问卷、访谈、A/B测试、灰度测试等),并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户,熟悉 Agent 产品的各种形态,对 Agent 有极大的热情,对模型行为有品味有判断力,对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品,并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理,包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。 加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。 https://app.mokahr.com/social-recruitment/high-flyer/140576#/job/54f386a9-913b-4626-9bf4-e1709b62fcda

译DeepSeek招聘Agent Harness产品经理,旨在将其前沿模型能力转化为领先的Agent产品。该职位需规划产品路线图,连接研究员、工程师与社区,定义并衡量Agent帮助用户的核心指标,推动模型与Harness共同进化。候选人需是Agent产品高强度用户,熟悉Claude Code、GitHub Copilot等工具,理解LLM与Agent技术原理,并具备数据分析和产品设计能力。

swyx 🇸🇬 AIE Singapore!@swyx · 5月16日51

gotta say Codex is completely unrecognizable from 3 months ago. guys went extreme founder mode on this thing @gabrielchua was demoing this and i was like “you guys have agentic excel on mac”

译不得不说Codex和三个月前相比已经完全认不出来了。 团队在这件事上开启了极限创始人模式 @gabrielchua 演示时我就在想“你们居然做出了代理式Excel for Mac”

AYi@AYi_AInotes · 5月16日76

xAI这步棋太聪明了, Grok现在可以直接用在Hermes Agent里了, 从今天起,你不用额外花一分钱, 就能把你已经买了的任意等级Grok订阅, 无缝接入Hermes Agent里用, 没有复杂的API配置,不用手动填token, 一键OAuth登录就能用, 因为xAI没有自己从零开始造代理生态, 所以它只能把Grok变成了一个即插即用的超级大脑,然后插进已经成熟的开源Agent身体里, 相当于借力打力,把开发成本压到可以忽略,传播速度却可以快到飞起。 Hermes本身就是目前最好的开源个人Agent之一, 它能在你的电脑或者服务器上24小时一直跑, 有长期记忆,能跨会话学习你, 还能直接连WhatsApp Discord Telegram, 现在装上Grok的推理,生图,生视频和语音能力, 直接从能用变成好用, 对用户来说,就是已经付过的订阅费,突然又多了一个完全可控的本地AI代理,还挺香的, xAI说更多开源代理和集成即将到来, Grok正在从一个只能在X里用的聊天工具,慢慢变成整个AI生态的通用大脑,可以期待一下! #xAI #Grok #AI代理

译xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

AYi@AYi_AInotes · 5月16日66

我花三分钟跑了飞书的CLI才明白, 为什么Notion的MCP黑箱路线永远赢不了透明的CLI, 说个暴论,未来国内的 AI 老大,非字节跳动莫属, 我几个朋友的公司都陆续要从钉钉切到飞书了,信号非常明显。

译作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

swyx 🇸🇬 AIE Singapore!@swyx · 5月16日29

holy shit lmao @Gavriel_Cohen he's seriously using this thing for conducting the foreign policy/parliamentary affairs of singapore - and sharing his stack on how he is hacking around WhatsApp and doing graph memory on SQLite wtf is this vibecoded country man

译新加坡内阁部长Vivian Balakrishnan作为NanoClaw的重度用户,正实际运用该AI工具处理国家外交政策与议会事务。他公开分享了如何利用技术栈破解WhatsApp限制,并在SQLite上实现图记忆的具体方法。这一实践案例在AI工程师社区活动中引发关注,该活动汇聚了来自OpenAI、Cursor AI、Vercel、ElevenLabs等公司的众多AI领域专家,共同探讨前沿AI应用。

Berryxia.AI@berryxia · 5月16日77

兄弟们,3D资产生成彻底要起飞了。 Cambridge大学助理教授Elliott Wu(前Stanford、Oxford背景)团队刚放出了Articraft——一个真正的agentic coding系统。 它不是简单生成静态3D模型,就可以让AI agent自己写代码、自己执行、自己接收物理验证反馈,不断迭代,最终输出带零件、关节、真实运动的可交互3D资产,直接就能扔进机器人仿真和物理AI场景里用。 以前做一套高质量articulated asset要花几天甚至几周,现在agent全自动跑通,整个过程高效到离谱。 他们顺便还开源了Articraft-10K数据集:超过1万个跨250个类别的articulated 3D物体,全部可交互、仿真就绪,彻底把大规模机器人训练和物理世界AI的资产门槛拉到了新低。 物理AI和机器人仿真的“数据饥渴”问题,被这个agentic pipeline直接干掉了一大半。 项目页面在这里:https://articraft3d.github.io/ 完整代码和数据集也在GitHub开源。 如果你在做机器人、仿真、物理AI或者3D内容生成,这波开源值得立刻去试。 PS: 还未实测,待后续测评!

译剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

Berryxia.AI@berryxia · 5月16日62

转自GG老哥👇 以下是更多关于这些AI智能体的观察结果(我还会不断补充这个列表): 1. Hermes智能体在完成每项任务后都会将相关信息存储在自己的内存中。 这意味着,如果你现在就开始使用这些智能体,与6个月后才开始使用相比,你会获得明显的优势。 2. 我们可能再过12个月左右,就能拥有这样的智能体:它们能够观察你一周的工作过程,然后在没有任何指令的情况下自行完成你的工作。 目前,通过屏幕录制、智能体的记忆功能以及本地模型的组合,这一目标已经变得可行了。 3. 对于创业者来说,本地模型的重要性在于:你可以推出一种完全在用户设备上运行AI技术的产品,而无需接触用户的任何数据。 这样一来,就完全没有隐私风险、服务器成本,也不用担心合规问题。 这种技术会瞬间改变你可以进入哪些行业进行销售——医疗、法律、金融等所有那些不允许将数据传输到云端的领域,都会因此变得可行。 4. 在这些智能体真正发挥作用之前,每家公司都需要将自己重新打造成一个“第二大脑”——即一个能够辅助人类进行工作的智能系统。 这意味着:每一个流程、每一个决策,以及每一项机构知识,都必须以Agent能够理解的形式存在(即必须以Agent能够读取的格式进行表达)。 然而,大多数公司在这方面都做得非常糟糕(即这些信息并没有以代理能够理解的形式被保存或使用)。 5. 代理的薪酬成本实际上已经取代了传统的人力成本; 对于许多公司来说,将总人力资源成本的 50% 以上用于购买代币(tokens)也并不算什么疯狂的决定。 6. 代理们在无意中在企业内部引发了竞争:营销人员和销售人员虽然都在为不同的目标而努力,但他们实际上是在相互抵触、互相妨碍对方的工作效率。 而人类花了数十年时间才建立起跨部门之间的协作机制。对于这些“代理”来说,这个问题却从未被真正考虑到过。 7. YAML 配置文件正在逐渐取代传统的组织结构图:谁向谁汇报、他们拥有哪些权限、可以使用哪些工具——所有这些信息都通过 YAML 配置文件来定义。 公司的整体结构实际上就是一个可以被版本控制、分叉(fork)并部署的文件罢了……这确实是一个全新的模式。 8. 那些第一批能够识别出骗局的公司,将会因此获得巨大的价值(甚至可能价值数十亿美元)。 目前,许多代理人会毫不犹豫地将资金转给那些格式看似合法的虚假发票;他们的判断完全缺乏任何信任机制或理性分析。 9. 实际上,很多所谓的“专业知识”不过只是对某些信息的记忆罢了——比如税法规定、判例法内容、以及不同供应商的收费标准等。 只有当代理人能够将这些信息放在具体情境中加以理解时,他们的价值才会真正体现出来(即他们能够判断出哪些信息才是真正重要的)。具备这种能力的人其实非常少。 10. 我们都在使用相同的模型。 真正的区别在于我们为这些模型提供了什么样的输入数据。两位创始人即便使用相同的代理人、相同的模型和相同的工具,最终得到的结果也可能大相径庭——这完全取决于他们所掌握的知识质量。 如果输入的信息质量低劣,那么输出的结果自然也会很糟糕(这种情况会永远持续下去)。 11. 目前人工智能领域发展最为滞后的领域就是为老年人服务的智能辅助系统; 有约7000万的婴儿潮一代需要帮助填写医疗表格、处理保险索赔以及安排预约等事务。 12. 代理人的响应速度(即处理任务的速度),已经相当于网页的加载速度了。 如果你的客服代表需要 45 秒才能回复客户,那么客户很可能已经转而使用那些响应速度更快(仅需 13 秒)的客服服务了。 13. “技能文件”(Skills files)实际上就是新的“应用程序”; 一个能够指导客服代表如何高效完成某项任务的文档(如 SKILL.md),比那些通过登录界面来提供相同功能的 SaaS 服务更有价值。 14. 在人工智能硬件领域,如何开发出既实用又受消费者欢迎的产品呢? 其实只需要一个价格约为 30 美元的插件,就能将人工智能功能添加到现有的普通设备中。 比如,智能烤面包机并不需要从头开始设计;只需将这个插件连接到价值 15 美元的普通烤面包机上即可。 15. 客服代表的阅读速度远超人类的思考速度; 目前,每个客服工作流程中的瓶颈都在于人工审批环节——人类本身才是效率最低的部分。这确实是个令人反思的现象。 16. 客服代表让“80/20 规则”(即工作中 80% 的任务由人工完成、20% 的任务由自动化系统完成)变得更加明显。 如今,只有那 20% 的关键任务仍由人类负责,而剩下的 80% 的工作内容早已被自动化系统取代了。 许多原有的工作描述其实都隐藏在那些“被自动化处理”的任务中。 17. 我一直反复强调的一点是:如今最成功的商业模式,都是由那些比他们的客户稍微领先一点的人创造的——这种领先幅度既不是十年,也不是六个月。 这样的领先程度既能确保他们能够引领市场的发展,同时又足够接近客户的实际需求,使他们能够被客户真正理解。

译AI智能体通过记忆功能形成使用先发优势,预计12个月内将出现能自主学习并替代人类工作的智能体。本地模型使AI产品可在终端设备运行,为医疗、法律等受监管行业提供无数据隐私风险的解决方案。企业需将内部流程与知识转化为AI可读的“第二大脑”,而代理成本正逐步取代传统人力成本。智能体可能引发部门间无意识的竞争,公司结构可通过YAML配置文件定义和版本化。输入数据质量直接决定输出效果,技能文件比传统SaaS更具价值,而人类审批环节成为工作流中的主要瓶颈。

ginobefun@hongming731 · 5月16日62

http://x.com/i/article/2055437368048721920 # BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-16 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev > AI 当编程助理已经不算新鲜,更值得看的是把它当成思考伙伴的方式。Google 的 Julie Qiu 谈如何在九语言客户端库里和 AI 一起读懂、试验、再设计;Abridge 用八千万次问诊把环境抄写做成医疗智能层;OpenAI 在 Podcast 第 19 期复盘 Imagen 2.0 的字渲染、多语言与 Creative Agents 路线。三篇都不爆炸,但都耐看。 ## 导语 今天 BestBlogs 早报的核心是三件"慢功夫"。一是 Google 资深 Staff 工程师 Julie Qiu 分享,她带着 gcloud CLI 团队维护九种语言的客户端库,怎样把 AI 当成思考伙伴而非纯粹的代码生成器,把"该不该这样改"的犹豫时间从几天压缩到几小时。二是 Abridge 这家从 2018 年就开始做医患对话的公司,今年要承接 8000 万次问诊,把环境抄写一步步扩展到临床智能层,给每位医生每周省下 10 到 20 小时。三是 OpenAI Podcast 第 19 期,产品负责人 Adele Lee 和研究员 Kenji 复盘 Imagen 2.0 上线之后用量增长 50%、每周生成 15 亿张图的反馈,以及围绕字渲染、多语言、Creative Agents 与 Codex 联动的路线图。 围绕这三个深度选题,速览部分有七条更具体的进展:Kimi WebBridge 让本地 AI Agent 真正以"你"的身份操作浏览器;DeepSeek-V4 MegaMoE 拆开看通信计算重叠如何把 MoE 性能提到 1.9 倍;Latent Space 的 AINews 观察到代码协作工具集体向 Conductor 形态收敛;宝玉用一篇长文把 Forward Deployed Engineer 这个新岗位讲清楚;腾讯混元把 33 种语言的翻译模型压到 440MB 装进手机;腾讯科技拆解 Cerebras 这次 IPO 招股书里的"小字";以及 Anthropic 与普华永道扩张合作,把 Claude 推到普华永道全球的咨询交付里。 扩展阅读再补五条:Iterate 的 Jonas Templestein 讲 Event-Sourced Agent Harness,Hugging Face 的 Merve Noyan 系统盘点开放智能体生态,阮一峰周刊聊 LoRa 与 Meshtastic 的"离网通信"思路,Qoder 1.0 把 AI IDE 升级为 Agent 自主开发工作台,前端早读课把 Karpathy 的 4 条 CLAUDE.md 规则补到 12 条。话题不算少,但都围绕同一个主题:当 AI 已经能完成一段一段的具体工作,真正的差距开始出现在"系统怎么搭、流程怎么设计、能不能持续跑下去"。 ## 精讲一:将 AI 用作大规模工程系统的思考伙伴 Julie Qiu 是 Google 的高级 Staff 工程师,现在带 Google Cloud CLI 与 SDK,过去几年还领导过 Go 语言团队和 Go 安全团队。她在 InfoQ 这场分享里要回答的,不是"AI 能帮我写多快的代码",而是更朴素的一个问题:当你负责一套真正复杂的系统,AI 应该如何嵌进你日常的工程节奏。这篇文章的 BestBlogs 链接是 https://www.bestblogs.dev/article/589d5efc。 她带的团队要做的事,本身就是一个"系统工程"的极端样本。Google Cloud 的服务团队定义 API,他们的团队拿着这些规格,给九种语言(Go、Python、Java、Node.js 等等)生成客户端库,再各自加上认证、错误处理、产品语义、语言习惯,最后发布到 PyPI、npm、Maven 这些包管理器里。每加一个新功能,都意味着九套代码同时要改、要测、要发布。任何"看着挺简单"的决策,在这套结构里都会被放大。 Julie 把她用 AI 的方式拆成三步:先读懂系统,再做实验,最后重新设计。读懂系统这一步,她举的例子是面对一段几千行的生成器代码,AI 不是直接帮她写一段新代码,而是像一个耐心的同事,把代码逻辑画成示意图,指出哪几个分支可能在新需求下会出错,让她快速对齐"现在到底是怎么跑的"。做实验这一步,AI 帮她做的是"如果我把这个抽象层换掉,会牵动哪些地方"的快速 what-if 模拟——不是生成最终代码,而是让她在 30 分钟里同时探多个分叉,再决定哪条路值得真的写代码去试。重新设计这一步则更靠后,等她已经对方案足够确信,AI 才进入"补全、写测试、清理边界情况"的角色。 文中最让人共鸣的一句话是:"最有用的不是让 AI 写代码,而是把每次'我应该这样改吗'的犹豫时间,从几天压到几小时。"对应到今天速览里的 Forward Deployed Engineer 和 Qoder 1.0,你会看到同一个趋势在不同位置展开:FDE 把这种"AI 加速决策"的能力直接卖给企业,Qoder 1.0 则在 IDE 里把任务窗口和编辑窗口拆开,让"想清楚"和"动手做"在工具里就有不同的状态。 对工程师读者的建议很具体:先选一个你已经反复进入的复杂系统(不是 toy 项目),用一两周时间记录自己每天在哪几个判断上花了最多时间,然后挑其中两三个让 AI 充当"对手盘"——它给一个版本,你给一个版本,再让它来 review。Julie 的经验是,真正把 AI 用成思考伙伴,关键不是 prompt 怎么写得花哨,而是你愿不愿意把决策过程显式化、写出来、被质疑。这件事对资深工程师来说尤其值得练。 她还分享了一个看似细节、但其实非常关键的工作习惯:把每次和 AI 的关键对话存档成"案例库"。不是为了下次复制粘贴,而是为了过一段时间后翻回去看,自己当时为什么会选 A 而不是 B、AI 又是从哪个角度提醒了你忽略的事情。她说这套档案在过去半年里成了她"系统理解力"加速最快的来源,因为它把日常工程里那些零散的判断,沉淀成了可以反复学习的训练集。这跟传统的工程文档不是一回事——传统文档说的是"系统是什么样",这份档案说的是"你是怎么变成现在这样思考的"。 ## 精讲二:AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 这家公司常常被叫做"AI 原生医疗"的代表,但很多人没注意到的是:他们 2018 年就成立了,比 ChatGPT 早整整四年。Latent Space 这期播客请来 Abridge 的 Janie Lee 和 Chai Asawa,以及 Redpoint 的 Jacob Effron,把这家公司从环境抄写起家、一路扩到临床智能层的过程讲了一遍,原文链接是 https://www.bestblogs.dev/article/e618e0e5。 先看几个硬指标。Abridge 今年预计承接 8000 万次以上的医患对话,覆盖美国 250 家大型医院体系,支持 28 种以上语言、50 多个临床专科。2025 年 6 月完成 3 亿美元 E 轮融资,估值 53 亿美元,半年前刚刚做过一轮 2.5 亿美元。这些数字落到产品上意味着,Abridge 不是"试点几家、Demo 几台"的小工具,而是已经渗透到美国医生日常工作流里的基础设施。 他们最早的楔子是 clinical documentation,也就是把医生与病人之间的对话自动转成结构化的就诊记录。这事看起来不性感,但它解决的是医生最痛的"pajama time"——下班后还要在家把白天的看诊记录敲进 EHR 系统。Abridge 自己披露,环境抄写已经能让每位医生每周节省 10 到 20 小时,并且这种节省不是来自"少写几个字",而是来自不用再事后回忆、不用反复在病人和电脑之间切换。一旦这一步被打牢,他们就有底气往下一层走。 下一层是 Chai 在播客里反复提到的 "healthcare-coded Glean":把 EHR 当作医疗 Agent 的文件系统,把医生与病人的对话、医院的政策、保险公司的报销规则、医学文献、本院的临床路径放在同一个上下文里,让 AI 在合适的时机弹出合适的建议。一个具体例子是预授权(prior authorization):在过去,一个 MRI 申请被保险公司拒掉,可能要等几周才能走完上诉流程;现在 Abridge 可以在病人还在诊室里的时候,就提醒医生哪一句话需要补在记录里、哪一个替代检查更可能被批准,把"几周"压成"几分钟"。 播客里另一个值得记住的比喻是"Abridge 想做医疗里的空调":永远在背景里运行,只在真正需要打断时才发声。这背后是 evals 和安全机制做了很重的活。文中提到他们专门组建了 clinician-scientist 团队,针对不同专科建立独立的评估集,从 100M 以上的真实医疗对话里筛出边界场景;对 PHI(受保护健康信息)他们做了大量 de-identification 工作,让数据可以被研究但不会泄露身份。 这条选题和精讲一、精讲三之间是一条线:当 AI 从"写一段代码"扩展到"嵌入到一个高风险高合规的工作流里",胜负关键已经不在模型本身,而在领域知识、流程改造、评估体系。精讲一讲的是个人工程师在一个复杂系统里怎么和 AI 搭班,Abridge 讲的是一家公司把这种搭班做到 250 家医院的规模,再往后看精讲三的 Creative Agents,则是 OpenAI 在尝试把同一种"长期协作"的关系延伸到普通用户的视觉创作。建议读者把这三篇放在一起读,能对"AI 原生"这个词有更扎实的画面感。 Abridge 的组织设计也值得多看一眼。他们没有简单按"算法 / 产品 / 销售"去切团队,而是组建了所谓的 clinician-scientist 团队:一半是有真实临床背景的医生,一半是 ML 研究员,他们坐在一起做评估集、改 prompt、看错误案例。Janie Lee 在播客里把这种结构叫做"让医生和模型在同一张白板前讨论问题"。它带来的副产品是销售环节的可信度——他们去和一家新医院谈合作时,对面的 CMIO 提出来的临床场景,桌上往往就坐着真做过这一行的人,对话能直接落到 evals 该怎么改、新的科室该怎么验证。这种细节看起来不起眼,却是同样数据条件下,他们能跑得比纯软件团队更快的隐性原因。 ## 精讲三:OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 OpenAI Podcast 第 19 期由主持人 Andrew Maine 主持,请到了 Imagen 产品负责人 Adele Lee 和研究员 Kenji。他们这次想聊清楚的,是 Imagen 2.0 上线之后到底有哪些变化,以及为什么 OpenAI 内部把这次升级形容成"文艺复兴"。对应的 BestBlogs 链接是 https://www.bestblogs.dev/video/0da3123。 先看用量。Imagen 2.0 上线之后,整体使用量增长了 50%,每周生成约 15 亿张图。亚洲地区出现了大量"AI 色彩分析"类玩法,美国则反其道而行之,故意让模型生成"看起来像 MS Paint 画出来"的怪味插画,这说明用户已经过了"看看新奇"的阶段,开始在意作品里有没有真实的个性。这种使用量级别决定了 OpenAI 在做下一代决策时不能只想"模型多酷",更要想"在 15 亿张图的吞吐下,哪些场景值得倾斜资源"。 Imagen 2.0 的三个具体进步说得很清楚。第一是字渲染:以前的模型在做带英文标语的海报时经常拼错,现在能在信息图、UI 截图、产品页面上稳定写出准确的文字,这意味着模型第一次真正进入"做平面物料"的工作流。第二是多语言:模型直接学到了不同语言的视觉语境,比如中文标题的版式审美、阿拉伯语从右到左的排版习惯,不再需要先翻译再画。第三是写实感,把模型补足了一些物理世界的常识,比如材质反光、人物比例、相机焦段,让作品更像照片,少了那种磁化封面的"理想化质感"。 研究员 Kenji 在节目里重点演示了"网格测试"。早期模型让它画一个 3×3 的水果网格已经会乱掉,Imagen 2.0 能稳定地处理一个包含 100 个对象的网格——做生物图谱、解剖图、产品规格表都能用。这听上去像个 demo 数字,但实际上意味着模型已经能管理一种"组合性 prompt":你告诉它每一格画什么,它能逐格执行同时保持整体一致性。教育、企业内部幻灯片这种场景一下就被解锁。 路线图部分相对克制,主要两条线。第一条是 Creative Agents:把 Imagen 包装成像个人设计师、室内设计师、婚礼策划师那样的助手,慢慢学用户的偏好和过去的项目,再在长线项目上一起迭代。第二条是 Imagen 和 Codex 的串联:用户描述一个产品的视觉概念,Imagen 给视觉草稿,Codex 同时生成对应的网页或应用代码,让"设计"和"实现"在同一个回合里完成。Adele 给的具象例子是做一个 10 页面的漫画书或一个 360 度全景世界,需要的不是"画一张好图",而是"在 60 张以上的输出里保持角色一致"。 如果今天的早报你只能挑三件事记住,建议是:精讲一让你重新审视自己日常工作流里 AI 该扮演什么角色,精讲二让你看到一个 AI 原生公司怎样把 8 年时间用在最难也最有杠杆的工作流上,精讲三让你看到当生成式模型走向 Creative Agents 之后,"和模型一起工作"会以什么形态进入大众产品。 ## 速览 更具体的进展放在下面这一段。每一条都对应一篇值得花十几分钟读完的文章,不再展开论证。 Kimi WebBridge:让 AI 帮你操作浏览器——月之暗面 Kimi 推出 WebBridge 浏览器插件,让 Kimi Code、Claude Code、Cursor、Codex、Hermes Agent、OpenClaw 等本地 AI Agent 可以接管 Chrome / Edge,以登录用户的身份完成点击、滑动、表单填写、跨站信息整合等工作。两个例子很有代入感:自动抓取多家笔记 App 在应用商店的素材并写入在线文档;接管量化研究平台跑回测并自动产出研究报告。安装也很轻:商店搜插件、跑一行 curl 安装本地守护程序、重启 Agent,输入"使用 kimi-webbridge 帮我打开 kimi.com"测试通过即可上手。完整介绍在 https://www.bestblogs.dev/article/31884d93。 DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍——zartbot 这篇接着上一篇模型结构分析,把 DeepSeek-V4 技术报告里的基础设施部分拆开看。MegaMoE 的关键在"细粒度专家并行":通过精细的 Block 调度、Pool 容量管理、Expert Wave 粒度切分,把 MoE 层里通信密集的 Dispatch / Combine 阶段藏到计算密集的两次线性层下面,跑出 1.5 到 1.9 倍的性能提升。文章详细列出了 Dispatch Warp、TMA Producer A/B、MMA Warp、Epilogue Warp 各自的代码段,以及 NVLink Barrier、Pull token、TMEM 双缓冲、SwiGLU 激活、FP8 量化等细节,是研究 MoE 推理优化的硬核参考。原文见 https://www.bestblogs.dev/article/76f659e2。 [AINews] 万物皆向 Conductor 看齐——Latent Space 的 AI 新闻头条这一期,从 GitHub 新版 GitHub App 切入,指出整个 AI 编程工具圈正在围绕"agent-first 形态"集体演化。Conductor 是最早跑出这种形态的产品,连 Y Combinator 的 Garry Tan 都公开为它站台。Claude Code 在新版桌面 App 上也加入了 git worktrees,OpenAI 把 Codex 推到移动端。一句"Everything is Crab"的演化生物学梗,被拿来类比这种 form factor 趋同的现象。背后两个十亿美元的问题是:先做出这种形态的公司怎么收费?下一步会演化成什么?详见 https://www.bestblogs.dev/article/3a3c9344。 Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?——宝玉这篇长文把最近 AI 圈一个热得发烫的岗位讲清楚。Google Cloud 大量招 FDE,面试压缩到两天两轮;OpenAI 拿到 40 亿美元成立独立"OpenAI Deployment Company",估值 140 亿美元,第一笔收购是英国的 Tomoro,带来 150 名 FDE;Anthropic 联合黑石、Hellman & Friedman、高盛低调成立自己的 FDE 咨询公司,把 Claude 推进各行各业的中型企业。FDE 不是单纯的售前或交付,更像是"懂业务又能写代码的 AI 转型操盘手"。文中追溯了这个岗位在 Palantir 时代的源流,也给了想转 FDE 的工程师一份清单。原文见 https://www.bestblogs.dev/article/81a8944a。 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行——腾讯混元这次开源的是一组 Hy-MT1.5 系列翻译模型,原生支持 33 种语言、5 种方言、1056 个翻译方向。1.8B 参数的版本翻译效果比肩商业 API 与 235B 大模型;进一步做 2-bit 拉伸弹性量化得到 574MB 版本,效果几乎无损;再用 ACL 2026 入选的 Sherry 稀疏高效三值量化做到 1.25-bit、最终 440MB,普通骁龙手机也能离线跑。文中给了"异国自驾被警察拦下"的极端场景,配合配套 Demo 的"后台取词模式",让"手机原生离线翻译"这个老需求第一次有了能匹配商用质量的开源解。详见 https://www.bestblogs.dev/article/47e5f129。 警惕全球"最大"芯片 IPO 的暴雷风险——腾讯科技这篇深度报道把 Cerebras 这次 IPO 的招股书拆开看。Cerebras 以每股 185 美元定价、募资 55.5 亿美元、市值 398.17 亿美元,首日暴涨 70%,是 2026 年迄今全球最大 IPO。但作者提醒:Wafer-Scale Engine 的"100% 良率"是重新定义后的口径,靠的是片内冗余核心绕开缺陷,与传统 GPU 不在同一量度;公司从训练转向推理是结构性选择,因为片间 I/O 仍然是短板;与 OpenAI 那份超过 200 亿美元的合同有"股权换订单"成分;39% 毛利率背后含有较多会计层面的优化。文章核心提示是:这家公司值得关注,但不能用直觉算它的估值。原文见 https://www.bestblogs.dev/article/e6a73505。 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能——Anthropic 和普华永道扩张战略联盟,把 Claude Code 与 Cowork 从美国团队推向全球数十万员工,并联合成立 Center of Excellence、培训认证 3 万名顾问。重点投入三个方向:智能体技术构建、AI 原生交易执行、企业职能重塑。普华永道还在 Claude 之上单独成立了一个 Office of the CFO 业务部门。Dario Amodei 在新闻稿里给了一组数据:原本要十周的保险核保现在十天能跑完,原本几小时的安全工作压到几分钟,整体交付时间最多缩短 70%。AINative 咨询的格局,正在被这种"模型 + 顶级咨询公司 + FDE 团队"的组合改写。详见 https://www.bestblogs.dev/article/b80806a0。 ## 扩展阅读 下面这几条更适合作为补充阅读:不一定是今天最大的新闻,但每一条都给上面的主题做了一个新的切面。 用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers|Jonas Templestein,Iterate——Iterate 的 Jonas Templestein 在这个 workshop 里提出,把 AI Agent Harness 收敛到"事件"这一个抽象上:events.iterate.com 作为事件总线,Stream Processor 把不可变的事件历史 reduce 成 Agent 当前状态,Dynamic Workers 让你把一段 JavaScript 当事件 append 进去就完成逻辑部署。比较适合刚开始想自建 Agent 框架、又被 LangChain / LangGraph 复杂度劝退的工程师。链接:https://www.bestblogs.dev/video/b3b509f。 Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调——Merve Noyan 这场分享把开源 Agent 生态做了一次系统盘点:从 Open Weight 与 Open Source 的区别讲起,再到本地编程 Agent、MCP 集成、用 Skills 让模型自己跑微调,最后给了一个"3 万篇论文 OCR"的真实工程案例。对希望摆脱单一闭源 Agent 平台的团队尤其有用。链接:https://www.bestblogs.dev/video/677bdba。 科技爱好者周刊(第 396 期):互联网通信的替代方案——阮一峰这一期周刊把焦点放在 LoRa 与 Meshtastic 开源项目,讨论极端情况下"自己组网"的可能性:覆盖几十公里、不需要架线、用一节电池就能跑、单套设备几百元人民币。除了主话题,还顺手汇总了 MonkeyCode、逆向验证码、AI 生成 HTML 等动态,适合一周一次的横向更新。链接:https://www.bestblogs.dev/article/dd5b83f4。 Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台——阿里发布 Qoder 1.0,把原本的 AI IDE 升级为 Agent-first 的开发工作台:Quest 视窗从 IDE 模式独立出来,可以跨项目并行运行 Agent 任务,统一面板追踪所有任务状态;新增团队级知识引擎,把以前散落的记忆、Repo Wiki、知识卡片聚合起来,让 Agent 更懂项目;底层把 Agent Harness 拆成 Task Runtime 与 Knowledge Engineering 两条线重构。链接:https://www.bestblogs.dev/article/f6e56091。 【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条——Forrest Chang 把 Karpathy 关于 Claude 写代码的吐槽提炼成 4 条 CLAUDE.md 规则,GitHub 一度 12 万星,作者 Mnimiy 在 30 个代码库实测 6 周,把出错率从 41% 降到 3%,但也踩到 4 个盲区,再补 8 条规则,专门治理 Agent 时代的多步骤任务、Token 预算、测试质量这些新问题。前端早读课的编译版本读起来很顺。链接:https://www.bestblogs.dev/article/a8636fb0。 ## 今日阅读路径 如果今天只能读三篇,建议这样安排:先读精讲一 Julie Qiu 那篇,建立"AI 当思考伙伴"的方法论底座;再读速览里的宝玉 FDE 长文,把方法论放到行业岗位演化的脉络里看;最后读精讲二 Abridge,看一个 AI 原生公司怎么把这套思路跑到 250 家医院的规模上。三篇加起来一个多小时,读完会对今天的 AI 行业图景有一份立体认知。 如果今天还有半小时余量,再加精讲三 Imagen 2.0 与速览里的腾讯混元离线翻译模型,前者代表生成式产品如何走向 Creative Agents,后者代表模型小型化如何反向重塑端侧体验,一头一尾,刚好互补。 更长的时间窗口里,建议把 DeepSeek-V4 MegaMoE 那篇放在周末再读:它技术细节密度极高,但对理解未来一年端到端推理性能的天花板很有帮助;扩展阅读里 Iterate 的 Event-Sourced Harness 与 Hugging Face 开放智能体生态盘点,可以放在同一个学习时段,它们一起回答了"小团队怎样从零搭一套自己的 Agent 基建"这个具体问题,方法和工具都给得很完整。

译本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

OpenClaw🦞@openclaw · 5月16日52

Security in OpenClaw is getting sharper 🦞 🔒 fs-safe for root-bounded filesystem 🌐 Proxyline for policy-driven network egress 📦 ClawHub trust evidence 🛡️ smarter command approvals Powerful agents need guardrails you can actually audit. https://openclaw.ai/blog/where-openclaw-security-is-heading

译OpenClaw的安全防护日益精进 🦞 🔒 面向根目录文件系统的fs-safe防护 🌐 支持策略驱动网络出口的Proxyline 📦 ClawHub信任凭证体系 🛡️ 更智能的命令审批机制 强大的智能体需要可供审计的安全护栏。https://openclaw.ai/blog/where-openclaw-security-is-heading

Replit ⠕@Replit · 5月16日37

We're still celebrating the moms who build, Mother's Day or not. Ruth is a designer who spent years making digital products without ever learning to code. The moment Replit's AI agent landed in the IDE, she was in. She's been shipping almost daily for 18 months. Recently, she built http://sheethappens.xyz with her son James, an aspiring game developer, from his concept and his prompts. She's also working on a book and game to teach her kids about compound investing, a GCSE revision app for her son, and an AR game that won the Mobile Buildathon. Potential, realized with the help of Replit.

译Ruth作为设计师,多年未学编码,但通过Replit的AI agent在IDE中构建数字产品。她持续发布项目18个月,与儿子James合作开发了sheethappens.xyz,基于他的概念和提示。此外,她致力于复合投资教育书和游戏、GCSE复习应用,以及获奖的AR游戏。这些成果展示了个人潜力在Replit工具的帮助下得以实现。

🚨 AI News | TestingCatalog@testingcatalog · 5月16日51

SpaceXAI ❤️ Hermes Users can now use their Grok subscription directly inside the Hermes agent. That's a combo!

译SpaceXAI ❤️ Hermes 用户现在可以直接在Hermes智能体中使用他们的Grok订阅服务。真是绝佳组合!

Greg Brockman@gdb · 5月16日48

run codex on every commit

译在“tokens成本无关紧要”的未来设想下,项目通过云端持续运行约100个Codex实例,实现软件开发全流程自动化。系统自动化审查每次代码提交以发现安全问题,处理所有PR和issue:自动关联并关闭陈旧issue、去重问题并聚类报告、监控新issue并自动创建PR。智能代理能复现复杂环境、进行演示、监听会议并主动启动工作(如创建PR),同时扫描评论垃圾、验证性能基准。结合clawpatch.ai进行功能单元拆分和Vercel deepsec安全审计,最终达成极精简的自动化运营。

🚨 AI News | TestingCatalog@testingcatalog · 5月16日59

Atomic Bot put Hermes and OpenClaw head-to-head on the exact same task, running the same model (Qwen 3.6 35B) with the same goal: analyzing GitHub history, mapping growth spikes, and shipping a live dashboard in the browser. Key metrics to watch for 👀 > Time to complete the task > Tokens spent > Quality of the final result (dashboard in browser)

译Atomic Bot 使用相同模型(Qwen 3.6 35B)对 Hermes 和 OpenClaw 代理进行了对比测试,任务为分析 GitHub star 历史、定位增长峰值并部署实时浏览器仪表板。结果显示,OpenClaw 耗时12分01秒,消耗203k tokens,通过编写bash脚本高效完成了任务;Hermes 则耗时33分01秒,消耗257k tokens,采用了并行工具调用并编写了SKILL.md文档。两者均成功构建了包含star增长图表和峰值注释的实时仪表板,但OpenClaw在任务效率和token使用上显著优于Hermes。

Peter Steinberger 🦞@steipete · 5月16日72

People freaking out over my AI spend. What nobody sees: Part of what excites me so much about working on OpenClaw is that I'm trying to answer the question: How would we build software in the future if tokens don't matter? We constant run ~100 codex in the cloud, reviewing every PR, every issue. If a fix on main lands, @clawsweeper will eventually find that 6 month old issue and close it with an exact reference. We run codex on every commit to review for security issues (as it's far too easy to miss). We run codex to de-duplicate issues and find clusters and send reports for the most pressing issues. We have agents that can recreate complex setups, spin up ephemeral http://crabbox.sh machines, log into e.g. Telegram, make a video and post before/after fix on the PR. There's codex that watch new issues and - if it fits our documented vision well, automatically create a PR of it. (that then another codex reviews) We have codex running that scans comments for spam and blocks people. We have codex instances running that verify performance benchmarks and report regressions into Discord. We have agents that listen on our meetings and proactively start work, e.g. create PRs when we discuss new features while we discuss them. We build http://clawpatch.ai to split all our projects into functional units to review and find bugs and regresssions. We do the same split for security with Vercel's deepsec and Codex Security to find regressions and vulnerabilities. All that automation allows us to run this project extremely lean.

译作者在OpenClaw项目中大规模运用AI,探索在“令牌成本无关紧要”的未来如何构建软件。团队持续运行约100个Codex实例,自动化处理多项核心工作:审查代码与安全问题、去重归类议题、自动重现复杂测试环境并录制验证视频、从会议讨论中主动创建任务、过滤垃圾评论以及监控性能回归。通过clawpatch.ai等工具将项目拆分为功能单元进行审查,并整合Vercel DeepSec等进行安全分析。整套自动化体系使得项目能够以极精简的团队高效运作。

xAI@xai · 5月16日50

You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

译你现在可以在@NousResearch Hermes Agent中使用你的@grok订阅。 http://x.ai/news/grok-hermes

DogeDesigner@cb_doge · 5月16日69

NEWS: You can now connect Grok directly to Hermes Agent: the open-source, self-improving personal agent. With any Grok subscription, you instantly get: • Grok 4.3 for advanced reasoning & conversations
• Grok Text-to-Speech for natural voice responses
• Grok Imagine to generate images & videos inside the agent Just sign in with Grok OAuth and you’re live. No complicated setup. This is a huge step toward truly personal, always-on AI agents that actually remember you and act on your behalf. More open-source agent integrations are coming soon.

译Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。

宝玉@dotey · 5月16日68

【ChatGPT 现在能看你的银行账户了】 OpenAI 今天给美国 Pro 用户开放了一个新功能:在 ChatGPT 里直接绑定银行、投资、信用卡等账户,看一个统一的资产 dashboard,然后基于真实数据问问题。支持 Plaid 接入的 12000 多家金融机构,网页和 iOS 端可用,后续会下放到 Plus,目标是面向所有人。 绑账户后,ChatGPT 能看到你的余额、交易记录、投资和负债,但看不到完整账号,也不能动你的钱。默认走 GPT-5.5 Thinking 推理模型,Pro 用户可以切到 GPT-5.5 Pro。OpenAI 还专门搞了套内部评测,找 50 多位金融专业人士打分,5.5 Pro 拿了 82.5、5.5 Thinking 79,满分 100。 【真正的看点是 Intuit】 OpenAI 想让 ChatGPT 从“给建议”变成“帮你办事”,理财是第一个落地场景。官方举的例子:问哪张信用卡合适,ChatGPT 不光推荐,还能算过审概率,然后让你在对话框里直接提交申请;问卖股票要交多少税,它给一个估算,还能帮你约一个本地真人税务顾问。 后面这层服务靠和 Intuit 合作打通。Intuit 是 TurboTax 和 QuickBooks 的母公司,也是当年被自己关掉的免费理财 App Mint 的东家。这次合作意味着 ChatGPT 要把“咨询”和“动手”塞进同一个对话窗。 【隐私这关】 把所有金融账户连给 OpenAI,不是每个人都愿意跨这一步。官方留了几个口子:随时断开账户,同步数据 30 天内删除;专门有一类叫“financial memories”的记忆,用来存你说过的财务背景(比如“我还欠爸妈两万”“明年要买房”),可单独查看和删除;用临时对话时不会访问账户数据。但聊天本身是否参与模型训练,遵循你已有的 Data controls 设置,得自己去翻一下。 【会影响谁】 国内用户暂时无关,这是美国限定。但对 OpenAI 是个标志性动作:每月已经有 2 亿人在 ChatGPT 上问怎么存钱、怎么投资,现在它干脆把这件事产品化。直接挑到擂台上的是 Monarch、Copilot、YNAB 这些独立理财 App,以及银行自己的 App。

译OpenAI向美国Pro用户推出个人理财功能,用户可安全连接银行、投资等账户,通过统一面板查看资产数据并提问。该功能支持Plaid接入的逾万家金融机构,默认使用GPT-5.5 Thinking模型。通过与Intuit合作,ChatGPT不仅能提供理财建议,还能直接协助完成信用卡申请、税务估算等操作。用户可随时断开账户连接,数据将在30天内删除。此举标志着OpenAI正式进入个人理财领域,可能冲击Monarch等独立理财应用。目前该功能仅限美国用户使用。

宝玉@dotey · 5月16日60

ChatGPT 和 Codex 要合二为一 OpenAI 周五对内宣布新一轮组织调整。联合创始人兼总裁 Greg Brockman 正式接管公司产品战略,旗下 ChatGPT、编程智能体 Codex 以及面向开发者的 API 业务被整合进同一个核心产品团队。Brockman 在内部备忘录里说,公司决定把 ChatGPT 和 Codex "合并成一个统一的体验"。 Brockman 此前是临时负责产品,因为原本主管这块的 AGI 部署 CEO Fidji Simo 上个月开始病休。现在临时变成正式,Simo 仍在病休中,OpenAI 表示这次调整方案是她和 Brockman 一起敲定的,公司预期她会回归。 原 Codex 负责人 Tibo(Thibault Sottiaux) 升任核心产品和平台主管,统管消费、企业、开发者三条线。Codex 是 OpenAI 史上增长最快的产品之一,Tibo 是主要操盘手。 讲真,Codex App 是做的真不错! 执掌 ChatGPT 三年多的 Nick Turley 调任新岗位,主攻企业产品改版,同时继续看 ChatGPT。他 2022 年接手这款产品,如今 ChatGPT 周活已经超过 9 亿。 OpenAI 正在为 IPO 做准备,最快今年内可能提交申请。上市前要把故事讲清楚,产品线得收得更整齐——目前的重心被压缩到三件事:ChatGPT、Codex,还有那个传了很久但还没露面的"everything app"。 另一个原因是被 Anthropic 打疼了。Brockman 在备忘录里点的两个关键词是"agentic future"和“消费、企业双线作战”。翻译过来就是:在编程领域,Anthropic 用 Claude 把开发者市场抢走了一大块;在消费级聊天产品上,Google 也咬得很紧。 至于合并意味着什么 Brockman 给的官方理由是 OpenAI 的产品本来就在自然趋同——Codex 正越来越多地驱动 OpenAI 的消费和企业产品。让 ChatGPT 替用户自主执行数字任务的能力,底层用的正是 Codex 那套东西。 落到具体形态上,未来普通用户在 ChatGPT 里大概率能更深地调用 Codex 的能力,而开发者用 Codex 时也会感觉它和 ChatGPT 越来越像同一个东西。三个产品团队合一,意味着资源不再分散,代价是过去几条产品线各自的独立节奏会被打破。 顺便一提,上个月 OpenAI 还有一批高管彻底离开,包括主管科研 AI 工作空间的 Kevin Weil、Sora 负责人 Bill Peebles,以及企业应用 CTO Srinivas Narayanan。

译OpenAI宣布组织架构调整,联合创始人Greg Brockman正式统管产品战略,核心举措是将ChatGPT与编程智能体Codex整合为“统一的体验”,以集中资源应对竞争。原Codex负责人升任核心产品和平台主管,ChatGPT原负责人转向聚焦企业产品。此次整合旨在提升产品协同,为IPO做准备,并应对来自Anthropic的Claude在开发者市场以及Google在消费级市场的压力。调整也伴随着部分高管的离职。

Luma@LumaLabsAI · 5月16日47

Nobody clicks a thumbnail they scroll past. Make yours impossible to miss. Define the message. Set the aesthetic. Luma Agents handle every thumbnail ad from there. Make it unmissable → http://lumalabs.ai/app

译没人会点击他们滑过的缩略图。让你的缩略图不容错过。 定义信息。设定美学。Luma Agents从此处理每个缩略图广告。 让它不容错过 → http://lumalabs.ai/app

Chubby♨️@kimmonismus · 5月16日70

Most AI tools give you a chat window. Sai gives you a coworker with its own desktop. I told it: "Do deep research on the topic." Then I closed my laptop. While I was off doing other work, Sai was inside its own secure Workspace - opening tabs, clicking through apps, reading sources, cross-referencing, taking notes. Not a chatbot summarizing a Google search. An actual coworker digging like a human does. When I came back, the research was done. Sources cited. Approvals requested before it sent anything. Nothing risky executed without my green light. This is what an "always-on" computer-using agent actually looks like.

译AI工具Sai被设计为拥有独立桌面的“虚拟同事”,而非仅提供聊天窗口。用户可向其下达“深度研究某主题”等指令后离线,Sai会在安全的工作空间内自主操作:打开标签页、点击应用、阅读并交叉引用资料、做笔记,其工作方式类似人类研究员。任务完成后,它会整理好引用来源,并在执行任何潜在风险操作前请求用户批准。这展示了“始终在线”的计算机使用代理的实际形态。

Ethan Mollick@emollick · 5月16日57

Fine, you all want to code like this I guess. (Runway's new Agent mode is quite impressive, doing fairly complex story building from just a short text description of what you want. Not error free obviously, but this was pretty great for a one-shot attempt)

译推文展示了Runway新推出的Agent模式能根据简短文本描述构建复杂故事,虽不完美但效果显著。作者借此强调,与AI协作不应将其“提示”过程神秘化,反对使用含义模糊的随机斜杠命令等“魔法咒语”式交互。核心观点是,用户应像管理者一样,以清晰、结构化的格式直接提出需求,而非扮演依赖晦涩咒语的巫师,使AI协作回归高效、直观的本质。

Greg Brockman@gdb · 5月16日73

Understand and manage your personal finances in ChatGPT. A further step towards ChatGPT becoming your personal agent, operating on your behalf 24/7, for helping you at home and work.

译在ChatGPT中理解和管理您的个人财务。 这是向ChatGPT成为您的个人代理迈出的又一步,24/7代表您操作,帮助您在家和工作。

歸藏(guizang.ai)@op7418 · 5月16日64

忘了发飞书 CLI 的地址了,没装的推荐试试: https://github.com/larksuite/cli

译飞书CLI工具开源一个多月便在GitHub获得万星,显示市场高度认可。该工具几乎能控制飞书所有能力,让用户无需与传统UI交互即可完成工作。作者指出,AI时代SaaS软件的竞争焦点正从UI转向对Agent的适配程度和覆盖率。飞书CLI通过分层架构、Skills说明书及Dry Run等对Agent友好的设计,有效降低了复杂软件的使用门槛,并为其快速迭代投入巨大。这为开发者提供了新路径:结合飞书CLI与Agent框架,可直接利用飞书的聊天界面、多维表格和群组构建Agent产品,无需从头开发前端界面。

elvis@omarsar0 · 5月16日56

// Is Grep All You Need? // Pay attention to this on, AI devs. (bookmark it) They find that grep-style text search, when wrapped in the right agent harness, matches or beats embedding-based retrieval on coding-agent tasks. Are vector databases even needed where this is all going? It might be that what coding agents needed was not better embeddings. It was better harness design around primitive tools. If you operate a coding-agent stack that depends on a vector DB, it might be time to re-evaluate. My personal experience on this has been that agentic search, if done right, is more than good enough for a lot of use cases. But you also have to understand how to properly index and structure information for the agents to take advantage. At scale, vector databases do shine so take that into account as well. In most cases, a hybrid approach often works best but that's something we haven't figured out really well as of yet. Paper: https://arxiv.org/abs/2605.15184 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一项研究发现,将grep风格的文本搜索置于合适的智能体框架中,在代码智能体任务上的表现可匹配甚至超越基于嵌入向量的检索方法。这引发了对向量数据库必要性的质疑,核心观点指出代码智能体可能并非需要更好的嵌入模型,而是需要对基础工具进行更优的框架设计。作者建议依赖向量数据库的代码智能体栈应重新评估方案。虽然向量数据库在大规模场景中仍有优势,但智能体搜索若设计得当,已能满足多数用例。目前,结合两者的混合方法通常最优,但尚未被充分掌握。

Microsoft Research@MSFTResearch · 5月15日67

New tools, models, repos, and papers out of Microsoft Research are here. Use AI and agents? It's worth watching: • MagenticLite from MSR AI Frontiers • Agentic GitHub workflows • Verification‑first agents • Meaning‑matching fine‑tuning • AI transition + the economy

译微软研究院的新工具、模型、代码库和论文现已发布。 使用AI和智能体?值得关注: • MSR AI Frontiers的MagenticLite • 智能体化GitHub工作流 • 验证优先智能体 • 意义匹配微调 • AI转型与经济发展

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月17日
00:51
Ant Ling@AntLingAGI
精选80
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由:蚂蚁百灵把万亿参数的 thinking 模型开源,vLLM 第一天就能跑,想自己搭 agent 推理服务的可以直接动手了,开源生态的齿轮转得比想象中快。
00:51
Ant Ling@AntLingAGI
74
Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
00:21
Ant Ling@AntLingAGI
66
Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布
00:16
宝玉@dotey
65
让AI执行长任务的核心:规划与验证

让AI高效执行长时间任务,关键在于细致的规划和阶段性的验证。有效方法是将大任务拆分为小阶段,并为每个阶段设定明确的自动化验证(如单元测试)。例如,测试覆盖完整的语言迁移项目是理想场景,AI可专注“翻译”并持续验证,避免偏离。若缺乏验证机制,AI长时间运行极易“南辕北辙”,产出难以审查。高效做法应是由人先规划阶段,每步配合用例并由人审核,确保提交代码量可控。这强调了人的基础能力是决定AI工作质量的关键。

老C@codedump.info: 我看了很多人描述他们如何使用AI编程,看到里面很多有类似"让AI干了一晚上"这样的表述,所以这是现在使用AI编程的常规操作?按照这样干很长时间产生很多代码的做法,碳基人想review都难。 我大致说一下我怎么AI编程的。最开始我先了解需求,...

智能体教程/实践编码
5月16日
22:41
Peter Steinberger 🦞@steipete
57
Lossless为OpenClaw引入了一个实现"无限"上下文窗口或记忆的有趣概念。其核心机制是将对话内容压缩成可引用的数据块,并构建树状结构以检索历史信息。最新发布的lossless-claw 0.10.0版本旨在确保长对话的持久性,关键改进包括:采用全局压缩替代增量压缩以减少缓存抖动,保护高频提示缓存,修复启动与重启时的转录异常,并简化了新安装的配置流程。

Josh Lehman: lossless-claw 0.10.0 - the "long chats survive" release 🧵 recall spans rotated conversation segments 🧹 full-sweep comp...

智能体产品更新部署/工程
21:54
Berryxia.AI@berryxia
73
Anthropic《Founder's Playbook》:AI提高创业失败率的警示

Anthropic发布内部手册《Founder's Playbook》,核心观点是AI(如Claude Code)将提高创业失败率,而非降低。手册指出,AI能快速生成原型,易使创始人混淆“能运行”与“有市场需求”,并通过确认偏误和研究引擎强化错误想法。它将创业分为Idea、MVP、Launch、Scale四阶段,剖析AI放大的风险:如原型不等于验证、Agentic技术债、创始人成为决策瓶颈等。最终结论是,AI极大降低执行成本,使得判断力成为最稀缺资源,真正护城河在于将垂直领域知识结构化沉淀为专属Skills。

Smith铜匠・十点睡觉: http://x.com/i/article/2055239128434761728

智能体Anthropic教程/实践编码
20:58
向阳乔木@vista8
66
新Mac快速配置开发环境指南

作者建议在新Mac或Mac mini上安装Codex,以简化开发环境的配置流程。用户只需向Codex发出指令,例如“这是一台新Mac电脑,帮我安装各种开发环境”,它就能自动规划并执行安装常用开发工具和软件(如npm、GitHub CLI)的步骤。该方法旨在利用AI助手自动化繁琐的初始设置工作,提升开发者的工作效率。

智能体教程/实践
20:42
AYi@AYi_AInotes
60
飞书官方 CLI 工具 lark-cli 开源45天后 GitHub star 数突破1万,成为国内首个破万星的办公套件开源项目。其核心在于允许 AI 通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可见、可预览、可审查,与 MCP 等云端不可见模式形成对比。更关键的生态指标是,飞书主干已合并了10位外部开发者的代码,而同类产品钉钉和企业微信则为零,体现了真实的开发者参与。这种透明可控的特性是开发者放心将任务交给 AI Agent 的重要前提。

AYi: 刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...

智能体MCP/工具OpenAI开源/仓库
19:52
meng shao@shao__meng
67
Animate Text Skill:让 Agent 能创建好看的文字动画

Animate Text Skill 将复杂的文字动画描述转化为机器可读的 JSON 规格,使 AI Agent 能通过查表而非直觉生成动画。其架构分为两层:可移植的“动机合约”描述库无关的动画语义意图;精确的“复现合约”提供针对 WAAPI、Motion、GSAP 等渲染栈的适配细节。该技能封装了24种按字符、词、行、整体分类的动画效果,仅交付规格而非绑定特定栈的实现,从而支持在 Remotion、CSS、Lottie 等多种环境中使用。

Alex Barashkov: Teach your AI agents to create beautiful text animations. Exact specs wrapped as a skill - timings, curves, and effects....

智能体教程/实践
17:42
AYi@AYi_AInotes
62
Cursor CEO演讲揭示AI编程范式转移:从写代码到管理AI团队

Cursor CEO的演讲指出,AI编程正经历根本性范式转移。当业界仍聚焦于比较不同模型生成代码的优劣时,Cursor已进入“多代理协作”时代。工程师角色转变为管理AI团队的经理,不再亲自编码。其系统单周运行超两千个并发代理,自动生成三百万行代码,并将任务分解为规划、编码、测试等角色并行处理。人类仅需定义任务与最终审核,中间流程全由AI自主完成,体现了多代理系统的核心优势。有用户亦证实其高效支持,迅速获得了高额权限与信用额度。

AYi: Cursor效率是真的高,昨天联系确认邮箱, 今天上午就反馈Ultra+$10000额度就到账了, @cursor_ai this is incredible - thank you so much! A $10K credit is fa...

智能体现象/趋势编码
17:10
Peter Steinberger 🦞@steipete
60
基于Qwen 35B本地模型的Hermes与OpenClaw智能体在相同任务中展现出不同策略与效率。任务要求抓取GitHub star历史、分析增长峰值原因并构建实时仪表盘。OpenClaw耗时12分钟,消耗203k tokens,通过编写bash脚本高效调用GitHub API,处理分页与JSON数据,并发现一次安全事件。Hermes耗时33分钟,消耗257k tokens,采用并行工具调用策略,在遭遇Google速率限制后自动切换至DuckDuckGo,最终整合内容并映射传播节点。两者均成功交付了包含增长图表和峰值标注的实时仪表盘。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体编码评测/基准
16:56
歸藏(guizang.ai)@op7418
74
Codex实现多设备远程控制与上下文共享

Codex除了通过ChatGPT连接和远程控制外,还能控制另一台电脑,实现在ChatGPT上直接管理多台设备而无需切换,只需切换项目即可访问不同设备的上下文和文件。引用推文补充,此功能还支持通过远程SSH设置其他VMs等,增强了多设备协作的灵活性和实用性。

Vaibhav (VB) Srivastav: @op7418 yes! and you can set up other VMs etc via remote SSH as well!

智能体OpenAI教程/实践端侧
15:20
Tibo@thsottiaux
66
Codex🫸🫷Zed 【引用 @zeddotdev】:你现在可以在Zed代理中使用你的ChatGPT订阅,享受与直接在Codex中相同的使用量和速率限制。我们感谢@openaidevs继续支持第三方工具的基于订阅的访问,即使其他公司正在转向基于使用量的计费。

Zed: You can now use your ChatGPT subscription in the Zed agent, with the same usage and rate limits you benefit from in Code...

智能体OpenAI产品更新编码
15:08
Orange AI@oran_ge
70
Notion正式推出开发者平台,核心组件包括Notion CLI终端工具、Workers计算服务、数据库同步功能以及多种Agent工具与API。平台旨在让开发者更便捷地在Notion基础设施上运行代码、连接外部数据源并构建自动化工作流。未来,即使非开发者也能通过AI Agent在Notion上构建应用。

Notion: BIG one for devs today. Introducing the Notion Developer Platform: - Notion CLI, ntn (Notion in your terminal) - Workers...

智能体产品更新编码
12:46
宝玉@dotey
60
帮转 DeepSeek 招 Agent Harness 产品经理

DeepSeek招聘Agent Harness产品经理,旨在将其前沿模型能力转化为领先的Agent产品。该职位需规划产品路线图,连接研究员、工程师与社区,定义并衡量Agent帮助用户的核心指标,推动模型与Harness共同进化。候选人需是Agent产品高强度用户,熟悉Claude Code、GitHub Copilot等工具,理解LLM与Agent技术原理,并具备数据分析和产品设计能力。

智能体DeepSeekMCP/工具行业动态
11:47
swyx 🇸🇬 AIE Singapore!@swyx
51
不得不说Codex和三个月前相比已经完全认不出来了。 团队在这件事上开启了极限创始人模式 @gabrielchua 演示时我就在想"你们居然做出了代理式Excel for Mac"

swyx 🇸🇬 AIE Singapore!: @Gavriel_Cohen and @thsottiaux casually dropping some hints on the Codex roadmap in his keynote! https://x.com/angadsg/s...

智能体产品更新大佬观点
10:42
AYi@AYi_AInotes
76
xAI将Grok集成至Hermes Agent,用户可零成本扩展AI能力

xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

xAI: You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

智能体xAI产品更新多模态
10:42
AYi@AYi_AInotes
66
体验飞书透明CLI后,论其为何优于Notion的MCP黑箱路线及字节跳动的AI潜力

作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

AYi: 刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...

智能体开源生态现象/趋势
09:17
swyx 🇸🇬 AIE Singapore!@swyx
29
新加坡内阁部长Vivian Balakrishnan作为NanoClaw的重度用户,正实际运用该AI工具处理国家外交政策与议会事务。他公开分享了如何利用技术栈破解WhatsApp限制,并在SQLite上实现图记忆的具体方法。这一实践案例在AI工程师社区活动中引发关注,该活动汇聚了来自OpenAI、Cursor AI、Vercel、ElevenLabs等公司的众多AI领域专家,共同探讨前沿AI应用。

AI Engineer: All @aiDotEngineer SG talks kick off in 22 mins! Tune in live: https://www.youtube.com/watch?v=_xQnSNlBP_w - @VivianBala...

智能体大佬观点
08:54
Berryxia.AI@berryxia
精选77
智能体驱动系统Articraft实现3D资产生成自动化,开源万件数据集降低门槛

剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

Elliott / Shangzhe Wu: Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...

智能体具身智能开源生态论文/研究

推荐理由:这个开源直接把物理AI训练的资产瓶颈打掉了一大半,agent全自动生成带关节的可交互3D,做仿真和机器人的可以立刻拉代码试试,诚意很足。
08:54
Berryxia.AI@berryxia
62
关于AI智能体发展的关键观察与影响

AI智能体通过记忆功能形成使用先发优势,预计12个月内将出现能自主学习并替代人类工作的智能体。本地模型使AI产品可在终端设备运行,为医疗、法律等受监管行业提供无数据隐私风险的解决方案。企业需将内部流程与知识转化为AI可读的“第二大脑”,而代理成本正逐步取代传统人力成本。智能体可能引发部门间无意识的竞争,公司结构可通过YAML配置文件定义和版本化。输入数据质量直接决定输出效果,技能文件比传统SaaS更具价值,而人类审批环节成为工作流中的主要瓶颈。

GREG ISENBERG: More AI agent observations below (I keep adding to the list): 1. Hermes agents write to their own memory after every tas...

智能体大佬观点
08:54
ginobefun@hongming731
62
BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0

本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

智能体OpenAI多模态现象/趋势
08:20
OpenClaw🦞@openclaw
52
OpenClaw的安全防护日益精进 🦞 🔒 面向根目录文件系统的fs-safe防护 🌐 支持策略驱动网络出口的Proxyline 📦 ClawHub信任凭证体系 🛡️ 更智能的命令审批机制 强大的智能体需要可供审计的安全护栏。https://openclaw.ai/blog/where-openclaw-security-is-heading
智能体产品更新安全/对齐
08:11
Replit ⠕@Replit
37
设计师Ruth借Replit AI实现无码创作潜能

Ruth作为设计师,多年未学编码,但通过Replit的AI agent在IDE中构建数字产品。她持续发布项目18个月,与儿子James合作开发了sheethappens.xyz,基于他的概念和提示。此外,她致力于复合投资教育书和游戏、GCSE复习应用,以及获奖的AR游戏。这些成果展示了个人潜力在Replit工具的帮助下得以实现。

智能体教程/实践编码
08:11
🚨 AI News | TestingCatalog@testingcatalog
51
SpaceXAI ❤️ Hermes 用户现在可以直接在Hermes智能体中使用他们的Grok订阅服务。真是绝佳组合!

Nous Research: SuperGrok now in Hermes Agent

智能体xAI产品更新开源生态
08:05
Greg Brockman@gdb
48
在"tokens成本无关紧要"的未来设想下,项目通过云端持续运行约100个Codex实例,实现软件开发全流程自动化。系统自动化审查每次代码提交以发现安全问题,处理所有PR和issue:自动关联并关闭陈旧issue、去重问题并聚类报告、监控新issue并自动创建PR。智能代理能复现复杂环境、进行演示、监听会议并主动启动工作(如创建PR),同时扫描评论垃圾、验证性能基准。结合clawpatch.ai进行功能单元拆分和Vercel deepsec安全审计,最终达成极精简的自动化运营。

Peter Steinberger 🦞: People freaking out over my AI spend. What nobody sees: Part of what excites me so much about working on OpenClaw is tha...

智能体OpenAI大佬观点编码
06:11
🚨 AI News | TestingCatalog@testingcatalog
59
Atomic Bot 使用相同模型(Qwen 3.6 35B)对 Hermes 和 OpenClaw 代理进行了对比测试,任务为分析 GitHub star 历史、定位增长峰值并部署实时浏览器仪表板。结果显示,OpenClaw 耗时12分01秒,消耗203k tokens,通过编写bash脚本高效完成了任务;Hermes 则耗时33分01秒,消耗257k tokens,采用了并行工具调用并编写了SKILL.md文档。两者均成功构建了包含star增长图表和峰值注释的实时仪表板,但OpenClaw在任务效率和token使用上显著优于Hermes。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体评测/基准
06:09
Peter Steinberger 🦞@steipete
72
无视令牌成本,用百个AI实例自动化驱动开源项目

作者在OpenClaw项目中大规模运用AI,探索在“令牌成本无关紧要”的未来如何构建软件。团队持续运行约100个Codex实例,自动化处理多项核心工作:审查代码与安全问题、去重归类议题、自动重现复杂测试环境并录制验证视频、从会议讨论中主动创建任务、过滤垃圾评论以及监控性能回归。通过clawpatch.ai等工具将项目拆分为功能单元进行审查,并整合Vercel DeepSec等进行安全分析。整套自动化体系使得项目能够以极精简的团队高效运作。

智能体教程/实践编码
04:20
xAI@xai
50
你现在可以在@NousResearch Hermes Agent中使用你的@grok订阅。 http://x.ai/news/grok-hermes
智能体产品更新开源生态
04:09
DogeDesigner@cb_doge
69
Grok 现可直接连接开源自我提升代理 Hermes Agent

Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。

智能体xAI产品更新多模态
03:14
宝玉@dotey
68
【ChatGPT 现在能看你的银行账户了】

OpenAI向美国Pro用户推出个人理财功能,用户可安全连接银行、投资等账户,通过统一面板查看资产数据并提问。该功能支持Plaid接入的逾万家金融机构,默认使用GPT-5.5 Thinking模型。通过与Intuit合作,ChatGPT不仅能提供理财建议,还能直接协助完成信用卡申请、税务估算等操作。用户可随时断开账户连接,数据将在30天内删除。此举标志着OpenAI正式进入个人理财领域,可能冲击Monarch等独立理财应用。目前该功能仅限美国用户使用。

ChatGPT: A preview for Pro users: a new personal finance experience in ChatGPT. Pro users in the U.S. can securely connect financ...

智能体OpenAI产品更新
02:44
宝玉@dotey
60
ChatGPT 和 Codex 要合二为一

OpenAI宣布组织架构调整,联合创始人Greg Brockman正式统管产品战略,核心举措是将ChatGPT与编程智能体Codex整合为“统一的体验”,以集中资源应对竞争。原Codex负责人升任核心产品和平台主管,ChatGPT原负责人转向聚焦企业产品。此次整合旨在提升产品协同,为IPO做准备,并应对来自Anthropic的Claude在开发者市场以及Google在消费级市场的压力。调整也伴随着部分高管的离职。

智能体OpenAI行业动态
02:35
Luma@LumaLabsAI
47
没人会点击他们滑过的缩略图。让你的缩略图不容错过。 定义信息。设定美学。Luma Agents从此处理每个缩略图广告。 让它不容错过 → http://lumalabs.ai/app
智能体产品更新图像生成
02:32
Chubby♨️@kimmonismus
70
AI助手Sai化身虚拟同事,自主完成深度研究

AI工具Sai被设计为拥有独立桌面的“虚拟同事”,而非仅提供聊天窗口。用户可向其下达“深度研究某主题”等指令后离线,Sai会在安全的工作空间内自主操作:打开标签页、点击应用、阅读并交叉引用资料、做笔记,其工作方式类似人类研究员。任务完成后,它会整理好引用来源,并在执行任何潜在风险操作前请求用户批准。这展示了“始终在线”的计算机使用代理的实际形态。

智能体搜索教程/实践
02:05
Ethan Mollick@emollick
57
推文展示了Runway新推出的Agent模式能根据简短文本描述构建复杂故事,虽不完美但效果显著。作者借此强调,与AI协作不应将其"提示"过程神秘化,反对使用含义模糊的随机斜杠命令等"魔法咒语"式交互。核心观点是,用户应像管理者一样,以清晰、结构化的格式直接提出需求,而非扮演依赖晦涩咒语的巫师,使AI协作回归高效、直观的本质。

Ethan Mollick: Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this ...

智能体产品更新多模态
01:34
Greg Brockman@gdb
73
在ChatGPT中理解和管理您的个人财务。 这是向ChatGPT成为您的个人代理迈出的又一步,24/7代表您操作,帮助您在家和工作。

ChatGPT: A preview for Pro users: a new personal finance experience in ChatGPT. Pro users in the U.S. can securely connect financ...

智能体OpenAI产品更新
00:54
歸藏(guizang.ai)@op7418
64
飞书CLI工具开源一个多月便在GitHub获得万星,显示市场高度认可。该工具几乎能控制飞书所有能力,让用户无需与传统UI交互即可完成工作。作者指出,AI时代SaaS软件的竞争焦点正从UI转向对Agent的适配程度和覆盖率。飞书CLI通过分层架构、Skills说明书及Dry Run等对Agent友好的设计,有效降低了复杂软件的使用门槛,并为其快速迭代投入巨大。这为开发者提供了新路径:结合飞书CLI与Agent框架,可直接利用飞书的聊天界面、多维表格和群组构建Agent产品,无需从头开发前端界面。

歸藏(guizang.ai): 飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基...

智能体GitHubMCP/工具大佬观点
00:05
elvis@omarsar0
56
研究揭示:grep式搜索在代码智能体任务中媲美向量检索

一项研究发现,将grep风格的文本搜索置于合适的智能体框架中,在代码智能体任务上的表现可匹配甚至超越基于嵌入向量的检索方法。这引发了对向量数据库必要性的质疑,核心观点指出代码智能体可能并非需要更好的嵌入模型,而是需要对基础工具进行更优的框架设计。作者建议依赖向量数据库的代码智能体栈应重新评估方案。虽然向量数据库在大规模场景中仍有优势,但智能体搜索若设计得当,已能满足多数用例。目前,结合两者的混合方法通常最优,但尚未被充分掌握。

智能体大佬观点编码
5月15日
23:35
Microsoft Research@MSFTResearch
精选67
微软研究院的新工具、模型、代码库和论文现已发布。 使用AI和智能体?值得关注: • MSR AI Frontiers的MagenticLite • 智能体化GitHub工作流 • 验证优先智能体 • 意义匹配微调 • AI转型与经济发展
智能体Microsoft开源/仓库行业动态

推荐理由:微软研究院这波把 agent 工具链摊开了,MagenticLite 轻量框架和 verification-first 思路值得跟,做智能体的可以去 GitHub 翻翻。
‹ 上一页
1…4445464748…50
下一页 ›