AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 430 条
全部一手资讯X论文
5月15日周五
11:40OpenAI:官网动态(RSS · 排除企业/客户案例)32Sea 对基于 Codex 的智能体软件开发未来的展望03:18Tomer Tunguz 博客(VC 分析)65精选AI电子邮件的成本分析02:31Anthropic:Research(发表成果 · 网页)58精选2028年全球AI领导地位的两种情景02:00Claude:Blog(网页)73精选在大型代码库中高效运用Claude Code:最佳实践与入门指南02:00Claude:Blog(网页)74精选创始人手册:构建AI原生初创公司00:08Google Developers Blog(RSS)63精选加速设备端AI:Arm与Google AI Edge的优化实践
5月14日周四
22:45Hugging Face:Blog(RSS)59精选解锁连续批处理中的异步性19:58公众号:龙猫LongCat(美团)38MARS TALK 香港大学站|共话具身智能的技术演进与商业化进程19:58公众号:龙猫LongCat(美团)51美团 LongCat 开源 General 365:树立推理评测新标尺10:00公众号:百度智能云(文心)32百度沈抖:万物一体,AI云为基03:29Claude:Blog(网页)73精选Claude 电脑与浏览器使用的最佳实践03:18Tomer Tunguz 博客(VC 分析)59精选The 6 Messages That Actually Matter02:31OpenAI:官网动态(RSS · 排除企业/客户案例)62精选在 Windows 上构建安全有效的沙箱以启用 Codex
5月13日周三
11:37公众号:MiniMax(稀宇科技)16一个 AI 还是不够09:18Tomer Tunguz 博客(VC 分析)43Theory 2026年度市场进入策略调查启动07:09OpenAI:官网动态(RSS · 排除企业/客户案例)63精选财务团队如何使用 Codex06:08OpenAI:官网动态(RSS · 排除企业/客户案例)25AutoScout24 通过 AI 驱动的工作流扩展工程能力06:08OpenAI:官网动态(RSS · 排除企业/客户案例)51财务团队如何使用 Codex03:08OpenAI:官网动态(RSS · 排除企业/客户案例)64精选Parameter Golf 揭示了关于 AI 辅助研究的哪些经验02:54Claude:Blog(网页)58精选Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台01:05Google Developers Blog(RSS)73精选使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体00:26Nathan Lambert:Interconnects(RSS)64精选开放模型生态的复合增长
5月12日周二
23:53GitHub Blog58精选Dungeons & Desktops: 使用 GitHub Copilot CLI 构建一款程序化生成的 Roguelike 游戏18:00公众号:小红书技术(dots.llm)34QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾07:43Hugging Face:Blog(RSS)58精选在AWS上进行基础模型训练与推理的核心构建模块06:13OpenAI:官网动态(RSS · 排除企业/客户案例)66精选ChatGPT 在 2026 年初如何扩大应用范围03:18Tomer Tunguz 博客(VC 分析)67精选本地模型处理半数日常任务,响应速度优于云端
5月11日周一
17:58公众号:小红书技术(dots.llm)45打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由04:34Gary Marcus:The Road to AI We Can Trust(RSS)52对AI进步的恐慌放错了地方03:43Hugging Face:Blog(RSS)74精选MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统
5月9日周六
09:30公众号:MiniMax(稀宇科技)48大模型不认识马嘉祺?MiniMax做了一次全链路排查03:43OpenAI:官网动态(RSS · 排除企业/客户案例)63精选在OpenAI安全运行Codex01:27BAIR:Berkeley AI Research Blog64精选自适应并行推理:高效推理扩展的新范式
5月8日周五
16:23Hugging Face:Blog(RSS)58精选MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型07:30GitHub Blog72精选提升 GitHub Agentic Workflows 的 Token 使用效率06:16Gary Marcus:The Road to AI We Can Trust(RSS)42Breaking news: "他们还没想好OpenAI如何为此付费"03:30GitHub Blog79精选Agent pull requests 无处不在:如何审查它们03:13Tomer Tunguz 博客(VC 分析)57精选估值折价:Anthropic高增长背后的市场疑虑00:14Nathan Lambert:Interconnects(RSS)74精选走进中国AI实验室内部笔记
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
11:40
OpenAI:官网动态(RSS · 排除企业/客户案例)
32
Sea 对基于 Codex 的智能体软件开发未来的展望

Sea Limited 首席产品官阐述了公司为何在工程团队中全面部署 Codex,以加速亚洲地区的 AI 原生软件开发。公司正推动开发模式向“智能体化”转变,让 AI 智能体承担从需求分析到代码生成、测试的更多开发任务。这一举措旨在显著提升工程效率,缩短产品迭代周期,并应对亚洲市场对敏捷、智能化软件开发日益增长的需求。

智能体OpenAI现象/趋势编码
03:18
Tomer Tunguz 博客(VC 分析)
精选65
AI电子邮件的成本分析

使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。

推理现象/趋势部署/工程

推荐理由:Tunguz 给 AI 邮件算了一笔账,SOTA 模型月费 22-130 美元,但他更重要的判断是推理分割可以把成本压到百分之一,这对做 AI 软件的定价逻辑是个关键风向。
02:31
Anthropic:Research(发表成果 · 网页)
精选58
2028年全球AI领导地位的两种情景

报告展望2028年中美AI竞争的两种前景。若美国及盟友维持并扩大在关键计算芯片上的优势,通过加强出口管制、遏制技术窃取并加速AI应用,民主国家可确立12-24个月的技术领先,主导AI规则制定。反之,若政策松动,中国可能借助人才优势、利用管制漏洞迅速逼近甚至反超,使威权政权获得大规模自动化压制能力。当前民主国家在计算领域优势显著,但窗口期有限,需立即行动锁定胜局。

Anthropic安全/对齐政策/监管数据/训练
关联讨论 3 条X:阿易 AI Notes (@AYi_AInotes)X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic直接下场画了两张2028中美AI路线图,核心就一句话——不堵死漏洞,中国的蒸馏攻击和芯片走私会让美国优势两年内消失。虽然是政策游说稿,但数据扎实,想理解AI地缘政治的必读。
02:00
Claude:Blog(网页)
精选73
在大型代码库中高效运用Claude Code:最佳实践与入门指南

Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。

智能体AnthropicMCP/工具教程/实践
关联讨论 2 条Claude:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:这是 Anthropic 官方出的 Claude Code 大型代码库配置指南,把 CLAUDE.md、hooks、skills 的层级和分工讲得比社区经验更系统,做工程落地的团队可以当作部署手册。
02:00
Claude:Blog(网页)
精选74
创始人手册:构建AI原生初创公司

Anthropic公司发布了一份面向AI原生初创企业的实用指南,旨在重塑2026年创业生命周期的构思、最小可行产品、发布和规模化四个核心阶段。该手册为每个阶段提供了具体目标、退出标准、常见失败模式及AI驱动练习,涵盖如何利用Claude进行问题验证与客户发现、避免AI生成代码的技术债务、区分真实产品市场契合度与早期炒作,并引入智能工作流替代创始人手动操作。指南还整合了多家初创企业的实践案例,为从零开始围绕AI构建公司的创始人提供架构、范围与安全方面的最佳实践。

智能体Anthropic教程/实践编码

推荐理由:这份创业手册把从Idea到Scale四阶段拆成了可复制的流程和prompt,不再是玄学方法论,而是创始人可以直接上手操作的“AI创业作弊本”。
00:08
Google Developers Blog(RSS)
精选63
加速设备端AI:Arm与Google AI Edge的优化实践

Arm第二代可扩展矩阵扩展(SME2)与Google AI Edge软件栈集成,将CPU转变为强大的矩阵计算加速器,从而实现高性能的设备端生成式AI。本文以Stability AI的“stable-audio-open-small”模型为例,阐述了利用LiteRT、XNNPACK和KleidiAI构建的“转换、优化、部署”自动化硬件加速流程。该方案在基于Arm架构的移动设备和笔记本电脑上,成功实现了音频生成速度提升2倍以上、内存使用减少4倍的显著效果,同时确保了高音频质量。这一集成方案为在资源受限的边缘设备上高效运行复杂AI模型提供了有效路径。

Google教程/实践端侧部署/工程

推荐理由:Google 和 Arm 在设备端 AI 上的联合优化案例很具体,给了开发者一套可复制的流程,2x 加速和 4x 内存节省对于做移动端生成式 AI 的人来说值得动手试一下。
5月14日
22:45
Hugging Face:Blog(RSS)
精选59
解锁连续批处理中的异步性

在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。

Hugging Face推理教程/实践部署/工程

推荐理由:文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待,把推理吞吐提升22%,搞推理优化的工程师值得细读。
19:58
公众号:龙猫LongCat(美团)
38
MARS TALK 香港大学站|共话具身智能的技术演进与商业化进程

美团技术团队主办的MARS TALK香港大学站活动,聚焦具身智能领域,探讨其从技术验证到规模化商用的演进路径与商业化落地进程。

具身智能行业动态
19:58
公众号:龙猫LongCat(美团)
51
美团 LongCat 开源 General 365:树立推理评测新标尺
开源/仓库推理评测/基准
10:00
公众号:百度智能云(文心)
32
百度沈抖:万物一体,AI云为基
大佬观点
03:29
Claude:Blog(网页)
精选73
Claude 电脑与浏览器使用的最佳实践

Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。

智能体Anthropic教程/实践部署/工程
关联讨论 1 条X:洪明 (@hongming731)
推荐理由:如果你正在让 Claude 操作桌面或浏览器,这篇官方指南把分辨率、token 压缩和缓存策略一次讲透了,附带代码和踩坑表,是那种"读完就能少写一堆 bug"的硬核文档。
03:18
Tomer Tunguz 博客(VC 分析)
精选59
The 6 Messages That Actually Matter

知识工作者平均每天收到121封邮件,传统收件箱处理模式难以为继。未来邮件处理将转向高度个性化与自动化:用户能用自然语言定义处理规则,实现收据自动转发、销售线索自动录入CRM等流程。所有历史邮件将构成个人上下文层,为AI处理新邮件提供背景信息,敏感信息则由设备端模型进行私密处理。最终,收件箱本身将消失,真正重要的信息可能浓缩至仅6条。

智能体大佬观点端侧

推荐理由:Tunguz 描绘了一个让收件箱消失的未来,关键是那 6 条真正重要的消息如何被 AI 接管,做产品的人可以把这个当成工作流重构的思考起点。
02:31
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
在 Windows 上构建安全有效的沙箱以启用 Codex

OpenAI 为 Windows 平台上的 Codex 构建了一个安全沙箱环境。该沙箱通过严格控制文件访问权限和实施网络限制,确保了代码生成与执行过程的安全性。这一举措使得基于 Codex 的编码助手能够以高效且受控的方式运行,在提供强大编程辅助功能的同时,有效隔离了潜在风险,保障了用户系统的安全。

OpenAI安全/对齐教程/实践

推荐理由:OpenAI 首度公开 Codex 在 Windows 上的沙箱细节,控制文件访问和网络限制的架构设计讲得很实在,做自主编程代理安全的值得一读。
5月13日
11:37
公众号:MiniMax(稀宇科技)
16
一个 AI 还是不够
其他
09:18
Tomer Tunguz 博客(VC 分析)
43
Theory 2026年度市场进入策略调查启动

Theory公司正式启动2026年度市场进入策略调查,旨在通过对比2022至2025年数据,分析初创企业在销售、营销等领域的演变。本次调查聚焦五个核心假设:人机协同的销售代表表现将优于纯AI或人类团队;AI可能拉大顶尖与末位团队的绩效差距;买方AI的采用比卖方AI更具颠覆性;AI效率提升可能主要导致人员编制缩减而非收入增长;创始人对AI的预期已随现实落地而下调。调查结果将在后续办公时间活动中公布,参与者可获得匿名原始数据。

大佬观点数据/训练
07:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
财务团队如何使用 Codex

财务团队能够利用 Codex,基于实际工作输入构建管理层报告、报告包、差异桥接、模型检查和规划场景。该工具将自然语言指令转化为代码,自动化处理财务数据整合、差异分析和模型验证等复杂任务,从而提升报告生成效率与准确性,并支持快速创建多版本规划场景。

OpenAI教程/实践编码

推荐理由:金融团队终于有了一个正经的 AI 用例,用 Codex 自动生成 MBR、差异桥接和规划场景,比手工拉 Excel 高效太多了,做财务分析的建议点开看看。
06:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
25
AutoScout24 通过 AI 驱动的工作流扩展工程能力

AutoScout24 Group 采用 Codex 和 ChatGPT 来加速开发周期并提升代码质量。公司通过 AI 工具自动化代码审查、生成测试用例和编写文档,将部分开发任务效率提升高达 40%。工程师得以更专注于复杂问题,同时 AI 应用范围从代码辅助扩展至需求分析和数据查询。这一转变推动了团队 AI 采用率的显著增长,并系统化地融入了日常开发工作流。

OpenAI教程/实践编码
06:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
财务团队如何使用 Codex

财务团队可利用 Codex 从实际工作输入中构建管理层报告、报告包、差异桥接、模型检查和规划场景。该工具能将非结构化数据(如电子邮件、会议记录和电子表格)自动转换为结构化的财务分析框架,从而提升报告效率与准确性。Codex 的应用减少了手动数据整理时间,使团队能更专注于高价值的分析与决策支持工作。

OpenAI教程/实践编码
03:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选64
Parameter Golf 揭示了关于 AI 辅助研究的哪些经验

Parameter Golf 项目汇聚了超过 1000 名参与者和 2000 多份提交作品,在严格限制条件下探索了 AI 辅助的机器学习研究、编码智能体、模型量化及新颖模型设计。活动展示了 AI 工具如何帮助研究人员在受限参数规模下优化模型性能,推动了高效模型架构与自动化代码生成技术的实践进展。核心发现包括智能体协作能显著提升研究效率,而量化技术可在微小精度损失下大幅压缩模型体积。

智能体OpenAI现象/趋势

推荐理由:OpenAI让1000多人一起玩AI辅助研究,这篇复盘给出了几个很实在的教训,尤其关于代码Agent和量化,搞研究的人值得花五分钟读一下。
02:54
Claude:Blog(网页)
精选58
Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统,包含 CLUE Triage 自动初筛警报,整合上下文信息分配处置建议;以及 CLUE Investigate 支持分析师用自然语言查询日志,由 Claude 自动生成并执行查询,将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证,一周内交付实现,显著提升了安全运营效率。

智能体Anthropic安全/对齐教程/实践

推荐理由:我一直好奇大模型公司自己怎么用 AI 做安全,这篇挖出了 Anthropic 内部 CLUE 平台的构建细节——从一天出原型到每周省下 234 人天,数据比很多 PR 稿扎实。
01:05
Google Developers Blog(RSS)
精选73
使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体

本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。

智能体Google教程/实践部署/工程
关联讨论 1 条X:洪明 (@hongming731)
推荐理由:Google 官方手把手教你把无状态 chatbot 升级成能跨天跨周的持久化 agent,状态机和持久会话是两个关键切入点,做过生产环境 agent 的都懂这东西有多刚需。
00:26
Nathan Lambert:Interconnects(RSS)
精选64
开放模型生态的复合增长

中国AI生态呈现高参与度与开放优先特征,开源模型社区形成自我强化循环。开发者基于主流架构二次创新,国产开源模型下载量季度环比激增超200%。开放协作降低了技术门槛,推动应用层涌现大量行业解决方案,模型微调工具使用量同比大幅增长。生态参与者通过贡献代码、数据及优化方案,持续反哺核心模型迭代,构建了技术红利共享的复合增长网络。

大佬观点开源生态现象/趋势

推荐理由:Nathan Lambert这篇对中国开放模型生态的剖析,点出了‘参与人数×开源速度’的飞轮,做开源的人该认真看看。
5月12日
23:53
GitHub Blog
精选58
Dungeons & Desktops: 使用 GitHub Copilot CLI 构建一款程序化生成的 Roguelike 游戏

一位 GitHub 员工利用 GitHub Copilot CLI 开发了一款扩展程序,能够将任何代码库转换成一个独特的 Roguelike 风格地下城。该工具通过 AI 辅助的代码生成,实现了程序化关卡创建,展示了 Copilot CLI 在创意编码和游戏原型开发中的实际应用潜力。项目核心是自动解析代码结构并生成对应的可探索地下城布局。

GitHub教程/实践编码

推荐理由:用 GitHub Copilot CLI 把代码库变成 roguelike 地牢,玩法挺有脑洞,做 Copilot 扩展的开发者可以看一眼思路。
18:00
公众号:小红书技术(dots.llm)
34
QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾

小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。

智能体教程/实践部署/工程
07:43
Hugging Face:Blog(RSS)
精选58
在AWS上进行基础模型训练与推理的核心构建模块

本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。

开源生态教程/实践数据/训练部署/工程

推荐理由:这篇把AWS上训大模型的全套基础设施串了一遍,从GPU选型到网络存储再到Slurm/K8s编排,是做云端大规模训练的工程师的必读参考。
06:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
ChatGPT 在 2026 年初如何扩大应用范围

2026年第一季度,ChatGPT的用户采用率大幅上升,其中35岁以上用户群体的增长最为迅速,同时用户性别比例也趋于均衡。这表明以ChatGPT为代表的人工智能技术正加速融入主流社会,其应用范围已突破早期以年轻技术爱好者为主的局限,向更广泛、更多元化的普通用户群体拓展。

OpenAI现象/趋势

推荐理由:这是我今年看过最值得留意的用户数据,ChatGPT正跳出早期极客圈,35岁以上用户成为增长主力,所有面向大众的AI产品都得重新思考用户画像。
03:18
Tomer Tunguz 博客(VC 分析)
精选67
本地模型处理半数日常任务,响应速度优于云端

一项为期五周的实验发现,在总计约1400项日常工作任务中,约50%可由本地35B参数模型(如Qwen 3.6 35B)成功处理,涵盖邮件、日程、总结和行政事务等类别。性能对比显示,本地模型在常规代理任务上的平均响应时间为2.8秒,比云端Claude Opus 4.5快2.1倍,尽管后者在复杂推理上仍领先约20%。本地模型输出更简洁,云端模型则在结构和代码规范性上更优。随着本地模型性能提升,将计算负载转向本地以应对云端成本已成为必然趋势。

大佬观点推理端侧

推荐理由:Tunguz用数据告诉你,本地35B模型延迟只有Opus的一半且能完成半数任务,对极致追求响应速度的产品思路冲击很大,本地优先可能会从边缘变成主流。
5月11日
17:58
公众号:小红书技术(dots.llm)
45
打造AI时代项目管理新范式 - 小红书PMO团队的Agentic探索之路

小红书PMO团队探索AI智能体(Agentic)在项目管理中的落地路径,目标是从让AI理解项目管理,进化为为每个项目组打造一个专属BP(业务伙伴)。

智能体教程/实践
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
04:34
Gary Marcus:The Road to AI We Can Trust(RSS)
52
对AI进步的恐慌放错了地方

METR最新发布的“时间范围”图表引发了关于AI进展的讨论。该图表旨在评估AI系统在未来两年内执行复杂任务的能力,但其预测基于当前趋势的线性外推,并未考虑技术突破的突发性或潜在瓶颈。图表显示,到2026年,前沿AI模型有10-20%的概率在软件开发等任务上达到人类水平,但这并非确定的预言。专家指出,公众对AI的担忧应更多聚焦于现有模型的实际风险与滥用,而非过度推测未来遥远的“超人”能力。

大佬观点现象/趋势
03:43
Hugging Face:Blog(RSS)
精选74
MachinaCheck:基于AMD MI300X构建多智能体CNC可制造性分析系统

MachinaCheck是一款基于多智能体AI的系统,旨在革新小型CNC机加工车间的报价分析流程。传统上,车间经理需花费30-60分钟手动分析图纸,而该系统在上传STEP文件及材料、公差等简单输入后,能在30秒内生成完整的可制造性报告,明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型,利用192GB HBM3显存确保客户设计数据无需离开本地,满足了制造业对数据隐私的严格要求。系统采用五组件流水线,结合精确的几何特征提取与LLM的制造知识推理,最终输出结构化报告。

智能体Hugging Face开源/仓库端侧

推荐理由:虽然是hackathon项目,但用多Agent做CNC可行性分析,把推理全压在本地AMD显卡上保护图纸隐私,还给了可跑的代码和Space,制造业AI落地就该这么直接。
5月9日
09:30
公众号:MiniMax(稀宇科技)
48
大模型不认识马嘉祺?MiniMax做了一次全链路排查

开发团队发现大模型无法识别“马嘉祺”,随即对知识缺失原因进行了全链路排查。

教程/实践
03:43
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
在OpenAI安全运行Codex

OpenAI通过沙盒隔离、人工审批流程、严格网络策略与原生代理遥测四层防护机制,确保Codex代码生成模型的安全运行。沙盒环境完全隔离执行代码,所有生产请求需经人工审核批准,网络策略限制外部依赖访问,实时遥测系统监控代理行为异常。该安全框架使企业能够合规采用AI编程助手,在保障代码安全性的同时维持开发效率。

智能体OpenAI安全/对齐教程/实践

推荐理由:OpenAI 公开了内部安全运行 Codex 的完整流程,从沙箱隔离到审批策略,企业落地 AI 编码的可以直接拿去抄作业。
01:27
BAIR:Berkeley AI Research Blog
精选64
自适应并行推理:高效推理扩展的新范式

自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。

推理现象/趋势部署/工程

推荐理由:模型自己决定何时并行、开几个线程,这篇BAIR博客把Multiverse和ThreadWeaver的系统设计掰开了讲,做推理系统和RL的同学应该看看。
5月8日
16:23
Hugging Face:Blog(RSS)
精选58
MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X(192 GB HBM3显存)和ROCm,通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本,约5分钟完成,仅更新约220万参数(占模型总参数的0.1443%),全程采用fp16精度,无需量化。HuggingFace生态(Transformers、PEFT、TRL、Accelerate)在ROCm上无缝运行,无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face开源生态教程/实践数据/训练

推荐理由:一个月前的教程了,但如果你是 AMD 党想跑医疗微调,这篇把坑都踩完了,代码直接能复现,LoRA 适配器也挂在 Hub 上,拿来就能用。
07:30
GitHub Blog
精选72
提升 GitHub Agentic Workflows 的 Token 使用效率

GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。

智能体GitHubMCP/工具教程/实践

推荐理由:GitHub 把自己生产环境的 agentic workflow 扒了一遍,从 token 消耗里找浪费,再让 agent 自动修。不是 paper,是真踩过的坑,做 Copilot 集成的团队可以抄作业。
06:16
Gary Marcus:The Road to AI We Can Trust(RSS)
42
Breaking news: "他们还没想好OpenAI如何为此付费"

据报道,OpenAI在推进其最新项目时,面临一个核心的财务运营问题:尚未确定具体的支付模式与资金解决方案。这一情况揭示了即便在技术快速发展的前沿,AI巨头在将宏伟蓝图转化为可持续商业实践的过程中,仍可能遭遇基础性的挑战。当前阶段的关键矛盾聚焦于“如何支付”,而非“能否实现”,这或许预示着行业在追求能力突破的同时,必须更扎实地构建其经济模型。

OpenAI大佬观点
03:30
GitHub Blog
精选79
Agent pull requests 无处不在:如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。

智能体GitHub教程/实践编码

推荐理由:AI代理生成的PR越来越多,审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务,给出了马上能用的检查清单,每个用Copilot的开发者都该看。
03:13
Tomer Tunguz 博客(VC 分析)
精选57
估值折价:Anthropic高增长背后的市场疑虑

Anthropic在15个月内估值从10亿飙升至300亿美元,但其企业价值与未来收入之比仅为17倍,远低于增长更慢的Palantir(49倍)。这一估值折扣主要源于四大因素:极高的资本密集度(如年成本达62亿美元的GPU协议)、未来盈利能力不明(可能成为软件公司或资本密集型公共事业)、收入增长的波动性,以及外生的政治与监管风险。市场正通过折扣来反映这个高速变化领域的不确定性。

Anthropic现象/趋势

推荐理由:Tomer用资本密集度、盈利不确定性、增长波动和政治风险四把尺子量了Anthropic的估值折价,看完你会理解为什么市场给AI增长打了个问号。
00:14
Nathan Lambert:Interconnects(RSS)
精选74
走进中国AI实验室内部笔记

作者实地走访中国多家头部AI实验室,观察到国内AI发展呈现三大特征:模型能力正快速逼近国际前沿,部分中文场景表现甚至超越GPT-4;企业普遍采用混合策略,同时开发千亿级大模型和百亿级垂直模型;算力紧张催生创新解决方案,如模型压缩技术和私有化部署方案。各大实验室正从技术追赶转向应用深耕,在医疗、制造等传统领域已形成规模化落地案例。

大佬观点现象/趋势
关联讨论 1 条X:Nathan Lambert (@natolambert)
推荐理由:Nathan Lambert 走访了中国一线 AI 实验室,这份内部笔记不讲公关话,把几家大厂的真实进展和局限摊开聊,如果你关心中国 AI 的实质水位,这篇绕不开。
‹ 上一页
1…45678…11
下一页 ›