AIHOT

5月6日

00:41

阿绎 AYi@AYi_AInotes

精选71

Anthropic发布10个开源金融AI Agent，重塑华尔街工作流程

Anthropic发布了10个开箱即用的金融专用AI Agent，将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库，原生支持Office，并可通过插件或托管模式使用，全链路审计确保合规。所有代码均已开源，企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动，将AI Agent从实验工具转化为企业级生产力，并精准切入金融行业对安全合规的刚性需求，可能引发行业工作流程重构。

智能体Anthropic产品更新开源生态

关联讨论 2 条

推荐理由：Anthropic一口气发布10个金融Agent，从估值复核到生成PPT全包，连顶级数据库都接好了，还全部开源，这不是演示而是能直接用的生产力工具，金融从业者值得立刻装上试试。

00:39

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

46

死互联网理论更新：十分之四的播客由AI生成回顾： 1）互联网上大多数文章由AI撰写… 2）十大YouTube频道中的四个… 3）十分之四的Facebook帖子… 4）向新YouTube用户展示的视频中五分之一… 5） Twitch上订阅数第一的主播是AI… 6） Deezer上44%的歌曲… 7）三分之一的网站… 人类正在网络上被迅速驱向灭绝

其他现象/趋势

00:39

xAI@xai

精选80

Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http：//console.x.ai/team/default/api-keys

智能体xAI推理模型发布

关联讨论 2 条

推荐理由：Grok 4.3 登顶 agentic tool calling 榜，定价有竞争力，做 agent 的值得认真看。虽然不算顶级发布，但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。

00:32

Rohan Paul@rohanpaul_ai

65

SubQ首发：1200万token上下文窗口，成本降低95%以上

SubQ模型发布，这是首个基于完全次二次稀疏注意力架构（SSA）的前沿LLM，拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍，成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制，通过稀疏注意力选择性聚焦重要关系，使长上下文处理的计算量减少近1000倍，显著改变了LLM的成本曲线和扩展方式。

推理模型发布

关联讨论 1 条

5月5日

23:54

凡人小北@frxiaobei

45

AI研发团队长这样： codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare（wrangler / cf cli / code mode）= 运维最后一组目前做得最好。

智能体OpenAI大佬观点部署/工程

23:49

The Decoder：AI News（RSS）

52

Meta 现通过扫描骨骼结构和体型在 Instagram 和 Facebook 上标记未成年人

Meta 开始利用AI图像分析技术，通过识别骨骼结构和身体尺寸等视觉特征（而非面部识别）来检测Instagram和Facebook上的未成年人。公司强调该方法不依赖人脸识别，旨在更精准地识别未成年用户以加强平台保护措施。

Meta产品更新安全/对齐

23:47

Sam Altman@sama

23

各位，我们没忘记你们 👀

OpenAI其他

23:47

Peter Steinberger 🦞@steipete

25

那可真是不少token。

其他

23:39

宝玉@dotey

67

Boris Cherny：编程范式转向管理AI Agent，通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出，编程正从手动编写转向管理AI Agent。他本人2026年未手写代码，日常工作转为合并AI生成的PR，并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河，使编程像识字一样普及，未来跨学科通才将激增，因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码

关联讨论 3 条

23:39

Luma@LumaLabsAI

精选71

Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三，且未采用智能体搜索技术。具体来看，在文本生成图像竞技场中，两款模型分别排名第六和第七；在多图像编辑和单图像编辑竞技场中，它们均进入前十一名，其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

图像生成模型发布评测/基准

关联讨论 2 条

推荐理由：Luma这次更新在图像编辑上提升明显，直接挤进竞技场前三，对做设计和视频的人来说是个信号，但文本到图像还是老几样，可以观望一下。

23:36

Luma@LumaLabsAI

精选70

Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。价格和延迟仅为同类模型的一半以下。专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。开始构建 → https：//lumalabs.ai/api

产品更新图像生成视频

关联讨论 2 条

推荐理由：Luma 把提示增强和参考图收集直接做进 API，价格和延迟还砍了一半。做视频生成应用的开发者值得试试，说不定能省一轮 prompt 工程。

23:29

TestingCatalog News 🗞@testingcatalog

61

Anthropic 发布了适用于金融服务的新开箱即用 Claude 智能体模板。这些工具可作为 Claude Code、Cowork 的插件使用，或通过托管式智能体进行部署。

智能体AnthropicMCP/工具产品更新

关联讨论 2 条

23:28

TestingCatalog News 🗞@testingcatalog

64

Anthropic 宣布推出适用于金融服务的新款即用型 Claude 智能体模板。这些工具可作为插件用于 Claude Code、Cowork，或通过托管式智能体进行部署。

智能体Anthropic产品更新

关联讨论 2 条

23:25

Ethan Mollick@emollick

65

在"AI会取代医生吗？"的辩论中，被忽略的一点是医生（以及律师、心理学家和银行家）都拥有投票权、构成政党的捐助基础，并且与社区有深厚的联系。无论AI能做什么，政府将在很大程度上决定允许AI做什么。

大佬观点现象/趋势

23:23

The Decoder：AI News（RSS）

64

AI为制药业在生产和后台工作中节省数十亿，但在实验室中尚未实现

礼来公司的数字部门负责人承认，目前AI在制药领域的回报主要集中于生产制造和后台运营环节，已累计节省数十亿美元成本。然而，在该行业此前宣传最集中的药物发现环节，AI尚未能兑现预期价值。这一反差揭示了AI在制药业不同环节的应用成熟度存在显著差异。

现象/趋势部署/工程

23:23

Deedy@deedydas

62

SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试，所有 LLM 都得 0 分。 ProgramBench 提出的问题是：模型能否在没有互联网的情况下从零开始重建真实可执行程序（ffmpeg、SQLite、ripgrep）？我们在模型质量上还远未饱和。

推理编码评测/基准

23:21

TestingCatalog News 🗞@testingcatalog

57

GOOGLE 👀：Gemini 3.2 Flash 曾短暂地在部分用户的 Gemini 应用中可用。截至目前我们已有： - Gemini 3.2 Flash 在 Gemini 上闪现 - 测试中的 LM Arena 上已更新 Gemini 3 Flash 模型 - Vertex AI 上发布 Gemini 2 Flash 的弃用通知，承诺即将推出 Flash 正式发布更新 - Google I/O 将于 5 月 19 日举行，传闻将伴随 Gemini 3.5 的发布 Flash正在闪现！⚡⚡⚡

Google模型发布行业动态

23:20

TestingCatalog News 🗞@testingcatalog

60

AI Studio 现已可使用 Nano Banana 进行图像生成，以调整通过 AI Studio Build 生成的应用中的图像。

Google产品更新图像生成

23:19

Anthropic：Newsroom（网页）

精选77

金融与保险智能体解决方案

Anthropic发布了十个针对金融服务耗时任务的预置智能体模板，涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件，或作为Claude托管智能体的配置指南，帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作，并扩展了合作伙伴生态，新增数据连接器和MCP应用，使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳，该模型在金融任务上达到先进水平。

AnthropicMCP/工具产品更新部署/工程

关联讨论 2 条

推荐理由：Anthropic 一口气放出十个金融模板，从 pitchbook 到月底关账全包，加上 Excel、PPT、Word 的深度集成，做金融的可以少写很多重复性胶水代码，直接套模板干活去了。

23:17

Epoch AI@EpochAIResearch

44

加入我们的现场研讨会，共同为FrontierMath：开放性问题集开发题目！我们正在寻找研究数学中极具趣味性、且可通过程序化验证解决方案的未解难题。这类问题非常难得。快来一展身手吧！链接如下。

数据/训练行业动态

23:11

Chubby♨️@kimmonismus

65

Anthropic针对金融服务领域推出预构建的Claude代理模板，可处理估值分析、KYC筛查和月末结算等任务。这些模板集成了FactSet、标普全球和晨星等主要数据提供商的连接器，可作为插件部署在Cowork和Claude Code中，或以托管代理形式在生产环境运行。此举标志着Anthropic正从通用人工智能向垂直企业工作流程领域拓展。

智能体Anthropic产品更新部署/工程

23:11

Berryxia.AI@berryxia

精选70

Google发布Code Wiki，AI驱动实时代码文档与智能问答

Google推出Code Wiki项目，旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库，实现文档随代码变更实时更新，避免过时。其核心功能包括由Gemini驱动的智能聊天，可将整个Wiki作为知识库进行问答，并支持超链接跳转至具体代码行；还能自动生成架构图、类图、时序图等可视化图表，并链接到源码。工具适用于各种规模的仓库，帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。

Google产品更新编码

推荐理由：Google 把代码仓库一键生成可聊天的 Wiki，文档实时更新且带架构图，对于快速上手陌生代码库，这可能是目前最直接有效的工具，开发者可以立刻去预览版试试效果。

23:10

Ethan Mollick@emollick

54

除了CAISI评估外，如果NIST能作为独立评估者对AI能力进行公开测试将会很有帮助--尽管这些显然不应是预发布测试，且可以在模型公开后进行。独立测试很重要且成本越来越高。

大佬观点政策/监管

23:08

elvis@omarsar0

62

微软研究团队发现，导致AI智能体在长视野任务中失败的核心瓶颈是任务视野长度，而非模型容量。随着目标距离增加，探索空间组合爆炸与信用分配模糊化使模型失效。解决之道并非增加算力，而是通过"视野缩减"：利用宏动作重新参数化动作空间，将多个低级决策压缩为一个高级动作。该方法能立即稳定训练，并使模型在训练时使用缩减视野，在推理时却能泛化到更长的原始视野，实现"视野泛化"。这一发现挑战了将长视野问题简单归因于模型能力的普遍观点。

智能体Microsoft论文/研究

23:06

Berryxia.AI@berryxia

68

OpenAI将推AI Agent手机，联发科获处理器订单

OpenAI正加速开发其首款AI Agent手机，预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层，使其成为可感知、决策与执行的随身智能底座。供应链方面，联发科独家提供基于天玑9600的定制处理器，采用台积电N2P工艺，并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域，可能引发手机行业新一轮竞争。

OpenAI端侧行业动态

23:05

Claude@claudeai

精选65

金融服务新功能：现成的Claude智能体模板，可用于构建推介方案、执行估值审核、月末结账等任务。可将它们作为插件安装到Cowork和Claude Code中，或使用我们的操作指南在生产环境中以托管智能体形式运行。

智能体Anthropic产品更新

关联讨论 2 条

推荐理由：金融行业的 Claude 用户有福了，官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板，装成插件就能跑。

23:01

IT之家（RSS）

59

美国政府与微软、谷歌、xAI 达成协议，将提前审查其前沿 AI 模型

美国政府与微软、谷歌及埃隆・马斯克创立的xAI达成新协议，要求这些公司在公开发布新一代AI模型前，提前向美政府开放模型权限，以进行国家安全风险审查。此举旨在应对高性能AI系统可能带来的网络攻击、军事滥用等潜在威胁。负责审查的美国商务部人工智能标准与创新中心表示，该协议是2024年与OpenAI、Anthropic所达成协议的扩展，并已累计完成40余次模型评估。

GoogleMicrosoft安全/对齐政策/监管

23:00

Berryxia.AI@berryxia

64

MATLAB发布Agentic Toolkit，以AI原生专家能力进军智能体领域

MATLAB正式推出Agentic Toolkit，深度集成Claude Code、OpenAI Codex等顶级AI智能体，将其武装为MATLAB/Simulink原生专家。该工具包允许智能体实时连接并操作本地MATLAB会话，直接执行、测试和调试代码，同时内置MathWorks专家级技能库，涵盖代码规范、Live Script生成、App构建等领域。此举旨在将AI深度融入科研、仿真、控制系统等工程核心工作流，通过边写边运行、分析与迭代的闭环，提升开发效率与代码质量，挑战Python系AI工具在工程领域的主导地位。

智能体产品更新

22:59

elvis@omarsar0

64

智能体性能核心：将并行推理与审议内化为可训练技能

研究指出，驱动智能体性能的关键并非外部编排框架，而是一项核心内在技能：并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程，并通过强化学习与价值回归（RLVR）将其训练为可学习的模型内在能力。实验表明，该方法能显著提升模型性能：例如，GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%；R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明，当此类核心技能能被内化至模型中时，框架优势将转化为模型自身优势，长远来看，模型应原生具备此类能力。

智能体推理论文/研究

22:57

Berryxia.AI@berryxia

56

AI编程工具竞争白热化：下载量背后的留存战

OpenAI Codex的npm周下载量达4600万，远超Claude Code的49.1万，但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式，而Codex的巨大下载量可能包含大量自动化流水线拉取，未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段，关键并非安装量，而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势，Claude Code则以体验吸引高忠诚度用户，胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码

22:53

Berryxia.AI@berryxia

精选76

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google大佬观点推理部署/工程

关联讨论 1 条

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

22:48

Berryxia.AI@berryxia

64

Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南，演示如何利用Gemma 4和Qwen3.6的GGUF模型，在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动，支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境，使得开发者能以近乎零成本在本地享受顶级交互体验，标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码

22:40

宝玉@dotey

精选73

解决Codex长时间运行任务的关键：清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导，而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例，指出需与AI共同制定计划并保存为文档，提供样板文件明确输出格式，再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成，而不是仅靠权限或口头指令。

pinecone：@dotey 您好，现在已成功录入😄，可还有一个问题，我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码

关联讨论 1 条

推荐理由：不是官方文档，是宝玉跑了17小时逆向codex app后总结的避坑清单，照着文档和验收标准改一改，能少走很多弯路。

22:39

Berryxia.AI@berryxia

62

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

22:39

TestingCatalog News 🗞@testingcatalog

44

OpenClaw 将于五月下旬开始获得长期支持版本！这是对过去导致性能下降的更新的反思。 StableClaw 🦞

产品更新编码

22:32

Sam Altman@sama

15

为速率限制而来，为最佳模型而留

OpenAI大佬观点

22:32

Hacker News 热门（buzzing.cc 中文翻译）

50

AI产品坟场网站收录了超过1000款已关闭的AI工具，揭示了该领域产品快速迭代与淘汰的现状。数据显示，这些失败产品的平均寿命仅为347天。该目录按关闭时间倒序排列，提供了产品名称、简介、存活时长与关闭原因，直观反映了AI创业赛道的高风险与高淘汰率。

搜索现象/趋势

22:27

Sam Altman@sama

43

我们拥有非常高效的模型，尤其是考虑到它们的能力水平祝编码愉快【引用 @thekitze】：yo， i'm actually worried. codex limits are genuinely insane so it's sus af .. i feel this is an intentional move for a honeymoon period until we get over the claude → codex migration and then we get rugpulled hard

OpenAI大佬观点编码

22:22

Runway@runwayml

38

加入Runway团队，于6月4日在丹佛参加我们年度CVPR朋友晚宴，畅谈、享用鸡尾酒和小食。请通过下方链接回复参与。

行业动态

21:59

Rohan Paul@rohanpaul_ai

精选70

谷歌、微软与xAI同意美国政府提前测试前沿AI模型

谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下，提前评估其前沿AI模型。测试的特殊之处在于，公司将提供降低或移除安全护栏的模型版本，以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前，OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程，审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型，该公司认为该模型在发现安全漏洞方面能力过强，广泛发布风险过高。

GoogleMicrosoftxAI安全/对齐

关联讨论 2 条

推荐理由：特朗普政府政策反转，要求测原始能力而非包装后的模型，这对国内做安全评估的团队是个重要参考。