5月6日
00:41
阿绎 AYi@AYi_AInotes
精选71
Anthropic发布10个开源金融AI Agent,重塑华尔街工作流程

Anthropic发布了10个开箱即用的金融专用AI Agent,将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库,原生支持Office,并可通过插件或托管模式使用,全链路审计确保合规。所有代码均已开源,企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动,将AI Agent从实验工具转化为企业级生产力,并精准切入金融行业对安全合规的刚性需求,可能引发行业工作流程重构。

智能体Anthropic产品更新开源生态
关联讨论 2Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic一口气发布10个金融Agent,从估值复核到生成PPT全包,连顶级数据库都接好了,还全部开源,这不是演示而是能直接用的生产力工具,金融从业者值得立刻装上试试。
00:39
xAI@xai
精选80
Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布
关联讨论 2X:Elon Musk (@elonmusk, xAI)X:Artificial Analysis (@ArtificialAnlys)
推荐理由:Grok 4.3 登顶 agentic tool calling 榜,定价有竞争力,做 agent 的值得认真看。虽然不算顶级发布,但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。
00:32
Rohan Paul@rohanpaul_ai
65
SubQ首发:1200万token上下文窗口,成本降低95%以上

SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。

推理模型发布
关联讨论 1X:邵猛 (@shao__meng)
5月5日
23:49
23:47
23:47
23:39
宝玉@dotey
67
Boris Cherny:编程范式转向管理AI Agent,通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码
关联讨论 3Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)
23:39
Luma@LumaLabsAI
精选71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。
图像生成模型发布评测/基准
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma这次更新在图像编辑上提升明显,直接挤进竞技场前三,对做设计和视频的人来说是个信号,但文本到图像还是老几样,可以观望一下。
23:36
Luma@LumaLabsAI
精选70
Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api
产品更新图像生成视频
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma 把提示增强和参考图收集直接做进 API,价格和延迟还砍了一半。做视频生成应用的开发者值得试试,说不定能省一轮 prompt 工程。
23:29
23:28
23:23
The Decoder:AI News(RSS)
64
AI为制药业在生产和后台工作中节省数十亿,但在实验室中尚未实现

礼来公司的数字部门负责人承认,目前AI在制药领域的回报主要集中于生产制造和后台运营环节,已累计节省数十亿美元成本。然而,在该行业此前宣传最集中的药物发现环节,AI尚未能兑现预期价值。这一反差揭示了AI在制药业不同环节的应用成熟度存在显著差异。

现象/趋势部署/工程
23:19
Anthropic:Newsroom(网页)
精选77
金融与保险智能体解决方案

Anthropic发布了十个针对金融服务耗时任务的预置智能体模板,涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件,或作为Claude托管智能体的配置指南,帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作,并扩展了合作伙伴生态,新增数据连接器和MCP应用,使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳,该模型在金融任务上达到先进水平。

AnthropicMCP/工具产品更新部署/工程
关联讨论 2Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic 一口气放出十个金融模板,从 pitchbook 到月底关账全包,加上 Excel、PPT、Word 的深度集成,做金融的可以少写很多重复性胶水代码,直接套模板干活去了。
23:11
Berryxia.AI@berryxia
精选70
Google发布Code Wiki,AI驱动实时代码文档与智能问答

Google推出Code Wiki项目,旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库,实现文档随代码变更实时更新,避免过时。其核心功能包括由Gemini驱动的智能聊天,可将整个Wiki作为知识库进行问答,并支持超链接跳转至具体代码行;还能自动生成架构图、类图、时序图等可视化图表,并链接到源码。工具适用于各种规模的仓库,帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。

Google产品更新编码

推荐理由:Google 把代码仓库一键生成可聊天的 Wiki,文档实时更新且带架构图,对于快速上手陌生代码库,这可能是目前最直接有效的工具,开发者可以立刻去预览版试试效果。
23:06
Berryxia.AI@berryxia
68
OpenAI将推AI Agent手机,联发科获处理器订单

OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。

OpenAI端侧行业动态
23:05
Claude@claudeai
精选65
金融服务新功能:现成的Claude智能体模板,可用于构建推介方案、执行估值审核、月末结账等任务。 可将它们作为插件安装到Cowork和Claude Code中,或使用我们的操作指南在生产环境中以托管智能体形式运行。
智能体Anthropic产品更新
关联讨论 2Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)
推荐理由:金融行业的 Claude 用户有福了,官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板,装成插件就能跑。
23:01
IT之家(RSS)
59
美国政府与微软、谷歌、xAI 达成协议,将提前审查其前沿 AI 模型

美国政府与微软、谷歌及埃隆・马斯克创立的xAI达成新协议,要求这些公司在公开发布新一代AI模型前,提前向美政府开放模型权限,以进行国家安全风险审查。此举旨在应对高性能AI系统可能带来的网络攻击、军事滥用等潜在威胁。负责审查的美国商务部人工智能标准与创新中心表示,该协议是2024年与OpenAI、Anthropic所达成协议的扩展,并已累计完成40余次模型评估。

GoogleMicrosoft安全/对齐政策/监管
23:00
Berryxia.AI@berryxia
64
MATLAB发布Agentic Toolkit,以AI原生专家能力进军智能体领域

MATLAB正式推出Agentic Toolkit,深度集成Claude Code、OpenAI Codex等顶级AI智能体,将其武装为MATLAB/Simulink原生专家。该工具包允许智能体实时连接并操作本地MATLAB会话,直接执行、测试和调试代码,同时内置MathWorks专家级技能库,涵盖代码规范、Live Script生成、App构建等领域。此举旨在将AI深度融入科研、仿真、控制系统等工程核心工作流,通过边写边运行、分析与迭代的闭环,提升开发效率与代码质量,挑战Python系AI工具在工程领域的主导地位。

智能体产品更新
22:59
elvis@omarsar0
64
智能体性能核心:将并行推理与审议内化为可训练技能

研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。

智能体推理论文/研究
22:57
Berryxia.AI@berryxia
56
AI编程工具竞争白热化:下载量背后的留存战

OpenAI Codex的npm周下载量达4600万,远超Claude Code的49.1万,但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式,而Codex的巨大下载量可能包含大量自动化流水线拉取,未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段,关键并非安装量,而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势,Claude Code则以体验吸引高忠诚度用户,胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码
22:53
Berryxia.AI@berryxia
精选76
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google大佬观点推理部署/工程
关联讨论 1X:Berry Xia (@berryxia)
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
22:48
Berryxia.AI@berryxia
64
Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码
22:40
宝玉@dotey
精选73
解决Codex长时间运行任务的关键:清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。

pinecone@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码
关联讨论 1X:Tibo (@thsottiaux)
推荐理由:不是官方文档,是宝玉跑了17小时逆向codex app后总结的避坑清单,照着文档和验收标准改一改,能少走很多弯路。
22:39
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
22:32
22:32
Hacker News 热门(buzzing.cc 中文翻译)
50
AI产品坟场

AI产品坟场网站收录了超过1000款已关闭的AI工具,揭示了该领域产品快速迭代与淘汰的现状。数据显示,这些失败产品的平均寿命仅为347天。该目录按关闭时间倒序排列,提供了产品名称、简介、存活时长与关闭原因,直观反映了AI创业赛道的高风险与高淘汰率。

搜索现象/趋势
21:59
Rohan Paul@rohanpaul_ai
精选70
谷歌、微软与xAI同意美国政府提前测试前沿AI模型

谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下,提前评估其前沿AI模型。测试的特殊之处在于,公司将提供降低或移除安全护栏的模型版本,以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前,OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程,审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型,该公司认为该模型在发现安全漏洞方面能力过强,广泛发布风险过高。

GoogleMicrosoftxAI安全/对齐
关联讨论 2X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)
推荐理由:特朗普政府政策反转,要求测原始能力而非包装后的模型,这对国内做安全评估的团队是个重要参考。