5月6日
00:56
00:44
宝玉@dotey
精选77
开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

智能体GitHub开源/仓库

推荐理由:让 agent 直接生成可编辑的 slides,npx 一行命令就能跑,还支持动画和网页播放,是产品人和开发者的提效刚需小工具,宝玉推荐的质量一般不差。
00:41
阿绎 AYi@AYi_AInotes
精选71
Anthropic发布10个开源金融AI Agent,重塑华尔街工作流程

Anthropic发布了10个开箱即用的金融专用AI Agent,将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库,原生支持Office,并可通过插件或托管模式使用,全链路审计确保合规。所有代码均已开源,企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动,将AI Agent从实验工具转化为企业级生产力,并精准切入金融行业对安全合规的刚性需求,可能引发行业工作流程重构。

智能体Anthropic产品更新开源生态
关联讨论 3Anthropic:Newsroom(网页)Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic一口气发布10个金融Agent,从估值复核到生成PPT全包,连顶级数据库都接好了,还全部开源,这不是演示而是能直接用的生产力工具,金融从业者值得立刻装上试试。
00:39
xAI@xai
精选80
Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布
关联讨论 2X:Elon Musk (@elonmusk, xAI)X:Artificial Analysis (@ArtificialAnlys)
推荐理由:Grok 4.3 登顶 agentic tool calling 榜,定价有竞争力,做 agent 的值得认真看。虽然不算顶级发布,但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。
00:32
Rohan Paul@rohanpaul_ai
65
SubQ首发:1200万token上下文窗口,成本降低95%以上

SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。

推理模型发布
关联讨论 1X:邵猛 (@shao__meng)
5月5日
23:47
23:47
23:39
宝玉@dotey
67
Boris Cherny:编程范式转向管理AI Agent,通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码
关联讨论 3Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)
23:39
Luma@LumaLabsAI
精选71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。
图像生成模型发布评测/基准
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma这次更新在图像编辑上提升明显,直接挤进竞技场前三,对做设计和视频的人来说是个信号,但文本到图像还是老几样,可以观望一下。
23:36
Luma@LumaLabsAI
精选70
Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api
产品更新图像生成视频
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma 把提示增强和参考图收集直接做进 API,价格和延迟还砍了一半。做视频生成应用的开发者值得试试,说不定能省一轮 prompt 工程。
23:29
23:28
23:11
Berryxia.AI@berryxia
精选70
Google发布Code Wiki,AI驱动实时代码文档与智能问答

Google推出Code Wiki项目,旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库,实现文档随代码变更实时更新,避免过时。其核心功能包括由Gemini驱动的智能聊天,可将整个Wiki作为知识库进行问答,并支持超链接跳转至具体代码行;还能自动生成架构图、类图、时序图等可视化图表,并链接到源码。工具适用于各种规模的仓库,帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。

Google产品更新编码

推荐理由:Google 把代码仓库一键生成可聊天的 Wiki,文档实时更新且带架构图,对于快速上手陌生代码库,这可能是目前最直接有效的工具,开发者可以立刻去预览版试试效果。
23:06
Berryxia.AI@berryxia
68
OpenAI将推AI Agent手机,联发科获处理器订单

OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。

OpenAI端侧行业动态
23:05
Claude@claudeai
精选65
金融服务新功能:现成的Claude智能体模板,可用于构建推介方案、执行估值审核、月末结账等任务。 可将它们作为插件安装到Cowork和Claude Code中,或使用我们的操作指南在生产环境中以托管智能体形式运行。
智能体Anthropic产品更新
关联讨论 3Anthropic:Newsroom(网页)Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)
推荐理由:金融行业的 Claude 用户有福了,官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板,装成插件就能跑。
23:00
Berryxia.AI@berryxia
64
MATLAB发布Agentic Toolkit,以AI原生专家能力进军智能体领域

MATLAB正式推出Agentic Toolkit,深度集成Claude Code、OpenAI Codex等顶级AI智能体,将其武装为MATLAB/Simulink原生专家。该工具包允许智能体实时连接并操作本地MATLAB会话,直接执行、测试和调试代码,同时内置MathWorks专家级技能库,涵盖代码规范、Live Script生成、App构建等领域。此举旨在将AI深度融入科研、仿真、控制系统等工程核心工作流,通过边写边运行、分析与迭代的闭环,提升开发效率与代码质量,挑战Python系AI工具在工程领域的主导地位。

智能体产品更新
22:59
elvis@omarsar0
64
智能体性能核心:将并行推理与审议内化为可训练技能

研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。

智能体推理论文/研究
22:57
Berryxia.AI@berryxia
56
AI编程工具竞争白热化:下载量背后的留存战

OpenAI Codex的npm周下载量达4600万,远超Claude Code的49.1万,但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式,而Codex的巨大下载量可能包含大量自动化流水线拉取,未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段,关键并非安装量,而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势,Claude Code则以体验吸引高忠诚度用户,胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码
22:53
Berryxia.AI@berryxia
精选76
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google大佬观点推理部署/工程
关联讨论 1X:Berry Xia (@berryxia)
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
22:48
Berryxia.AI@berryxia
64
Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码
22:40
宝玉@dotey
精选73
解决Codex长时间运行任务的关键:清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。

pinecone@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码
关联讨论 1X:Tibo (@thsottiaux)
推荐理由:不是官方文档,是宝玉跑了17小时逆向codex app后总结的避坑清单,照着文档和验收标准改一改,能少走很多弯路。
22:39
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
22:32
21:59
Rohan Paul@rohanpaul_ai
精选70
谷歌、微软与xAI同意美国政府提前测试前沿AI模型

谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下,提前评估其前沿AI模型。测试的特殊之处在于,公司将提供降低或移除安全护栏的模型版本,以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前,OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程,审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型,该公司认为该模型在发现安全漏洞方面能力过强,广泛发布风险过高。

GoogleMicrosoftxAI安全/对齐
关联讨论 2X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)
推荐理由:特朗普政府政策反转,要求测原始能力而非包装后的模型,这对国内做安全评估的团队是个重要参考。
21:53
OpenAI Developers@OpenAIDevs
17
今天是5月5日。 你们在用GPT-5.5构建什么?
OpenAI其他
关联讨论 14X:Greg Brockman (@gdb)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)IT之家(RSS)X:OpenAI (@OpenAI)