5月1日
03:14
OpenAI@OpenAI
精选70
使用Codex处理日常工作从未如此简单。 选择你的角色,连接你每天使用的应用,并尝试建议提示。 Codex能在研究规划、文档、幻灯片、电子表格等方方面面提供帮助。
智能体MCP/工具OpenAI产品更新
关联讨论 3X:邵猛 (@shao__meng)X:OpenAI (@OpenAI)X:Tibo (@thsottiaux)
推荐理由:OpenAI 的 Codex 把 AI 助理塞进了你的日常工作流,直接连通你每天用的应用,不用折腾配置,看一眼提示就能上手,做运营和产品的可以试试。
03:14
karminski-牙医@karminski3
精选72
DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于,当任务步骤的`tool_call`过于简单直接时,DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek推理教程/实践

推荐理由:如果你在用 DeepSeek-V4 写代码,这个坑迟早会踩到,作者把问题和解法都讲清楚了,不用等 IDE 修,看完就能自己改。
03:14
Artificial Analysis@ArtificialAnlys
65
蚂蚁集团开源Ling 2.6 1T模型,性价比与智能取得平衡

蚂蚁集团InclusionAI实验室发布开源非推理模型Ling 2.6 1T。该模型拥有1万亿参数,在Artificial Analysis Intelligence Index上得分为34分,较前代Ling-1T提升15分,智能水平接近DeepSeek V3.2等同类模型。其在科学推理与知识任务上表现扎实,GPQA得分达75%。模型运行效率较高,执行该指数仅需约1600万输出tokens,成本效益突出,通过官方API运行全套指数成本约95美元。但其事实可靠性较弱,在AA-Omniscience基准上得分为-51分,主要因幻觉率高达92%。模型权重已在Hugging Face公开。

开源生态评测/基准
关联讨论 2X:蚂蚁百灵 (@AntLingAGI)X:阿易 AI Notes (@AYi_AInotes)
03:14
Artificial Analysis@ArtificialAnlys
46
GPT-5.5 Pro以更低成本实现性能微升,在尖端科学评估中领先

在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。

OpenAI推理评测/基准
03:10
阿绎 AYi@AYi_AInotes
44
Lenny分享五款小众高效的Mac生产力工具

Lenny推荐了五款在其工作流中不可或缺、专注优雅的Mac生产力工具,旨在替代日益臃肿的主流软件。这些工具包括截图工具CleanShot、替代Loom的录屏工具Supercut、文本片段扩展器TextExpander、极简表情符号选择器Rocket,以及辅助专注进入心流状态的音乐服务Brain.fm。其核心观点是选择更专注、更优雅的小众工具来提升效率。

其他大佬观点
03:09
Rohan Paul@rohanpaul_ai
50
OpenAI推出高级账户安全模式,以Passkey等强认证机制抵御钓鱼攻击

OpenAI推出可选的“高级账户安全”模式,旨在将ChatGPT和Codex账户转变为防钓鱼账户。该模式彻底禁用密码登录和电子邮件/SMS恢复功能,强制用户依赖Passkey、物理安全密钥等强认证方式,并辅以更短会话周期和登录警报。其背景在于,AI账户存储了对话记录、工作上下文乃至敏感材料,传统邮箱或手机号被盗易导致数据泄露。此外,启用该模式的账户将自动排除在模型训练数据之外。OpenAI要求其“网络可信访问”计划成员在6月26日前启用此模式,除非组织已部署其他防钓鱼单点登录方案。

OpenAI产品更新安全/对齐
03:09
Rohan Paul@rohanpaul_ai
61
安德烈·卡帕西访谈:计算未来或将以神经网络为中心

安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。

大佬观点现象/趋势
02:43
02:42
02:39
Rohan Paul@rohanpaul_ai
64
英伟达B300服务器在华黑市价格飙升至100万美元

受美国出口管制影响,英伟达B300服务器在中国黑市的价格飙升至100万美元,达到美国市场价(约55万美元)的近两倍。该服务器搭载8颗GPU,具备每秒14千万亿次FP4精度运算能力及288GB高带宽内存。需求激增源于中国企业全球AI Token使用份额从5%大幅提升至32%,对算力极为迫切。近期针对高端硬件走私的法律行动进一步收紧供应,使得许多公司无力购买,转而以每月19万元人民币的高价租赁该硬件。

行业动态
02:39
Rohan Paul@rohanpaul_ai
67
软银成立机器人公司Roze,瞄准千亿美元数据中心建设市场

软银正成立名为Roze的机器人公司,专注于建设数据中心,并已瞄准未来1000亿美元的IPO。其核心判断是,当前AI浪潮的关键瓶颈已不仅是模型本身,更在于承载AI所需的物理基础设施,包括电力、冷却、土地和服务器。Roze旨在通过机器人与自动化技术,解决这一瓶颈,使数据中心在美国的建设速度更快、成本更低,并更易于大规模扩展。

行业动态部署/工程
关联讨论 1The Decoder:AI News(RSS)
02:39
Rohan Paul@rohanpaul_ai
67
Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

DeepMind多模态论文/研究
02:10
阿绎 AYi@AYi_AInotes
61
Anthropic被曝检测用户代码提交历史以打压第三方工具,引发社区强烈抗议

Anthropic被曝通过其官方Claude Code工具检测用户Git提交历史,若发现包含“openclaw”字符串,便将该用户识别为第三方工具使用者,并触发“out of extra usage”错误,导致服务被拒或强制额外收费。开发者实验证实此为人为设置的字符串匹配规则。此举被视为Anthropic为将用户锁定在自家生态、打压更灵活的第三方竞品而采取的粗暴手段,与其此前塑造的开放、不监控形象相悖,引发了开发者社区的强烈不满和抗议。

阿绎 AYi卧槽,Anthropic这次真把开发者当傻子。 知名开发者Theo做了个实验:建了个空Git仓库,只commit一行JSON {"schema": "open…

AnthropicMCP/工具大佬观点开源生态
02:10
阿绎 AYi@AYi_AInotes
68
GPT与Claude官方提示指南理念相反,提示工程核心转向使用者思考清晰度

OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。

阿绎 AYi我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变…

AnthropicOpenAI大佬观点推理
02:10
阿绎 AYi@AYi_AInotes
60
Claude Security公测,AI颠覆代码安全扫描误报难题

Claude Security进入公开测试阶段,仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库,利用大模型语义理解追踪数据流动,发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞,将误报率降至传统工具的不到10%,并自动生成带diff和commit信息的修复补丁,用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同,Claude Security是开箱即用的完整产品,无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击,重构DevSecOps工作流,大幅减少安全团队处理误报的时间。

Anthropic安全/对齐现象/趋势
02:09
Rohan Paul@rohanpaul_ai
56
谷歌AI领先优势源于长期战略投资,非仓促应对ChatGPT

《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。

DeepMindGoogle大佬观点搜索
01:45
Andrej Karpathy@karpathy
68
红杉Ascent 2026炉边谈话:LLM的新视野、能力不均衡与智能体原生经济

谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。

智能体大佬观点现象/趋势
关联讨论 2X:邵猛 (@shao__meng)X:阿易 AI Notes (@AYi_AInotes)
01:45
01:45
Google AI@GoogleAI
精选69
谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”,能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配,而是基于语义将不同模态的数据映射到同一空间,从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用,实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google多模态搜索模型发布
关联讨论 1Google Developers Blog(RSS)
推荐理由:Google 第一个原生多模态嵌入模型,把文本、图像、视频拉到同一个向量空间,做跨模态搜索的开发者可以不用再手动打标签了,但离「无感理解」还有距离。
01:14