4月30日
00:45
Hugging Face:Blog(RSS)
精选62
AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由:这篇把分散的评估成本数据拉通了算总账,曾经便宜的评测现在动辄上万美元,独立评估正被价格挤出牌桌,做Agent的人必须意识到排行榜的代价。
00:36
阿绎 AYi@AYi_AInotes
63
马斯克诉OpenAI案:法庭上的AI控制权与人类未来之争

马斯克起诉OpenAI,指控其背离非营利开源初心,沦为微软旗下封闭的盈利实体。他警告,若最强AI被单一不可靠实体垄断,可能在2027年前超越人类智能并带来生存风险。马斯克主张通过其旗下公司构建去中心化防御体系。案件核心矛盾聚焦于AI发展应追求速度还是安全、开源还是闭源、控制权归属少数或全人类三大议题。这场诉讼被视为首次将AI治理问题置于全球公众视野的关键转折点。

OpenAIxAI大佬观点安全/对齐
00:32
Hacker News 热门(buzzing.cc 中文翻译)
60
为什么人工智能公司希望你害怕它们

人工智能公司有意通过强调AI技术的潜在风险,如大规模失业、隐私侵犯和生存威胁,来引发公众恐惧。这种恐惧营销策略旨在塑造公司负责任形象,影响监管政策制定,并吸引更多投资与关注。文章分析指出,尽管缺乏具体数字指标,但渲染风险已成为行业常见的商业手段,可能加剧社会焦虑,同时为AI公司赢得竞争优势。该现象反映了科技企业在市场竞争中的战略选择,但过度恐惧可能误导公众并阻碍技术创新。

安全/对齐现象/趋势
00:32
Hacker News 热门(buzzing.cc 中文翻译)
63
Mistral Medium 3.5

Mistral 发布了其最新模型 Mistral Medium 3.5。该模型在 Hacker News 社区获得了显著关注,收获了 125 个投票。发布信息通过官方新闻页面公布,标志着 Mistral 在模型迭代上的又一次更新。

智能体模型发布
关联讨论 1Mistral AI:News(网页)
00:28
Rohan Paul@rohanpaul_ai
46
World2Agent:为AI智能体补上"感知"层,让它们能主动察觉现实世界事件

当前AI智能体缺乏感知层,只能被动响应提示。World2Agent (W2A) 通过构建开放协议解决了这一问题,它将现实世界事件(如GitHub动态、股价变动或社交媒体帖子)通过传感器转化为结构化信号。智能体可订阅这些信号,从而能自主决策和行动,无需人工持续输入。这消除了开发者需手动集成轮询、Webhook等复杂逻辑的负担。本质上,W2A为构建主动型智能体提供了缺失的基础设施层,类似于MCP协议为工具调用所做的标准化工作。例如,当特定人物发帖时,传感器捕捉信号后,智能体可自动触发代码库审查任务,实现了“知道何时行动”的关键能力。

智能体MCP/工具开源/仓库
00:26
叫我阿杭@Astronaut_1216
30
AI作为提效工具:聚焦赚钱与内容流量的核心业务

作者强调自己并非AI原生博主,而是关注效率,将AI视为提升效率的工具。其核心关切点在于如何赚钱、制作内容并获取流量,同时利用AI加速这些过程以促进线下活动。他认为学习AI有必要,但必须基于某种核心业务,这才是关键所在。

其他大佬观点
00:17
Deedy@deedydas
50
研究通过知识问题估算LLM参数规模

研究人员通过询问不同难度知识问题,估计大型语言模型参数大小。结果显示,GPT 5.5约10T参数,Claude Opus 4.x约4-5T,Grok 4约3T。事实性知识容量与模型规模呈对数线性关系。论文提出7个知识层级,最高层级T7对所有模型接近零,表明预训练仍有显著提升空间。Gemini 3.1 Pro可能超过10T参数。此方法有助于推断模型训练成本及后训练在非事实性任务上的性能。

AnthropicOpenAI数据/训练模型发布
00:01
Google Gemini@GeminiApp
精选60
现在您可以在与Gemini的聊天中直接生成多种可下载文件,包括PDF、@GoogleWorkspace文件、Microsoft Word & Excel等。 只需在提示时告诉Gemini要创建的内容和所需文件格式,无需上传模板。
Google产品更新
关联讨论 2X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:Gemini 聊天里现在能直接生成 PDF、Word 和 Sheets,不用模板,说一声就行,办公党效率提升很实在。
00:00
Claude:Blog(网页)
精选64
构建企业级AI智能体:领先企业的转型指南

2025年数据显示,美国员工工作AI使用率已从2023年的20%升至40%。真正获得持续竞争优势的企业正将智能体AI深度嵌入工作流程,并将机构知识编码成可累积的系统。本指南以欧莱雅、Lyft和乐天为例,提出企业AI转型三大支柱:跨越“智能体思维鸿沟”、基于实际工作流程培训员工、在压缩信息密集型流程时保留人工判断,以及构建能创造收入的新产品能力。Claude Cowork平台为此提供了无需定制开发的团队级解决方案,并包含六个月的落地框架。

智能体Anthropic教程/实践
关联讨论 1OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:从 L'Oréal、Lyft 这些案例看,企业怎么把 AI 智能体扎进业务流程,比泛泛而谈的 AI 转型文章实在得多。
00:00
Anthropic:Research(发表成果 · 网页)
精选71
用户如何向Claude寻求个人生活指导及其模型优化

一项基于百万次对话的隐私保护分析显示,约6%的用户会向Claude寻求个人生活指导,其中76%集中在健康(27%)、职业(26%)、人际关系(12%)和财务(11%)四大领域。研究重点关注了模型回应中的“谄媚行为”(过度认同用户),发现总体发生率为9%,但在人际关系对话中飙升至25%。为应对此问题,Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后,Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半,且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互,更好地保护用户福祉。

Anthropic安全/对齐论文/研究

推荐理由:一份不常见的研究,把自家产品当样本,挖出关系咨询中 25% 的谄媚率,并且敢公开新模型 Opus 4.7 的训练改进,Anthropic 这次的安全透明度值得其他模型厂追。
00:00
Claude:Blog(网页)
54
Kepler如何利用Claude为金融服务业构建可验证的AI平台

金融科技初创公司Kepler针对金融业高监管要求,构建了基于Claude AI的可验证研究平台。该平台核心是建立了“信任与验证层”,确保AI生成的每个数字都能精确溯源至原始文件的具体位置。团队通过基准测试发现,在处理复杂的多步骤财务查询时,Claude是唯一能始终保持计划连贯性、不丢失约束条件的模型。平台通过构建确定性执行环境、开发专用金融本体论,并采用多模型协作的工作流,最终实现了AI输出结果的可审计性,解决了金融从业者对AI产出的信任难题。

Anthropic行业动态部署/工程
00:00
Claude:Blog(网页)
精选64
Claude Code 构建经验:提示缓存的优化实践

Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。

智能体AnthropicMCP/工具教程/实践

推荐理由:Claude Code团队把提示缓存的坑和优化方法全盘托出,从提示顺序、工具加载到压缩技巧,每一个经验都是钱和延迟换来的,做agent的同行可以直接拿去做架构参考。
00:00
Google Developers Blog(RSS)
精选62
基于Gemini Embedding 2构建:智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。

Google检索增强多模态模型发布
关联讨论 1X:Google AI (@GoogleAI)
推荐理由:开发者做多模态RAG的苦日子结束了,Gemini Embedding 2把文本、图片、视频塞进同一个语义空间,还自带Matryoshka降维,直接省掉一堆胶水代码。
00:00
Claude:Blog(网页)
精选64
Claude Security 开启公开测试,赋能企业代码安全

Claude Security 现已面向所有 Claude Enterprise 客户开放公开测试。该功能基于 Claude Opus 4.7 模型,能够扫描代码库中的漏洞并生成针对性修复方案。公开版本新增了计划扫描与定向扫描功能,更易于与审计系统集成,并改进了问题追踪流程。此外,Opus 4.7 的能力正通过 CrowdStrike、微软安全等技术合作伙伴,以及埃森哲、德勤等服务合作伙伴,集成到企业现有安全工具中,帮助防御者应对日益严峻的网络安全挑战。

Anthropic产品更新安全/对齐编码
关联讨论 1The Decoder:AI News(RSS)
推荐理由:Claude Security 正式公测,Anthropic 把 Opus 4.7 的代码理解力直接嵌进企业安全流程,从扫描到 patch 一条龙,安全团队可能第一次能和 AI 齐步跑了。
00:00
智谱:研究(网页内嵌数据)
精选55
超大规模编码代理推理实践

在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。

编码论文/研究部署/工程
关联讨论 1X:智谱 Z.ai (@Zai_org)
推荐理由:智谱公开了超大规模Coding Agent推理的工程细节,KV Cache竞态的修复和分层存储方案可以直接用,做Agent infra的值得收藏。
4月29日
23:48
凡人小北@frxiaobei
38
团队开发Symphony平台以整合工具链并转向AI任务驱动开发

团队开发了Symphony平台,旨在解决产品与技术因工具链割裂导致的协作效率低下问题。该平台将AI Coding能力收敛至统一环境,推动开发模式从人驱动工具转变为Agent任务驱动。其核心是让AI自动处理需求拆解、构建与交付初版,团队仅需负责提出需求、验证结果与提供兜底。尽管类似实践已在行业中出现,但对团队而言当前正是推行时机。未来计划进一步整合产品与测试流程,以探索自动化开发的极限。

智能体现象/趋势编码
23:42
Ant Ling@AntLingAGI
精选71
Ling-2.6-1T万亿参数模型开源,主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。

开源/仓库推理模型发布部署/工程
关联讨论 3X:蚂蚁百灵 (@AntLingAGI)X:Artificial Analysis (@ArtificialAnlys)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:蚂蚁把万亿参数模型开源了,但强调的不是大,而是省 token,这对成本敏感的生产环境是真正的性价比之选,做 agent 的可以上手测测。
23:40
Claude:Blog(网页)
精选58
智能体时代的产品开发:Claude Managed Agents 如何解放产品经理

Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体,使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流:使用Claude进行开放式探索,然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务,如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作,让她能将更多时间投入到与团队和用户的创造性合作中。

智能体AnthropicMCP/工具教程/实践
关联讨论 3Claude:Blog(网页)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic PM公开用Claude Managed Agents搭建数据分析、舆情监控和演示生成agent的真实流程,对于想要用agent重构产品开发节奏的团队有实际参考价值,但不算爆炸性更新。
23:28
Hacker News 热门(buzzing.cc 中文翻译)
51
借助 Opus,我们降低了大型语言模型(LLM)的成本

团队通过采用前沿模型Opus,成功降低了大型语言模型(LLM)的运营成本。这一升级不仅提升了模型性能,还实现了成本的反向下降,具体成本降幅未在摘要中明确,但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。

Anthropic推理教程/实践
23:24
The Decoder:AI News(RSS)
46
OpenAI 研究人员解释为何数学是通往 AGI 之路

OpenAI 研究人员在播客中指出,数学能力已成为衡量人工智能向通用人工智能(AGI)发展进程的关键测试。AI 模型在短短两年内,已从掌握小学算术进步到能应对奥林匹克竞赛乃至研究级别的数学问题。这种在复杂数学推理上的快速突破,被视为模型泛化能力和抽象思维提升的重要标志,是迈向 AGI 的核心路径之一。

OpenAI大佬观点推理
23:18
阿绎 AYi@AYi_AInotes
63
AI自主谈判:50秒内取消亚马逊会员并获退款

一段演示视频显示,GPT-5.5通过Codex接管浏览器,自动与亚马逊真人客服谈判,成功取消Prime会员并获得全额退款,耗时仅约50秒且成本极低。AI在谈判中目标明确、逻辑清晰,确认退款后直接结束对话,毫无社交冗余。这标志着普通人能以低成本雇佣高效、不知疲倦的“数字谈判专家”,极大增强消费者对抗繁琐流程和隐形收费的能力。AI正成为替人类处理繁琐事务的“打手”,并可能重塑依赖用户惰性的商业盈利模式。

智能体OpenAI现象/趋势
23:06
Artificial Analysis@ArtificialAnlys
63
IBM发布三款高效非推理模型Granite 4.1,采用Apache 2.0开源许可

IBM发布了三款采用Apache 2.0许可的Granite 4.1开源模型(30B、8B、3B)。其核心特点是极高的令牌效率,例如8B模型运行智能指数仅需4M输出令牌,远低于同类模型。在开放性指数上,三款模型均获得61分,领先多数同行。但高效率也带来了智能指数的相对折衷,其得分低于Qwen3.5、Gemma 4等竞品。不过,与上一代Granite 4.0系列相比,新模型的智能表现仍有提升。该系列模型拥有128K令牌的上下文窗口,主要面向企业和边缘部署,可通过WandB、Replicate和Hugging Face获取。

Hugging Face开源生态模型发布
23:01
Hugging Face:Blog(RSS)
52
Granite 4.1 LLMs:构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务,采用多阶段训练流程,包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器,并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升,特别是在代码生成与数学推理任务上,部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练
23:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
为智能时代构建计算基础设施:OpenAI 扩展 Stargate 以支撑 AGI 发展

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

OpenAI行业动态部署/工程

推荐理由:这不是模型发布,但算力扩张才是 AGI 竞赛的真正底层,数据中心扩容直接关系到下一代模型能不能训出来,做基础设施的可以盯一下供应链。
22:59
DogeDesigner@cb_doge
53
多位关键人士指控Sam Altman存在长期欺骗行为与病态特质

据《纽约客》等报道,OpenAI联合创始人Ilya Sutskever及多位董事会成员严厉指控Sam Altman存在长期行为模式:经常撒谎、挑拨高管对立,且“不受真相约束”。董事会成员形容他兼具强烈取悦他人欲望和近乎病态的欺骗漠然感。已故的Aaron Swartz与Paul Graham也曾私下警告其不可信任。Altman本人在被董事会质询欺骗行为时回应“无法改变个性”。OpenAI董事会官方声明亦指出其沟通“缺乏一贯坦诚”。

OpenAI行业动态
22:58
IT之家(RSS)
35
倍耐力买下 Univrses 30% 股份,加码 AI 轮胎技术

意大利轮胎制造商倍耐力收购瑞典公司Univrses 30%的股份,并获得未来增持至控股权的选择权。双方合作旨在将Univrses的三维人工智能计算机视觉技术整合进倍耐力的智能轮胎系统。该技术结合轮胎内置传感器,可提升车辆安全与自动驾驶能力,并为交通管理部门提供实时道路监测数据。2025年,双方技术已在意大利普利亚大区的道路监测项目中联合应用。交易具体财务细节未披露。

端侧行业动态