5月4日
23:58
Epoch AI@EpochAIResearch
46
探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调,讨论者进行了反驳,并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准(如MirrorCode)的构建、AI技术对基准开发本身的加速作用,以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能(AGI)基准的可行性,并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准
23:52
Berryxia.AI@berryxia
47
DeepMind CEO将AGI实现时间表明确设定于2030年

DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年,并指出AI将极大加速药物发现、材料科学等“慢科学”领域,把研发周期从数年压缩至数天。他强调,未来1-2年是关键拐点,真正改变世界的将是AI推动科学迭代速度的指数级加速,而非AGI降临的瞬间。

DeepMind大佬观点现象/趋势
23:23
阿绎 AYi@AYi_AInotes
精选71
一个100行的文件,干翻了所有LLM编码prompt

一个名为CLAUDE.md的百行文件在GitHub上迅速走红,一周内获得超4.4万星。它没有依赖和配置,仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则:先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录,Claude Code等工具便能自动读取并遵循,从而显著提升代码质量,减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛,以零成本方案为AI编码设定明确规范。

MCP/工具教程/实践编码

推荐理由:一个100行文件干翻一堆Agent框架,本质是开发者受够了哄模型,不如直接定规矩。如果你也用Claude Code,花一分钟扔进去,Token浪费砍半不是夸张。
22:40
Rohan Paul@rohanpaul_ai
67
路透:AI芯片制造商Cerebras瞄准35亿美元美国IPO,每股定价115-125美元

AI芯片制造商Cerebras正计划在美国进行IPO,目标融资高达35亿美元,每股定价区间为115至125美元。该公司采用独特的晶圆级芯片技术,将几乎整个硅晶圆集成为一个巨型处理器,旨在通过将海量计算和内存置于单一硅片上,减少芯片间数据移动的瓶颈,从而为特定大型AI工作负载加速训练和推理过程。其技术路线与依赖多GPU协作、受限于数据移动速度的传统AI硬件形成对比。此次IPO是公司在撤回先前尝试后的新一轮努力,其竞争对手包括英伟达和AMD,后者同时也是其支持者。

行业动态部署/工程
22:37
Rohan Paul@rohanpaul_ai
精选71
OpenAI启动百亿美元合资公司"部署公司"加速企业AI应用

OpenAI成立了名为“部署公司”的百亿美元合资公司,筹集超40亿美元,旨在帮助企业克服AI部署障碍。核心观点是,当前企业采用AI的主要瓶颈已非模型质量,而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者,打包软件、咨询和部署方案,直接触达超2000家投资组合公司,实现规模化分发。同时,Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司,为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。

AnthropicOpenAI行业动态部署/工程

推荐理由:OpenAI和Anthropic几乎同时拉上黑石、高盛成立合资公司,把模型部署包装成服务卖给数千家企业。模型竞争正在降级,谁能最快把AI塞进真实业务流程才是下一阶段的王。
22:23
elvis@omarsar0
精选71
Sakana AI提出新型7B"指挥者"模型,通过协同多个智能体实现性能突破

Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。

智能体arXivMCP/工具推理

推荐理由:Sakana AI 这篇 ICLR 论文把 Agent 之间的通信拓扑和提示词一起做成可训练的,协调本身变成模型,做多 Agent 系统的人真该重新想想架构了。
22:13
Berryxia.AI@berryxia
19
Nori AI发起母亲节AI产品挑战赛,奖金千元

Nori AI推出“Mom Dreams It, We Create It with AI”挑战赛,庆祝母亲节,旨在鼓励构建AI产品解决忙碌妈妈的痛点或实现其梦想工具,优胜者可获1000美元奖金,并由社区投票选出。Nori AI被描述为世界首个家庭AI,能通过自然语言命令处理日程、任务、餐计划等家庭事务。挑战赛和产品链接已提供,呼吁开发者参与构建帮助妈妈的AI产品。

智能体行业动态
22:09
meng shao@shao__meng
精选72
Cursor团队发布官方工作流插件,集成17项核心开发技能

Cursor官方团队将其内部使用的开发工作流打包成名为“cursor-team-kit”的插件。该插件集成了17个核心Skills、1个Agent和2条Rules,旨在提升团队协作与代码质量。核心Skills涵盖五大领域:CI/合并循环自动化、PR全流程管理、验证与测试、总结复盘以及代码治理。其中,ci-watcher Agent可后台监听CI状态,而两条Rules则强制规定了TypeScript的代码风格。该插件是团队用于构建Cursor产品自身经验的封装,专注于验证变更、驱动本地工具和交付可评审的PR。

智能体产品更新编码

推荐理由:Cursor 把自己的开发流程开源成插件了,这一套 17 个 skill 从 CI 盯盘到写周报全包,最牛的 verify-this 把 debug 变成了科学实验,装了立刻就能用。
22:08
Berryxia.AI@berryxia
精选70
Sam Altman驳斥AI"抢饭碗"论:真正风险是效率鸿沟

Sam Altman批评一些CEO宣称AI将导致大规模失业的言论是“不懂人情”。他引用案例指出,GPT-5.5的Codex版本能将耗时数周的工作压缩至一小时,但结果却是使用者“前所未有的忙碌”。AI并未消灭工作,而是极大提升个人产能,使功能开发和试错速度呈指数增长,导致拥抱AI者因生产力暴增而承担更多任务,其野心也随之扩张。当前AI时代的核心分化在于“善用AI者”与“拒绝AI者”之间不断扩大的效率鸿沟。真正的淘汰风险在于旁观而非主动利用工具。

OpenAI大佬观点现象/趋势

推荐理由:Sam Altman这回应干脆,但更值得琢磨的是那个案例,一个人用GPT-5.5 Codex之后反而更忙了。生产力暴增时,野心也暴增。这可能是未来五年每个人都要面对的真实处境。
22:03
向阳乔木@vista8
58
躺平神器开源!Xbox手柄秒变Mac万能遥控器~

一款名为“xbox-mac-ctrl”的开源工具,可将Xbox手柄转变为Mac电脑的通用遥控器。用户能通过手柄控制YouTube、B站等视频播放(全屏、快进、音量调节),并操作微信读书、浏览器及任意Mac软件(如Tab切换、滚动翻页)。该项目由开发者借助DeepSeek v4 Pro通过几轮对话编程实现,旨在满足躺卧时遥控刷小说、看视频的需求,并鼓励开发者fork以适配Switch手柄等其他硬件。

向阳乔木DeepSeek v4 Pro还是可以的。 几轮对话,实现一个工具,用xbox手柄控制电脑应用和浏览器。 当遥控器,躺床上刷小说和看视频。

MCP/工具开源/仓库教程/实践
22:00
Orange AI@oran_ge
37
近期有文章揭露,部分AI模型token中转服务存在欺诈行为,即在后台替换为劣质模型,却以高价模型名义收费。这一现象已被广泛传播和讨论。然而,当前中文社交平台上却出现大量将此类中转站宣传为"好生意"的言论。作者对此种降低行业标准、混淆视听的趋势表示难以理解和强烈不满。

马东锡 NLP前几周在 x 上,有篇文章已经完全证实了, token 中转就是背后换模型,以次充好,挂着羊牛卖狗肉,骗用户,大几十万阅读,似乎人人皆知了。 现在简中推,到处…

现象/趋势部署/工程
21:25
小互@xiaohu
精选72
为AI编程立规矩:CLAUDE.md文档的四条核心原则

针对AI编程工具常犯的“默默假设”、“过度自信”和“无效重构”等问题,一份名为CLAUDE.md的文档被整理出来,旨在为AI设定工程纪律。其核心四条原则是:编码前先思考并澄清歧义;优先用最简代码实现需求;仅修改与需求直接相关的代码;为任务设定明确、可验证的目标。这套规则旨在约束AI行为,使其更接近靠谱工程师的作风,解决其“太积极、太爱脑补、太喜欢顺手优化”的痛点。

智能体教程/实践编码

推荐理由:把 Karpathy 的观察变成可执行的 CLAUDE.md,直接解决了 Claude Code 太爱脑补、乱改代码的臭毛病,对日常用 AI 编程的人很管用,放进项目就能让 AI 少犯傻。
21:25
叫我阿杭@Astronaut_1216
54
先探索边界,再优化成本:从OpenClaw看工程化思维

对话中提到使用OpenClaw时,初期不应先计较成本,而应全力探索其能力边界与可能场景,甚至不惜高投入。这种思维同样适用于创业与工程化:先通过大量实践摸清所有模式、陷阱与机会,将工具或业务转化为可重复执行的系统。只有在完整认知边界后,再回头优化时间、经济与认知成本,此时的决策才是基于已验证的系统,而非模糊想法。核心在于“先探索,后优化”,以实现规模化路径。

MCP/工具大佬观点现象/趋势
21:10
Rohan Paul@rohanpaul_ai
44
Nori发起挑战:连接母亲创意与AI开发,共筑智慧家庭生活

Nori发起一项创新挑战,旨在让母亲与AI开发者直接协作,共同解决家庭实际痛点。挑战分为两部分:母亲们提交她们急需的家庭生活工具创意,如管理日程、分担家务等;开发者则基于这些真实问题构建AI应用、智能体或工作流原型。社区将对提交方案进行投票,并设立两个1000美元奖项,分别表彰最佳创意和最佳产品。Nori作为家庭AI助手,希望通过此举推动AI技术从真实用户需求出发,切实减轻家庭运营负担,而非单纯追求技术展示。

智能体行业动态
20:55
小互@xiaohu
56
传谷歌I/O将发布Omni模型,Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

Google多模态模型发布视频
19:55
Chubby♨️@kimmonismus
49
教育亟需拥抱AI,但须警惕思考外包

作者指出,尽管AI将彻底改变教育已是事实,学生普遍使用ChatGPT、Claude等工具进行研究与写作,但当前教育体系仍停留在20世纪模式。核心矛盾并非是否该使用AI,而是如何将其整合进教育,避免将思考过程完全外包给机器。教育必须重新设计,在利用AI提升学习效率与生产力的同时,坚守培养学生批判性思维与自我反思能力的根本目标。学术界需就如何正确融合AI展开紧迫而严肃的讨论。

OpenAI现象/趋势
17:52
阿绎 AYi@AYi_AInotes
50
这段AI可视化视频有点震撼,13秒看懂神经网络到底在干嘛

一段13秒的可视化视频直观揭示了神经网络的工作机制。左侧9个波形代表虚拟生物的感官输入,中间动态变化的光点与连线模拟神经元与权重的计算过程,右侧13个数值输出觅食、逃跑等决策。这生动演示了前向传播如何将数据转化为行动,体现了深度学习层层提取特征的本质:底层感知碎片,高层组合意义。当今复杂的AI系统与此原理相同,仅规模存在量级差异。视频中出现的“自杀”选项,直观成为AI可能学习极端行为及对齐问题的视觉隐喻。

其他教程/实践
17:40
Rohan Paul@rohanpaul_ai
66
Anthropic与华尔街巨头组建合资公司,瞄准私募股权领域AI部署

Anthropic正与黑石、高盛等华尔街机构敲定一项合资协议,旨在向私募股权支持的公司销售AI工具。各方预计共同投资约10.5亿美元,新公司将作为AI部署部门,不仅提供Claude访问权限,更帮助企业围绕大语言模型重构从客服、财务到编码、法务及内部研究的工作流程。此举目标锁定私募股权公司,因其拥有大量企业、成本控制严格且能快速推行变革。这标志着AI实验室的竞争已从模型质量,延伸至对“模型到业务流程”路径的控制权争夺。

Anthropic行业动态部署/工程
关联讨论 1Anthropic:Newsroom(网页)
17:03