4月30日
20:10
ginobefun@hongming731
51
京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

教程/实践数据/训练部署/工程
19:11
歸藏(guizang.ai)@op7418
57
Codex成功创建了类似《杀戮尖塔》的完整游戏关卡演示,细节精细,除声音外近乎完美。演示中的主要场景和角色素材由GPT-Image生成,其余素材由开发者自行收集。项目方宣布,安装包将于今晚或明天发布,同时整个代码将开源。

歸藏(guizang.ai)太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…

OpenAI开源/仓库编码
19:11
Chubby♨️@kimmonismus
62
四大科技巨头云收入激增,资本开支飙升引市场担忧

Meta、亚马逊、Alphabet和微软2026年第一季度营收均超预期,云业务增长强劲,其中Google Cloud收入暴涨63%首次突破200亿美元。然而,四家超大规模企业2026年资本开支总额预计将超过6500亿美元,巨额AI基础设施投资引发市场焦虑,导致Meta和微软股价在盘后下跌。这些巨头在计算领域的投入规模正重塑全球经济,其投资能否带来相应回报将定义未来十年的科技投资格局。

GoogleMicrosoft数据/训练行业动态
18:10
阿绎 AYi@AYi_AInotes
精选79
马斯克律师庭审出示关键证据,揭露OpenAI早期转型营利内幕

马斯克律师在庭审中出示了OpenAI联合创始人Greg Brockman 2017年的私人日记,其中明确写道团队真正想要的是营利性结构并计划将马斯克排除在外,承认若转型则此前承诺皆为谎言。然而两个月后,Brockman却公开向马斯克表达敬意。证据显示OpenAI早在2017年就已策划从非营利转向商业。此前,OpenAI试图用Sam Altman 2022年提及股权的短信作为证据,但被马斯克以非营利组织法律上不能有股权为由反驳,反而坐实了其早期就已背离公益初心。

阿绎 AYiDamn,OpenAI这次在法庭上真把自己坑惨了🤣👀🤯 律师昨天甩出2022年Sam发给马斯克的一条短信,想证明:“当年我们主动给你股权,你自己不要,现…

OpenAIxAI行业动态
关联讨论 2X:cb_doge (@cb_doge)X:AI Safety Memes (@AISafetyMemes)
推荐理由:Brockman日记证明OpenAI早在2017年就密谋排挤马斯克且转向营利,这不是花边八卦,是直接动摇OpenAI非营利合法性的实锤,所有AI创业者都该关注后续判决。
18:10
Berryxia.AI@berryxia
55
文心5.1 Preview登顶国内文本榜,揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

大佬观点推理模型发布
17:41
向阳乔木@vista8
52
开发者利用Codex成功生成了一个类《杀戮尖塔》游戏的完整关卡演示。该演示目前已经相当完善,主要缺陷仅在于缺少声音。演示中的核心视觉素材,如主要场景和角色,是由GPT-Image生成的,其余素材则由开发者自行补充。这一成果展示了AI在游戏内容生成方面的强大潜力。

歸藏(guizang.ai)太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…

OpenAI图像生成现象/趋势
17:39
Rohan Paul@rohanpaul_ai
精选75
微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究

推荐理由:微软这篇论文点了当前 LLM 的死穴,短期 demo 很牛,长期编辑文档直接掉链子,25% 损坏率不是小问题,做 AI 文本编辑产品的团队得掂量一下用户信任。
17:39
Rohan Paul@rohanpaul_ai
60
Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中,涵盖99项任务。在至少一位人类专家解决的76个问题上,Claude Mythos Preview模型准确率约为83%;更值得注意的是,在23个专家小组未能解决的问题上,该模型仍解决了其中约29.6%。然而,模型在困难问题上的成功重复性较低,表明其表现尚不稳定。研究指出,Claude最有效的模式并非充当“先知”,而是扮演快速研究协作伙伴的角色:通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究
17:39
Rohan Paul@rohanpaul_ai
69
白宫阻止Anthropic扩大其漏洞挖掘模型Mythos的访问权限

白宫阻止了Anthropic扩大其新型AI模型Mythos访问权限的计划。该模型能发现并利用软件漏洞,能力足以触发国家安全管控。Anthropic希望新增约70家机构使用,但官员认为扩大访问会加剧安全风险,并可能挤占已授权机构的计算资源。此事反映出Anthropic与华盛顿关系紧张,涉及军事用途争议与信任问题。此类模型能极大缩短漏洞发现与武器化之间的时间,因此推广决策首先是安全决策。白宫的策略是限制访问以降低即时风险,并优先保障已获授权机构的需求。

Anthropic安全/对齐政策/监管
17:10
歸藏(guizang.ai)@op7418
46
Codex展示了其强大的游戏开发能力,仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令,便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成,其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示,凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

歸藏(guizang.ai)我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格…

OpenAI图像生成教程/实践编码
17:09
Rohan Paul@rohanpaul_ai
56
代理性工具工程:基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法,使编码代理能自动重写自身工具和规则,并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环,缺乏明确证据。该方法将编辑转化为文件级可回滚部分,压缩运行日志为简短失败证据,并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中,从小型shell-only工具开始,经10轮进化且基础模型固定,单次尝试成功率从69.7%提升至77.0%,超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务,在不同模型家族获得5.1到10.1点提升,并减少12%令牌使用,为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究
16:39
Chubby♨️@kimmonismus
65
Anthropic发布BioMysteryBench基准,AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。

Anthropic数据/训练论文/研究
16:39
Rohan Paul@rohanpaul_ai
47
移除人为瓶颈,实现AI完全自主以提升效率

Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

智能体大佬观点现象/趋势
16:39
Rohan Paul@rohanpaul_ai
55
美国劳工部推出全国性AI学徒门户网站

美国劳工部推出全国性AI学徒门户网站,旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划,或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供,求职者应使用“学徒工作查找器”进行搜索,并直接向雇主或发起方申请。

政策/监管数据/训练
16:09
SemiAnalysis@SemiAnalysis_
53
GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍

在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。

DeepSeek推理评测/基准
16:09
meng shao@shao__meng
62
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?

OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

智能体OpenAI教程/实践部署/工程
14:52
Alibaba Cloud@alibaba_cloud
精选68
阿里云发布HappyHorse,实现秒级AI视频生成

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能:可生成影院级1080p高清画质;原生实现精准的音画同步,确保口型与声音对齐;在复杂场景和镜头切换中保持多镜头角色一致性;支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

多模态模型发布视频
关联讨论 1X:阿里云 / Alibaba Cloud (@alibaba_cloud)
推荐理由:阿里云终于放出视频生成模型,1080p+音频同步+秒级生成,功能直指 Sora 的短板。如果 demo 没修图,国产视频工具又多一个靠谱选择。
14:52
14:45
宝玉@dotey
35
Hermes Agent推出Curator功能,自动整理优化技能库

Hermes Agent新增Curator功能,旨在解决其“自我进化”机制持续生成技能文件导致的技能库臃肿问题。Curator会每周自动运行,追踪技能使用频率与更新时间,自动合并功能重叠的技能、清理闲置技能,并将过于具体的技能转化为模板或脚本整合到更通用的技能中。该功能仅处理智能体自动生成和用户手写的技能,不会影响外部安装、内置或被用户“钉住”的技能。用户也可在配置文件中关闭自动运行,或通过命令行手动触发。

智能体产品更新
14:40
Berryxia.AI@berryxia
48
免费自定义工具监控标的更新,替代昂贵商业软件

作者推荐一种自定义工具,用于监控关注标的(如招标信息)的更新并自动推送通知。相比商业工具“招标助手”的高昂价格,自制工具更具自定义性和便利性,且完全免费。基于引用推文中@berryxia提供的文章,该工具附有详细教程,用户可免费注册和使用,实现高效信息追踪。

智能体教程/实践
14:37
阿绎 AYi@AYi_AInotes
49
Cursor推出Agent Kanban:看板即编程,开发者退居监控者

Cursor推出的Agent Kanban并非完整产品,而是一个鼓励开发者自行搭建的参考实现。其核心变革在于改变了开发者与代码的交互模式:从亲自编写,到用prompt指挥AI,如今演变为将任务抛入看板,由Agent自主认领、执行并更新状态,开发者则退居幕后监控进度,使任务待办列表本身成为一种“编程语言”。尽管当前原型存在运行时限、失败率等限制,且缺乏结果审核机制,但其关键启示在于促使开发者重新思考:为何还要亲自处理那些机械、可被清晰描述的重复杂任务。

智能体现象/趋势编码
13:45
宝玉@dotey
54
OpenAI将推出GPT-5.5-Cyber网络安全模型

Sam Altman 刚宣布,OpenAI 将在未来几天向“关键网络安全防御者”推送 GPT-5.5-Cyber,一个专门为网络安全打造的前沿模型。他说 OpenAI 会和整个行业生态及政府合作,建立可信的访问机制,目标是尽快帮助保护企业和基础设施。

OpenAI模型发布
13:13
13:09
Sam Altman@sama
39
对齐失败
Anthropic产品更新大佬观点安全/对齐