AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月22日周一
14:40karminski-牙医54DeepSWE 基准测试发布,GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA
14:08向阳乔木60海立开源第三本Agent书籍《Deep Agents in Action》
14:08Hacker News 热门(buzzing.cc 中文翻译)47AI末日论被指为行业高估值提供依据,GLM-5.2等实际技术进展被忽略
14:08Rohan Paul71Nature研究:AI或削弱专业人士硬技能
14:06AYi59Tom Osman用Codex自动完成App全功能测试与修复
14:06AYi57GLM-5.2 母公司智谱股价半年涨约16倍,因测评对比改变默认选项
13:32数字生命卡兹克66AI用得好不好,跟你会不会管人,我觉得越来越是同一件事。
13:07Rohan Paul20Dario Amodei 2016 年在 CMU 演讲旧视频
13:04IT之家(RSS)512026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误
12:38Hacker News 热门(buzzing.cc 中文翻译)47转向开放式模型的弊端微乎其微
12:07Rohan Paul36李飞飞:AI远未及牛顿爱因斯坦水平
11:39Yuchen Jin28Claude在OpenCode/Cursor中表现更好?
11:36meng shao20GLM-5.2 引热议:最强开源,接近Claude Fable 5
11:33SiliconFlow58GLM-5.2 超 Claude 登顶 HTML 设计榜
11:04jason12Codex 在西村化身 Carrie Bradshaw
11:04jason20Codex的appshots仍是最佳特性之一
10:37Hacker News 热门(buzzing.cc 中文翻译)62生成式AI破坏了招聘,如何修复?
10:20公众号:数字生命卡兹克49AI用得好不好,跟你会不会管人是同一件事
09:38François Chollet45Adobe:GenAI 最盈利且增长最快前五公司
09:34jason44Codex 指令:检查联系人并补 Twitter 头像
09:10ginobefun57今日早报精讲:Anthropic 代码量增 8 倍、苹果 AI 权力重构、GitHub Qubot
09:10ginobefun44AI早报:Claude Code 8倍提效、苹果AI权力重构、GitHub Qubot公开
09:06AYi57Hermes Bible 整合官方文档与社区工作流
09:04IT之家(RSS)54CDPR 联合 CEO 诺瓦科夫斯基:纯 AI 生成的游戏即将问世,但并非行业发展正道
09:04jason0OpenAI Devs Instagram 偶遇否认声明
08:36meng shao67前Meta/Microsoft主任工程师kunchenguid的Agentic工程工作流
08:06Rohan Paul47欧洲2031场景警告:缺乏自主AI能力将面临经济与战略脆弱
08:06Orange AI22正在测试一个全新系统的模型 太有想象力了 有些激动 人类又朝前迈进了一步
08:04jason20OpenAI 展示更多 ChatGPT Codex 广告牌
08:04jason14询问无服务器快照式Codex Box服务
08:00HuggingFace Daily Papers(社区热门论文)69智能体AI搭便车指南:从基础到系统
07:37Hacker News 热门(buzzing.cc 中文翻译)63LLM 让自建软件成本降低,但购买仍存在"可行区域"
07:36MarkTechPost(RSS)58AI智能体记忆的七种类型:技术指南
07:05DogeDesigner51马斯克:5年内数字智能超人类,人形机器人达亿级
07:04elvis58Elvis Saravia:从精细提示转向循环+口述+验证器的新范式
06:04jason16Codex即将帮我拿回500美元
04:36Rohan Paul62AI数据中心金融正成为独立资产类别,杠杆贷款涌入基建热潮
04:26Chubby♨️53LeCun警告AI泡沫即将破裂风险
03:06Rohan Paul45Perplexity CEO:模型不再是产品
03:06Rohan Paul50ASML CEO警告欧洲AI硬件落后
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月22日
14:40
karminski-牙医@karminski3
54
DeepSWE 基准测试发布,GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA

DeepSWE 基准测试发布榜单,GLM-5.2 为国产编程大模型 SOTA,Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同:问题由人工针对开源项目制造,可避免数据泄露;每个问题需修改上百行代码,考验模型规划能力,且不提供工具指引,更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言,而非仅 Python。榜单于 5 月发布。

编码评测/基准
14:08
向阳乔木@vista8
60
海立老师写书速度真快,开源了第三本书《Deep Agents in Action》。 如果你对Agent开发感兴趣,可收藏学习,很好的资料。

Harry Zhang: A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...

智能体教程/实践
14:08
Hacker News 热门(buzzing.cc 中文翻译)
47
AI末日论被指为行业高估值提供依据,GLM-5.2等实际技术进展被忽略

作者在Berkeley观察到AI圈陷入“末日论”狂热,认为Anthropic等公司通过渲染AI急速发展、递归自我改进可能提前到来等恐慌来支撑估值,而非聚焦实际技术。相比之下,GLM-5.2博客展示了渐进改进的技术进步,该模型与Opus 4.8和GPT-5.5相当。作者称当前系统的估值建立在未来假设而非现实之上,并质疑这种通过末日叙事驱动泡沫的做法应被追究责任,呼吁反思如何构建可持续的经济与社会。

大佬观点现象/趋势
14:08
Rohan Paul@rohanpaul_ai
71
Nature研究:AI或削弱专业人士硬技能

一项发表于《自然》的研究指出,AI虽能节省时间,但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示,引入AI工作流后,有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽,而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中:一项2026年随机研究发现,AI辅助虽帮开发者完成任务,但过度委派削弱了概念理解、代码阅读和调试能力。

数据/训练现象/趋势
14:06
AYi@AYi_AInotes
59
Tom Osman用Codex自动完成App全功能测试与修复

Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。

Greg Brockman: codex for testing every single feature in your app:

智能体教程/实践编码
14:06
AYi@AYi_AInotes
57
GLM-5.2 母公司智谱股价半年涨约16倍,因测评对比改变默认选项

智谱年初上市,股价从约131.50 HKD涨至约2,094 HKD,YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动:同一任务下GLM-5.2效果达Fable 5九成,但价格不到$0.10(Fable 5约$5),价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”,用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。

AYi: 难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...

图像生成大佬观点开源生态
13:32
数字生命卡兹克@Khazix0918
66
AI用得好不好,跟你会不会管人,我觉得越来越是同一件事。

作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。

智能体Anthropic大佬观点编码
13:07
Rohan Paul@rohanpaul_ai
20
Dario Amodei 的旧视频,当时他于 2016 年在卡内基梅隆大学进行演讲。 那时他是 Google Brain 团队的研究员。 ---- 来自"Carnegie Mellon Software and Societal Systems Dept"YouTube 频道,(链接在评论中)
Google大佬观点
13:04
IT之家(RSS)
51
2026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误

2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。

推理现象/趋势
12:38
Hacker News 热门(buzzing.cc 中文翻译)
47
转向开放式模型的弊端微乎其微

2026年6月,Claude和GPT在Artificial Analysis智能排行榜上领先,但Claude推出ID验证促使作者重新评估。开放模型可通过本地或OpenRouter等第三方部署,虽存在隐私、成本与速度问题,但性能与顶级闭源模型仅差几个月,类似2008年Linux与Windows的差距但更小。作者认为转向开放模型的生产力损失是短期且可接受的,并非不可逾越的障碍。

开源生态现象/趋势
12:07
Rohan Paul@rohanpaul_ai
36
"AI 能成为牛顿吗?AI 能成为爱因斯坦吗?AI 能成为毕加索吗?" 李飞飞博士给出了一个非常简单的解释,说明今天的 AI 还有很长的路要走。 --- 来自 'FII Institute' 的 YouTube 频道(完整链接在评论中)。
大佬观点推理
11:39
Yuchen Jin@Yuchenj_UW
28
我经常看到推文说"Claude在OpenCode/Cursor中的表现比在Claude Code中更好。" 这真的是真的吗? 很难相信Anthropic不会为自己的模型提供最好的适配,尤其是OpenCode还是开源的。希望能看到一些真实的例子。
Anthropic大佬观点编码
11:36
meng shao@shao__meng
20
GLM-5.2 引热议:最强开源,接近Claude Fable 5

GLM-5.2 已在 X 平台讨论多日,被称作最强开源模型,性能接近 Claude Fable 5。作者下载了类似 Codex 的 Zcode 工具,可免费试用(无需充值 Coding Plan),但第二条消息即遭遇限制或故障。

其他模型发布
11:33
SiliconFlow@SiliconFlowAI
58
GLM-5.2 登顶 @Designarena 的 HTML Web 设计排行榜--击败了长期保持第一的 Claude Opus 4.6 & 4.7。 非常出色,现已通过 SiliconFlow API 提供使用! 开始构建 → https://www.siliconflow.com/models/glm-5-2

Design Arena: http://x.com/i/article/2067849694232080384

Anthropic编码评测/基准
11:04
jason@jxnlco
12
在西村(West Village)看到了 Codex 的 Carrie Bradshaw 化

jess yin: spotted in the west village: the carrie bradshaw-ification of codex

OpenAI大佬观点编码
11:04
jason@jxnlco
20
appshots 仍然是 codex 中最好的功能之一。
OpenAI大佬观点编码
10:37
Hacker News 热门(buzzing.cc 中文翻译)
62
生成式AI破坏了招聘,如何修复?

过去企业招聘偏爱简历完美、面试回答高度结构化的候选人。如今生成式AI让求职者轻松做到这些,无论是否有真实能力。面试表现变得可无限扩展且几乎免费,这对招聘方构成严重问题。

现象/趋势行业动态
10:20
公众号:数字生命卡兹克
49
AI用得好不好,跟你会不会管人是同一件事

作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。

智能体AnthropicOpenAI大佬观点
09:38
François Chollet@fchollet
45
市场将 Adobe 视为一家走向末路的传统软件公司。然而实际数据显示,它是 GenAI 崛起最大的受益者之一。事实上,它是当今最盈利且增长最快的五大 AI 公司之一,而在一个盈利稀少的行业中。
大佬观点现象/趋势
09:34
jason@jxnlco
44
嘿 Codex ~ 请执行 /goal:进入我的消息,对于我经常聊天的人,看看其中有没有人有 Twitter,如果有且缺少头像,就用他们的 Twitter 头像。
OpenAI教程/实践编码
09:10
ginobefun@hongming731
57
今日早报精讲:Anthropic 代码量增 8 倍、苹果 AI 权力重构、GitHub Qubot

Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。

智能体AnthropicGitHub编码
09:10
ginobefun@hongming731
44
AI早报:Claude Code 8倍提效、苹果AI权力重构、GitHub Qubot公开

Anthropic Claude Code负责人称工程师每季度代码量增8倍,编码不再是瓶颈。WWDC26苹果Siri主管更换,AFM模型含30亿端侧+200亿MoE,股价跌超5%。GitHub公开内部数据分析Agent Qubot三层架构,查询快3倍。GLM-5.2通过前沿模型直觉检验。DeepSeek核心论文研究者53.5%为本土培养。腾讯混元发现SFT后15.3%样本未被有效学习。

ginobefun: http://x.com/i/article/2068851376151777280

其他数据/训练
09:06
AYi@AYi_AInotes
57
Hermes Bible 整合官方文档与社区工作流

Hermes Bible 将 Hermes Agent 169 页官方文档整合一体,提炼出 24 个可直接抄的真实工作流(如 Jira 到 PR 自动过渡),支持 ⌘K 即时搜索定位章节,社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。

AYi: http://x.com/i/article/2042547855865585664

智能体开源生态教程/实践
09:04
IT之家(RSS)
54
CDPR 联合 CEO 诺瓦科夫斯基:纯 AI 生成的游戏即将问世,但并非行业发展正道

CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露,完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏,有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏,其中一款成品很快上线。诺瓦科夫斯基认为,这类纯 AI 游戏即便质量尚可,也无法复刻人工开发的独特感染力,且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受,但纯 AI 制作并非行业发展正道。

图像生成大佬观点
09:04
jason@jxnlco
0
如果你在 OpenAIDevs Instagram 上看到我,不,你没有。 https://www.instagram.com/openaidevs/
OpenAI其他
08:36
meng shao@shao__meng
67
前Meta/Microsoft主任工程师kunchenguid的Agentic工程工作流

kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。

Kun Chen: many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...

智能体MCP/工具教程/实践编码
08:06
Rohan Paul@rohanpaul_ai
47
欧洲2031场景警告:缺乏自主AI能力将面临经济与战略脆弱

欧洲2031场景分析警告,若不建立自主前沿AI能力将面临经济与战略脆弱。欧洲误读DeepSeek R1,以为小团队可替代算力,但推理模型有效且算力仍决定规模化。欧洲宣布€200亿InvestAI但分散数年,远不及美国超大规模厂商数据中心支出。美国AI算力17.3GW vs 欧洲1.4GW,导致芯片、实验和模型差距。欧洲人才流向硅谷,最强AI公司融资规模远逊美国。政策制定者因数据保护限制使用前沿工具,企业采用AI因碎片法规和保守管理滞后。主权采购政策在缺乏强大本土供应商时反削弱竞争力。低估推理访问战略瓶颈——美国未来可能限制算力供应。欧洲在ASML等半导体环节有杠杆但未转化为谈判筹码。

大佬观点现象/趋势
08:06
Orange AI@oran_ge
22
正在测试一个全新系统的模型 太有想象力了 有些激动 人类又朝前迈进了一步
其他推理
08:04
jason@jxnlco
20
很高兴看到 OpenAI 推出更多 ChatGPT Codex 广告牌。
OpenAI其他编码
08:04
jason@jxnlco
14
是否存在通过SSH在类似Modal的平台上提供的无服务器快照式codex box服务?
其他
08:00
HuggingFace Daily Papers(社区热门论文)
69
智能体AI搭便车指南:从基础到系统

本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。

智能体教程/实践
07:37
Hacker News 热门(buzzing.cc 中文翻译)
63
LLM 让自建软件成本降低,但购买仍存在"可行区域"

LLM 虽大幅降低自建成本,但未归零。以年薪 $200k 的工程师为例,团队花至少2周用 Claude 自建 Jira 替代品后,每月还需2小时维护,需37个月才能收回月费 $400 的购买成本。而像 Salesforce 每座 $500/月、50 座共 $25k/月,足以雇佣 1.5 名全职工程师自建,使自建更接近合理决策。因此存在一个“可行区域”:当软件足够复杂、LLM 重构不易且定价不过高时,购买仍优于自建。

现象/趋势部署/工程
07:36
MarkTechPost(RSS)
58
AI智能体记忆的七种类型:技术指南

大语言模型默认无状态,构建智能体需借助记忆机制。七种记忆类型包括:工作记忆(上下文窗口内临时存储提示词、消息、工具输出)、语义记忆(长期存储用户偏好、事实)、情节记忆(记录过去事件与任务结果用于经验学习)、程序记忆(存储技能、工作流与行为规则)、外部/检索记忆(通过向量数据库在推理时拉取信息,即RAG)、参数记忆(嵌入模型权重中的世界知识与推理模式)、前瞻记忆(记忆未来意图与计划目标)。每种记忆对应不同时间尺度与实现方式,组合使用可构建更强的自主智能体系统。

智能体教程/实践部署/工程
07:05
DogeDesigner@cb_doge
51
Elon Musk 在回应中预测 AI 可能在 4-5 年内超越所有人类智能的总和,并进一步展望:5 年内人形机器人数量至少达 1 亿,甚至可能达到 10 亿;由于 AI 和机器人大幅提升产出,经济将在 5-7 年内翻倍。Musk 称变化速度极快,世界将在短短几年内截然不同。

Elon Musk: @PeterDiamandis AI probably exceeds the sum of all human intelligence in 4 or 5 years

具身智能大佬观点现象/趋势
07:04
elvis@omarsar0
58
Elvis Saravia(DAIR.AI)称他如今很少直接向智能体提示,而是依靠循环(loops)让智能体自主完成大部分工作。他转而花更多时间编写验证器(verifiers),通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充,2026年6月起应放弃手动编辑提示词,改用语音听写10分钟,将碎片、警示、示例和氛围直接灌给模型--大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

智能体多模态大佬观点
06:04
jason@jxnlco
16
Codex即将帮我拿回500美元
OpenAI其他编码
04:36
Rohan Paul@rohanpaul_ai
62
AI数据中心金融正成为独立资产类别,杠杆贷款涌入基建热潮

摩根士丹利开始向数据中心开发商推销杠杆贷款市场。继投资级债券、项目融资、私人信贷、高收益债之后,通常用于LBO的杠杆贷款也涌入AI基建。摩根士丹利预计2026年AI相关债务发行或超5700亿美元,截至5月底已达约2360亿美元,是去年同期的4倍。NYU教授Damodaran对比互联网泡沫指出,AI资本支出规模史无前例,且大量由债务而非股权融资,一旦调整,违约将蔓延至社会,风险远超股价暴跌。

Rohan Paul: dot-com bubble vs. a possible AI bubble. From the famous "Dean of Valuation", Professor Aswath Damodaran, of NYU Stern S...

现象/趋势行业动态部署/工程
04:26
Chubby♨️@kimmonismus
53
LeCun回来了。长话短说,泡沫随时可能破裂。 "AI服务价格在上涨,但运营成本在下降,不过下降速度远不够快。所以这些公司都在亏损,基本上,大多数用户的使用是由投资者资助的。这种情况不可能持续太久,对吗?"LeCun说。
大佬观点现象/趋势
03:06
Rohan Paul@rohanpaul_ai
45
"模型不再是产品。 Codex、Perplexity Computer 或 Claude Code -- 全都是编排系统。它用一个模型,再配上 agent harness。 什么是 agent harness?Agent 循环运行的规则。" - Aravind Srinivas
智能体大佬观点
03:06
Rohan Paul@rohanpaul_ai
50
ASML's CEO:欧洲在AI硬件方面落后,因为美国购买了全球80%的先进芯片,而像特斯拉TeraFab这样的超级工厂可能每月需要数百万片晶圆的产能。
大佬观点
‹ 上一页
1…2526272829…50
下一页 ›