Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。
Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。
Maria Rubtsova 使用 Kling AI 创作了多支爆款 AI 视频,其中一支累计超 1 亿次观看、近 500 万次互动。她以数字艺术家的眼光进行 AI 创作,打造逼真的女性形象与流畅动作,风格时尚、自信且生动。在本次对谈中,她分享了如何定位自己的创作方向、利用 Kling 让 AI 视频更加真实精细,以及品味始终主导创作过程。完整问答见视频。
咨询公司贝恩使用 vibecoding 构建收购目标软件的 AI 复制品,帮助潜在买家评估其技术是否容易被复制。2023 年由专门工程团队开始,现已扩展至数百个由普通顾问构建的粗略原型。该做法已影响实际交易:一位私募股权投资者称,贝恩的 vibecoded 分析平台复制品直接促使其放弃竞标。贝恩全球私募业务负责人 Rebecca Burack 表示,vibecoding 如同从 2D 看到 3D,用以了解软件公司的实际能力及代码是否是真正的竞争护城河。
Counterpoint Research报告显示,支持生成式AI的机型2026年将占全球智能手机出货量的45%,高于2025年的36%,2027年预计达52%。受内存供应危机影响,2026年全球智能手机出货量预计同比锐减13.9%至10.8亿部,创历史新低。内存成本大幅上涨使低价手机市场收缩,高端市场扩大。运行AI模型需额外DRAM,AI手机批发价目前难以降至400美元以下。长期看,内存压力缓解和端侧模型效率提升将推动生成式AI下放至更亲民的价位。
阿易 AI Notes 用自我验证型 AI 工具 Apodex,拆解“白毛股神”关于 $SIVE 和 CPO 的投资叙事。核查发现五条核心声称中四条站不住:GB200 大量采用 CPO 为假(实际用铜缆);800V 转型与 GB200 同步不成立(GB200 用 54V);$SIVE 被夸大为“最纯受益标的”(近 70% 营收来自无线业务);技术壁垒最高查无实据。英伟达更倾向投资中游厂商。核查报告附 23 条一手来源。
作者在Berkeley观察到AI圈陷入“末日论”狂热,认为Anthropic等公司通过渲染AI急速发展、递归自我改进可能提前到来等恐慌来支撑估值,而非聚焦实际技术。相比之下,GLM-5.2博客展示了渐进改进的技术进步,该模型与Opus 4.8和GPT-5.5相当。作者称当前系统的估值建立在未来假设而非现实之上,并质疑这种通过末日叙事驱动泡沫的做法应被追究责任,呼吁反思如何构建可持续的经济与社会。
一项发表于《自然》的研究指出,AI虽能节省时间,但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示,引入AI工作流后,有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽,而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中:一项2026年随机研究发现,AI辅助虽帮开发者完成任务,但过度委派削弱了概念理解、代码阅读和调试能力。
2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。
2026年6月,Claude和GPT在Artificial Analysis智能排行榜上领先,但Claude推出ID验证促使作者重新评估。开放模型可通过本地或OpenRouter等第三方部署,虽存在隐私、成本与速度问题,但性能与顶级闭源模型仅差几个月,类似2008年Linux与Windows的差距但更小。作者认为转向开放模型的生产力损失是短期且可接受的,并非不可逾越的障碍。
皮尤研究中心最新报告显示,仅16%美国成年人预期AI在未来20年帮助社会,40%预期伤害。24%每天使用聊天机器人,51%从未使用。聊天机器人首要用途是搜索信息(42%),38%上班族用于工作,10%用于情感支持,4%用于陪伴。ChatGPT使用率最高(44%),其次Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)、Character.ai(3%)。30%称聊天机器人提升生产力,28%认为帮助了解信息。60%成年人阅读AI搜索摘要,表明AI正影响信息摄入。
过去企业招聘偏爱简历完美、面试回答高度结构化的候选人。如今生成式AI让求职者轻松做到这些,无论是否有真实能力。面试表现变得可无限扩展且几乎免费,这对招聘方构成严重问题。
欧洲2031场景分析警告,若不建立自主前沿AI能力将面临经济与战略脆弱。欧洲误读DeepSeek R1,以为小团队可替代算力,但推理模型有效且算力仍决定规模化。欧洲宣布€200亿InvestAI但分散数年,远不及美国超大规模厂商数据中心支出。美国AI算力17.3GW vs 欧洲1.4GW,导致芯片、实验和模型差距。欧洲人才流向硅谷,最强AI公司融资规模远逊美国。政策制定者因数据保护限制使用前沿工具,企业采用AI因碎片法规和保守管理滞后。主权采购政策在缺乏强大本土供应商时反削弱竞争力。低估推理访问战略瓶颈——美国未来可能限制算力供应。欧洲在ASML等半导体环节有杠杆但未转化为谈判筹码。
LLM 虽大幅降低自建成本,但未归零。以年薪 $200k 的工程师为例,团队花至少2周用 Claude 自建 Jira 替代品后,每月还需2小时维护,需37个月才能收回月费 $400 的购买成本。而像 Salesforce 每座 $500/月、50 座共 $25k/月,足以雇佣 1.5 名全职工程师自建,使自建更接近合理决策。因此存在一个“可行区域”:当软件足够复杂、LLM 重构不易且定价不过高时,购买仍优于自建。
@PeterDiamandis AI probably exceeds the sum of all human intelligence in 4 or 5 years
摩根士丹利开始向数据中心开发商推销杠杆贷款市场。继投资级债券、项目融资、私人信贷、高收益债之后,通常用于LBO的杠杆贷款也涌入AI基建。摩根士丹利预计2026年AI相关债务发行或超5700亿美元,截至5月底已达约2360亿美元,是去年同期的4倍。NYU教授Damodaran对比互联网泡沫指出,AI资本支出规模史无前例,且大量由债务而非股权融资,一旦调整,违约将蔓延至社会,风险远超股价暴跌。
dot-com bubble vs. a possible AI bubble. From the famous "Dean of Valuation", Professor Aswath Damodaran, of NYU Stern S...
Claude psychoanalyzing Dario is the AI slop I didn't know I needed.
UC Berkeley分析美国一所大型公立研究型大学超50万份成绩发现,自ChatGPT推出以来,写作和编程任务多的课程A等级比例跃升13个百分点,平均GPA上升0.12分。成绩涨幅主要来自家庭作业而非考试,口头展示类作业成绩未受影响,表明AI替代学生完成作业而非改善学习。研究建议重新设计作业格式。OpenAI CEO Sam Altman警告若不调整教育体系,批判性思维可能萎缩。挪威已在小学全面禁用AI。
一篇文章通过亚马逊搜索“100000 whys”后出现的约150本儿童书籍封面拼图指出,这些封面高度雷同——如几乎所有顶部封面左上角都有一只咆哮的恐龙,以及反复出现的红白火箭、金毛犬、狮子等图案——正是AI生成内容的典型产物。作者认为LLM写作的独特之处不在于个体风格与人类不同,而在于它们面对几乎任何普通提示词都会调用同一套复杂手法,导致输出呈现准确定性相似。这种模糊信号在随意场景中可凭直觉识别,且随着内容生产成本远低于消费成本,这种直觉愈发重要。
BestBlogs 第100期特刊《百篇回顾》发布,精选两年间AI领域100篇文章,梳理六条发展主线:一、模型从会回答到能干活;二、AI Coding实现变便宜、验证变贵;三、工程范式把隐性判断写成文字;四、Agent一套冷静的工程常识;五、产品商业从卖工具到卖结果;六、领袖思想答案变廉价、提问变值钱。提供阅读清单、24分钟播客和图文三种形式可选。
http://x.com/i/article/2068589784554250240
BestBlogs精选周刊发布第100期,回顾两年AI发展。作者认为每周信息虽碎,但整体脉络清晰:AI答案越来越便宜,提对问题、做对判断反而更值钱。从数百万篇内容中精选6000多篇,再从中挑出100篇,配上AI播客和图文,做成两年回顾导航图。
http://x.com/i/article/2068589784554250240
一个自学编程的人,用 Claude Code 破解了3500 年前克里特岛的 Linear A 文字🤯 过去三年我们一直在说 AI 会取代人类专家,Linear A 这个案例恰好反过来了,一个自学工程师用 Claude Code 写了几百行 Python,交叉比对两个公开数据库,输出了一套 408 词的词典,但他从头到尾没让 AI "自己判断",所有假设都是他提的,AI 只负责跑验证。 Tom 用的方法很朴素:
Cool way to use Claude Code: deciphering Linear A, a 3500 year old written language from Crete https://aiclambake.com/cl...
BestBlogs周刊第100期特刊回顾两年AI发展,核心洞察:答案变便宜,判断变贵。模型层:DeepSeek-V3(6700亿参数、每次激活370亿、训练成本约557万美元)和R1(纯强化学习推理开源)将效率与开源变成新范式。AI编程层:Codex案例中模型7小时迭代200轮测试仅改动500行代码,验证成为新瓶颈;Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器,人从写代码退到判断、验证和为结果负责的位置。
随着实现速度加快,审查AI生成代码成为新瓶颈。作者发现,即便遵循分阶段、小变更等良好实践,审查自己未亲手思考过的代码仍带来认知过载。他经常拒绝AI编码助手生成的全部代码并从头重写,理由包括:无法用自己的话解释其思路、diff大于问题本身、在未证明必要性前就引入抽象、本地能运行但让系统更难推理、信任输出超过理解。作者主张必须人工审查与AI审查结合,强调AI仍需优秀工程师引导才能产出可持续的解决方案。
25岁创业者徐子文(Ziwen Xu)启动自制《GTA6》项目GT-Caliber,使用Anthropic旗下Claude Max 20x大模型,配合多款AI智能体循环运行,实时收集社区需求并自动生成代码。开发首周先后从Godot引擎迁移至虚幻引擎,最终选定Unity。九天进展包括路人NPC自主行走、道路交通、武器系统及仿Instagram游戏手机,第七日生成洛杉矶风格居民区。项目开源托管于GitHub,无发行商支持。R星官方已公布《GTA6》预购6月25日开启,11月19日登陆PS5、Xbox Series X|S。
Levie now uses Salesforce 5x more than at any point before. The Box CEO @levie connected Salesforce's MCP server to Clau...
一位读者发现自己下意识更偏爱2022年及之前出版的书籍,尤其对不熟悉作者的近期作品会降低权重。他确信那些书中的每个字都经过人工输入、检查、编辑和校对,这种人力投入赋予书籍独特的价值感。尽管他经常使用大语言模型完成编程工作并认可其产出质量,但仍难以摆脱对人工创作努力的看重。他意识到这种心态可能类似前人担忧新技术“拉低社会水平”,但认为人类最终会适应并接纳这一新工具。
李飞飞与David Roger提出“哑铃效应”:文本智能成本趋零,劳动力向顶尖1%专家和高能动性通才两极坍缩,中间岗位萎缩。Tokenmaxxing三月潮起——OpenAI工程师周耗2100亿token,Claude Code重度用户月花15万美元;五月迅速退烧——Amazon关闭排行榜,Uber烧光2026年全年预算,微软将工程师迁回Copilot CLI。数据揭示Agentic coding token消耗是普通问答千倍,70%耗于探索与修复;写代码效率增180%,但传导到发布仅剩30%增量。Claude Code八种上下文注入机制为高能动性通才提供工程抓手。
NYU Stern商学院估值教授Aswath Damodaran指出,AI的10-15万亿美元可寻址市场如果成功实则“可怕”。原因在于:AI作为工具的市场远小于替代人类的市场;只有AI取代人类,才能实现这一规模。若成真,半数白领将失业,社会面临收入丧失和人生意义缺失。他在播客中还讨论了TAM陷阱、AI单位经济学、增长伴随再投资可能破坏价值,以及AI正将部分科技巨头从轻资产公司转变为基础设施公司等观点。
"Growth, when it's accompanied by huge amounts of reinvestment and substandard gross margins, might not just be neutral ...
dot-com bubble vs. a possible AI bubble. From the famous "Dean of Valuation", Professor Aswath Damodaran, of NYU Stern S...
旧金山营销公司 Qontour(原 Prompt Digital)盗用了 John Koenig 的畅销书《The Dictionary of Obscure Sorrows》全部文本,将其发布在新域名网站上,但把书中原本由 Koenig 等人创作的拼贴插图替换为 DALL‑E 2 生成的 AI 图像,并添加了“Submit A Sorrow”功能——用户描述感受后,OpenAI 的 GPT‑4 会自动生成新词、词源和定义。Koenig 本人否认参与,称对此毫不知情。Qontour 在页尾标注自己是“粉丝”,并声明不拥有网站素材的任何权利。
同一任务、同一 prompt、同一参考图下,GLM-5.2(价格 <$0.10)效果接近 Fable 5(约 $5)的九成,价格仅为后者五十分之一。作为最强开源模型,GLM-5.2 体积从 1.5TB 压缩 84% 至 238GB,可在 256GB Mac 本地运行,保留 82% 能力。当开源模型跨过“够好且便宜到随便用”的线,设计探索第一步的默认选项可能从 Fable 转向 GLM-5.2。
把 1.5TB 的模型剁掉 84% 的体积,塞进本地跑,还剩 82% 的功力, 这就是GLM-5.2,最强开源模型, 现在缩骨到了 238GB,256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了 技术博客:http://...
Google DeepMind内部员工爆料,实验室已陷入严重焦虑与不满。当前DeepMind在Artificial Analysis智能指数仅列第五,落后Anthropic、OpenAI及智谱AI。上一次重大模型更新是4个月前的Gemini 3.5 Flash,实际表现大多未超越2月的Gemini 3.1 Pro。原定6月30日发布的Gemini 3.5 Pro,内部共识认为“不是AGI竞赛所需的阶跃变化”。员工坦言在文本、图像、视频、语音、视觉领域均已失去前沿模型。关键人物Noam Shazeer选择离开,被指不会是最后一位出走的大牛。
🚨 SCOOP: After the release of Fable 5 and with GPT-5.6 looming, the mood behind the scenes at Google DeepMind is increa...
2022-2023年Meta的Llama架构还是干净的重复Transformer模块,如今LLM已复杂:多种注意力变体(查询分组、压缩、稀疏、线性、滑动窗口等)、混合专家从FFN扩张到注意力块和残差流、视觉/音频编码器从外挂变为融合、多GPU推理引入通信操作。Seb Raschka的架构图库可对比Llama 3与Nemotron 3 Ultra。PyTorch的FlexAttention通过Triton模板生成可组合注意力核。Andrej Karpathy加入Anthropic,强调架构可组合性与智能体自动研究循环的重要性。
New research: Is AI making employers view labor as more of a commodity? In a large online labor market, we find that pos...
*Another* apparently AI-generated story wins a literary prize, this time judged by a panel including the novelist Ruth O...