腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如
腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如
一项新研究(arXiv: 2606.21880)表明,AI正在将部分自由职业市场变成价格竞赛,高技能简历的优势被削弱。在ChatGPT出现后,AI暴露程度最高的职业中,人力资本信号(经验、声誉)的重要性下降了约7.8%,而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势,需求向更便宜的工人转移,表明AI使这些工作者显得更可互换。
一项新研究指出,基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现,此类平台指标往往高估计算机与办公室工作,低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后,估计的就业影响缩水42%至93%,部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI?平台选择与职业AI暴露的测量》。
文章引用《心灵捕手》中罗宾·威廉姆斯饰演的Sean对Will的经典独白,指出面对AI生成的垃圾内容、海量建议与网络噪音,最好的回应不是更多信息,而是真实的个人体验与情感联结。Sean用艺术、战争、爱情、失去等话题质问Will,强调二手知识无法替代亲身经历。作者认为这段台词完美概括了AI slop问题的本质——信息堆砌不等于真正理解。
OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%(Ultra 模式 91.9%),领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%;GeneBench v1 以更少输出 tokens 获更强结果,ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格:Sol 输入 $5/百万 tokens、输出 $30,缓存读取九折。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
Anthropic对约9700名Claude用户的调研显示,33%受访者认为AI可完成自身30%至60%工作任务,14%认为比例为60%至90%,约4%称Claude能独立完成全部工作。展望未来12个月,26%用户预计AI将接手大部分工作。Claude Artifacts功能中,使用最多的场景是数据库查询(82%)、博客/文章创作(81%)和营销文案撰写(80%)。调研还发现,职场新人交由AI处理的任务占比最高且焦虑感最强,而Claude重度使用者则更乐观,认为自身价值在提升。
J.P. Morgan报告显示,中国AI模型每token比美国便宜50倍,Qwen、DeepSeek、Kimi施压OpenAI和Anthropic定价。到2026年4月,中国公司在OpenRouter流量占比将从不足2%升至超45%。报告还指出企业AI token将商品化,多数任务无需前沿模型;AI已驱动标普500回报的65%-80%;NVIDIA仍主导AI加速器,但定制芯片可降总成本30%-40%;中国GPU自给率提升。UBS调查发现,60%监控AI预算的企业已转向更便宜模型,通过模型路由将简单任务分流至Qwen、DeepSeek、MiniMax等开源模型,以应对最高$35K/月账单及团队超配额200%的压力。
UBS says 60% of companies now watching AI budgets are moving to cheaper models and open-source Chinese models The pressu...
Anthropic 今年 4 月发布 Claude Mythos Preview 及安全增强版 Fable 5,通过 Project Glasswing 向 50 家(后扩至 150 家)组织开放。英国政府 AI 安全研究所评估显示,Mythos 首次在“专家级任务”和完整攻击链测试“The Last One”中成功。但实际提升有限:GPT‑5.4 和 Opus 4.6 在同类基准中差距不大。Mythos 可发现老旧漏洞(如 27 年历史的 OpenBSD 漏洞、16 年历史的 FFmpeg 漏洞),但单次漏洞探测成本约 2 万美元,Project Glasswing 总 token 预算达 1 亿美元。在自托管类别中,Gemma 4 和 Qwen 3.6 能发现约半数 Mythos 检出的漏洞,但无法制作有效利用。美国随后禁止非美国公民使用 Fable/Mythos。
OpenAI倾向于推迟IPO至明年,因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%,Nvidia近一月跌超8%,Oracle跌22%,CoreWeave跌4%,Microsoft跌10%,SoftBank跌12%,Cerebras跌32%。美国AI政策混乱遭广泛批评,中国模型快速崛起。作者认为大语言模型正商品化。
基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。高中和大学生用时减少,低年级变化不大;监考下时间缩短消失,说明加速非源于能力提升。后续监考保留题显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。
Anthropic 发布 Fable 三天后,美国政府要求限制非美公民访问,模型被撤下。一个月后 OpenAI GPT-5.6 准备就绪,Sam Altman 因政府压力延迟发布,仅向可信伙伴开放。研究员称 GPT-5.6 编程极强,官方博文侧重安全。Box CEO 指出已形成事实监管:达到特定算力规模的模型发布前需政府审查。OpenAI 推迟 IPO 至 2027 年。Anthropic CEO 被指用恐惧营销游说监管获得保护。中国未减速,差距缩小。开源实验室落后。
医疗AI常被简化为“模型答题准确率”的竞争,但真正的难点在于进入实际工作流——包括医生自然语言处理、病历结构化、患者上下文理解、支付方对接、院内系统集成以及审计责任。产品壁垒最终大概率不是一个 chatbox,而是与医疗场景的深度融合。
Anthropic 对约 9700 名 Claude 用户的调研显示,33% 的用户认为 AI 可用于 30% 至 60% 的任务,14% 认为可用于 60% 至 90%,约 4% 相信 Claude 能完成自己全部工作。展望 12 个月后,约 26% 的用户预期 AI 将接管大部分工作。在 Claude 的 Artifacts 功能中,最高频交付场景是营销内容(80%)、博客/文章写作(81%)和数据库查询(82%)。早期职业者感知到最高的 AI 可执行任务比例并最担忧工作,而重度 Claude 用户则最乐观。多数受访者希望与 AI 协作而不是被替代。
Conno Christou被诊断出罕见非霍奇金淋巴瘤,肿瘤约11×11×8厘米。两位肿瘤专家给出不同化疗方案,较轻方案成功率约60%,较重方案约85%。他收集12位专家意见后选择后者。治疗期间,他用Whoop监测身体,并将血液结果、扫描数据、可穿戴设备输出和日志输入Claude,借助其分析辅助决策。治疗后PET扫描结果模糊,Claude指出该类型淋巴瘤治疗结束后的PET假阳性率约60%,并判断胸腺反弹概率约90%。第四位医生确认无需放疗,他最终痊愈。
J.P. Morgan警告AI相关市场出现投资者亢奋迹象。自ChatGPT推出后,标普500中仅42家AI公司贡献了指数约65%至80%的利润、收入与投资。半导体涨势呈现类似互联网泡沫的技术形态,杠杆芯片ETF对全球股市影响力自2024年初增长五倍。美国十大股票占标普500市值约40%,2015年仅17%。Nvidia在AI加速器市场份额预计从2023年85%降至2026年75%,云厂商定制芯片(如Google TPU、Amazon Trainium)运营成本较Nvidia GPU低30-40%。中国开源模型以极低成本逼近顶尖性能。AI实验室收入增长迅速但算力成本高昂,未来盈利不明。J.P. Morgan认为AI在多个层面形成集中风险。
Apple is reportedly lobbying the Trump administration to let it buy memory chips from CXMT, a Chinese chipmaker on the P...
美国企业面临 AI 账单失控,开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型,每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示,本月初已将 100% 流量切换到 DeepSeek,预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”,不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入,待证明投资回报率后再继续。
物理AI的门槛已被大幅降低。SO-ARM101 ACT控制策略可直接在浏览器中运行仿真,无需购买任何硬件。此前接触物理AI至少需要数千元的机械臂入门设备,现在只需打开网页即可上手调参并观察效果。这种门槛的下沉速度意味着,当人们能以零成本接触前沿方案时,该领域的迭代速度将远超预期。
作者在垃圾箱发现一封LLM API中转站的合作邮件,网站首页声称提供「Claude Fable 5」模型。作者用邀请码注册后,通过Codex调用该模型,居然成功返回结果。作者质疑该站是背景过硬还是虚假宣传。
一项针对600+招聘人员的GMAC调查显示,1/3雇主正用AI替代入门级工作。科技行业受冲击最大(40%),制造业紧随其后。GMAC指出,雇主越来越多地使用AI自动化编码、数据处理和客服等常规任务。MBA毕业生也未能幸免:仅13%的雇主称2025年雇佣了更多MBA毕业生,预计起薪中位数从$125,000降至$120,000。
数学研究者探讨AI对数学领域的影响,认为AI可能带来人机协作的“大数学”时代。加州大学洛杉矶分校的陶哲轩指出,人类与机器可共同攻克复杂问题。卡内基梅隆大学的Jeremy Avigad强调,数学家从长期思考中获得理解之美与成就感,这种驱动力并未因AI而改变。文章回顾了纯数学博士多年钻研抽象问题的经历,提出AI虽能加速计算,但数学研究的本质——探索与理解——依然由人主导。
Anthropic官方公告称,自6月12日起与美国政府合作后,最强网络安全模型Mythos 5已获准重新部署,仅限运营和防御关键基础设施的美国组织使用;普通人可用的Fable 5仍需等待政府审批。主推文评论认为这标志着“顶级AI全民可用的时代正式结束”,AI能力分层墙已立起,未来普通用户只能得到降级版本,真正高阶能力将仅限特定身份和机构。
Since June 12, we've been working closely with the US government to restore access to Claude Mythos 5 and Fable 5. Today...
This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue over 12 months, afte...
在Artificial Analysis Intelligence Index上,开源LLM与闭源LLM的性能差距自2024年夏季开始持续缩小,线性外推预测到2026年12月3日差距降为零。但在全部18个不同基准上的平均差距几乎恒定,保持在不到5个月。编码基准的差距从15个月缩小至1-2个月,多数其他基准差距反而略有扩大。这一分析表明,LLM质量评测的单一基准可能误导结论,整体差距并未显著缩小。
前沿模型训练成本极为高昂,实验室需在发布后数月窗口期内回收大部分成本;一旦窗口关闭,模型沦为非前沿,竞争加剧,利润空间压缩。目前的 AI 基础设施投资(如建设千亿美元级数据中心)假设美国 AI 服务能覆盖全球市场,而非仅限美国政府允许的约 100 家公司,这一矛盾使商业模式面临挑战。
Anthropic发布“Cadences”报告,分析近1万名Claude用户的匿名对话。个人提示词周末从35%升至近50%;食谱请求下午6点达峰值(平均值2.3倍);新闻早7点峰值;商务邮件集中在10-11点;睡眠建议凌晨3-5点;美国税务请求在申报截止日前飙升8倍后骤降。周末Claude Code工作从后端转向AI agent设计、量化交易和游戏。93%对话产生清晰输出,最常见为解释(17%)、文档/报告(15%)和指导(11%)。高薪职业对话所用token数是低薪职业的约2.07倍。
This doesn't sound good, friends. It doesn't sound good at all.