OpenAI 发布新报告,分析 AI 对欧盟就业的影响,划定哪些职业面临自动化、增长或工作流程变化。
OpenAI 发布新报告,分析 AI 对欧盟就业的影响,划定哪些职业面临自动化、增长或工作流程变化。
一项新研究(arXiv: 2606.21880)表明,AI正在将部分自由职业市场变成价格竞赛,高技能简历的优势被削弱。在ChatGPT出现后,AI暴露程度最高的职业中,人力资本信号(经验、声誉)的重要性下降了约7.8%,而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势,需求向更便宜的工人转移,表明AI使这些工作者显得更可互换。
一项新研究指出,基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现,此类平台指标往往高估计算机与办公室工作,低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后,估计的就业影响缩水42%至93%,部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI?平台选择与职业AI暴露的测量》。
基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。高中和大学生用时减少,低年级变化不大;监考下时间缩短消失,说明加速非源于能力提升。后续监考保留题显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。
Anthropic 发布 Economic Index 报告,基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%,周末升至近 50%;高薪职业在工作日外的使用占比更高。日内模式显示:新闻请求集中在早上 7 点,食谱在下午 6 点达到 2.3 倍高频,睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现:使用 Claude 最自动化的用户预计 AI 明年将承担更多任务,但对薪资、工作安全及工作意义的预期最为乐观。
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。
皮尤研究中心最新报告显示,仅16%美国成年人预期AI在未来20年帮助社会,40%预期伤害。24%每天使用聊天机器人,51%从未使用。聊天机器人首要用途是搜索信息(42%),38%上班族用于工作,10%用于情感支持,4%用于陪伴。ChatGPT使用率最高(44%),其次Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)、Character.ai(3%)。30%称聊天机器人提升生产力,28%认为帮助了解信息。60%成年人阅读AI搜索摘要,表明AI正影响信息摄入。
MIT、Stanford、New York Univ、Princeton 联合论文发现,AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效,但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者,在算术、拼写、记忆和短文改写任务中,用户实际使用 AI 的比例高于其预测,且平均预期节省 55.7 秒,实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦:写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后,用户会更倾向再次使用 AI,即使自己完成更快。研究指出,AI 使用会自我强化,导致用户逐渐丧失对“何时自己更快”的判断力。论文链接:arxiv.org/abs/2605.22687。
过去十年,人类级通用人工智能从遥远猜测变为多家机构的下个十年目标。这份报告探讨后AGI世界中AI沿机器智能连续体的发展,重点是从人类级AGI到通用超智能(ASI)的过渡。ASI被定义为比人类大型组织更智能的系统。报告描述了四条潜在路径:扩展AGI、AI范式转变、递归改进及大规模多智能体集体涌现,并分析了路径上的摩擦与瓶颈。由于预测ASI进展存在巨大不确定性,不能排除AI发展持续加速的可能,社会面临的或是一系列由AI驱动的科技连锁变革,需全球跨学科努力应对。
图语言模型将图拓扑与节点信息转化为图token供大语言模型处理。研究发现图token的内部显著性不等于图信息利用:图沉没token表现为少数隐藏维度的激活异常值,且偏向早期图token位置,但并未吸引查询token的最大注意力权重。剪枝、重定位和交换实验表明,这类token并非关键语义或结构token。这表明当前GLM映射后的图token表示未形成可用的拓扑感知内部表示,存在激活显著性与图语义效用之间的解耦。
Anthropic的一项研究发现,在社会科学领域,通常男性名字的研究者使用AI编程智能体的频率,超过通常女性名字研究者的两倍。数据显示,经济学家中有39%使用编程智能体,而教育研究者中这一比例仅为4%。这一性别差距在编程智能体的使用上,远比在一般AI使用中更为显著。
Growth in data centers-driven in part by rising AI demand-boosts local employment, wages, income, and house prices, whil...
英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示,自ChatGPT推出至2025年中,全球互联网约35%的新增内容带有AI生成痕迹,占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象,其语义相似度比人工内容高33%,正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前,生成式AI主要影响了文字多样性和情绪表达,对信息可信度的冲击尚未明确证实。
针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。
🚀 Our new preprint is out: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond It also reached #1 on Hu...
一项基于互联网档案馆网站的大规模分析显示,AI生成的文本已大量充斥网络。研究发现,AI文本的实际影响与公众预期不同,它正使网络内容变得更加同质化,并呈现出一种异常的欢快基调。Cloudflare的分析指出,Bytespider、Amazonbot和ClaudeBot已成为网络上最活跃的AI爬虫之一,但许多公司会隐藏其AI爬虫活动。
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。
研究分析了100个模型(包括医疗和法律领域广泛部署的微调模型),发现常规微调会导致模型安全性能出现显著、异质且常相互矛盾的变化。模型在某些安全评测上提升的同时,在其他评测上明显退化,且不同评测工具结论分歧巨大。这表明基础模型的安全属性无法在下游适配中稳定保持,当前依赖基座模型评估的治理与部署模式存在严重局限。若不在部署相关场景中显式重新评估微调模型,将无法有效管控下游风险,这种缺陷在高风险领域尤为突出,并对现行问责范式构成挑战。
随着公平与负责任人工智能相关立法推进,推荐系统公平性评估日益重要,但现有众多离线公平性指标缺乏稳健性分析,其局限性未被充分认知。研究系统评估了基于用户与物品、群体与个体等不同维度的公平性指标,通过理论与实证分析揭示了其在可解释性、表达力与适用性上的缺陷。针对这些不足,研究提出了新的评估方法与改进指标,并制定了实际场景中公平性指标的选择指南,推动推荐系统公平性离线评估领域的发展。
一项针对500家公司开发者使用Cursor的八个月研究发现,在Opus 4.5和GPT-5.2等先进模型发布后,人均周AI使用量增长44%。开发者初期用更强模型完成更多同复杂度任务,4-6周后开始转向更高复杂度工作,高复杂度任务量激增68%,远超低复杂度任务的22%。媒体广告、软件工具和金融科技行业增长最为显著。任务分布呈现结构性变化:文档编写、架构设计等管理性任务增长超50%,而UI设计等独立任务仅增15%,表明开发者角色正从代码生成转向代码库管理。研究揭示了类似杰文斯悖论的效应——AI效率提升反而刺激了总需求,并可能创造新的经济活动空间。
OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告,这是迄今最大规模的实证研究,旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据,揭示了模型选择、部署模式、成本效益等关键趋势,为行业提供了一份来自前沿实践的全景式参考。