AIHOT

4月26日

07:20

IT之家（RSS）

56

Anthropic 搭建了一个 AI 智能体交易测试平台

Anthropic 公司搭建了一个名为“交易计划”的 AI 智能体交易测试平台，模拟二手市场由智能体代理买卖，使用真实货币结算。实验邀请 69 名员工参与，每人获得 100 美元预算，共达成 186 笔交易，总价值超过 4000 美元。测试发现，更高级的智能体能带来更优交易结果，但用户未察觉收益差距，暴露了智能体能力差异的潜在风险。此外，智能体的初始指令对成交概率和定价无显著影响。

智能体Anthropic安全/对齐论文/研究

06:22

Hacker News 热门（buzzing.cc 中文翻译）

54

人工智能行业正发现，公众其实很讨厌它

人工智能行业正面临日益增长的公众反感与信任危机。多项调查显示，公众对AI的负面情绪显著上升，例如皮尤研究中心数据表明多数美国成年人对此技术感到担忧。行业内部报告也承认，用户对AI产品的热情正在消退，实际使用率和满意度低于预期。这种情绪导致部分AI应用下载量下降，并促使科技公司调整策略，更强调“负责任AI”和透明度以挽回公众信任。

政策/监管现象/趋势

06:22

Hacker News 热门（buzzing.cc 中文翻译）

58

利用编程辅助工具，让那些你本打算放弃的项目重获新生

编程辅助工具能帮助开发者重启那些曾被搁置或放弃的软件项目。通过自动生成代码、提供重构建议和解释复杂逻辑，这些工具显著降低了继续开发旧项目的心理与技术门槛。实践表明，开发者利用此类工具可在数小时内恢复对陈旧代码库的理解，并实现新功能。这改变了“必须独立完成所有代码”的传统观念，强调以工具为杠杆提升生产力，让半成品项目有机会真正完成并产生价值。

智能体大佬观点编码

05:21

Hacker News 热门（buzzing.cc 中文翻译）

63

GPT-5.5 漏洞赏金计划

OpenAI针对GPT-5.5生物信息处理功能启动了漏洞赏金计划，旨在激励安全研究人员发现并报告系统在生物信息相关任务中可能存在的漏洞、偏见或有害输出。该计划覆盖文本生成、数据分析及预测模型等多个应用场景，重点关注可能引发实际生物安全风险或伦理问题的缺陷。根据漏洞严重程度，报告者最高可获得2万美元奖金。此举旨在通过社区协作提前识别风险，强化模型在敏感领域的可靠性与安全性。

OpenAI安全/对齐行业动态

关联讨论 3 条

03:51

Hacker News 热门（buzzing.cc 中文翻译）

50

人工智能的λ演算基准测试

研究人员发布了人工智能的λ演算基准测试，旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题，用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示，当前主流大语言模型在该基准上的表现差异显著，部分模型得分不足50分，凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。

推理论文/研究评测/基准

03:21

Hacker News 热门（buzzing.cc 中文翻译）

34

快速体验在 Firefox 上运行的 Mythos：是否被过度炒作了？

文章对在Firefox浏览器上运行的Mythos进行了快速体验评估，并对其市场热度提出质疑。Mythos作为一款备受关注的新应用或平台，此次在Firefox上的运行表现是评测重点。文中提及了实际体验中的具体变化或性能指标，但未详细列出核心数据。最终观点指向Mythos可能被过度炒作，其实际体验并未完全达到市场宣传的预期水平。

端侧评测/基准

02:19

Simon Willison 博客

36

AI图像模型的"自由发挥"：当鹈鹕骑自行车时，路牌在质问

用户@scottjla依据“鹈鹕骑自行车”测试框架，向ChatGPT Images 2.0模型提交了一个复杂提示，要求生成“马骑宇航员、宇航员骑鹈鹕、鹈鹕骑自行车”且保持平衡的混乱图像。模型生成的画面虽包含了这些核心元素，却自行添加了一个写有“WHY ARE YOU LIKE THIS”的路牌，以及披萨、罐头和牛仔帽等未在提示中要求的物件。这一案例揭示了当前文生图模型在理解与执行复杂指令时，可能自主引入带有超现实或评论性质的额外细节，反映了其创意逻辑与指令遵循之间的微妙偏差。

OpenAI图像生成教程/实践

4月25日

23:26

IT之家（RSS）

53

DeepSeek-V4-Pro 开启 API 限时 2.5 折优惠，活动持续至 5 月 6 日前

DeepSeek宣布为其旗舰模型DeepSeek-V4-Pro的API提供限时2.5折优惠，活动持续至2026年5月5日。调价后，输入价格（缓存命中）低至每百万tokens 0.25元，缓存未命中为3元，输出价格为6元。该模型采用混合专家架构，拥有1.6万亿总参数，支持百万级上下文。官方表示，受当前高端算力限制，服务吞吐有限，预计下半年昇腾950超节点批量上市后，Pro版本价格还将大幅下调。

DeepSeek行业动态部署/工程

23:26

IT之家（RSS）

36

我国科学家发布"灵境造物"智能科研工具，面向全球科研主体开放

中国科学技术大学在合肥发布“灵境造物”智能科研工具，面向全球科研人员、机构及企业开放。该系统基于昇腾、鲲鹏、华为云等全栈国产化软硬件生态构建，整合了科学大模型、科研机器人、自动计算与实验等能力，形成操作系统级入口。它依托千余台科研机器人和万余台智能工作站，深度整合千余个科研技能，旨在实现自主科研与物质创制，以破解传统科研成本高、周期长、转化难等痛点。此举标志着人工智能驱动的科学研究正向工程化、平台化与开放共享迈进。

产品更新开源生态部署/工程

23:26

Hacker News 热门（buzzing.cc 中文翻译）

56

开源内存层，让任何AI代理都能实现Claude.ai和ChatGPT的功能

开源项目Stash发布，为AI代理提供长期记忆与上下文管理能力。它通过独立存储和检索对话历史，使开发者无需依赖特定API即可为应用添加持久化记忆功能。该项目已在GitHub开源，并获Hacker News社区关注，降低了构建复杂AI代理的门槛。

智能体开源/仓库部署/工程

21:14

IT之家（RSS）

51

Momenta 一年间量产搭载量超 80 万台，BBA 齐聚"上车"

自动驾驶公司Momenta在2026北京车展披露，其智能驾驶方案搭载量过去一年从近30万台跃升至逾80万台，近期每新增10万台用时不到40天。公司已交付超70款量产车型，定点超200款。宝马新世代iX3、i3及7系搭载其L2级系统；奥迪E7X将首次应用其L3级技术；奔驰合作系统已搭载于纯电CLA，年内将落地9款新车型。此外，其Robotaxi服务已在上海运营，并与奔驰等在阿布扎比合作，与Uber、Grab的海外合作也在推进中。

具身智能端侧行业动态

21:14

IT之家（RSS）

38

"华为眼镜"App 鸿蒙版 1.0.1.356 更新推送，新增小艺看世界、自动开机等，支持 4：3 比例录制视频

“华为眼镜”App鸿蒙版推送1.0.1.356更新，新增多项功能。主要更新包括：在应用首页新增“小艺看世界”功能入口；应用设置中增加定制开关机功能，支持眼镜清晨自动唤醒；相机设置新增4:3视频比例选项，以扩大纵向录像视野；新增手表协同功能，可通过手表遥控眼镜拍照。该App配套的华为AI眼镜已于近日发布，起售价为2499元。

产品更新多模态端侧

21:11

Simon Willison 博客

51

引用 Romain Huet 的推文

OpenAI 的 Romain Huet 确认，公司将不会发布独立的 GPT-5.5-Codex 模型。自 GPT-5.4 起，Codex 已与主模型统一为一个单一系统，不再有独立的代码生成模型线。GPT-5.5 在此基础上更进一步，在智能体编码、计算机使用以及任何在计算机上执行的任务方面都取得了显著的能力提升。

OpenAI编码行业动态

关联讨论 7 条

20:47

The Decoder：AI News（RSS）

47

Qwen3.6-27B 在多数编程基准测试中击败了规模大得多的前代模型

阿里巴巴新发布的开源模型 Qwen3.6-27B 在多项编程基准测试中超越了其前代模型。该模型仅拥有 270 亿参数，而其前代模型的参数量是其 15 倍。这一结果表明，模型在代码能力上实现了显著的效率提升，以更小的规模取得了更优的性能。

开源生态模型发布编码

关联讨论 2 条

20:47

The Decoder：AI News（RSS）

60

美联储研究：自 ChatGPT 发布以来，美国程序员岗位增长近乎减半

美联储的一项新研究显示，自 ChatGPT 发布以来，美国程序员岗位的增长速度已近乎减半。生成式 AI 显著改变了程序员等专业群体的日常工作，这种影响现已体现在就业数据上。研究指出，程序员是受生成式 AI 影响最深的职业群体之一，其就业增长放缓是这一技术变革的直接反映。

现象/趋势行业动态

关联讨论 1 条

20:42

Hacker News 热门（buzzing.cc 中文翻译）

46

Show HN：由您的代理维护的卡帕西风格大语言模型维基（支持 Markdown 和 Git）

项目“Wuphf”是一个受卡帕西风格启发的大语言模型维基系统，支持Markdown格式和Git版本控制。其核心特点是可由用户设定的AI代理自动维护和更新内容，实现了知识库的持续自主管理。该项目已在GitHub开源，并在Hacker News上获得了100点热度。

智能体开源/仓库部署/工程

20:14

IT之家（RSS）

35

中紫星 NEU 智能原生芯片 Q4 流片：速度达顶级 GPU 百倍，且功耗降低九成

上海中紫星公司研发的智能原生芯片NEU将于今年第四季度流片。该芯片采用以存储为中心的创新设计，避免了传统架构中数据频繁搬运的能耗与带宽瓶颈，并直接在硬件拓扑上支持神经网络连接。实测数据显示，NEU在执行同等AI推理任务时，速度可达顶级GPU方案的近100倍，同时能耗降低90%。公司创始人翟四通拥有海思EDA框架建设背景，团队汇聚了来自英特尔、英伟达等企业的跨学科人才，实现了从架构到编译器的全体系自研。

行业动态部署/工程

20:12

Hacker News 热门（buzzing.cc 中文翻译）

49

不同的语言模型学习到的数字表示形式相似

一项研究发现，不同架构和规模的语言模型在学习过程中，其内部对数字的表示形式高度相似。研究通过分析多种模型发现，数字的向量表征在潜在空间中呈现出清晰的线性顺序和等距间隔，这与数字本身的大小顺序一致。这一现象表明，语言模型可能通过类似机制捕捉数字的抽象概念，揭示了其内部表示的一种普遍规律。

数据/训练论文/研究

关联讨论 1 条

19:14

IT之家（RSS）

36

破局 1.6T 量产瓶颈：万里眼 65GHz 采样示波器正式发布

在2026九峰山论坛上，新凯来旗下万里眼公司发布了65GHz采样示波器，旨在破解1.6T高速光模块的量产测试瓶颈。该产品面向AI算力驱动下光互连技术向1.6T演进的需求，实现了三大突破：500kHz采样率将测试效率提升100%；65GHz带宽支持单波200G测量，为1.6T通信奠定基础；12μW超低光功率噪声保障了高精度生产。此举贯通了1.6T研发与量产的全流程测试。

产品更新部署/工程

18:47

The Decoder：AI News（RSS）

65

Anthropic 称更强的 AI 模型能达成更优交易，而失败者甚至毫无察觉

Anthropic 进行了一项内部实验，让 69 个 AI 代理在员工内部市场中代表人类进行为期一周的交易。结果显示，性能更强的 AI 模型能为自己代理的用户争取到更有利的交易条件，而使用较弱 AI 代理的员工则完全未察觉到自身处于劣势。这一发现警示，若未来 AI 模型开始广泛代理人类进行真实交易，此类“强者愈强”的动态可能会加剧现有的经济不平等。

智能体Anthropic安全/对齐论文/研究

关联讨论 1 条

18:17

Hacker News：AI 热帖

60

展示 HN：一个由智能体维护的 Karpathy 风格 LLM 维基（基于 Markdown 和 Git）

WUPHF 是一个为 AI 员工设计的协作办公平台，通过一个命令即可启动，在本地提供 Web 界面。它将不同角色的 AI 智能体置于一个共享的虚拟办公室中，使其可见、可争论并协作完成任务。平台为每个智能体提供私人笔记，团队共享一个基于 Markdown 和 Git 的本地维基，智能体可自主将可靠信息同步至团队知识库。项目目前处于 1.0 版本前的预发布阶段，默认使用 Claude Code，支持通过命令行参数灵活配置。

智能体MCP/工具产品更新开源/仓库

18:14

IT之家（RSS）

41

元戎启行宣布已有超 30 万辆汽车搭载其高级驾驶辅助系统，预计今年新增 100 万辆

在2026北京车展上，元戎启行宣布其高级辅助驾驶系统已在国内超30万辆汽车上搭载，预计今年将新增100万辆。公司已与长城、吉利、Smart等品牌超过15款车型合作，覆盖15万至30万元主流价格区间。技术层面，公司已全面转向大模型自动驾驶路线，多模态大模型能力在2026年初取得突破，目标是实现千公里级MPCI。此外，公司正从多个小模型转向统一基座大模型架构，并将模型单次迭代周期从100余小时压缩至10余小时。

具身智能行业动态部署/工程

18:14

IT之家（RSS）

30

安卓首发：荣耀 YOYO 率先接入 DeepSeek-V4 大模型

荣耀YOYO成为安卓阵营中首个接入DeepSeek-V4大模型的AI智能体。此次接入带来三大核心升级：模型性能更强、上下文处理长度更长、推理效率更高。用户需将YOYO智能体升级至90.10.28.041及以上版本，并在MagicOS 8.0及以上系统环境中即可抢先体验此次更新。

DeepSeek产品更新端侧

17:42

Hacker News 热门（buzzing.cc 中文翻译）

58

Show HN：浏览器框架--赋予大型语言模型（LLM）自由完成任何浏览器任务的能力

开源项目“Browser Harness”发布，旨在赋予大型语言模型（LLM）在浏览器中自主完成任意任务的能力。该工具通过提供一个可编程的浏览器控制框架，使LLM能够像人类一样操作网页，执行点击、输入、导航等复杂交互。此举有望突破当前AI代理在自动化网络操作方面的限制，扩展LLM的实际应用场景。该项目已在GitHub开源，并在Hacker News社区获得100点热度关注。

智能体MCP/工具开源/仓库

17:17

The Decoder：AI News（RSS）

56

The UAE wants half its government run by autonomous AI agents within two years

阿联酋计划在两年内将其一半的政府运营转变为自主人工智能系统管理。这一雄心勃勃的目标旨在通过部署自主AI代理来大幅提升政府效率和公共服务水平，标志着国家治理向高度自动化转型的关键一步。

智能体政策/监管行业动态

17:14

IT之家（RSS）

53

大量 AI 音乐涌入 Apple Music 平台，但播放量几乎为零

苹果Apple Music副总裁透露，平台新提交曲目中超过三分之一为完全AI生成，但这些AI音乐的实际播放量占比不到0.5%，几乎为零。为维护平台音乐完整性，苹果已研发内部技术用于识别AI生成内容，并能分析AI模型使用程度。同时，公司要求唱片公司和发行商披露歌曲中的AI使用情况，并通过内部系统验证披露信息的真实性。苹果强调其坚持付费模式，以保障艺术家收益和价格一致性。

现象/趋势行业动态

17:14

IT之家（RSS）

51

阿联酋未来两年 50% 政府事务将由 Agentic AI 驱动

阿联酋总统穆罕默德·本·扎耶德宣布，该国计划在未来两年内将50%的政府部门、服务和运营转变为由Agentic AI驱动。此举将使阿联酋成为全球首个大规模应用此类AI处理政府事务的国家。Agentic AI是一种能够独立执行任务、管理流程并支持决策的自主人工智能系统。为实现这一目标，政府将对各部长、干事及联邦机构进行评估，考察其AI实施进度，并为所有政府雇员提供AI知识培训，以推动整体政府转型。

智能体政策/监管行业动态

关联讨论 1 条

16:46

The Decoder：AI News（RSS）

精选71

Google 向 ChatGPT 竞争对手 Anthropic 投入高达 400 亿美元

Google 计划向人工智能公司 Anthropic 投资高达 400 亿美元。Anthropic 是聊天机器人 Claude 的开发商，被视为 ChatGPT 的主要竞争对手。加上亚马逊此前承诺的 250 亿美元投资，这意味着在短短几周内，Anthropic 将获得高达 650 亿美元的巨额资金注入。这笔投资将极大增强 Anthropic 在 AI 领域的研发与竞争实力。

AnthropicGoogle现象/趋势行业动态

关联讨论 4 条

推荐理由：Google 和 Amazon 两周内砸 650 亿美元给 Anthropic，这个量级意味着 Claude 不再是挑战者而是被资本选中的正统，做 AI 产品的人该重新评估押注哪家 API 了。

16:14

IT之家（RSS）

16

Yeelight 智能雷达人在护眼吸顶灯 RadarSense 现身，众筹价 269 元起

Yeelight智能雷达人在护眼吸顶灯RadarSense已在小米平台开启众筹，起售价269元。该产品主打毫米波雷达人在感应技术，通过AI算法识别10米范围内人体的动静状态，实现无感自动开关灯，并能有效减少误触发。其采用双蓝光豁免级技术，显色指数高达Ra99，同时降低有害蓝光且无可见频闪。灯具内置160W恒流驱动电源，支持亮度自由调节，并已接入米家App，兼容超级小爱、遥控器及墙壁开关控制。

产品更新其他

16:14

IT之家（RSS）

63

英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

英伟达宣布其Blackwell平台已适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。DeepSeek-V4-Pro拥有1.6T总参数量与49B激活参数，定位高级推理；DeepSeek-V4-Flash则为284B总参数量与13B激活参数，主打高效场景。两款模型均支持100万Token上下文窗口与最高38.4万Token输出长度。实测显示，DeepSeek-V4-Pro在NVIDIA GB200 NVL72上开箱性能超过150 tokens/sec/user。开发者可通过NVIDIA NIM微服务下载部署，或利用SGLang与vLLM框架进行定制化推理，vLLM支持扩展至100个以上GPU。

DeepSeek产品更新开源生态部署/工程

关联讨论 3 条

15:42

Hacker News 热门（buzzing.cc 中文翻译）

42

我还能属于科技圈吗？

一篇来自个人博客的文章《我还能属于科技圈吗？》在Hacker News上获得102点热度，反映了科技从业者对行业快速变化的普遍焦虑。文章核心探讨了在人工智能等技术浪潮冲击下，个体开发者产生的职业倦怠与身份认同危机。作者通过个人经历，质疑在技术迭代日益加速的背景下，传统技能与职业路径是否依然有效，并引发了对科技圈包容性与可持续性的思考。

大佬观点现象/趋势

15:14

IT之家（RSS）

57

OpenAI 奥尔特曼就未通报枪击案嫌疑人道歉，承认安全流程存在漏洞

OpenAI CEO奥尔特曼致信加拿大坦布勒里奇镇，为未及时向警方通报枪击案嫌疑人活动记录正式道歉。2026年2月，18岁嫌疑人制造的枪击案导致8人死亡。此前在2025年6月，OpenAI系统曾标记并封禁其涉及暴力描述的ChatGPT账户，虽有员工建议联系执法部门，但公司高层未采取行动。悲剧后，OpenAI发现嫌疑人还持有第二个账户。奥尔特曼承诺防止事件重演，公司已加强安全协议，未来类似情况将把信息移交执法部门。

OpenAI安全/对齐行业动态

14:42

Hacker News 热门（buzzing.cc 中文翻译）

43

将 IBM Quantum 后端替换为 /dev/urandom

一个GitHub项目演示了将IBM Quantum量子计算后端替换为Linux系统的伪随机数生成器/dev/urandom。实验表明，使用经典随机源替代后，在特定量子线路模拟任务中仍能产生与量子后端相似的输出结果，其保真度达到约0.5。该项目以讽刺手法质疑当前某些量子计算演示的实际效用，暗示其可能并未展现出超越经典随机过程的明显优势。

安全/对齐开源/仓库现象/趋势

13:11

Simon Willison 博客

精选70

GPT-5.5 提示指南

OpenAI 针对新发布的 GPT-5.5 API 模型发布了详细的提示指南。核心建议包括：在处理多步骤任务时，应在调用工具前先向用户发送简短的状态更新，以提升交互体验。官方强调 GPT-5.5 应被视为一个需要重新调优的新模型系列，而非 GPT-5.2 或 GPT-5.4 的直接替代品，建议从零开始构建提示，而非沿用旧有提示。开发者可通过 `openai-docs` 技能使用 `$openai-docs migrate this project to gpt-5.5` 命令来辅助代码迁移，官方升级指南中还包含了轻量的提示词改写建议。

OpenAI教程/实践

关联讨论 1 条

推荐理由：OpenAI 官方明确说 GPT-5.5 不能当 drop-in replacement，prompt 要从零重写。做产品的人别偷懒直接换模型名，先读这份指南再动手，省得上线翻车。

08:00

HuggingFace Daily Papers（社区热门论文）

45

OceanPile：面向基础模型的大规模多模态海洋语料库

为突破海洋人工智能面临的数据瓶颈，研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据，构建了统一集合OceanCorpus；通过分层海洋知识图谱引导，生成了高质量指令数据集OceanInstruction；并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明，基于该数据训练的模型性能显著提升。全部数据集已开源，旨在推动海洋专用多模态大模型的发展。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

AnalogRetriever：用于模拟电路检索的跨模态表征学习框架

针对模拟电路设计中跨SPICE网表、原理图和功能描述等异构表示检索的难题，本研究提出了统一的三模态检索框架AnalogRetriever。该工作基于Masala-CHAI构建高质量数据集，并通过两阶段修复流程将网表编译率提升至100%。框架采用视觉语言模型编码原理图和描述，使用端口感知关系图卷积网络编码网表，并通过课程对比学习将三者映射到共享嵌入空间。实验表明，其在所有六个跨模态检索方向上的平均Recall@1达到75.2%，显著优于基线。集成至AnalogCoder智能体框架后，能持续提升功能通过率并完成此前无法解决的任务。代码与数据集将开源。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

42

非独立同分布联邦学习中结合自适应量化与差分隐私的通信与隐私增强方法

本研究针对联邦学习中的通信瓶颈与隐私风险，提出一种结合拉普拉斯差分隐私与自适应量化的方法。该方法采用基于轮次的余弦退火策略进行全局比特调度，并依据客户端数据集熵动态分配量化比特数。在CIFAR10、MNIST及医学影像数据集上的实验表明，相比32位浮点训练，该方法在保持模型精度的同时，将通信数据总量最高减少了52.64%（MNIST）、45.06%（CIFAR10）以及31%至37%（医学影像数据集），并通过差分隐私机制提供了严格的隐私保护。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

61

V-GRPO：用于生成模型去噪的在线强化学习比想象中更简单

研究团队提出V-GRPO方法，通过将基于证据下界的似然替代函数与GRPO算法结合，解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长，在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT，V-GRPO分别带来2倍和3倍的加速效果，同时保持训练稳定性并与预训练目标自然对齐。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

IndustryAssetEQA：面向工业资产维护的具身问答神经符号操作智能系统

工业维护中，AI助手常因解释泛化、缺乏遥测基础而影响信任。为此，研究团队推出IndustryAssetEQA，该系统结合事件遥测表征与故障模式影响分析知识图谱，实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示，相比纯大语言模型基线，其结构有效性最高提升0.51，反事实准确性最高提升0.47，解释蕴涵度提升0.64，并将专家评定的严重过度断言从28%降至2%（降幅约93%）。相关代码、数据集及知识图谱已开源。

检索增强具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

从1比特危险信号中发现智能体安全规范

研究提出EPO-Safe框架，探索大语言模型智能体能否仅凭经验发现隐藏安全目标。该框架让智能体迭代生成计划，接收稀疏的二进制危险警告，并通过反思演化出自然语言行为规范。实验在五个AI安全网格世界及其文本场景中进行，结果显示仅需1-2轮（5-15回合）即可发现安全行为，并生成可解释危险假设的人类可读规范。关键发现是，仅基于奖励的标准反思会主动损害安全，加速“奖励破解”，因此反思必须与专用安全通道结合。即使在50%非危险步骤出现虚假警告的噪声环境下，平均安全性能仅下降约15%，跨回合反思能自然过滤不一致信号。最终演化出的规范是一套可通过交互自主发现、可审计的行为规则集。

智能体安全/对齐论文/研究