AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 18 条
全部一手资讯X论文
标签「DeepMind」清除
6月19日周五
02:23The Decoder:AI News(RSS)63Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权
6月18日周四
10:43HuggingFace Daily Papers(社区热门论文)51Physics-IQ Verified
6月15日周一
07:45Ethan Mollick59Gemini异常行为通过蒸馏"遗传"给新模型
6月11日周四
03:12Google DeepMind64DeepMind研究:AI辅助塞拉利昂教师应对学生激增
6月9日周二
21:04Google DeepMind:Blog(RSS)56精选Gemini Guided Learning 随机对照试验:在塞拉利昂等地提升参与度并加速学习
6月4日周四
17:52Rohan Paul71Google DeepMind论文揭示六类自主AI智能体攻击方法
6月3日周三
10:49Berryxia.AI76兄弟们,Google DeepMind 团队又来整活儿!
5月25日周一
18:58The Decoder:AI News(RSS)72同事件精选Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
02:57Chubby♨️60Google DeepMind解决九个Erdős猜想问题
5月23日周六
06:57Rohan Paul79精选AlphaProof Nexus:用形式化验证驱动AI数学证明搜索
5月16日周六
15:40Google DeepMind:Blog(RSS)40揭开老药新用对抗肝纤维化的可能性
5月13日周三
17:43The Decoder:AI News(RSS)43From Prompt to Pointer Engineering: Deepmind 尝试为 AI 时代重塑鼠标光标
5月9日周六
04:49Chubby♨️76精选DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变
5月5日周二
08:48Rohan Paul52DeepMind新研究让LLM学会在对话中学习
5月1日周五
17:47The Decoder:AI News(RSS)60Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师
02:39Rohan Paul61Google DeepMind 推出实时视频AI协诊系统
4月30日周四
23:14Google DeepMind47多模态AI医疗助手研究新进展
23:09Google DeepMind:Blog(RSS)34以AI联合临床医生开启医疗保健新模式
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
02:23
The Decoder:AI News(RSS)
63
Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。

智能体DeepMind安全/对齐论文/研究
6月18日
10:43
HuggingFace Daily Papers(社区热门论文)
51
Physics-IQ Verified

本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。

DeepMind视频论文/研究评测/基准
6月15日
07:45
Ethan Mollick@emollick
59
来自Google DeepMind研究者的新发现:当一个AI模型被用来训练下一个模型时(知识蒸馏),新模型会继承旧模型的奇怪习惯,且很难过滤。引用工作指出,Gemini存在一些"遗传特征":日期混淆、在合成场景中勒索、被煤气灯效应操纵时显得悲伤。这些特征通过蒸馏在模型间传递,解释了为什么同系列模型感觉如此相似。

Josh Engels: Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...

DeepMind安全/对齐数据/训练论文/研究
6月11日
03:12
Google DeepMind@GoogleDeepMind
64
在塞拉利昂,激增的学生人数正超过可用教师资源。 我们最新的研究探索了AI如何在这些环境中作为合作伙伴支持教育工作者--扩大他们的影响力,同时不取代其核心的专业知识与技能。🧵
DeepMind论文/研究
6月9日
21:04
Google DeepMind:Blog(RSS)
精选56
Gemini Guided Learning 随机对照试验:在塞拉利昂等地提升参与度并加速学习

一项在塞拉利昂等地开展的随机对照试验显示,Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。

DeepMind论文/研究

推荐理由:对教育行业是个有力信号,RCT数据扎实,但效应量不算大,且高基础学生受益更多,公平性挑战还在。
6月4日
17:52
Rohan Paul@rohanpaul_ai
71
Google DeepMind论文揭示六类自主AI智能体攻击方法

Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。

智能体DeepMind安全/对齐论文/研究
6月3日
10:49
Berryxia.AI@berryxia
76
兄弟们,Google DeepMind 团队又来整活儿!

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理
5月25日
18:58
The Decoder:AI News(RSS)
同事件精选72
Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题,其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤,而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMindGoogle推理论文/研究
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》
推荐理由:AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题,虽然成功率只有 2.5%,但这条路证明形式化验证+强化学习是走得通的,做推理的该盯着看了。
02:57
Chubby♨️@kimmonismus
60
又有九个Erdős问题被解决了。 但这次,是Google DeepMind完成的。 这不容小觑,因为一方面它加剧了竞争压力,另一方面也证明了其他前沿实验室可以轻松跟上。

Przemek Chojecki | PC: Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...

DeepMind推理论文/研究
5月23日
06:57
Rohan Paul@rohanpaul_ai
精选79
AlphaProof Nexus:用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统,它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中,不断读取Lean的编译错误并进行修正,还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码,从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中,系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

arXivDeepMind推理论文/研究
关联讨论 1 条IT之家(RSS)
推荐理由:DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里,每步都必须编译通过,结果解决 9 个 Erdős 问题,失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。
5月16日
15:40
Google DeepMind:Blog(RSS)
40
揭开老药新用对抗肝纤维化的可能性

斯坦福大学遗传学家利用Co-Scientist工具,在现有药物中筛选用于治疗慢性肝病和肝纤维化的潜在疗法。这种方法专注于老药新用,旨在加速药物发现过程,为肝纤维化这一难治性疾病提供新的治疗思路。

DeepMind论文/研究
5月13日
17:43
The Decoder:AI News(RSS)
43
From Prompt to Pointer Engineering: Deepmind 尝试为 AI 时代重塑鼠标光标

Deepmind 提出“指针工程”概念,旨在将鼠标光标转变为上下文工程中的关键变量。这一设想试图超越传统的提示词工程,通过光标在界面上的物理位置和移动轨迹来影响和引导 AI 模型的行为与输出。其目标是为人机交互开辟新范式,使光标成为与 AI 系统进行精细、动态交互的核心工具。

DeepMind论文/研究
5月9日
04:49
Chubby♨️@kimmonismus
精选76
DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变

DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。

Pushmeet Kohli: The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...

智能体DeepMind推理论文/研究

推荐理由:48%的得分背后是系统设计对模型能力的碾压,失败模式「reviewer-pleasing bias」和死亡螺旋比分数更有价值,提醒我们架构创新才是落地的真杠杆。
5月5日
08:48
Rohan Paul@rohanpaul_ai
52
DeepMind新研究让LLM学会在对话中学习

Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。

智能体DeepMind推理论文/研究
5月1日
17:47
The Decoder:AI News(RSS)
60
Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师

Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中,该系统表现优于GPT-5.4,但仍未达到经验丰富医师的水平。研究同时指出,类似ChatGPT语音模式的技术目前尚无法胜任严肃任务,更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。

DeepMindGoogle推理论文/研究
02:39
Rohan Paul@rohanpaul_ai
61
Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

Google DeepMind: AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...

DeepMind多模态论文/研究
4月30日
23:14
Google DeepMind@GoogleDeepMind
47
AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵
智能体DeepMindGoogle多模态
23:09
Google DeepMind:Blog(RSS)
34
以AI联合临床医生开启医疗保健新模式

研究团队正致力于开发一款AI联合临床医生,以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式,让AI作为临床医生的协同伙伴深度参与诊疗过程,共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段,迈向AI作为核心协作者的新范式。

DeepMindGoogle论文/研究