Google DeepMind提出了AlphaProof Nexus系统,它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中,不断读取Lean的编译错误并进行修正,还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码,从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中,系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。
关联讨论 2 条The Decoder:AI News(RSS)IT之家(RSS)Demis Hassabis指出当前AI的局限在于语言能描述世界,但无法“包含”世界。尽管语言模型从文本中学到了比预期更多的现实结构,但文本终究是经验的压缩残留。真正的智能不仅在于回答问题,更在于理解行动的后果。世界模型旨在学习物理现实的隐藏语法,例如物体持续性、力的作用和空间变化。这种学习试图在信息被语言化之前捕捉世界的本质,从而让AI不仅能解释,更能预测行动带来的直接影响。
Google I/O大会上,DeepMind CEO Demis Hassabis提出“科学进步正在变得可量化计算”,将AI定位为科学的基础设施层。配套推出的Gemini for Science系统旨在协助科研人员处理论文、代码与假设生成。这一转变的核心在于,科学研究正逐渐摆脱对灵感与试错的依赖,转向像软件开发一样可规模化、可编程与加速的工程化模式,标志着AI对科研范式本身的重塑。
推文聚焦一位在人工智能与科学交叉领域做出开创性贡献的科学家。其领导的AlphaGo、AlphaZero、AlphaFold等项目不仅定义了AI的发展路径,更革命性地改变了人类对蛋白质结构的理解与预测能力。该贡献获得了2024年诺贝尔化学奖的认可。作者认为,若没有这位科学家及其团队的远见,整个AI领域将无法达到今天的高度,并表达了个人会面时的深刻感触。
"We are only a few years away from AGI (...) we can start feeling it now. 2026,2027 is when it's starting." Demis Hassab...
Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。
Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...
Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
The results of the research happening in my team @GoogleDeepMind have convinced me that the next era of scientific disco...
Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。
Google DeepMind论文指出,AI智能体的安全威胁不仅源于模型本身,更在于其实时交互的信息环境。研究首次系统阐述了如何将网络武器化以攻击自主智能体,并提出了针对感知、推理、记忆、行动等维度的“AI智能体陷阱”分类法。关键发现是,对智能体构成威胁的网页无需呈现恶意外观,因为它们可能解析人类不可见的隐藏内容。一旦引入RAG等记忆机制,潜伏的记忆污染攻击成功率可超过80%。研究强调,当智能体能在推理时摄取网络信息,每个页面、文档和记忆写入都成为了安全边界的一部分。
AlphaGo核心研究员David Silver提出一个思想实验:若将大语言模型置于一个普遍相信地平说的世界,且模型无法与现实世界互动,那么无论其代码如何优化,它都将永远是一个“地平论者”。这揭示了大型语言模型(如GPT、Claude、LLaMA等)真正的能力上限并非取决于算力或参数量,而在于其思维被严格限制在所“喂养”的数据框架之内,缺乏与现实交互以验证和更新认知的根本能力。
Isomorphic Labs在Demis Hassabis领导下完成21亿美元B轮融资,旨在将AI用于药物发现以攻克所有疾病。Demis强调AI的首要应用应是改善人类健康,而非仅开发聊天机器人。其团队此前凭借AlphaFold2解决了蛋白质结构预测难题,现在目标是将药物研发从漫长、昂贵、高失败率的试错过程,转变为可预测、可迭代的工程,有望将研发周期从10-15年缩短至2-5年,并大幅降低成本。这被视为人类用AI向所有疾病宣战的关键行动,有望变革医疗领域。
I've always believed the No.1 application of AI should be to improve human health. That work started with AlphaFold, and...
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
DeepMind纪录片记录关键一幕:团队告知Demis Hassabis可在一个月内预测所有已知蛋白质序列时,他未纠结风险与回报,直接回应“Do it”。随后AlphaFold向世界免费开源,解决了生物学界50年难题。此举虽未直接盈利,却催生了估值数十亿美元的Isomorphic Labs,建立了信任与生态。推文借此批判当前AI圈空谈融资与参数却无实质成果的现象,强调真正改变世界在于解决难题并免费开放。Demis被赞为兼具远见与决断力的领导者。
Still incredible that the DeepMind documentary has footage of exact moment Demis is told that AlphaFold can "easily" pre...
2016年AlphaGo以第37手“神之一手”战胜李世石,其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力,打破了人类对自身智慧的千年傲慢。十年间,AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出,AlphaGo改变了棋手的思维方式,AI并未取代围棋,而是让棋手站在其肩膀上创新,使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来,今日的AI变革或许仅是漫长征程的起点。
Hard to believe it's been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and j...
#AlphaGo WINS!!!! We landed it on the moon. So proud of the team!! Respect to the amazing Lee Sedol too
Some news: This week I am starting at @GoogleDeepMind as Director of AGI Economics on @shanelegg's team. I will be joini...
DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。
The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...
Demis Hassabis明确AGI发展应分阶段进行,优先将其作为工具用于理解宇宙底层规律,而非过早赋予意识或代理能力。他强调这种务实路径能避免风险,先提升生产力,再处理更哲学和危险的问题。引用推文也指出AGI应先成为工具,再尝试赋予意识,先用于读懂宇宙语言。这一反向思维理顺了发展路线图,为AGI的下一步提供了稳健方向。
Demis Hassabis says AGI should become a tool before we try to make it conscious. First use it to read the language of th...
I've always been passionate about games and they've played a big part in @GoogleDeepMind's history, as the perfect provi...
Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。
DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年,并指出AI将极大加速药物发现、材料科学等“慢科学”领域,把研发周期从数年压缩至数天。他强调,未来1-2年是关键拐点,真正改变世界的将是AI推动科学迭代速度的指数级加速,而非AGI降临的瞬间。
本周,DeepMind、Anthropic、Alibaba等实验室的论文共同显示,AI智能体正从聊天机器人转向可工程化、可审计的生产力系统。Agentic Harness Engineering将智能体支架转化为可观测的工程闭环,提升性能且优化可跨模型迁移。Alibaba的AgenticQwen-30B-A3B通过并行强化学习飞轮,在低激活参数下实现接近大模型的工具使用能力,重塑成本。RecursiveMAS革新多智能体通信,大幅降低消耗并提升效率。这些进展标志智能体系统正从实验阶段走向生产级工程,其工程化可能成为AI落地关键。
http://x.com/i/article/2050689602051084288
DeepMind CEO Demis Hassabis指出,最前沿的大模型(如Gemini)表现出“锯齿状智能”。他以与Gemini下棋为例,说明模型能通过思维链发现问题并搜索更好方案,但最终仍会执行明显的错误决策。这揭示了AI智能并非平滑提升,而是在某些方面敏锐,另一些方面存在严重缺陷。Hassabis认为,真正的突破或许不在于让模型更聪明,而在于如何打磨这种不均衡的智能,使其成为可靠工具。这一观点挑战了AI将线性逼近完美智能的常见叙事。
Demis Hassabis 在回应“为何不开发与人类协同而非替代人类的 AI”时指出,追求 AGI 并非旨在替代人类,其核心是一个科学问题:探索何为真正的通用计算,同时也是一个经济现实。大脑是目前已知唯一近似图灵机的系统,因此“通用智能”意味着达到类似水平的灵活性。企业追逐 AGI 是因为通用工具能够低成本地迁移至各个领域,“通用性”因其卓越的可扩展性而胜出。
Sir @demishassabis has a mind for synthesis. His favorite book is about a grand theory of everything. His preferred phil...
同一事件,精选展示《DeepMind创始人Demis Hassabis谈AGI之路与AI科学突破》Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。
Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。
AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...
《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。