This sounds harsh but it is true, very few of the guests we have on 20VC will be remembered in history for truly progres...
Google Research 发布 ConvApparel 数据集与评估框架,用于量化 LLM 用户模拟器的"真实感差距"。该数据集包含 4000 余组服装购物多轮对话,采用"好/坏"双智能体协议收集,涵盖从满意到恼怒的全谱系用户行为。框架通过反事实验证测试模拟器对意外糟糕体验的适应能力,解决现有模拟器过于耐心、知识过剩等不现实问题,为训练更鲁棒的对话智能体提供可信的 AI 测试基准。
Artificial Analysis 发布 APEX-Agents-AA 排行榜,基于 Mercor 的 APEX-Agents 基准评估 AI 代理在长周期专业任务(投资银行、管理咨询、公司法)的表现。测试通过 Stirrup 框架和 MCP 工具执行 452 个任务,涵盖消息回复、文档处理等。结果显示 GPT-5.4 以 33.3% 领先,Claude Opus 4.6 (33.0%) 和 Gemini 3.1 Pro Preview (32%) 紧随其后,三强竞争激烈。评分采用 LLM 评判和 pass@1 标准。
What is the real future Google DeepMind CEO @demishassabis is trying to build? That's what we talk about in this HUGE* C...
Google Cloud推出PaperVizAgent与ScholarPeer两款学术AI智能体。前者通过检索、规划、风格、可视化与批判五个专门智能体协作迭代,将论文文本转化为符合发表标准的图表,综合评分(60.2)显著超越人类基线(50.0)及GPT-Image-1.5等模型;后者模拟资深审稿人流程,动态构建文献背景并验证基线,实现基于实证的自动化同行评审。
AI Engineer Europe Build Day公布六大技术分论坛,聚焦AI工程前沿实践。议程涵盖Personal Agent(Claw)个人代理、Context Engineering长上下文管理、Harness Engineering代理性能优化、Evals & Observability评估体系、Voice & Vision语音视觉多模态,以及Gemini专场。从OpenClaw到Google DeepMind,内容涉及RAG、TTS、ASR、WebMCP等技术方向,呈现AI工程从提示词向复杂代理系统演进的最新趋势。
just went live on european TBPN! exclusive preview of the @aiDotEngineer Europe Build Day today
Tomorrow on Cheeky Pint: @sundarpichai gets into everything AI with @eladgil and me.
We've signed an agreement with Google and Broadcom for multiple gigawatts of next-generation TPU capacity, coming online...
推文以原子弹研发为例,阐述极端泛化的本质:科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据,而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于,通过逆向推导数据背后的因果逻辑,人类能够将极简信息转化为重塑现实的完整方案,展现符号推理在突破认知边界中的决定性作用。
Here is a quick start script including the setup, technical details, and a candid look at where Kinetic excels versus it...
Anthropic宣布与Google、Broadcom达成新协议,将获得多千兆瓦下一代TPU算力,预计2027年上线。这是其迄今最大的算力投资,用以支持Claude模型及激增的客户需求。数据显示,Claude年收入运行率已突破300亿美元,年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国,符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略,AWS仍是主要云服务商。
🇬🇧 London is the birthplace of @GoogleDeepMind, and we're so honored to have them back as: Presenting Sponsors of this...
Mintlify assistant is powered by just-bash with a custom filesystem
Fine-Tuning Gemma 2B on PubMedQA: Building a Medical Q&A Assistant with LoRA, Keras Kinetic, and Cloud TPU https://kuanh...
Gemma 4 and what makes an open model succeed Hint: it's not benchmark scores. https://www.interconnects.ai/p/gemma-4-and...
Keras 社区发布 Kinetic 库,开发者通过装饰器即可将函数部署至云端 TPU/GPU 运行,定位类似 Modal 但新增 TPU 支持。该工具自动完成代码打包、Cloud Build 容器构建(支持缓存)、GKE 集群调度及结果返回,实现日志实时流式传输,使远程执行体验如同本地运行。
The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...
Gemma 4 的发布揭示了开放模型成功的真正标准。文章指出,决定模型成败的关键并非基准测试分数(benchmark scores),而是其他因素。当前 AI 领域过度关注 leaderboard 排名,但高分数不等于实际应用价值与社区采用率。真正的成功取决于模型解决真实场景需求的能力、开发者友好度以及生态建设,而非单纯的技术指标领先。这一观点挑战了以 benchmark 为导向的行业评估范式。
关联讨论 1 条X:Francois Chollet (@fchollet)Google发布的Gemma4系列开放权重模型包含多个版本,选型需结合场景。带“-it”后缀为指令微调版,开箱即用;不带后缀为基座模型,供自行微调。其中,A4B指激活参数量为4B,E4B则采用逐层嵌入技术,以内存换取计算量,优化移动端性能。选型建议:综合性能与速度选26B-A4B;追求最佳代码或任务效果选31B;开发本地全模态应用选E4B;资源受限设备体验可选E2B,但输出质量有限。
Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...
Google Vids 接入 Lyria 3 与 Veo 3.1 模型能力,新增免费 AI 视频生成功能,用户可无成本创建、编辑和分享高质量视频。
Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级,帮助开发者在成本与延迟之间灵活取舍。
Google Research 提出系统性评估框架,将标准化心理学问卷(如 IRI、ERQ)转化为情境判断测试,量化 LLM 行为倾向与人类共识的偏差。研究测试了25个模型,发现小模型(<25B)一致性显著较低,且模型存在两种偏差:偏离人类共识、未能覆盖人类观点的多样性。该框架通过真实场景(如职场冲突、日常决策)评估模型行为,为改进 LLM 社交互动能力提供依据。
Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。
Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。
Google 发布2026年3月人工智能更新回顾,通过信息图形式汇总当月产品发布与技术进展,展示公司最新 AI 成果。
Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。
Veo 3.1 Lite 现已开放付费预览,作为 Google 成本效益最高的视频生成模型,支持通过 Gemini API 调用及 Google AI Studio 测试。
Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。