Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。
美国商务部正扩大其人工智能安全测试范围。继Anthropic和OpenAI之后,Google DeepMind、微软以及xAI也已与美国人工智能标准与创新中心签署协议。这些公司将在网络安全风险加剧、与中国的技术竞争日趋激烈的背景下,提供降低了安全护栏的模型版本,供政府在机密环境中进行测试。目前,美国政府对五家主要人工智能实验室的模型均拥有了发布前的访问权限。
Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型,其核心特点是“意图优先”的图像生成。模型在生成前会进行思考,能补全场景缺失部分,理解空间上下文而非仅像素,并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能,专为生产环境打造。据称,其成本和延迟仅为同类模型的一半以下,且在图像生成与编辑的综合评测中位列前三。
关联讨论 1 条X:Luma AI (@LumaLabsAI)OpenAI 将 ChatGPT 的默认模型更新为 GPT-5.5 Instant。内部测试显示,该模型在医学和法律等高风险主题上产生的幻觉声称减少了 52.5%。新功能“记忆来源”允许用户查看影响特定回答的存储上下文。该模型正立即向所有用户推出,但基于过去聊天记录、文件和 Gmail 的个性化功能将首先在网页版上向 Plus 和 Pro 用户开放。此次更新旨在提升回答的准确性和个性化体验。
关联讨论 8 条X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)近期一项对GPT-4、Claude 3等主流AI自主智能体的系统评估显示,其在复杂任务中的成功率普遍低于30%。测试覆盖超500个场景,发现智能体常陷入循环或操作错误,关键问题包括任务分解失效、上下文理解偏差及指令遵循不稳定。研究表明,当前技术在需要多步骤推理的实际应用中仍存在显著缺陷。
OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant,替换原有的 GPT-5.3 Instant,并向所有用户推送。新模型显著减少了事实幻觉,在医疗、法律等高风险领域的错误率大幅降低,并在多项基准测试中性能提升。回答风格更为简洁,减少冗余内容。同时增强了记忆功能,能主动利用用户历史聊天记录等数据提供个性化回答,并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型,付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。
关联讨论 8 条X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:Berry Xia (@berryxia)X:karminski (@karminski3)Anthropic发布了10款面向金融服务的Claude智能体模板,使其从聊天助手转变为可执行募资书制作、KYC审查、月度结算、估值分析等标准化任务的工作流。其核心是通过预置“技能”规范操作,利用“连接器”安全访问数据,并通过“子智能体”拆分任务步骤。该功能支持在Microsoft 365应用间保持上下文连贯,无需重复输入。同时提供具备权限控制与审计日志的托管代理模式。据称,Claude Opus 4.7在Vals AI金融智能体基准测试中以64.37%领先。模板可安装于Cowork和Claude Code,或部署为生产级托管代理。
关联讨论 4 条X:Testing Catalog (@testingcatalog)X:Claude (@claudeai)Anthropic:Newsroom(网页)Claude:Blog(网页)OpenAI据传正计划推出自有AI智能手机,将采用联发科和高通的芯片,并由立讯精密负责制造。分析师郭明錤预测,该手机最早可能在2027年上半年开始量产,头两年出货量最高可达3000万台。这款手机的核心设计理念是用基于AI智能体的任务流界面,取代传统的应用图标网格。这一相对保守的形态选择也表明,目前更实验性的AI硬件尚未准备好进入主流市场。
OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。
关联讨论 8 条X:Greg Brockman (@gdb)X:Rohan Paul (@rohanpaul_ai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide
Anthropic发布了10个开箱即用的金融专用AI Agent,将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库,原生支持Office,并可通过插件或托管模式使用,全链路审计确保合规。所有代码均已开源,企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动,将AI Agent从实验工具转化为企业级生产力,并精准切入金融行业对安全合规的刚性需求,可能引发行业工作流程重构。
关联讨论 4 条X:Testing Catalog (@testingcatalog)X:Claude (@claudeai)Anthropic:Newsroom(网页)Claude:Blog(网页)