1模型发布/更新
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。
xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首。该指数选取同一声音和引文,经各模型克隆后由听众盲评。
2产品发布/更新
每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,最具挑战性评测上达到前沿Thinking模型水平,已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估,其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型,故障模式发生率更低。近两个月生产流量显示,健康类回复事实性问题率下降71%。
OpenAI 与全球 60 个国家、49 种语言、26 个专科的数百名医生合作,通过医生主导的评估大幅提升了 GPT-5.5 Instant 在健康相关问题的智能水平,现已能与公司前沿 Thinking 模型(推理模型)相当。该模型每周为超过 2.3 亿 ChatGPT 用户服务,能更好识别紧急医疗需求、询问相关上下文、解释不确定性并简化复杂信息。由于面向所有 ChatGPT 免费用户开放,这些改进可惠及更多人。
乔木画布推出免费开源在线图像编辑器,可一键部署Vercel为网站,功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji,甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费,庆祝端午节现全免费开源。在线体验:https://ps.qiaomu.ai/,GitHub见评论区。
AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入(无销售团队、未大规模推广),现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI:用户无需学习、无需提示词,像 @同事 一样提及即可获得完整工作成果,甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户,助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用,含 100 美元信用额度,无需绑定信用卡。
从今日起,Claude Code 可将工作进度生成为 artifacts——实时、可分享的交互式网页,涵盖 PR 走查、系统说明、仪表盘、发布清单等。artifacts 基于会话完整上下文(代码库、连接器、对话)自动构建,更新时页面原地刷新,同事即时可见。默认仅作者可见,可分享给组织内成员,由管理员通过组织层级开关和角色权限管控。内部测试中最常见用例为调试:工程师调查事件,Claude Code 分析日志并发布包含时间线、嫌疑提交和错误率图表的 artifact,团队无需再“走过场式汇报”。
Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用,以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务,如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot,Google Gemini 和 Slack 集成即将推出。
DeepSeek 识图模式于6月18日在网页和 App 端正式上线,与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像,能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”,网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开,核心框架为“Thinking with Visual Primitives(以视觉原语思考)”。
3行业动态
商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持,落实数码和智能产品购新政策,鼓励地方在消费品以旧换新框架内自主制定补贴,重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给,培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用,建设AI商品首发平台,举办“人工智能进万家”活动。
两年前谷歌花 27 亿美元请回的 AI 传奇 Noam Shazeer 已离开谷歌,加入 OpenAI。 对 Gemini 来说是个残酷的消息。
工信部6月16日就《智能网联汽车自动驾驶系统安全要求》等2项强制性国标公开征求意见,公示至6月24日,建议2027年7月1日起实施。该标准系我国首部针对L3/L4的强制性国标,要求系统安全水平至少达到“合格且专注驾驶人”,引入Safety Case机制。L3重点规范人机交接,L4强调自身风险处置、不得依赖远程协助。新申请车型实施日起执行,已获批车型有约一年过渡期。
伯尼·桑德斯提出立法,对年AI销售额超2亿美元的公司征收50%股票税,建立价值约7万亿美元的主权财富基金。基金每年向每位美国公民发放超1000美元股息(5%年股息),并资助医疗、教育、住房。同时成立由总统提名、参议院确认的两党“民主AI独立委员会”,通过投票权阻止公司损害公共利益。法案还要求AI公司剥离非AI业务。该计划面临共和党国会和特朗普政府阻力。
OpenAI在IPO前夕连招两位重量级人物:Google DeepMind AI先驱、Transformer架构共同作者Noam Shazeer,以及前特朗普白宫AI政策官员Dean Ball。Shazeer此前通过27亿美元收购协议重返Google,此次离职加盟OpenAI。Ball将于7月6日加入,领导新组建的Strategic Futures团队,向首席战略官Jason Kwon汇报,团队将负责前沿AI政策与内部治理,聚焦灾难性风险、递归自我改进、劳动力市场影响及前沿实验室与政府关系等议题。此举正值Anthropic因美国政府出口管制禁令被迫下架Fable 5和Mythos 5模型。
美国联邦能源监管委员会(FERC)命令六大电网运营商为数据中心等大型用户提供快速并网通道,数据中心需承担并网费用。FERC同时要求运营商考虑“替代输电技术”,并在30天内报告剩余发电容量、60天内审查本区域电价。指令并未解决发电容量短缺问题。数据中心电力需求预计到2035年增长近三倍,而电网运营商此前长期应对近乎零的需求增长。据Bloomberg,部分地区批发电价较五年前上涨了267%。
Grok 模型现已原生集成到 Databricks Agent Bricks 平台。在 2026 年 Data + AI Summit 上,Databricks 宣布与 SpaceXAI 合作,使 Grok 与其他前沿及开源模型在同一受控平台中可用。Agent Bricks 结合 Lakehouse 数据上下文与控制和选择,帮助工程团队构建处理大规模数据的 AI 智能体。此外,企业也可在 Amazon Bedrock 上运行 Grok 模型。
4论文研究
Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。
Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。
5技巧与观点
Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。
Claude Code 提供七种自定义指令方式:CLAUDE.md(根目录始终加载,子目录按需加载)、规则(无范围或路径范围)、技能(按需调用,共享 token 预算)、子智能体(隔离上下文运行并返回最终消息)、钩子(生命周期事件触发,绕过压缩)、输出样式(注入系统提示,永不压缩)和附加系统提示(CLI 标志,仅单次有效)。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同,例如 CLAUDE.md 适合存放构建命令与编码规范,路径范围规则避免无关上下文消耗,子智能体用于并行隔离任务,钩子用于确定性自动化(如运行 linter 或备份聊天记录)。
参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 `from peft import` 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。
Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。
埃森哲去年九月高调宣称AI将改变其业务,但本季度财报令人失望,股价下跌约18%,本周跌幅近23%,较52周高点已跌超50%。生成式AI并未带来预期的大幅收益,MIT、麦肯锡、贝恩等多份研究均显示类似结论。Claude Code(特殊神经符号系统,非通用聊天机器人)或能提升程序员生产力,但企业整体AI投资回报未达预期,tokenmaxxing热潮正在消退。