AIHOT
内容
精选全部 AI 动态AI 日报
接入
Agent 接入
更多
关于更新日志反馈
登录
精选全部日报更多
最新一期2026-06-24
2026 年 6 月24
  • 24 日FastWan-QAD:单卡5090上1.8秒生成5秒视频
  • 23 日PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
  • 22 日美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型
  • 21 日微软双向转售GPT与DeepSeek成全球最大AI中间商
  • 20 日阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式
  • 19 日首个统一科学大模型 LOGOS 正式开源
  • 18 日MolmoMotion:语言引导的3D运动预测模型
  • 17 日Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
  • 16 日MiniMax 开源 M3 模型权重及 MSA 技术论文
  • 15 日Anthropic 暂停新模型访问,印度辩论 AI 未来
  • 14 日智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源
  • 13 日MiniMax M3 开源权重模型发布,已上架 HuggingFace
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
今天6月23日6月22日更早
AIHOT DAILY
2026年6月24日 · 周三

1模型发布/更新

FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

X:Sky Computing Lab (@haoailab)
京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

公众号:京东JoyAI
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

IT之家(RSS)
Krea 2 技术报告正式发布

我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

X:Krea AI (@krea_ai)
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

公众号:火山引擎
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

Mistral AI:News(网页)
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

字节 Seed:Research Feed(网页内嵌数据)

2产品发布/更新

IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十…

Hugging Face:Blog(RSS)
Runway推出Seedance 4K等三款新模型

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。 全球最佳模型,汇聚一处。 使用优惠码 30RUNWAY,前三个月可享七折优惠。 通过下方链接开始使用。

X:Runway (@runwayml)
无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

Hacker News 热门(buzzing.cc 中文翻译)
国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

公众号:千问APP(阿里)
Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。

Anthropic:Newsroom(网页)
Claude Code v2.1.187 发布

Claude Code v2.1.187 新增 `sandbox.credentials` 设置,可阻止沙箱化命令读取凭证和秘密环境变量;模型选择器及相关参数现已支持组织配置的模型限制,选中受限模型时显示“受组织设置限制”提示。全屏模式下选择菜单支持鼠标点击。修复多项问题:`--resume` 在 `-p` 无模型回合时失败、`--json-schema` 和工作流智能体结构化输出循环、远程 MCP 工具调用 5 分钟无响应后阻塞、Remote 会话启动延迟约 2.7 秒、韩文/中日韩文本粘贴乱码、子智能体深度追踪不准确、被杀智能体工作树注册残留未清理等。

Claude Code:GitHub Releases(RSS)

3行业动态

Oracle因AI应用裁员21000人,债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人,员工总数降至141,000人,降幅12.9%。公司称AI技术的采用导致劳动力缩减,同时重组成本达18亿美元,同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元,扩建Oracle Cloud Infrastructure,服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流,但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。

Ars Technica:AI(RSS)
五眼联盟警告:AI网络威胁数月内将影响普通用户

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。

Artificial Intelligence News(RSS)
GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明度实践规范,以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正,以在保持透明度目标的同时兼容开源开发模式。

GitHub Blog
OpenAI 助力 Appia Foundation 推动先进 AI 共享标准建设

OpenAI 通过 Appia Foundation 支持制定先进 AI 的共享标准,涵盖评估框架、安全实践与全球合作。

OpenAI:官网动态(RSS · 排除企业/客户案例)
Omio 如何构建对话式旅行的未来

Omio 利用 OpenAI 技术打造对话式旅行体验,加速产品开发进程,并推动自身向 AI 原生公司转型。

OpenAI:官网动态(RSS · 排除企业/客户案例)

4论文研究

AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。

Hacker News 热门(buzzing.cc 中文翻译)
九位评委,两个有效投票:相关错误削弱LLM评审面板

苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8–22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证,瓶颈在于评委间的相关性而非聚合算法。

Apple Machine Learning Research(RSS)
基于指标依赖的标注饱和:从标签分布中学习

在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。

Apple Machine Learning Research(RSS)

5技巧与观点

huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

Hugging Face:Blog(RSS)
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进…

Hugging Face:Blog(RSS)
Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低,Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降,并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh,但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题,而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Meta Engineering Blog(RSS)
Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

Claude:Blog(网页)
GPT-5 帮助免疫学家 Derya Unutmaz 解开三年未解之谜

GPT-5 Pro 帮助免疫学家 Derya Unutmaz 解决了一个长达三年的免疫学谜团,揭示了 T 细胞行为的新见解。这一突破可能为癌症和自身免疫疾病研究提供支持。

OpenAI:官网动态(RSS · 排除企业/客户案例)
26今日事件
21一手报道
7新模型
20信源
← 前一日历史后一日 →
VOL.2026.06.24·26 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年六月二十四日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
7 篇

FastWan-QAD:单卡5090上1.8秒生成5秒视频

官方·XX:Sky Computing Lab (@haoailab)

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”

公众号·官方公众号:京东JoyAI

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

综合资讯IT之家(RSS)

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

Krea 2 技术报告正式发布

官方·XX:Krea AI (@krea_ai)

我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

豆包音频生成模型1.0发布,重新定义AI音频创作

公众号·官方公众号:火山引擎

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

Mistral OCR 4

官方Mistral AI:News(网页)

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

Seed2.1 正式发布,深入 AI 生产力

官方字节 Seed:Research Feed(网页内嵌数据)

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

02

产品发布/更新

Product
6 篇

IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

官方Hugging Face:Blog(RSS)

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十…

Runway推出Seedance 4K等三款新模型

官方·XX:Runway (@runwayml)

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。 全球最佳模型,汇聚一处。 使用优惠码 30RUNWAY,前三个月可享七折优惠。 通过下方链接开始使用。

无限制OCR:单次长时域解析

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

公众号·官方公众号:千问APP(阿里)

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

官方Anthropic:Newsroom(网页)

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。

Claude Code v2.1.187 发布

官方Claude Code:GitHub Releases(RSS)

Claude Code v2.1.187 新增 `sandbox.credentials` 设置,可阻止沙箱化命令读取凭证和秘密环境变量;模型选择器及相关参数现已支持组织配置的模型限制,选中受限模型时显示“受组织设置限制”提示。全屏模式下选择菜单支持鼠标点击。修复多项问题:`--resume` 在 `-p` 无模型回合时失败、`--json-schema` 和工作流智能体结构化输出循环、远程 MCP 工具调用 5 分钟无响应后阻塞、Remote 会话启动延迟约 2.7 秒、韩文/中日韩文本粘贴乱码、子智能体深度追踪不准确、被杀智能体工作树注册残留未清理等。

03

行业动态

Industry
5 篇

Oracle因AI应用裁员21000人,债务驱动云基础设施投资

综合资讯Ars Technica:AI(RSS)

Oracle在截至5月31日的财年裁员21000人,员工总数降至141,000人,降幅12.9%。公司称AI技术的采用导致劳动力缩减,同时重组成本达18亿美元,同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元,扩建Oracle Cloud Infrastructure,服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流,但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。

五眼联盟警告:AI网络威胁数月内将影响普通用户

综合资讯Artificial Intelligence News(RSS)

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

官方GitHub Blog

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明度实践规范,以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正,以在保持透明度目标的同时兼容开源开发模式。

OpenAI 助力 Appia Foundation 推动先进 AI 共享标准建设

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 通过 Appia Foundation 支持制定先进 AI 的共享标准,涵盖评估框架、安全实践与全球合作。

Omio 如何构建对话式旅行的未来

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

Omio 利用 OpenAI 技术打造对话式旅行体验,加速产品开发进程,并推动自身向 AI 原生公司转型。

04

论文研究

Research
3 篇

AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。

九位评委,两个有效投票:相关错误削弱LLM评审面板

学术机构Apple Machine Learning Research(RSS)

苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8–22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证,瓶颈在于评委间的相关性而非聚合算法。

基于指标依赖的标注饱和:从标签分布中学习

学术机构Apple Machine Learning Research(RSS)

在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。

05

技巧与观点

Tips & Takes
5 篇

huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

官方Hugging Face:Blog(RSS)

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

在 Transformers.js 中实验提议的跨源存储 API

官方Hugging Face:Blog(RSS)

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进…

Meta 如何为 AI 眼镜设计超窄钢壳电池

官方Meta Engineering Blog(RSS)

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低,Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降,并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh,但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题,而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Claude Tag 的 Agent Identity 访问模型

官方Claude:Blog(网页)

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

GPT-5 帮助免疫学家 Derya Unutmaz 解开三年未解之谜

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

GPT-5 Pro 帮助免疫学家 Derya Unutmaz 解决了一个长达三年的免疫学谜团,揭示了 T 细胞行为的新见解。这一突破可能为癌症和自身免疫疾病研究提供支持。

26
今日事件
21
一手报道
7
新模型
20
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成