6月14日

08:00

HuggingFace Daily Papers（社区热门论文）

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示，结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度；精化阶段冻结 FLAME 绑定与高斯数量，以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中，PSNR 超越领域内领先模型 GAGAvatar 1.5 dB；在 SplattingAvatar 单目基准上，所有指标均领先，PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB，且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究

07:50

MiniMax (official)@MiniMax_AI

我本人没有操作 TouchDesigner。Hermes Agent 从头开始学习并完成了以下工作： → 使用计算机操控功能浏览我的桌面 → 弄明白如何连接到 TouchDesigner → 读取我的参考图像 → 与我一起在自我学习循环中迭代艺术作品 → 然后将学到的内容保存为可复用的技能，用于处理下一张图像这一切均由 @MiniMax_AI M3 × Hermes Desktop Agent @NousResearch 驱动。完整演示 📽️

Amber Shen: I didn't touch TouchDesigner myself. Hermes agent learned it from scratch and built this: → navigated my desktop with co...

智能体多模态行业动态

02:31

Suno@suno

同事件精选70

重大更新：Suno 的音轨分离刚刚大幅升级。🚀 我们现在从零重新生成音轨，而非仅仅隔离频率。结果如何？纯净无伪影的音轨，可直接拖入你的 DAW。

产品更新多模态

同一事件，精选展示《更高水平的创意控制 · Suno团队》

推荐理由：Suno 把 stem 分离从滤波换成了重新生成，这对做音乐的人来说是个实质进步，artifacts 老问题被从根上解决，不再只是凑合能用。

02:24

jason@jxnlco

了不起的@heyjgold和我们的制作团队！有人感叹GPT-4o麦片真是个绝妙的主意（之前从IG看到，无法再找到出处）。

Karine Hsu: omg gpt-4os cereal, such a good idea (saw this on IG a while ago but cannot find the credit anymore)

其他多模态

01:04

The Decoder：AI News（RSS）

新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型，仅通过文本提示即可对任意类型图像（如人群、显微镜下细胞样本）中的物体进行计数。对比测试显示，其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布

6月13日

22:07

Rohan Paul@rohanpaul_ai

Higgsfield 推出 Higgsfield Games：从提示词到多人游戏

Higgsfield 近日宣布推出 Higgsfield Games，这是一款可从一条提示词直接构建并部署任意类型 2D 或 3D 多人游戏的产品，自动生成角色、道具和场景。该产品由 Claude Fable 5 推理游戏创意，并通过 Higgsfield MCP 调用工具完成资产和物理逻辑构建，将创意转化为代码、资产、多人游戏和发布的全流程压缩为单次提示词操作。用户可通过 Claude 的 MCP 界面或 Higgsfield 超级计算机体验。

Higgsfield AI 🧩: Meet Higgsfield Games. For the first time, build and deploy multiplayer games from one prompt, in any genre, 2D or 3D, w...

Anthropic MCP/工具产品更新多模态