微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。
Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...
微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。
MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...
Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...
Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。
Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。
商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。
SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。
In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...
大多数AI模型在生成图表时存在数值错误(如负值显示为正)、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic(SenseNova-U1)专为解决此类图表生成问题而设计,能够生成准确的图表,并支持实时调整设计和布局。项目在Hugging Face提供了模型,并在GitHub展示了效果案例。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》推文作者指出在社交平台上看到的文章封面普遍不好看,并分享了一个解决方案。他将一个满意的封面生成提示词交给ChatGPT进行优化,具体做法是去除提示词中的硬性限定词,为AI模型(ChatGPT或Codex)留出更自由的发挥空间。经过优化后,形成了一个可复用的提示词(5:2比例),未来只需将任意文章内容提供给AI,即可生成类似风格的大字封面。
用户在设计播客封面时,用AI生成“橘色背景中的椅子”多次不满意,转而翻阅人类设计师经典作品,最终被埃罗·阿尼奥设计的“Ball Chair星球椅”吸引。该椅子形状酷似被切开的橘子,完美契合“橘座”创意,但售价超过一万美金。推文分享了埃罗·阿尼奥的创作自述:其设计源于为新家寻找一把大椅子,最终简化为球形,并详细描述了从草图、原型制作(使用类似滑翔机机身的内模和玻璃纤维)到安装电话内件和命名的过程。
Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...
It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...
女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...
HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。
我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二 就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...
推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...