Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...
Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...
I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...
ComfyUI just added @OpenRouter support. Instead of being locked into a single LLM, you can now access 20+ models directl...
My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...
Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....
OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...
飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。
🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。
StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...
We've heard your feedback about hitting limits too quickly on @GeminiApp. We're rolling out several fixes to make your q...
用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。
大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。
SenseTime高管Lewis Fung表示,香港凭借先进基础设施、多模态基础模型和生态伙伴合作,有条件成为可信AI创新中心。他近日出席数码港与警方智能 policing 联合 AI 实验室启动活动,分享了AI在网络安全、公共安全与智慧城市方面的应用。SenseTime将继续与伙伴合作推动可信AI发展,打造更智慧安全的香港。
Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...
Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...
Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...
Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。
Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。
Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...
ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。
Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...
Gemini Omni seems to outperform everything. Crazy updates for Vibe Video Editing at #google Let's see when this update w...