Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...
Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...
GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。
简简单单使用豆包复刻一下📺 prompt 👇 [风格]真人实拍+2D动漫贴纸合成搞笑短视频(Live-Action + Flat 2D Sticker Composite),第一人称做饭视角(POV Cooking Vlog),写实厨房...
藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。
http://x.com/i/article/2072507922257723392
主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...
Ahead of our partner powered model, we're exploring a developer API for @suno and want to hear from you before we start ...
我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!
This is what Bloome was built for. Drop Claude Code, Codex and DeepSeek into one group chat and they build competing ver...
Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。
https://medium.com/@shirishsrivastava/running-local-vision-llms-on-apple-silicon-a-lightweight-playwright-llama-cpp-pipe...
Backstage and onstage with @Thom_Wolf and @swyx . I really enjoyed the fireside chat! Thanks for having me back at @aiDo...
Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。
Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。
http://x.com/i/article/2072100123912687616
Rohan Paul 新闻通讯要点:央行担忧 AI 淘金热可能引发下一场金融冲击;中国开发者通过灰色市场 API 以官方价格 5%-10% 购买 Claude 服务,且隐藏真实用户身份;Sakana Fugu 技术报告发布;中国 AI 模型每 token 成本比美国同行低至 50 倍;DeepSeek 发布新推理优化方法;Meta 开源无需手术的脑机接口系统,词准确率达 78%。
Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...
马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。
阿里巴巴 HappyHorse 1.1 在 Artificial Analysis 文生视频和图生视频排行榜位列第二,仅次于字节跳动 Seedance 2.0。该模型基于统一 Transformer 架构,是 1.0 的改进版,重点提升音画同步,支持七种语言的原生音频与唇形同步对话,并在运动、角色和场景一致性上增强。支持最多 9 张参考图像,生成 720p 和 1080p。图生视频带音频模态从第 5 名升至第 2 名。定价 $9.90/分钟(1080p),已在阿里云 Model Studio、Qwen Cloud 和 fal 上线。
Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
New model card up, @MiniMax_AI M3! (Working through the Colorado backlog) At 400B+ parameters, using the unquantized wei...
ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。
Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...
摩纳哥AI电影节黑客松落下帷幕,阿里云公布全球创作者大赛大奖得主。李静莹执导的《If I Forget》凭借情感共鸣夺得冠军,影片使用阿里云Model Studio与Happy Horse 1.0全流程制作。故事设定于2038年,一位患阿尔茨海默症的传奇建筑师由亡妻全息AI照顾——AI每天重新介绍自己以避免其悲伤,最终超越代码并爱上了他。前十名获奖作品将在未来几天陆续公布。
Imagine a lightweight AI that can read images AND chat with you. That's MiniCPM-V-4.6. It's a multimodal model that unde...
Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。
Meta发布Brain2Qwerty v2,一种非侵入式脑机接口系统,能从实时脑信号解码完整自然句子,单词准确率达61%。系统基于约22000个句子训练,9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升,最佳参与者达78%,超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段:参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告,尚未成为临床通信设备。Meta已开源训练代码,BCBL发布v1数据集。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。
A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...
2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。
字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。
New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every m...