谷歌翻译迎来二十周年,已从最初的简单模式匹配发展为每月服务超10亿用户的全球工具。其技术历经三个阶段:2006年依靠统计机器学习分析词簇,2016年转向神经网络实现超越字面的翻译,如今借助Gemini模型进一步提升能力。当前发展重点正从文本翻译转向流畅的实时对话,最新模型甚至能通过耳机充当口译器,并保留用户原有的语调和节奏。尽管AI翻译已支持近250种语言,人们却逐渐将其视为常态。谷歌对此表达感谢,并展望未来二十年的技术突破。
SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。
商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。
Music-2.6 from @MiniMax_AI is free on Cloudflare this week! Generate full-length songs or instrumentals from a text prom...
Gemini app has gained the ability to generate and send files It's similar to Claude now It has it's own sandbox that it ...
Music-2.6 from @MiniMax_AI is free on Cloudflare this week! Generate full-length songs or instrumentals from a text prom...
重新优化了一天, 调用googlemap的街景功能和3D视图功能, 用OPENAI进行优化与关键地点提取, 结合设计好的角色卡, 调用Seedance的API, 自动生成一个从起点到终点的案内视频。 自动挑选路线中的几个标志性地点, 然后让...
一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。
我是一个 AI Builder & Learn in Publish 👇 🔥一键让AI帮你改文件名🔥 你是不是有这种情况: 📁 截图全叫 Screenshot 2026-04-23 at 14.32.48 📁 下载图清一色 IMG...
蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。
开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。
微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。
ChatGPT Images 2.0 explains "Tenet" in a simple way!
一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。
AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
The power to create anything is now in your pocket. Runable is now live on the App Store. Try it, tell us what sucks.
推文展示GPT Image 2的提示词示例,呈现其生成真实人物与动漫手办同框的能力。提示词要求以手机随手拍风格,构建成龙功夫手办与真人同框场景,两者姿势呼应形成趣味对比。画面采用背景虚化突出主体,追求自然和谐的生活气息。这体现了GPT Image 2在理解复杂空间关系、人物一致性及模拟真实摄影质感方面的能力。
OpenAI 展示 GPT Image 2 生成日本少年漫画(shonen manga)的提示词案例,体现其创作复杂多格漫画的能力。提示词要求生成 1440x2560 纵向比例的彩色冒险漫画,主角发现带有 OpenAI logo 的魔法羽毛笔,需使用日语并模拟实体书页照片效果。这反映了 GPT Image 2 在特定艺术风格渲染、文字生成、品牌元素植入及物理质感模拟方面的精细控制水平。