Vista 分享其通宵开发的免费开源口播提词器,项目基于 Codex 开发,运行约 5 小时。他评价该工具比多数收费提词器好用,目前配合大疆 Pocket3 录制口播,暂未加入手机录制功能。项目已开源,欢迎 Star 或 Fork 二改,地址见评论区。
Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。
Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...
Our kernel team has been deep in MiniMax M3 all week. The 1M-token context and native multimodality make it a hard model...
Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。
Cohere近日发布North Mini Code,一款30B总参数(3B活跃参数)的开放权重编码模型,采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6,高于gpt-oss-20B (high)的24.5,略低于Mistral Small 4(119B参数,6.5B活跃)的27.8。在Coding Index(Terminal-Bench Hard和SciCode加权平均)上得分33.4,显著高于GLM-4.7-Flash的25.9,低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱:GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s,快于同类模型。距Cohere上次发布Command A+不到一个月。
Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...
baoyu-design skill 现已支持导入 Design System,新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式,通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂,但效果不错。安装命令:npx skills add JimLiu/baoyu-design。另据 @dotey 介绍,该工具为本地运行的 Claude Design 风格工具,可描述屏幕生成 HTML,在预览中点击元素说出修改指令,最佳搭配 Opus 4.8。
Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...
关联讨论 1 条X:宝玉 (@dotey)一行命令 pip install supervision 即可安装的计算机视觉可视化工具,支持自动画框加标签、视频目标永久跟踪、数据集格式一键转换,内置热力图、区域计数、越线检测、人体骨架等功能,模型无关,已被6500+开源项目使用。
MiniMax推出首个多模态M系列模型M3,支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分,超越开源权重的Kimi K2.6和MiMo-V2.5-Pro(均54)。相比前代M2.7,HLE提升9点至37%,GPQA Diamond提升6点至93%,多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens(512K内),512K-1M翻倍。权重计划约10天内开源。
面壁智能(OpenBMB)与HuggingFace合作举办的Build Small黑客松正式上线,鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例:MiniCPM-V 4.6用于自动化金融文档分析;MiniCPM5-1B轻量端侧模型驱动AI桌面宠物;MiniCPM-o 4.5全模态实时视频分析;VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。
Today we published a technical blog post about Ideogram 4.0 - our goal is to enable more innovation and creativity. It's...
This is a pretty striking shift toward Chinese models by American AI startups since the start of the year. https://subst...
ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。
American Open Source is so back. 9 / 30 of the models on page 1 of Huggingface are published by Nvidia.
文章盘点四大渠道:① OpenAI Codex for OSS,开源项目维护者可免费获6个月ChatGPT Pro(价值$1200)及API credits;② Anything AI,新用户通过促销链接注册可得2万credits,需重复点击触发bonus;③ Lenny's Product Pass,付费订阅其年度Newsletter($200-400)可兑换总价值$30000+的AI工具一年会员,先到先得且要求新用户;④ 三大云startup credits,微软Founders Hub最低$1K-$5K(无VC要求),谷歌AI-first创业最高$350K但要求严,AWS可叠加(自筹$1K+YC等)。每个口子均有门槛限制。
http://x.com/i/article/2063139569118093312
一种流行理论认为,研究论文和实验室发表式微,是因为研究人员发现与其与营销部门周旋,不如直接离职,凭借受法律保护的隐性知识获得超1亿美元融资。加州非竞争协议对知识传播的推动力超过GitHub、arXiv和HuggingFace总和。@tszzl指出,OpenAI知识产权泄露规模惊人,可能达数万亿美元,确实相当开放。swyx因此考虑将@aidotengineer设为以产品为中心的行业会议,补足以论文为中心的学术会议。
@beffjezos the sheer dollar quantity of ip leakage from openai has been just tremendous, probably in the trillions. open...
洪明分享了BestBlogs整理的播客和视频订阅源,包含57个小宇宙播客和119个YouTube频道,覆盖AI、编程、商业科技、投资财经、产品设计、效率成长、媒体资讯、生活文化等方向。所有源已整理成文章并开放OPML,支持一键导入RSS阅读器,也可接入Agent或自动化内容工作流。BestBlogs的“我的关注”功能可帮助用户筛选、排序、摘要和评分音视频内容,生成个性化早报。
http://x.com/i/article/2063420344678158336
BestBlogs 整理了对外交流和发布入口,包括微信交流群、微信公众号、飞书群、小宇宙(中英文版)、Apple Podcasts、公开仓库(GitHub)、作者博客以及 Gino 和小光的推特。适合对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣的用户关注,可获取产品动态、订阅源、技术架构和独立开发思考等内容。
http://x.com/i/article/2063420344678158336
MiniMax 将于6月9日在旧金山 AWS Builder Loft 举办开源权重模型之夜,重点展示其开源权重模型 MiniMax M3,及其关键架构 MiniMax Sparse Attention。该架构支撑了 M3 的 1M-token 上下文窗口、强大的编码与智能体性能以及原生多模态能力。合作伙伴包括 @ArtificialAnlys、@coderabbitai、NVIDIA 和 Daily。活动时间为 5:00–8:30 PM,入场需出示政府颁发的身份证件。
mlx-audio v0.4.4 发布,所有模型均运行在 Apple Silicon。新增 15+ 个模型:TTS 包括 VoxCPM2(2B 参数、48kHz、30 种语言)、MOSS-TTS、Higgs Audio v3 等;ASR 包括 Mega-ASR(基于 Qwen3-ASR-1.7B + LoRA 路由)、Nemotron 3.5 ASR(实时流式)、Cohere ASR(长文本转录速度提升 1.7 倍)等;VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令:uv pip install -U mlx-audio。
🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, ...
Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star(20 天达 50k+),全球 30 多国用户,340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎,生成 HTML 单文件而非
OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具,主打本地优先,视频无需上传服务器,永久免费、无水印、无会员墙。目前处于 Early Beta 阶段,网页版支持基础剪辑(导入视频、时间线、切割),但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server(让 AI Agent 直接调用工具),目标是成为可编程的视频底座,而非对标剪映的封闭工具。
http://x.com/i/article/2060717603987791878
姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。
Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。
博主@AYi_AInotes研究X平台算法后,称已掌握底层收益算法逻辑,正计划构建X创作者收益预测平台。为打磨预测模型,博主公开征集用户近两周的创作数据,承诺完成后将开源该平台,供创作者分析自身收益数据。
http://x.com/i/article/2060717603987791878
歸藏指出,部分用户在使用 GitHub 时过于关注发言、原生等细节,却忽略版权协议。其 PPT Skills 要求必须署名且开源,如需闭源可联系作者获取商业授权。他同时提醒,抄袭点子、代码甚至项目名称的行为不可取。在引用推文中,歸藏表示 PPT Skills 将继续更新,得益于近期赞助,将推出第三套惊艳的主题,并将小红书图文卡片的经验融入新版。
说一下 guizang PPT Skills 还会继续更新啊。 得益于最近的几个赞助,可以找时间去更新第三套主题了,依旧非常惊艳。 同时,在小红书那个图文卡片部分积累的好经验,也会用到 PPT Skills 的新版里面。
博主小互推荐宝玉老师新书《图解Skill》,称其技能多得益于宝玉老师。本书秉持开源分享理念,博主将陆续分享自己使用的技能。为回馈关注,现转发本推文即可参与抽奖,共送出10本《图解Skill》,下周一开奖。
OpenAI 今年 3 月推了 Codex for Open Source,给开源维护者发福利: 6 个月免费 ChatGPT Pro($1200)+ API 积分 + AI 安全审查。 门槛不高,不卡 Star 数,核心维护者就能申,so...
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...