http://x.com/i/article/2063139569118093312
http://x.com/i/article/2063139569118093312
NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流,包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率,审查被标记的输出,并通过自定义探针和检测器扩展 garak 功能,最后以 AVID 格式导出结构化漏洞报告。
一种流行理论认为,研究论文和实验室发表式微,是因为研究人员发现与其与营销部门周旋,不如直接离职,凭借受法律保护的隐性知识获得超1亿美元融资。加州非竞争协议对知识传播的推动力超过GitHub、arXiv和HuggingFace总和。@tszzl指出,OpenAI知识产权泄露规模惊人,可能达数万亿美元,确实相当开放。swyx因此考虑将@aidotengineer设为以产品为中心的行业会议,补足以论文为中心的学术会议。
@beffjezos the sheer dollar quantity of ip leakage from openai has been just tremendous, probably in the trillions. open...
洪明分享了BestBlogs整理的播客和视频订阅源,包含57个小宇宙播客和119个YouTube频道,覆盖AI、编程、商业科技、投资财经、产品设计、效率成长、媒体资讯、生活文化等方向。所有源已整理成文章并开放OPML,支持一键导入RSS阅读器,也可接入Agent或自动化内容工作流。BestBlogs的“我的关注”功能可帮助用户筛选、排序、摘要和评分音视频内容,生成个性化早报。
http://x.com/i/article/2063420344678158336
BestBlogs 整理了对外交流和发布入口,包括微信交流群、微信公众号、飞书群、小宇宙(中英文版)、Apple Podcasts、公开仓库(GitHub)、作者博客以及 Gino 和小光的推特。适合对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣的用户关注,可获取产品动态、订阅源、技术架构和独立开发思考等内容。
http://x.com/i/article/2063420344678158336
MiniMax 将于6月9日在旧金山 AWS Builder Loft 举办开源权重模型之夜,重点展示其开源权重模型 MiniMax M3,及其关键架构 MiniMax Sparse Attention。该架构支撑了 M3 的 1M-token 上下文窗口、强大的编码与智能体性能以及原生多模态能力。合作伙伴包括 @ArtificialAnlys、@coderabbitai、NVIDIA 和 Daily。活动时间为 5:00–8:30 PM,入场需出示政府颁发的身份证件。
mlx-audio v0.4.4 发布,所有模型均运行在 Apple Silicon。新增 15+ 个模型:TTS 包括 VoxCPM2(2B 参数、48kHz、30 种语言)、MOSS-TTS、Higgs Audio v3 等;ASR 包括 Mega-ASR(基于 Qwen3-ASR-1.7B + LoRA 路由)、Nemotron 3.5 ASR(实时流式)、Cohere ASR(长文本转录速度提升 1.7 倍)等;VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令:uv pip install -U mlx-audio。
🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, ...
Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star(20 天达 50k+),全球 30 多国用户,340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎,生成 HTML 单文件而非
OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具,主打本地优先,视频无需上传服务器,永久免费、无水印、无会员墙。目前处于 Early Beta 阶段,网页版支持基础剪辑(导入视频、时间线、切割),但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server(让 AI Agent 直接调用工具),目标是成为可编程的视频底座,而非对标剪映的封闭工具。
http://x.com/i/article/2060717603987791878
美国企业 AI 累计投入突破 1 万亿美元,模型推理成本飙升,降本增效未达预期。Ramp 报告显示 DeepSeek 首次登上其软件趋势榜榜首。案例包括某企业一个月为 Claude 支付 5 亿美元,Uber 四个月内耗尽全年 Token 预算。DeepSeek 宣布 API 价格永久下调 75%,MiniMax 压至新低。Ramp 首席经济学家称这是美国企业寻找 OpenAI、Anthropic 低成本替代方案的最明确信号。部分企业已直接向 DeepSeek 付费。2025 年初 DeepSeek R1 模型曾登顶 App Store,但企业采用率一度达 0.3%,后回落至 0.1% 并维持到 2026 年 4 月。成本压力是再度受关注的主因。
Ladybird 浏览器项目正冲刺首个 Alpha 版本,宣布不再接受公开拉取请求,仅允许维护者提交代码。创始人 Andreas Kling 表示,生成式 AI 让任何人可快速生成看似完整的代码变更,但提交者未必真正理解项目。浏览器处理全网不受信任输入,一个伪装良好的漏洞就可能被利用。所有未处理的公开 PR 已立即关闭。
姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。
Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。
Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。
6月5日,开源鸿蒙具身智能PMC(筹)发布EmbodiedAI 1.0.1版本。该版本聚焦机器人控制与智能体应用,升级导航规划、运动控制、仿真开发、硬件适配等核心能力,兼容ROS生态、机器人模拟器及多种本体形态。集成开源鸿蒙原生模拟器、MuJoCo、Gazebo三大仿真环境,打通从代码开发到真机验证的全流程链路。人形机器人、四足机器狗、商用服务机器人等已完成适配验证。目前具身智能方向已组建18个专项SIG工作组,版本源码已正式开放。
Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。
Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。
博主@AYi_AInotes研究X平台算法后,称已掌握底层收益算法逻辑,正计划构建X创作者收益预测平台。为打磨预测模型,博主公开征集用户近两周的创作数据,承诺完成后将开源该平台,供创作者分析自身收益数据。
http://x.com/i/article/2060717603987791878
歸藏指出,部分用户在使用 GitHub 时过于关注发言、原生等细节,却忽略版权协议。其 PPT Skills 要求必须署名且开源,如需闭源可联系作者获取商业授权。他同时提醒,抄袭点子、代码甚至项目名称的行为不可取。在引用推文中,歸藏表示 PPT Skills 将继续更新,得益于近期赞助,将推出第三套惊艳的主题,并将小红书图文卡片的经验融入新版。
说一下 guizang PPT Skills 还会继续更新啊。 得益于最近的几个赞助,可以找时间去更新第三套主题了,依旧非常惊艳。 同时,在小红书那个图文卡片部分积累的好经验,也会用到 PPT Skills 的新版里面。
博主小互推荐宝玉老师新书《图解Skill》,称其技能多得益于宝玉老师。本书秉持开源分享理念,博主将陆续分享自己使用的技能。为回馈关注,现转发本推文即可参与抽奖,共送出10本《图解Skill》,下周一开奖。
OpenAI 今年 3 月推了 Codex for Open Source,给开源维护者发福利: 6 个月免费 ChatGPT Pro($1200)+ API 积分 + AI 安全审查。 门槛不高,不卡 Star 数,核心维护者就能申,so...
Open Code Review 是一个基于人工智能的代码审查命令行(CLI)工具,旨在帮助开发者通过自动化的方式提升代码审查效率。
一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。
Firecrawl在两年内已抓取80亿+网页,拥有125万+开发者、15万+公司客户,GitHub星标125K+(全球前100仓库),npm和PyPI周下载量超250万。主推文指出,这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据,填平了智能体获取最新内容的瓶颈,成为AI时代的基础设施层。
We've now fetched 8,000,000,000+ pages at Firecrawl 🔥 A few other milestones in 2 short years: - 1.25M+ developers - 15...
NVIDIA 发布 Nemotron 3 Ultra,总参数量 550B(活跃参数 55B)的开源混合专家(MoE)模型,采用 Mamba-Transformer 混合架构,专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口,推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。
Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...
Introducing Magenta RealTime 2 🎺 - Open model for live music generation - Just 2.4B parameters, perfect for on-device -...
Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...
关联讨论 1 条IT之家(RSS)宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发,并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露,一个月前他决心重构Kimi Code,花几千刀token做架构分析与验证,确定方案后组建团队封闭开发,过程中不断吵架推翻重来,最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹,集体主义远胜个人英雄主义。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
GitHub Universe 2026 将于 10 月 28–29 日重返旧金山 Fort Mason Center,主题聚焦智能体(agentic)时代。