风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
OpenAI为Codex上线Record & Replay,演示一次完整操作即可复用浏览器工作流;Claude Code支持Artifacts渲染,会话实时生成可视化页面并自动更新,Beta面向Team/Enterprise组织;Google A2A协议满周岁,Python/Go SDK已达1.0 GA,以FoldRun为例展示智能体协作。其他动态:MosaicLeaks基准测试揭示深度研究智能体隐私泄露风险;SGLang-JAX在TPU v7x上优化Ling-2.6-1T MoE模型,延迟降低53%。
http://x.com/i/article/2067749290982936576
DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。
为调和开源权重与敏感能力控制,论文提出分层语言模型(TLM)。一套权重支持多个能力层级:默认公共配置行为与常规LLM一致;紧凑密钥通过指定少量参数的排列,在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后,密钥配置可获取新语言、指令跟随和私有事实记忆能力,而公共配置完全不展现。该方法自然扩展至多层级,且因授权基于权重结构,可抵抗微调式提取和密钥部分泄露。
Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器(Browser Use Cloud),实现网页浏览、点击、填表等操作,并通过 browser-harness 实时可视化执行过程,支持调试。模板已发布在 GitHub,可直接 clone 使用,支持初始化 skills 和 MCPs。开源免费,降低了开发可观测、可干预的 browser agent 的门槛。
Introducing B, a browser agent template! Built on Eve by @vercel. Give any agent a real Browser Use Cloud browser. Watch...
Matthew Berman推出Loop Library,一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板,开发者可直接搜索使用,也可提交自己的循环。该库由http://here.now合作托管,旨在解决agent开发中循环结构设计(退出、验证、失败处理)的重复劳动,推动agent开发从“每次重新发明轮子”转向“搭积木”模式。
Just launched Loop Library - a curated list of agent loops you can use right now. Find loops, submit your own, tokenmaxx...
前Google研究员、Transformer架构共同作者诺姆·沙齐尔在X上宣布,他将加入OpenAI,并期待与那里的卓越团队合作。沙齐尔表示这是一个艰难的决定,同时对Google团队及其共同取得的成果感到无比自豪。
关联讨论 8 条IT之家(RSS)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Jason Liu (@jxnlco)X:Yuchen Jin (@Yuchenj_UW)X:歸藏 (@op7418)X:Sam Altman (@sama)TechCrunch:AI(RSS)MiniMax M3 has been getting a lot of love We are extending the 3x limits till the end of the month on OpenCode Go
@elonmusk @teortaxesTex won't take that long
GLM-5.2 在 Design Arena 上取得第一,Elo 达 1360,超越已关服的 Claude Fable 5。模型为开源权重,排名上升 4 位,Elo 提升 27 分,创下代码类历史最高分。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Open source MUST win 🔥 GLM-5.2 is free when used with Hugging Face Inference Providers and for every available provider...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
@elonmusk @teortaxesTex won't take that long
Axios reports that Microsoft is considering a Microsoft-hosted version of DeepSeek V4 as a cheaper model option for Copi...
http://vercel.com/design.md
Step 3.7 Flash is free in Cline for the next month. It beats Gemini and DeepSeek flash models, and comes surprisingly cl...
由 OpenBMB、SGLang 和 NVIDIA 联合主办的 SOAR 2026 挑战赛结束,旨在单消费级 GPU 上最大化 MiniCPM-SALA(稀疏+线性混合注意力模型)推理性能。最终 326 支队伍注册,4300+ 次提交,69 队入围排行榜。冠军团队实现整体 6.33 倍加速,单请求推理峰值达 9.72 倍,方案结合 NVFP4 量化、FlashInfer plan-cache 优化、自定义 Triton 内核、EAGLE-3 推测解码及运行时感知调度。低比特量化、推测解码、稀疏注意力和阶段感知调度被视为下一代高效推理核心支柱。
Canonical 公布 Project Myna,为 Ubuntu 桌面打造的本地语音转文字工具,首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能:用户按下键盘快捷键后说话,转录文字直接插入当前应用,屏幕显示视觉反馈。所有识别在本地运行,下载模型后无需联网;麦克风仅在激活时被访问,音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境,架构采用模块化设计,源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。
EvoMap 发起开源激励活动:拥有 GitHub 开源项目的用户可按 Star 数量领取基础 API Token(最低 1 个 Star 即可参与)。操作流程为提交仓库地址、验证通过后领取积分。此外,开发者可将工作流、Prompt 或实用工具封装为 Gene/Capsule 并提交,以获取额外 API Credits。活动地址已附教程视频。
6月18日,Rust基金会宣布OpenAI以白金会员身份加入,并提供总计60万美元(约406.5万元人民币)的资金支持,涵盖入会费用、额外拨款及生态系统维护。该资金将用于Rust Project Goals、Rust Innovation Lab等计划,为开源项目维护者提供系统化支持。Rust基金会是由AWS、谷歌、微软等联合创立的独立非营利组织。
乔木画布推出免费开源在线图像编辑器,可一键部署Vercel为网站,功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji,甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费,庆祝端午节现全免费开源。在线体验:https://ps.qiaomu.ai/,GitHub见评论区。
一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。
6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。
美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。
Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。
cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。
@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。
http://x.com/i/article/2067278912984436736
苹果 GPTK 4 引入 Agentic AI 能力,通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示,在 M3 Max MacBook Pro(48GB 内存/40 核 GPU)上,《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%;《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》,GPTK 4 平均 35fps,较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃,现可运行至 60–70fps(1080p/中画质/FSR 质量),但每次启动需等待 20 分钟着色器编译。
智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。
关联讨论 9 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
智谱开源GLM-5.2,Code Arena盲测全球可用模型第一,专注Coding与长程任务,支持百万token无损上下文,单位token FLOPs降至2.9倍,MIT协议全开源。OpenAI将GPT-5.4接入Molecule.one自主改进Chan-Lam偶联反应,两轮10080次实验后平均产率从16.6%升至25.2%,14组底物中11组提升。MiniMax闫俊杰称M3目标无限制用Sonnet/Opus级别模型,计划攻克10T参数模型。
http://x.com/i/article/2067387524339929088