ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。
ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。
瑞士AI倡议(EPFL、苏黎世联邦理工学院、CSCS合作)推出完全开放的基础模型Apertus,公开训练数据、代码、权重、方法和对齐原则。模型符合欧盟AI法案要求,支持1000+种语言,提供8B和70B参数版本。同时发布Apertus Mini,含16个小模型用于演示知识蒸馏与量化技术。技术报告已被ACL 2026接收。针对提契诺州微调的版本已用于内部AI翻译。瑞士电信为战略合作伙伴。
linus was the original vibe coder before it was cool. dude just posts an angry email on the mailing list describing what...
GLM 5.2 is now on DeepSWE as the top open-source model on our leaderboard. With a pass@1 score of 44% at max effort, GLM...
6月21日,在2026年APEC工商领导人中国论坛上,京东创始人刘强东宣布,京东所有AI技术即日起向包括亚太地区在内的海外合作伙伴开放。他表示不希望任何企业或国家制造技术壁垒,认为技术壁垒本质上是剥削。他还呼吁企业、研究机构和政府尽早就AI和机器人时代开展国际化合作。刘强东透露,京东近期提出“涅槃计划”,计划将70万快递员等蓝领工人送往学校进行技术培训,以应对AI冲击。
Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things.
25岁创业者徐子文(Ziwen Xu)启动自制《GTA6》项目GT-Caliber,使用Anthropic旗下Claude Max 20x大模型,配合多款AI智能体循环运行,实时收集社区需求并自动生成代码。开发首周先后从Godot引擎迁移至虚幻引擎,最终选定Unity。九天进展包括路人NPC自主行走、道路交通、武器系统及仿Instagram游戏手机,第七日生成洛杉矶风格居民区。项目开源托管于GitHub,无发行商支持。R星官方已公布《GTA6》预购6月25日开启,11月19日登陆PS5、Xbox Series X|S。
Nous Research 为其开源 AI 智能体框架 Hermes Agent 新增 Blank Slate 设置模式。该模式默认仅开启 provider & model、File Operations 和 Terminal 三项,Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件及 MCP 等全部禁用。配置被写入 platform_toolsets.cli 和 agent.disabled_toolsets 并固化到磁盘,即使执行 hermes update 也不会静默启用未选工具。用户可在极简基线后选择完全禁用或逐项启用。该模式适用于安全敏感部署、可复现团队设置和教学审计场景。本地运行要求模型至少 64K 上下文窗口。
Greg 列出当下最有价值的六项技能:搭建管理 agent 并运行本地 AI 模型、懂渠道的营销、全能机器人、短内容策展、能出产品又能分发的 builder-distributor、线下社区建设。主推文指出 AI 抹平单一工具门槛,纯写提示词或代码贬值,真正拉开差距的是打通 builder 与 distributor 全链路。具体解读:本地部署保留应急控制权;内容策展是稀缺筛选力;管理 agent 需监控重试。建议三件事:迁核心工作流到本地并搭观测面板;精准分发产品给 20 个潜在用户;线下聊天获真实反馈。
The most valuable skill sets on the planet right now: 1. people who can set up agents properly, manage them, and run loc...
同一任务、同一 prompt、同一参考图下,GLM-5.2(价格 <$0.10)效果接近 Fable 5(约 $5)的九成,价格仅为后者五十分之一。作为最强开源模型,GLM-5.2 体积从 1.5TB 压缩 84% 至 238GB,可在 256GB Mac 本地运行,保留 82% 能力。当开源模型跨过“够好且便宜到随便用”的线,设计探索第一步的默认选项可能从 Fable 转向 GLM-5.2。
把 1.5TB 的模型剁掉 84% 的体积,塞进本地跑,还剩 82% 的功力, 这就是GLM-5.2,最强开源模型, 现在缩骨到了 238GB,256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了 技术博客:http://...
面壁智能OpenBMB感谢@aijoey用MiniCPM5-1B构建后端智能体集群。128个并发智能体在DGX Spark上运行,通过vLLM连续批处理提供服务,每个智能体独立处理发票审核、退款路由、合规检查等8种业务队列。系统在1.48秒内跨智能体流式传输6604个chunks。该案例表明,1B模型的价值在于同时做出大量有用业务决策——用一群小型廉价worker并行清理队列。
Built a back-office agent swarm demo with MiniCPM5-1B. 128 concurrent agents on DGX Spark, served through vLLM continuou...
LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》,基于 LangChain / LangGraph 生态,讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”:Runtime(LangGraph)、Framework(LangChain)、Harness(Deep Agents)。技术内核为上下文工程,通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇,覆盖虚拟文件系统(六大工具)、任务规划、子 Agent 委派(异步并行)及 Skills 复用(可在 Claude Code、Cursor 等 30+ 工具中通用)。
A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...
广东省人民政府6月19日印发《广东省推进服务业扩能提质实施方案》,在软件和信息技术服务业方面,将加快开源生态建设,依托省开源鸿蒙适配中心,在制造业、能源、交通、海洋、泛家居等领域推进多行业示范应用和规模化适配。今年5月28日,开源鸿蒙开发者大会2026上,该适配中心技术指导委员会(TSC)正式授牌成立,由19名专家组成,涵盖科研院所、龙头企业、高校、行业协会四大领域。
彭博社报道,微软已成为全球最大AI模型中转站,既将ChatGPT卖给中国企业,也反向将DeepSeek模型卖给西方客户。报道称微软正在测试DeepSeek-R1和DeepSeek-V4,计划向西方客户提供这些中国模型。这一模式构建起跨中美AI模型的双向贸易网络。
GLM 5.2 开源发布后,国外 AI 博主纷纷称赞。作者认为模型够强是关键,用户会主动付费。同时智谱港股股价飙升,已甩开 MiniMax、追上小米。在作者看来,现阶段模型团队远未到精细化运营阶段,更重要的是资方和股民。
Vista 计划开发 PPT 生成 Skill,核心:同时输出可编辑 PPTX、PDF、HTML;基于 GPT 5.5 Pro 方法论;按环境在 Codex 生图或 SVG 渐变背景;集成 echart、lucide icon、Google Font;内置抓取 X 帖子、长文、论文 PDF 素材。预计下周开源。
新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。
OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
OpenAI 正式推出 Codex for Open Source 计划,为开源项目维护者免费提供 6 个月 ChatGPT Pro(含完整 Codex 权限)及专项 API 额度,总价值 1200 美元。无硬性 Star 门槛,个位数 Star 的小项目也可申请。申请需说明具体维护工作、项目真实影响力及资源使用计划。审核采用 AI 加人工滚动处理,通过率较高,整个过程零成本,约十分钟即可完成。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
http://x.com/i/article/2067652729913114624
近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
Datasette 发布新插件 datasette-apps,允许托管自包含 HTML+JavaScript 应用。应用在严格沙箱中运行(sandbox 属性和 CSP 头),无法访问 cookies、localStorage 或外部 HTTP 请求,防止数据泄露。应用可用 JavaScript 对 Datasette 数据执行只读 SQL 查询,若配置存储查询还可写入。应用与父窗口通过 postMessage 或 MessageChannel 通信。灵感来自 Claude Artifacts,为 HTML 前端提供 Datasette 后端。试用需 GitHub 登录 agent.datasette.io 演示实例。
"Some neo-clouds worry that they can't stray from buying Nvidia's full stack of hardware for fear of being put in "Jense...
👑 @MiniMax_AI's MiniMax M3 is now the #1 most popular model on http://B.AI. From topping the open source rankings to le...
RTK获得60k GitHub星标,宣称能“削减60–90%模型token用量,支付1/10的价格”,但实际API账单并未同比例下降——它仅裁剪Bash原始输出,忽略文件读取、仓库上下文、系统提示词和模型内部推理token。公开issues指出终端输出会被静默截断或丢失,且AI智能体无法感知压缩,导致关键信息缺失。RTK从未公布任务成功率(如SWE-bench类基准),其节省量更像营销指标。从架构看,rtk引入脆弱的外部依赖,解析git、cargo、npm、grep等CLI工具的stdout/stderr格式,一旦工具更新格式便可能静默失败。本质上这是CLI原生可实现的feature,而非独立产品,将其放入生产agent关键路径存在高风险。
@elonmusk @teortaxesTex won't take that long
baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不...
阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
蔡崇信昨日在 VivaTech 2026 上表示,AI 的总潜在市场规模达 50 万亿美元,对标人类生产力,阿里巴巴正全面投入 AI。其全栈 AI 优势包括:中国高效低成本的能源供给,提前布局的云计算和芯片,全球最受欢迎的开源模型千问(Qwen),以及覆盖电商、即时零售等丰富应用场景。他同时指出,当前全球 AI 开源的主要推动力量来自中国企业,阿里巴巴团队在推动前沿模型开源方面做出巨大贡献。
本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。