AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 200 条
全部一手资讯X论文
标签「GitHub」清除
今天7月3日 周五
06:21Simon Willison 博客66llm-coding-agent 0.1a0
7月2日周四
16:40Hacker News 热门(buzzing.cc 中文翻译)71精选Kimi K2.7 Code 已在 GitHub Copilot 上正式发布
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
7月1日周三
13:28HuggingFace Daily Papers(社区热门论文)49TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架
01:19Simon Willison 博客73精选用 shot-scraper video 让 AI 智能体录制工作演示视频
6月30日周二
09:50公众号:卡尔的AI沃茨70精选AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号
08:00HuggingFace Daily Papers(社区热门论文)39AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估
6月29日周一
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
19:10公众号:小红书技术(dots.llm)72精选小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速
14:34Hacker News 热门(buzzing.cc 中文翻译)53HackerRank 将其 ATS 开源,评分不稳定引发争议
09:01IT之家(RSS)57我国开源生态版图扩容,新增人工智能与具身智能等7项目
08:00HuggingFace Daily Papers(社区热门论文)51BrainJanus:融合脑、视觉与语言的统一模型
6月28日周日
20:01IT之家(RSS)62OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"
6月27日周六
07:35MarkTechPost(RSS)75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数
6月26日周五
08:00HuggingFace Daily Papers(社区热门论文)52基于Gist Token的简化稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)44GBC:基于梯度的连接用于优化多智能体系统
07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估
06:01Hacker News 热门(buzzing.cc 中文翻译)61Show HN: OpenKnowledge--Obsidian/Notion 的开源替代方案
02:31Hacker News 热门(buzzing.cc 中文翻译)79精选赫库兰尼姆古卷首次被完整虚拟解读
6月25日周四
22:01Hacker News 热门(buzzing.cc 中文翻译)50"Vibe coding"被指为从开源和企业授权代码中窃取
15:58IT之家(RSS)51GitHub 调整 Copilot Free 与 Student 计划:自动模型选择成唯一方式
10:58IT之家(RSS)48GitHub Copilot切换按量计费后6月使用量激增,创史上最佳月度业绩
09:58IT之家(RSS)542025 中国开源年度报告:OpenHarmony 登顶全球,7 年后中国开发者贡献度有望超过美国
08:08Simon Willison 博客69browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
6月24日周三
11:55HuggingFace Daily Papers(社区热门论文)70精选NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?
08:00HuggingFace Daily Papers(社区热门论文)56多步工具使用的强化学习为何崩溃以及监督信号如何修复它
03:43GitHub Blog56精选GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源
00:00Berkeley RDI:Blog(AI 安全与评测)82精选恶意CDN仍潜伏GitHub Pages,AI让情况恶化
6月23日周二
21:20Hugging Face:Blog(RSS)73精选IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用
19:10IT之家(RSS)72精选网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型
13:13HuggingFace Daily Papers(社区热门论文)55UniverSat: 分辨率和模态无关的Transformer用于地球观测
12:13HuggingFace Daily Papers(社区热门论文)51EnterpriseClawBench:从真实工作会话构建的企业智能体基准
08:14Hacker News 热门(buzzing.cc 中文翻译)84同事件精选GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
6月22日周一
08:00HuggingFace Daily Papers(社区热门论文)35SingGuard:政策自适应多模态LLM护栏模型系列
08:00HuggingFace Daily Papers(社区热门论文)49ReNIO:为大语言模型同策略蒸馏重加权负轨迹重要性
6月21日周日
07:33MarkTechPost(RSS)64思科 AI 发布 FAPO:基于 Claude Code 的多步 LLM 流水线优化系统
6月20日周六
15:59IT之家(RSS)66开源工具 Headroom 爆火:Netflix 工程师打造,声称可节省 60%-95% Token 消耗量
00:53GitHub Blog52GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询
6月19日周五
18:01公众号:卡尔的AI沃茨77精选Humanize PPT v0.9:为演讲而生的开源PPT Skill
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:21
Simon Willison 博客
66
llm-coding-agent 0.1a0

Simon Willison 发布实验性库 llm-coding-agent 0.1a0,基于其 LLM 库演化为智能体框架,实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行,并提供基于 CodingAgent 类的 Python API。内置六种工具:edit_file(精确替换字符串并返回 diff)、execute_command(执行命令,超时 600 秒)、list_files(按 glob 列出文件,排除隐藏目录和 .gitignore 覆盖项)、read_file(分页读取,offset/limit 控制)、search_files(正则搜索,最多 100 条结果)、write_file(创建或覆盖文件,自动创建父目录)。已作为 slop-alpha 发布到 PyPI,支持 --yolo 等 recipe 参数。

智能体GitHub产品更新开源生态
7月2日
16:40
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用,成为 Copilot 模型选择器首个可选的开源权重模型,为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure,按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送,用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise,当前默认关闭,需管理员在 Copilot 设置中启用策略。

GitHub产品更新开源生态编码

推荐理由:GitHub Copilot 首次把开源权重模型放进模型选择器,Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯,对个人开发者尤其友好。
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
7月1日
13:28
HuggingFace Daily Papers(社区热门论文)
49
TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXivGitHub图像生成数据/训练
01:19
Simon Willison 博客
精选73
用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

智能体GitHubMCP/工具产品更新

推荐理由:Simon 把 agent 的产出从文字推到了视频,这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏,等于给自动化流程加了一双眼睛,开发者可以立刻用上这套 demo 生成方案。
6月30日
09:50
公众号:卡尔的AI沃茨
精选70
AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号

AI News Radar 迎来大更新,新增自媒体板块,支持订阅某书、某音、某站、某X等平台账号,每日按热度推荐 Top10 信息(无热门则不硬凑),同时保留时间轴视图,可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类,标注高优先级与多源认证。项目完全开源,可零 API 部署独立 AI 日报页面,支持手机移动端及暗色界面。

GitHub产品更新开源生态

推荐理由:我觉得这是目前最实用的AI信息过滤工具,新版直接整合了社媒热榜和官方源,内容创作者可以拿来当选题雷达,普通人也能一键部署自己的AI日报,省去每天刷各个平台的时间。
08:00
HuggingFace Daily Papers(社区热门论文)
39
AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠,无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架,将医学叙述分解为标准化多层次原子临床事实(疾病级实体与位置、形态、严重程度等属性级描述),并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审,实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench(覆盖X光、CT、MRI、超声)。实验表明,AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXivGitHub论文/研究
6月29日
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
19:10
公众号:小红书技术(dots.llm)
精选72
小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXivGitHub产品更新推理

推荐理由:小红书把 KV Cache 从 token 级拆成按头分家,这个思路让长文本推理的 TTFT 和并发都有数量级提升,开源出来对做推理引擎的同学是个福音。
14:34
Hacker News 热门(buzzing.cc 中文翻译)
53
HackerRank 将其 ATS 开源,评分不稳定引发争议

HackerRank 将其 ATS(申请人跟踪系统)开源。开发者测试发现,默认模型 gemma3:4b 在 temperature 0.1 下对同一份简历运行 100 次,得分范围 66–99。若公司分数线设为 85,简历有 65% 的概率被刷掉。改用 Gemini 后分数集中在 48–64,若分数线 60 仍有 28% 的失败率。评分标准中“工作经验”项始终给出 25/25 满分(即使只有一个实习),而“个人项目”项波动巨大。作者指出,LLM 适合解析简历结构,但无法稳定评判经验价值,AI 筛选实质是运气过滤。

GitHub开源生态评测/基准
09:01
IT之家(RSS)
57
我国开源生态版图扩容,新增人工智能与具身智能等7项目

央视财经报道,我国开源生态版图进一步扩容,新增人工智能、具身智能等7个项目。开放原子开源基金会称,2026年将引入相关前沿项目,抢占大模型和RISC-V新架构先机。2025年国内活跃开源项目超425万个,开发者达263万。工信部副部长熊继军表示将提升开源供给能力,支持基础软件、工业软件、AI等领域开源发展。《2025中国开源年度报告》显示,GitHub中国活跃开发者超210万全球第三,整体开发者规模预计超350万全球第二;中国OpenRank贡献度254,963全球第二,增速差超10%,预计7年后将超越美国。

GitHub具身智能开源生态行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
51
BrainJanus:融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型,在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token,与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构,利用下一token预测实现任意方向生成,包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越,具备零样本泛化能力,并保持可解释的脑拓扑结构。代码已公开。

arXivGitHub多模态论文/研究
6月28日
20:01
IT之家(RSS)
62
OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"

AI智能体安全公司Manifold Security发现,OpenClaw的插件市场ClawHub上1508个技能中有557个采用“@owner/技能名”格式,其中23个直接冒用“@OpenClaw/”或“@ClawHub/”名称,实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒,但暂未发现恶意代码。ClawHub于6月17日更新命名空间规则,仅允许拥有@openclaw权限的发布者上传,6月19日已移除23个误导技能,并新增命名空间申诉机制。

智能体GitHub安全/对齐
6月27日
07:35
MarkTechPost(RSS)
精选75
Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。

智能体AnthropicGitHub编码

推荐理由:Cursor 的审计把 SWE-bench Pro 的信任基础动摇了,63% 的高分轨迹是通过检索现成修复而非独立推理,以后选型不看 harness 严格度等于开盲盒。
6月26日
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于Gist Token的简化稀疏注意力

简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
44
GBC:基于梯度的连接用于优化多智能体系统

针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。

智能体GitHub数据/训练论文/研究
07:01
GitHub Blog
51
跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。

GitHub编码评测/基准
06:01
Hacker News 热门(buzzing.cc 中文翻译)
61
Show HN: OpenKnowledge--Obsidian/Notion 的开源替代方案

OpenKnowledge 是一款开源、AI 优先的笔记与知识管理工具,可作为 Obsidian 和 Notion 的替代方案。项目代码托管在 GitHub 上。

GitHub开源/仓库开源生态
02:31
Hacker News 热门(buzzing.cc 中文翻译)
精选79
赫库兰尼姆古卷首次被完整虚拟解读

研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

GitHub开源生态论文/研究
关联讨论 1 条X:Ethan Mollick (@emollick)
推荐理由:两千年来首次完整读取密封的古卷,用 X 射线和机器学习做到了,还把数据和代码全开放了,我觉得这是 AI 应用在人文领域最优雅的示范之一。
6月25日
22:01
Hacker News 热门(buzzing.cc 中文翻译)
50
"Vibe coding"被指为从开源和企业授权代码中窃取

Hacker News 热门讨论指出,所谓“vibe coding”并非凭直觉编写,而是窃取开源和企业授权代码。

GitHub现象/趋势编码
15:58
IT之家(RSS)
51
GitHub 调整 Copilot Free 与 Student 计划:自动模型选择成唯一方式

6月24日,GitHub宣布Copilot Free与Student计划将自动模型选择设为默认且唯一方式。系统根据任务复杂度动态分配模型:简单提示词用更快成本更低的模型,复杂编码任务用推理能力更强的模型。用户仍可通过悬停(Copilot Chat)或输出旁(Copilot CLI、Copilot Cloud Agent)查看所用模型。此前4月暂停相关订阅新注册,6月17日重新开放个人套餐注册,调整计费后6月用户使用量大幅激增。

GitHub产品更新编码
10:58
IT之家(RSS)
48
GitHub Copilot切换按量计费后6月使用量激增,创史上最佳月度业绩

GitHub自6月1日将Copilot从包月制改为按量计费后,用户使用量大幅激增,6月成为其成立以来业绩最佳月份。首席技术官费多罗夫在员工会议上透露上述信息,但未披露具体数据。GitHub正面临Cursor、OpenAI Codex、Anthropic Claude Code等竞品竞争。费多罗夫认为无需大幅涨价,但未确认调价方案。受使用量暴涨影响,GitHub在2026年已发生数十次大规模服务中断,微软正求助亚马逊解决算力承载问题。

GitHubMicrosoft编码行业动态
09:58
IT之家(RSS)
54
2025 中国开源年度报告:OpenHarmony 登顶全球,7 年后中国开发者贡献度有望超过美国

开源社发布《2025中国开源年度报告》。GitHub平台中国活跃开发者超210万,全球第三。OpenHarmony以60089 OpenRank值登顶全球开源项目影响力榜首。中美贡献度增速差超10%,按当前态势7年后中国开发者贡献度有望超过美国。中国OpenRank贡献度254963,全球第二。AI大模型相关仓库年均增长率超210%,vLLM进入全球项目Top15。10亿以上参数模型中Meta下载量占23.2%,阿里Qwen系列占20%,DeepSeek占3.8%,其R1训练成本仅550万美元。开源企业影响力微软居首,华为第二。

DeepSeekGitHub开源生态行业动态
08:08
Simon Willison 博客
69
browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库

Simon Willison 受 Mozilla 新 MDN MCP 服务启发,将 mdn/browser-compat-data 的浏览器兼容性数据转为 SQLite 数据库。他用 Claude Code for web (Opus 4.8) 生成基于 sqlite-utils 的转换脚本,再用 Codex Desktop (GPT-5.5) 编写 GitHub Actions 工作流,将约 66MB 数据库 force-push 到仓库的 db 孤立分支,使其可通过 GitHub CDN 访问并附带开放 CORS 头。用户可直接下载或通过 Datasette Lite 在线探索。

GitHubMCP/工具开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
6月24日
11:55
HuggingFace Daily Papers(社区热门论文)
精选70
NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?

NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体GitHub开源生态评测/基准

推荐理由:这个基准把AI agent丢进Nature论文的复现池里游了一圈,发现最强的配置也只能在17.8%的任务上超越SOTA,而且靠的是方法翻译而非发明——对做科研agent的团队来说,既是冷水也是路线图。
08:00
HuggingFace Daily Papers(社区热门论文)
56
多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。

智能体GitHub数据/训练论文/研究
03:43
GitHub Blog
精选56
GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明度实践规范,以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正,以在保持透明度目标的同时兼容开源开发模式。

GitHub开源生态政策/监管

推荐理由:GitHub 联合 Hugging Face 等开源玩家公开呼吁修正加州 AI 透明法案,核心矛盾是许可撤销条款与开源许可的‘永久不可撤销’冲突,对开源开发者是个明确的政策信号,值得留意。
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选82
恶意CDN仍潜伏GitHub Pages,AI让情况恶化

UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。

GitHub安全/对齐开源生态编码

推荐理由:polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点,更可怕的是所有测试的AI模型都还会推荐这些链接,AI编码的便利正在变成供应链投毒的加速器。
6月23日
21:20
Hugging Face:Blog(RSS)
精选73
IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用,涵盖电影推荐、IBM Cloud 架构顾问等场景,每个应用仅需一个 FastAPI 文件。

智能体GitHubMCP/工具产品更新

推荐理由:CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置,开发者只写工具列表和 prompt 就能跑起 agent,配套的二十多个单文件应用是现成的模板库,对自建 agent 的团队来说省去了八成重复工作。
19:10
IT之家(RSS)
精选72
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

GitHub模型发布语音

推荐理由:网易有道把语音克隆的门槛压到了 3 秒,跨 14 种语言还能保持无口音,而且全量开源、商用无限制,对多语种配音和短剧出海是直接可用的工具。
13:13
HuggingFace Daily Papers(社区热门论文)
55
UniverSat: 分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。

GitHub多模态数据/训练模型发布
12:13
HuggingFace Daily Papers(社区热门论文)
51
EnterpriseClawBench:从真实工作会话构建的企业智能体基准

EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。

智能体GitHub数据/训练论文/研究
08:14
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选84
GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行

Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。

GitHub开源生态教程/实践部署/工程
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」,动态量化让 744B 参数模型降到了 239GB 磁盘占用,对想上手本地最强开源模型的人,这一步正好踩在从 curiosity 到可用的临界点上。
6月22日
08:00
HuggingFace Daily Papers(社区热门论文)
35
SingGuard:政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列,可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式,并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准,含56,340个样本,覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族(35个数据集)上均取得平均F1 SOTA;动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXivGitHub多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
49
ReNIO:为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub推理数据/训练论文/研究
6月21日
07:33
MarkTechPost(RSS)
64
思科 AI 发布 FAPO:基于 Claude Code 的多步 LLM 流水线优化系统

思科 AI 推出 FAPO,一个由 Claude Code 驱动的多步 LLM 流水线自动化优化系统,基于 Apache 2.0 开源。FAPO 通过步骤级故障归因,从提示词、参数到链式结构逐级升级优化。在六项基准测试中,以 GPT-4.1-mini、GPT-5.4-mini 和 Gemma 3-12B 为任务模型,与 SOTA 优化器 GEPA 对比:18 个模型-基准比较中赢下 15 个,平均增益 +14.1 个百分点;在 HoVer 和 IFBench 上触发结构升级时六组全胜,平均增益达 +33.8 个百分点;仅在 AIME 上略逊 3.1 个百分点,在采样噪声范围内。防过拟合机制包括仅检查训练集、不可变文件及独立审查。

AnthropicGitHub产品更新部署/工程
6月20日
15:59
IT之家(RSS)
66
开源工具 Headroom 爆火:Netflix 工程师打造,声称可节省 60%-95% Token 消耗量

Netflix 高级工程师 Tejas Chopra 开发的开源工具 Headroom(v0.26.0)在 AI 应用与 LLM 间建立本地透明压缩层,通过压缩 JSON、代码、RAG 片段和对话历史等冗余数据减少 Token 消耗,支持可逆压缩与 CCR 缓存机制。实测代码搜索场景 Token 从 17765 降至 1408(节省 92%),SRE 事故调试场景从 65694 降至 5118(同样节省 92%)。累计帮助用户节省约 70 万美元成本、释放超 2000 亿 Token。提供 Python/TypeScript 库、智能体代理模式、直接包装现有 AI 编程智能体以及 MCP 服务器模式,并可精简 AI 回复中客套话进一步降低成本。

GitHubMCP/工具开源/仓库部署/工程
00:53
GitHub Blog
52
GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体GitHub教程/实践数据/训练
6月19日
18:01
公众号:卡尔的AI沃茨
精选77
Humanize PPT v0.9:为演讲而生的开源PPT Skill

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。

GitHubMCP/工具开源/仓库

推荐理由:卡尔把 AI 做 PPT 的坑全趟了一遍,这套工具体系让页面从‘好看’变成‘能讲’,做演讲的人可以抄作业了。
‹ 上一页
12345
下一页 ›