AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月30日周二
08:00HuggingFace Daily Papers(社区热门论文)45HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
08:00HuggingFace Daily Papers(社区热门论文)45AutoTrainess:自主训练语言模型的LM智能体
07:59MarkTechPost(RSS)53OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"
07:28Rohan Paul65Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈
05:55🚨 AI News | TestingCatalog62OpenClaw 推出 iOS 和 Android 原生移动应用
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
05:30Microsoft Research46Memora可扩展记忆系统解决AI记忆问题
05:26Emad23Moonshots播客:变革与重大决策
04:26OpenClaw🦞71精选OpenClaw 发布原生 iOS 与 Android 应用
03:29MarkTechPost(RSS)61NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能
03:17Chubby♨️37Claude Code新版本:子智能体默认后台运行
03:17Chubby♨️67AI 公司产品 Matrix 公测开放
02:24Berryxia.AI19卧槽! 我终于特么弄懂你们天天吹的循环工程了!!! 【引用 @berryxia】:开始让美女助教卖课了😂 丝滑~
01:59Boris Cherny30Claude Code子智能体默认后台运行
01:57Cursor Blog75精选从任何地点构建--Cursor for iOS 公测版发布
01:55🚨 AI News | TestingCatalog74Cursor iOS 应用上线,支持实时活动与 PR 审查
01:47Chubby♨️71Cursor for iOS 发布,云智能体远程控制
01:26TechCrunch:AI(RSS)69Cursor 推出 iOS 移动应用,可随时随地指导编码智能体
01:20eric zakariasson63Cursor Mobile 随时随地运行云端智能体
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
00:00Meituan LongCat45美团LongCat Owl Alpha 将退役,曾登顶多项榜单
6月29日周一
23:58Rohan Paul49Giga 推出 Scout:自动改进关键业务 KPI 的 AI 智能体
23:31StepFun41Step 3.7 Flash Claw-Eval 评测第二
23:24Berryxia.AI61Anthropic工程师在Code with Claude分享提示词工程实战手册
23:24Berryxia.AI77精选Anthropic工程师Margot Van Laar:提示词工程实战--调试生产提示词为主,评估是唯一严谨方式
23:24Berryxia.AI64Anthropic工程师分享提示词工程实战手册
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
22:24Berryxia.AI45开发者跑通AI视频讲解Skills,可自动生成内容
18:58MarkTechPost(RSS)74精选EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能
18:49fofr71fofrAI 写作技能改善 Agent 输出质量
18:31Alibaba Cloud42Qwen全球AI黑客马拉松开放报名
18:24Berryxia.AI62开源视频制作项目OpenMontage单日获3000 Star
18:19fofr70技能制作流程:子智能体研究与蒸馏
18:07The Decoder:AI News(RSS)73精选Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制
18:01IT之家(RSS)64蚂蚁阿宝 AI 助手正式上线,iOS/安卓版支付宝跨代升级至大版本 12,图标添加"AI"字样
17:19MiniMax (official)39MiniMax M3 本地运行演示:3台Mac驱动428B模型,自主智能体完成股票组合
17:01Alibaba Cloud47阿里云启动智能体云转型
16:51公众号:火山引擎47万得AI面向个人用户开放,基于豆包大模型2.0与火山引擎
13:50公众号:卡尔的AI沃茨67开源Bugu - 防止合盖休眠的macOS菜单栏应用
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月30日
08:00
HuggingFace Daily Papers(社区热门论文)
45
HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体Microsoft论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
AutoTrainess:自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。

智能体数据/训练论文/研究
07:59
MarkTechPost(RSS)
53
OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"

OpenClaw 推出免费 iOS 和 Android 配套节点应用,手机成为自托管智能体网络中的节点(非独立聊天机器人)。核心 Gateway 用 TypeScript 编写,需 Node 24 或 22.19+,运行在 macOS、Linux 或 Windows(WSL2)上。通过 WebSocket 端口 18789 与手机配对,支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对,支持聊天、实时/后台语音模式、Canvas 表面,以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式(ElevenLabs 或系统 TTS)和实时 Canvas。隐私敏感命令默认关闭,需在配置文件中显式允许。

智能体产品更新开源生态端侧
07:28
Rohan Paul@rohanpaul_ai
65
Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体arXivGoogle论文/研究
05:55
🚨 AI News | TestingCatalog@testingcatalog
62
OpenClaw 正式发布 iOS 与 Android 原生移动应用,支持智能体(Agents)、频道、任务和回复等核心功能,采用与网页版一致的 UI 设计。用户可在手机上随时随地运行 AI 智能体。

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体产品更新
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
05:30
Microsoft Research@MSFTResearch
46
AI智能体无法记住过去的对话。它们必须不断加载或检索上下文,随着任务变得更长更复杂,效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题,该系统将存储的内容与检索方式分离开来:https://msft.it/6018vs3gC
智能体Microsoft论文/研究
05:26
Emad@EMostaque
23
本周的Moonshots播客与@PeterDiamandis、@alexwg和@DaveBlundin的讨论是我们进行过的最有趣的讨论之一 真的值得花时间,即使这是最慢的时候 一些变化即将到来,我们需要做出重大决定 https://youtu.be/-H7J_-zr7pA
智能体行业动态
04:26
OpenClaw🦞@openclaw
精选71
OpenClaw 现已登陆 iOS 和 Android 🦞 📱 原生移动应用,终于来了 💬 智能体装进口袋 🔔 频道、任务、回复,随时处理 用你的大拇指,在任何地方运行智能体。 iOS: https://apps.apple.com/us/app/openclaw-ai-that-does-things/id6780396132 Android: https://play.google.com/store/apps/details?id=ai.openclaw.app
智能体产品更新端侧

推荐理由:OpenClaw 终于推出原生移动应用,智能体可以随时放进口袋,对已有用户是体验上的补完,但对新用户的吸引力可能有限。
03:29
MarkTechPost(RSS)
61
NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit,将蛋白质折叠(OpenFold3、Boltz‑2)、分子对接(DiffDock)、生成化学(GenMol)、序列设计(ProteinMPNN)、MSA 搜索、RFdiffusion 及基因组学模型(Evo 2)等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档,支持 MCP 服务器包装,可通过 npx skills add 安装至 Claude Code 等 agent。测试显示:接入技能后任务完成率从 57.1% 升至 100%,每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库
03:17
Chubby♨️@kimmonismus
37
下个版本的 Claude Code 中,子智能体将默认在后台运行,让你在子智能体工作时仍可继续与 Claude 对话。若想让智能体前台运行,只需告诉 Claude。Kim 对此表示非常期待,并喊话 Boris 继续发力。

Boris Cherny: In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while ...

智能体Anthropic产品更新编码
03:17
Chubby♨️@kimmonismus
67
AI 公司产品 Matrix 公测开放

Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%),长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时,而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务,即日起向所有人开放公测。

Matrix: what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...

智能体产品更新推理
02:24
Berryxia.AI@berryxia
19
卧槽! 我终于特么弄懂你们天天吹的循环工程了!!! 【引用 @berryxia】:开始让美女助教卖课了😂 丝滑~

Berryxia.AI: 开始让美女助教卖课了😂 丝滑~

智能体其他
01:59
Boris Cherny@bcherny
30
下一版 Claude Code 中:子智能体默认在后台运行,因此你可以在子智能体工作时继续与 Claude 对话。如想让智能体在前台运行,只需告诉 Claude 即可。
智能体Anthropic产品更新编码
01:57
Cursor Blog
精选75
从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版,所有付费计划可用。开发者可在手机上启动始终在线的云端智能体,或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后,锁屏 Live Activities 和推送通知实时更新状态,完成或需要输入时提醒。云端智能体在隔离虚拟机中运行,可自动迭代生成合并就绪的 PR,并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣,优惠至 2026 年 7 月 5 日。

智能体产品更新编码
关联讨论 1 条X:Berry Xia (@berryxia)
推荐理由:Cursor 移动端把 Agent 放到了云上,从手机就能启动和合并 PR,通勤灵感不再浪费,对经常离开桌面的开发者是真正的效率杠杆。
01:55
🚨 AI News | TestingCatalog@testingcatalog
74
Cursor 发布了 iOS 应用 🔥 > 用户将能够查看实时活动,并跟进正在进行的任务。 > 还将支持带有差异查看器的 PR 审查。 不过看起来在欧盟地区无法使用。

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码
01:47
Chubby♨️@kimmonismus
71
Cursor for iOS 正式发布。用户可通过启动始终在线的云智能体在任何地方构建,或从应用远程控制电脑上的智能体。此外,Composer 2.5 在应用内享受75%折扣,持续至7月5日。主推文回应:没有 Composer 3,但有 Cursor for iOS,表示不确定。

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码
01:26
TechCrunch:AI(RSS)
69
Cursor 推出 iOS 移动应用,可随时随地指导编码智能体

Cursor 发布 iOS 移动应用,用户可通过手机直接提示编码智能体,或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新,使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示,他目前大部分编码工作都在手机上完成。

智能体产品更新编码
01:20
eric zakariasson@ericzakariasson
63
过去几周我一直在路上使用 Cursor Mobile,能随时随地访问所有云端智能体,真的太棒了。 出去走走,有了想法,在应用中口述下来。 走回来时智能体已经完成,可以直接进入其中。 今天就试试吧!

Cursor: Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...

智能体产品更新编码
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
00:00
Meituan LongCat@Meituan_LongCat
45
你们有些人猜对了。👀 OpenRouter上的Owl Alpha--就是我们。 自上线以来,其日活量已进入全球前三--并在 Hermes Agent 上排名第一、Claude Code 上第二、OpenClaw 上第三(月活量)。 感谢所有在秘密阶段测试和使用 Owl Alpha 的人--你们帮助塑造了接下来即将到来的东西。 Owl Alpha 即将退役。但这并非终点--敬请期待!
智能体模型发布
6月29日
23:58
Rohan Paul@rohanpaul_ai
49
Giga 发布 Scout,一种以业务 KPI 为目标的 AI 智能体工具。用户用自然语言设定目标,Scout 自动构建智能体,从真实对话中学习(尤其是人工客服介入时),测试每次更改并保留有效部分。小型文案和策略修复可自动推送;涉及资金或系统的操作会带证据路由给团队审批。例如,金融科技公司将"资金存款"设为 KPI,Scout 智能体能自动触达未存款客户并促成存款,恢复流失收入。Scout 还能自行检测并修复自身集成故障,所有变更需用户批准后才生效。

Meer | AI Tools & News: You set the goal. Scout gets you there. most agent tools hand you the KPIs everyone already tracks. scout works backward...

智能体产品更新
23:31
StepFun@StepFun_ai
41
Step 3.7 Flash 在 Claw-Eval General 自主智能体评测中排名第二。 我们在多步执行和长周期任务鲁棒性方面表现强劲,排名仅次于 Claude Opus 4.6。 这是面向真实世界智能体工作负载的有前景的信号。
智能体评测/基准
23:24
Berryxia.AI@berryxia
61
Anthropic工程师在Code with Claude分享提示词工程实战手册

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:维护已有提示词比从零写更常见,最佳起点是评估(Eval)而非直接改提示词。两个场景:客服机器人需用XML标签结构化,移除旧模型冗余指令,为精确计算提供工具;零售排班Agent应拆分成生成-评估-修复循环,使用更强推理模型(Opus)+自适应思考。强调评估是判断改动有效性的唯一严谨方式。

智能体Anthropic推理教程/实践
23:24
Berryxia.AI@berryxia
精选77
Anthropic工程师Margot Van Laar:提示词工程实战--调试生产提示词为主,评估是唯一严谨方式

An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。

Berryxia.AI: 睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。 核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...

智能体Anthropic推理教程/实践

推荐理由:Margot Van Laar把提示词维护讲到了工程级别,评估驱动迭代、清理旧指令、拆分任务循环,这些方法比死记prompt模板重要得多,做AI应用的人都该看一遍。
23:24
Berryxia.AI@berryxia
64
Anthropic工程师分享提示词工程实战手册

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:生产提示词大多时间在调试维护,最好起点是评估而非直接修改。维护客服机器人提示词时,需用XML标签结构化,移除冗余补丁,明确输出格式;避免旧模型“禁止列表”指令在新模型上过度拟合;精确计算应赋予工具;升级决策需说明代价与收益。从零构建零售排班Agent,应拆分为生成-评估-修复循环,三个简单提示词各司其职;更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。

智能体Anthropic教程/实践
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
22:24
Berryxia.AI@berryxia
45
开发者跑通AI视频讲解Skills,可自动生成内容

Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。

智能体教程/实践视频
18:58
MarkTechPost(RSS)
精选74
EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。它以可编辑的 Markdown 文件为记忆主体,经 SQLite 管理状态、LanceDB 实现混合检索(BM25 关键词 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill,使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs(支持分类与话题搜索的 Markdown 页面)和 Reflection(跨会话优化 Profile 和 Skill)。据 EverMind 报告,LoCoMo 得分 93.05%,LongMemEval 83.00%,HaluMem 93.04%,p95 检索延迟低于 500ms。运行时可本地优先部署,也提供 EverOS Cloud 托管选项,兼容 OpenAI 协议端点。

智能体MCP/工具开源/仓库

推荐理由:EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来,Markdown源真和自进化技能让本地开发更轻便,但基准全由团队自报,上手前最好自己测一下。
18:49
fofr@fofrAI
71
我现在用这个技能来处理 agent 写的所有内容。生活质量大幅提升。

fofr: I got tired of reading badly formatted agent written reports, so I put together a writing skill derived from the GOVUK s...

智能体教程/实践
18:31
Alibaba Cloud@alibaba_cloud
42
准备好参加 Qwen 全球 AI 黑客马拉松了吗? 🚀 只需三步即可开启你的征程: ➡️ 在 Devpost 上注册 ➡️ 通过 API 访问,在五个赛道之一构建你的 Agent ➡️ 提交作品,赢取 7 万美元以上的奖池份额 🔗 立即点击加入全球竞技场:https://click.qwencloud.com/m/20000000281/
智能体行业动态
18:24
Berryxia.AI@berryxia
62
开源项目OpenMontage单日获3000 Star,将视频生产拆为12条pipeline,内置52工具和500+ agent skills。用户用自然语言描述需求,agent完成从调研到剪辑全流程,支持AI与真实素材混合工作流,具备预合成验证、后渲染自检等质量把控,渲染引擎Remotion+HyperFrames,普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
18:19
fofr@fofrAI
70
我非常喜欢这个技能制作流程: - 设置能进行深度研究的子智能体 - 针对某事物不同角度要求进行X次研究运行 - 将研究报告蒸馏成一份SKILL.md文件 - 将研究内容与技能一同包含以供参考
智能体教程/实践
18:07
The Decoder:AI News(RSS)
精选73
Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本,该脚本运行时从 DNS 条目拉取命令并执行,恶意代码从未存在于仓库中,对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时,Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本,打开反向 shell,攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容,开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体Anthropic安全/对齐编码

推荐理由:用 AI 编码工具克隆仓库就能被反向 shell 控制,这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚,每条修复建议开发者现在就能用。
18:01
IT之家(RSS)
64
蚂蚁阿宝 AI 助手正式上线,iOS/安卓版支付宝跨代升级至大版本 12,图标添加"AI"字样

6 月 29 日,蚂蚁阿宝 AI 助手在支付宝 App 正式上线。iOS 版支付宝跨代更新至 12.12.1 版本(此前为 10.8.76),安卓版同步升级至相同版本。支付宝 Logo 新增“AI”字样,名称改为“支付宝-你的 AI 生活伙伴”。用户可通过右滑进入 AI 版,以对话方式让“阿宝”执行任务,并可在 AI 版与经典版之间切换。目前该功能仍需邀请码才可体验。

智能体产品更新
17:19
MiniMax (official)@MiniMax_AI
39
MiniMax官方转发了Gradient、Parallax和GenericAgent团队的演示结果。他们在本地运行了MiniMax M3(428B参数模型),通过Parallax工具部署在3台Mac上,再由GenericAgent驱动一个约3000行代码的自主智能体,完成了创建5只股票投资组合并写入磁盘的任务。整个过程完全在本地进行,无云端调用、无API费用,数据未离开机器。MiniMax表示这是本地AI未来发展的一个缩影。

Gradient: A self-evolving agent + a 428B model + 3 Macs = ? Your own AI lab. We ran @MiniMax_AI M3 locally with @tryParallax, righ...

智能体教程/实践端侧
17:01
Alibaba Cloud@alibaba_cloud
47
智能体云的转型已经开始。 阿里云CTO兼国际业务总裁李飞飞博士分享了他对未来的看法:未来三年将由智能体云的崛起所定义,智能体可以利用产品和基础设施来执行复杂任务。 🔗: https://int.alibabacloud.com/m/1000407809/
智能体MCP/工具大佬观点
16:51
公众号:火山引擎
47
万得AI面向个人用户开放,基于豆包大模型2.0与火山引擎

万得推出面向个人金融从业者的AI原生工作平台万得AI,由豆包大模型2.0提供技术支撑,火山引擎提供弹性AI算力。万得AI采用多Agent推理模式,主智能体根据任务实时创建子智能体,调用数百个专业金融MCP工具和Agent,协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中,豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户,实现“一个账号即一支全建制金融团队”。

智能体产品更新
13:50
公众号:卡尔的AI沃茨
67
开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,通过心跳音效提示Agent的五个状态:接收任务(Accept)、运行中(Running)、成功(Done)、中断(Interrupted)和授权(Permission)。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发,Kimi Code在中等编码任务中达180 token/s,短上下文任务260 token/s,速度提升6倍,可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码
‹ 上一页
1…45678…50
下一页 ›