AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月15日周一
17:43IT之家(RSS)66AI 版支付宝内测界面曝光,搭载"阿宝"助手
16:40X.PIN54蚂蚁测试AI支付宝 嵌入"阿宝"助手
15:09swyx41Anthropic Ultracode:智能子程序与并行化工作流
14:08小互64AI Agent悬赏任务市场:类似AI版的"猪八戒"
13:58数字生命卡兹克58Prompt该退环境了,未来属于Loop Engineering
12:27凡人小北52Vercel CEO:两类AI Builder,闷头ship才能创造价值
11:40IT之家(RSS)38OPPO ColorOS 16 六月更新公布:锁屏岛新增酷狗音乐等,6 月 30 日前完成推送
11:00jason68Jason Liu 发布 /ultragoal 技能
10:10公众号:数字生命卡兹克57Loop Engineering:让AI智能体自动循环执行任务的新范式
10:10公众号:卡尔的AI沃茨66实测OiiOii 2.0:智能画布、一键拉片复刻与skill库上线
09:15meng shao67Databricks 推出 Omnigent
09:06MarkTechPost(RSS)61Claude Code 智能体编码工具详解:25 项功能与策略
08:45meng shao73OpenAI Codex Mobile 工程实践指南
08:32宝玉72baoyu-skills 反思:EXTEND.md 应改用 JSON/YAML
08:26Orange AI70橙线插画.skill开源:用AI生成纽约客风配图
08:00HuggingFace Daily Papers(社区热门论文)37CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试
08:00HuggingFace Daily Papers(社区热门论文)51MemSlides:面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架
08:00HuggingFace Daily Papers(社区热门论文)53MyPCBench:面向个性化电脑使用智能体的基准测试
08:00HuggingFace Daily Papers(社区热门论文)53多智能体LLM系统中并发异常的验证检测与预防
08:00HuggingFace Daily Papers(社区热门论文)43LectūraAgents:面向自适应个性化AI辅助学习与具身教学的多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)48ProCUA-SFT 技术报告
07:55karminski-牙医53Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5
06:19elvis53Codex 自主设置 /goal:智能体工具化与风险警示
05:45Tibo68Codex 自主设定目标,通用化元提示
04:14Ethan Mollick49AI智能体重建公司最佳方法待实验
02:57Google AI Developers40Google 5天vibe code Kaggle课程上线
02:47elvis51Elvis Saravia(DAIR.AI)用6个月构建自有 agent 编排器,称其是应对本周 Fable 事件的最佳防御
02:17elvis73Elvis Saravia 发布 LLM Council 技能
6月14日周日
23:54Satya Nadella65同事件精选Satya Nadella:没有生态的前沿不稳定同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》
23:45HuggingFace Daily Papers(社区热门论文)42SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理
23:44Rohan Paul68德克萨斯大学论文:AI 智能体部署后可靠性随时间下降
22:44Rohan Paul59研究:LLM智能体并未真正从抽象规则中学习
21:20Berryxia.AI50Berry Xia 推荐四个开源 AI 工具:本地搜索、Agent 技能、离线知识库与降本利器
18:59Hacker News 热门(buzzing.cc 中文翻译)59不要相信大型上下文窗口
18:11Rohan Paul59语言模型需要睡眠:通过暂停巩固记忆提升长程推理性能
17:38IT之家(RSS)43蚂蚁集团为支付宝引入AI助手"阿宝",支持点咖啡、买基金等指令
17:11The Decoder:AI News(RSS)59AI编码智能体虽能定位正确文件,但常错过关键代码行,研究显示
16:41Rohan Paul56Vinod Khosla:AI不应做副驾驶,应完全取代人类
13:05MarkTechPost(RSS)68Databricks 开源 Omnigent:跨 Claude Code、Codex 和 Pi 的 AI 智能体元编排框架
11:26jason66agents.md 新增应用截图分诊技能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月15日
17:43
IT之家(RSS)
66
AI 版支付宝内测界面曝光,搭载"阿宝"助手

AI 版支付宝正在内测,需邀请码才能体验。界面分为资产和阿宝两个版块,阿宝为 AI 助手,支持对话,底部集成扫一扫、收付款、出行、理财功能。资产界面以卡片夹形式展示流动资产、理财资产、信用资产等信息。蚂蚁集团对此拒绝评论,内部项目代号“宝计划”,预计近日上线,后续将以每月两次的频率迭代。新版本上线后默认打开原版支付宝,用户可自行将 AI 版设为首选界面。

智能体产品更新
16:40
X.PIN@thexpin
54
蚂蚁集团正在测试一款 AI 驱动的支付宝。这是阿里巴巴首次尝试将 AI 植入中国最大的支付平台。新版支付宝将嵌入一个名为"阿宝"的 AI 助手,界面从"功能菜单+搜索栏"转变为对话优先。
智能体产品更新搜索
15:09
swyx@swyx
41
swyx 指出,Anthropic 的 Ultracode 工具在消耗模型 token 方面表现惊人,但需要正确设置仓库的并行化以利用子智能体(subagents)的扇出(fanout)能力。该工具的核心思想是"智能子程序"--当理解大量知识工作不过是需要判断和智能的琐碎任务(yak shaves)时,动态工作流不仅适用于编码任务。

Thariq: http://x.com/i/article/2061850535708483585

智能体Anthropic大佬观点
14:08
小互@xiaohu
64
AI Agent悬赏任务市场:类似AI版的"猪八戒"

小互介绍了一个AI Agent悬赏任务市场,类似AI版“猪八戒”。用户可发布复杂任务(如优化数据库、开发工作流)并设定赏金,由AI Agent自动抢单、交付结果、收款。流程五步:用户下单(资金冻结)→Agent抢单报价→用户选择Agent→Agent干活(写代码、跑测试)→用户验收,通过则自动付款,平台抽15%,Agent拿85%。设计亮点:支持CLI命令行发任务(可脚本化,实现机器给机器派活);Agent有信誉分(五级,从新手到传奇),高分优先接高价任务。

智能体产品更新
13:58
数字生命卡兹克@Khazix0918
58
Prompt该退环境了,未来属于Loop Engineering

6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。

智能体大佬观点现象/趋势
12:27
凡人小北@frxiaobei
52
Vercel CEO:两类AI Builder,闷头ship才能创造价值

Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。

Guillermo Rauch: There seem to be two main groups 1️⃣ Those who post all day long about using coding agents but don't seem to ship anythi...

智能体大佬观点编码
11:40
IT之家(RSS)
38
OPPO ColorOS 16 六月更新公布:锁屏岛新增酷狗音乐等,6 月 30 日前完成推送

OPPO ColorOS 16 六月更新启动分批推送,新增 AI 流体云功能(锁屏岛支持酷狗音乐歌词,流体云支持超级课程表课程信息与支付宝停车计费),小布建议新增足球观赛卡,小布助手接入京东等智能体服务。通信互联新增飞牛私有云设备管理与相册无感连接、领克蓝牙车钥匙。其他更新包括相册端午节水印、离线 AI 人像补光、外卖照片图集、游戏 2K 超清截屏等。更新于 6 月 3 日启动,6 月 30 日前完成,覆盖 ColorOS13 及以上 100+ 款机型。

智能体产品更新端侧
11:00
jason@jxnlco
68
查看我的 /ultragoal 技能 https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

jason: tips for codex goals sure you can use /goal but it also has a set_goal() function its almost better to prompt the model ...

智能体OpenAI教程/实践编码
10:10
公众号:数字生命卡兹克
57
Loop Engineering:让AI智能体自动循环执行任务的新范式

OpenClaw创始人Peter与Claude Code创始人Boris近日提出Loop Engineering,由Google的Addy Osmani系统梳理。其核心是让AI智能体通过/loop或/goal命令自动循环执行任务,开发者只需定义可验证的完成条件(如“测试全通过”)和边界规则,Agent自行迭代至达标。需防范古德哈特定律——Agent可能删除失败测试而非修复Bug。该范式标志着从Prompt到Loop的四次能力跃迁。

智能体现象/趋势编码
10:10
公众号:卡尔的AI沃茨
66
实测OiiOii 2.0:智能画布、一键拉片复刻与skill库上线

OiiOii 2.0新增智能画布、一键拉片复刻和skill库三个功能。一键拉片复刻可将输入片段拆解为含关键帧、叙事要素、镜头语言等维度的拉片表格,用户替换角色、场景、元素后,半小时内可复刻出镜头设计一致度达90%的动画片段。智能画布支持直接点击素材唤醒Agent对话修改,不同素材可并行调用多个Agent同步推进任务。skill库内置自媒体、广告营销、周边设计等类型,电商广告skill可指定卖点并上传商品图生成专业短片,3C数码广告skill也能通过自然语言对话逐步调优,另有世界杯搞笑玩梗skill可直接生成搞怪视频。

智能体教程/实践视频
09:15
meng shao@shao__meng
67
Databricks 推出 Omnigent

Databricks 推出 Omnigent,一个开源(Apache 2.0)meta-harness,位于 Claude Code、Codex、Pi 及自研 Agent 之上,提供统一接口。三大能力:组合(一行配置切换不同 harness,YAML 定义跨 harness 可移植 agent,同一 Agent 内可组合不同 subagent);控制(有状态成本策略如每 $100 暂停,安全策略如 npm 后 git push 需审批,OS 沙箱,策略与 harness 解耦);协作(通过 URL 共享 live session,支持多端访问及实时评论)。理念类似 Kubernetes,让 session、policy 与具体 harness 解耦,形成可迁移工作层。

Databricks: Introducing Omnigent, a meta-harness to combine, control, and share your agents. The best teams already mix models and h...

智能体MCP/工具产品更新
09:06
MarkTechPost(RSS)
61
Claude Code 智能体编码工具详解:25 项功能与策略

Claude Code 是 Anthropic 的智能体编码工具,运行于终端、桌面应用和 IDE,基于智能体循环工作。文章将 25 项功能与策略分为官方功能、社区技术和第三方工具三类,并逐一标注。官方功能包括 CLAUDE.md 记忆文件、技能、子智能体、斜杠命令(/init、/compact、/review 等)、钩子、MCP 服务器、插件、检查点、计划模式、权限模式、自动模式(使用 Sonnet 4.6 分类器)、上下文压缩、后台任务、Agent SDK、无头 CLI、GitHub Action 集成、输出样式、远程控制与移动推送、离线摘要、沙盒。社区技术涵盖结构化上下文文件夹、动态工作流、模块化技能管道、弹性技术。第三方工具如 Mem Search 可扩展外部记忆层。

智能体Anthropic教程/实践编码
08:45
meng shao@shao__meng
73
OpenAI Codex Mobile 工程实践指南

手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。

Thomas Ricouard: http://x.com/i/article/2065692454490103808

智能体OpenAI教程/实践编码
08:32
宝玉@dotey
72
baoyu-skills 反思:EXTEND.md 应改用 JSON/YAML

宝玉在开发 baoyu-skills 时,采用 EXTEND.md 文件保存用户自定义设置,初衷是方便 Agent 读取。但实践发现,Markdown 非严格结构化数据,虽能被 LLM 理解,却难以被程序解析,且格式难以保持一致性。他认为更合理的方案是采用 JSON 或 YAML 作为 Skill 扩展配置,既能被 LLM 方便读取,也便于代码解析与持久化。

马东锡 NLP: http://x.com/i/article/2066281164134825984

智能体大佬观点
08:26
Orange AI@oran_ge
70
橙线插画.skill开源:用AI生成纽约客风配图

Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。

智能体GitHub图像生成开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
37
CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济,每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师,其余由固定参考智能体控制。测试多个开源和专有LLM,所有模型均优于不采取行动的被动基线,多数实现正净收入。表现更好的模型通信更频繁,而Claude Haiku 4.5出现空闲漂移失败模式,反复选择不作为。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemSlides:面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架

MemSlides提出分层记忆框架,将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆(存储面向意图的配置,支持初始个性化)和工具记忆(存储可复用执行经验,支持可靠局部编辑);工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制,仅更新最小影响区域。实验表明:用户画像记忆提升多人物多意图场景的人物对齐效果,工具记忆改善闭环修改行为,工作记忆能有效传递偏好。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
MyPCBench:面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
多智能体LLM系统中并发异常的验证检测与预防

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
43
LectūraAgents:面向自适应个性化AI辅助学习与具身教学的多智能体框架

LectūraAgents提出层级多智能体框架,模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课,执行手写、高亮、下划线等可视教学动作。核心贡献包括:层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估,经专家教育者验证,在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
ProCUA-SFT 技术报告

ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。

智能体arXiv数据/训练论文/研究
07:55
karminski-牙医@karminski3
53
Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5

Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

智能体arXivGitHub开源生态
06:19
elvis@omarsar0
53
Codex 自主设置 /goal:智能体工具化与风险警示

引用推文指出,Codex 可自主查看和设置 /goal,这是元提示的泛化。主推文作者强调,智能体凭借上下文能帮你设定更强目标,因此将 /goal 作为工具是明智之举。他还在编排器中为 /goal 构建了 UI,并建议从会话中挖掘表现良好的目标,封装为技能自动化复用。需注意,LLM 可能出现奖励黑客、偏向快速完成等奇怪行为,使用 /goal 时要格外谨慎。

Tibo: Codex can see and set its own /goal. Everything we build, we build also as a tool for the agent. This is a generalizatio...

智能体MCP/工具教程/实践
05:45
Tibo@thsottiaux
68
Codex 可以查看并设置它自己的 /goal。 我们所构建的一切,也都是作为该智能体的工具而构建的。 这是元提示的一种泛化,即让智能体根据你的意图自行设定任务。

Pietro Schirano: I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...

智能体MCP/工具教程/实践
04:14
Ethan Mollick@emollick
49
老实说,我们并不知道围绕AI智能体重建公司的最佳方法,尤其是那些能够扩大竞争优势并增强现有人类能力的方式。实用的智能体仅仅诞生了几个月。实验(以及富有成效的失败)将是必要的。
智能体大佬观点
02:57
Google AI Developers@googleaidevs
40
Learn how to vibe code in 5 days! 了解如何在5天内进行vibe coding!在这门由我们的研究人员和工程师主持的@Kaggle课程中,使用自然语言构建可扩展的智能体系统,并完成一个实践性的顶点项目。
智能体Google行业动态
02:47
elvis@omarsar0
51
Elvis Saravia(DAIR.AI)用6个月构建自有 agent 编排器,称其是应对本周 Fable 事件的最佳防御

Elvis Saravia(DAIR.AI)耗时6个月构建自有的 agent orchestrator(编排器),具备编排、路由、动态工件/工作流、验证器、agent 后端切换、自动化、技能及 MCP 工具等功能。这些能力在本周的 Fable 事件中成为最佳防御。他年初即主张“拥有自己的 agent orchestrator”,反对者认为维护成本高且不可持续,但他认为锁定特定工具或模型供应商损失更大。通过挖掘 agent 会话递归构建和测试新想法(包括自主循环、持续学习/记忆系统),他已无法回到仅提供固定功能的供应商。他强调必须控制成本、决策和上下文管理,否则无法进入递归自我改进 AI 领域。

智能体MCP/工具大佬观点
02:17
elvis@omarsar0
73
Elvis Saravia 发布 LLM Council 技能

Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

智能体GitHubMCP/工具教程/实践
6月14日
23:54
Satya Nadella@satyanadella
同事件精选65
Satya Nadella:没有生态的前沿不稳定

微软CEO Satya Nadella认为,AI驱动的平台转变首次实现人与数字系统间的认知循环。企业需同时构建人力资本(知识、判断、关系)与token资本(自有的AI能力),且人力资本不会贬值,反而随token资本增长而增值。真正的机会在于建立人力资本与token资本复合增长的学习循环——企业应能替换通用模型而不丢失已内化的专家知识,通过私有评估和强化学习让模型从内部真实轨迹中持续提升。他警告,若所有价值被少数模型吞噬,将重演全球化空心化悲剧,呼吁构建前沿生态系统,让每家企业、行业和国家拥有自己的学习循环。

智能体Microsoft大佬观点数据/训练
同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》
推荐理由:Nadella 抛出了一个真问题,当模型能吸收一切知识时,企业的护城河是什么。人力资本与 token 资本的双轮循环框架,比空洞的「AI 转型」更有实操感。
23:45
HuggingFace Daily Papers(社区热门论文)
42
SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理

SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。

智能体推理论文/研究
23:44
Rohan Paul@rohanpaul_ai
68
德克萨斯大学论文:AI 智能体部署后可靠性随时间下降

德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

智能体安全/对齐论文/研究评测/基准
22:44
Rohan Paul@rohanpaul_ai
59
研究:LLM智能体并未真正从抽象规则中学习

一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。

智能体推理论文/研究
21:20
Berryxia.AI@berryxia
50
Berry Xia 推荐四个开源 AI 工具:本地搜索、Agent 技能、离线知识库与降本利器

Berry Xia 推荐四个开源 AI 项目:/last30days(新搜索引擎)、agent-skills(将全栈开发技能打包成可调用模块)、open-notebook(本地版 NotebookLM,可离线运行知识整理与生成)、headroom(不改代码即可将 AI API 账单降低 90%)。这些项目聚焦工具层优化,免费开源,一次性解决本地化、成本控制和 agent 能力三个痛点,让开发者能直接拿来提升效率。

Matthew Berman: 4 awesome open-source AI projects: 🔸 /last30days (new search engine) 🔸 agent-skills (full dev skills) 🔸 open-notebook...

智能体开源/仓库开源生态端侧
18:59
Hacker News 热门(buzzing.cc 中文翻译)
59
不要相信大型上下文窗口

Hacker News 热门文章以标题直指大型上下文窗口的可靠性问题,提醒用户不应盲目信任大语言模型宣称的上下文长度能力。文章未给出具体模型或数据,但这一警示在 AI 社区引发讨论。

智能体教程/实践
18:11
Rohan Paul@rohanpaul_ai
59
语言模型需要睡眠:通过暂停巩固记忆提升长程推理性能

针对Transformer agent随上下文增长而变慢、变贵的问题,新论文提出“睡眠阶段”:模型暂停,多次重读近期上下文,将有用信息通过状态空间块的fast weights写入固定大小的记忆层,然后清空注意力缓存。额外计算在睡眠时完成,正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明,更长的睡眠提升性能,尤其是需要深入推理的难题。核心启示:长程agent无需无限扩大原始上下文,可通过巩固重要部分、遗忘原始token来解决。

智能体数据/训练论文/研究
17:38
IT之家(RSS)
43
蚂蚁集团为支付宝引入AI助手"阿宝",支持点咖啡、买基金等指令

蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。

智能体产品更新语音
17:11
The Decoder:AI News(RSS)
59
AI编码智能体虽能定位正确文件,但常错过关键代码行,研究显示

AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。

智能体编码评测/基准
16:41
Rohan Paul@rohanpaul_ai
56
Vinod Khosla:AI不应做副驾驶,应完全取代人类

Vinod Khosla 不看好“AI 副驾驶”模式。他认为人类会妨碍 AI 副驾驶的发挥,导致效率降低并阻碍真正变革。会计师、程序员等员工因担心失业而抵触工具,不会正确使用。因此,他更倾向于构建能独立完成整个岗位工作的 AI,例如完全替代软件工程师的 AI。他预计到 2030 年,大多数此类岗位将由纯 AI 工人而非“人类+副驾驶”承担。

智能体大佬观点现象/趋势
13:05
MarkTechPost(RSS)
68
Databricks 开源 Omnigent:跨 Claude Code、Codex 和 Pi 的 AI 智能体元编排框架

Databricks 开源了 Omnigent,一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架(meta-harness),支持组合、上下文策略和实时会话共享,可在终端、网页、桌面和移动端使用。该项目采用 Apache 2.0 许可,目前处于 alpha 阶段。

智能体开源/仓库
11:26
jason@jxnlco
66
在我的 agents.md 中新增了一些内容: "当你给我发送一张没有上下文的应用截图时,尽你所能弄清楚你想让我对它做什么,并更新你的应用截图分诊技能。"
智能体教程/实践编码
‹ 上一页
1…2425262728…50
下一页 ›