Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...
Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...
I want to introduce myself. Hi I'm Colin, I did a lot of the @openclaw iOS UI, so as one of the volunteers responsible, ...
i've got codex... - reading all my emails to figure out proposals to write, directly in google drive - auto-drafting con...
Today, we launched agent-to-agent conversations in Slack to give you real AI coworkers. Vellum assistants now talk to ea...
*Cracks knuckles*
LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...
DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki,这是一个基于 LLM 和编程智能体的知识库,用于研究工作流。它通过自动化每日更新,从多个来源摄入论文并存入 Obsidian,使用 qmd 索引,以 HTML artifact 呈现,支持全文和语义搜索。Saravia 使用前沿模型(opus-4.8)和开放权重模型(deepseek-v4-flash)混合维护,并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。
斯坦福大学提出 AutoMem,将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式,文件系统操作升级为一级动作。AutoMem 采用双循环机制:强 LLM 审查完整轨迹并重写记忆结构(提示词、模式、动作词表);同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆(不改任务动作),便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升,使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文:arxiv.org/abs/2607.01224。
Kim (@kimmonismus) 介绍利用 Bloome 替代传统一对一 AI 聊天窗口,将其作为共享工作空间,让人类与多个 AI 智能体在同一群聊中协同完成内容工作流。通过一键模板创建创意团队,关键特点是智能体主动互相审核而非仅附和用户:Writer 起草视频论文结构,Audience 即时批评节奏并重写枯燥部分以维持观众留存,Art Director 在聊天窗口内整合视觉 Markdown 报告和缩略图设计。适合希望从编写固定提示词转向管理“人+智能体团队”的创作者、营销人员和运营人员。
推文指出,使用 Claude Code 加 Sonnet 5 仅 18 分钟就能做出获奖级的完整网站,设计与代码完成度均达到专业水准。Agent 能力提升后,复杂多步设计任务可稳定落地,质感跨越专业门槛。未来不会用 AI 的设计师将被会用的同行甩开,执行层价值加速坍缩,审美与判断力成为真正的硬通货。
邵猛总结LLM交互三阶段:网页聊天机器人、独立AI应用、组织内嵌式AI。Claude Tag实现从“每人一个AI”到“每个频道一个AI”,团队共享代理实例,上下文连续可接力;从被动响应转向持续参与,跟踪线程并长期在场。Glean Agents提出生产级独立Agent四支柱:Identity(独立身份与权限)、Memory(学习企业SOP并迭代纠错)、Proactivity(主动监控与执行)、Accountability(工具调用可追溯,含紧急停止)。实践示例OnCall Assistant在告警触发后并行读取PagerDuty、Jira、Confluence、GitHub、Slack,自动排查根因并标记负责人。
http://x.com/i/article/2072078677047926784
browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。
Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器(orchestrator),将子任务分派给 Composer 2.5 并行执行,仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体(Cloud Agents)模式,用于长期重构、多端功能或跨代码库调查,通过 iOS 应用监控并适时干预。作者还建议轮换不同模型,以保持对前沿能力的认知。
用户分享利用 Computer Use(中文名“电脑”)功能自动订阅 YouTube 播客的流程:先与 Raycast AI 对话获取值得关注的 AI 播客推荐,然后在 Codex 中通过 @Computer Use 指令输入推荐列表,等待数分钟即可完成全部订阅,实现“偷懒式”自动化操作。
作者用AI副业赚20万,感悟AI是普通人的公平杠杆,但核心是个人判断力与执行力。引用的推文介绍营销垂直Agent「Lev8」,在找海外客户场景中,有效结果量90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5%,Codex 71.8%),单条成本$0.052(Exa $0.061)。Lev8聚合50+实时数据源和10亿+职场人脉,自动监测融资/招聘等商机,生成定制破冰文案,支持五渠道一键发出。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...
在Flink Forward Asia 2026深圳大会上,阿里云Vicki Liu、Junhua Wang,Anker Innovations的Xiwen Zhu及AI研究员Bojie Li共同提出Agent时代的统一愿景:Agent正重新连接数据与AI,需要集成计算、数据平台与实时处理的统一基础设施,使AI能自主执行独立任务,并形成自维持的数据飞轮——业务决策持续生成新数据以优化Agent策略。
Most tools give you a draft. This chat gave back a launch asset. From "we launch this week" to a post-ready card, withou...
One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own ...
歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。
Berry Xia 分享个人长期使用的工具 Bloome,支持 Windows、Mac、iOS 及网页端。用户将项目和产品链接丢给 Bloome,它能自动判断是否可运行或解析,然后直接调用本地的 Cline 或 Codex 执行任务。引用推文补充,该工具接入了小米的 mimo 模型,可实现听说读写、下载视频、剪辑等功能,体验优于多数 Agent。作者强调这不是广告。
我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!
Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一,完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent:由 Claude 编写代码,Codex 审查代码,实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导,并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。
@xiaohu 开发了一个 Claude Code 副屏工具,解决 CC 回答大段文字时密集难读的问题。副屏将 CC 的回答直接转换成直观页面展示,让用户能快速理解和预览答案,并且支持交互式数据回传。
给你们看看我开发出一个什么东西 哈哈哈哈 我觉得可玩性还是非常高的😂
Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。
I want to introduce myself. Hi I'm Colin, I did a lot of the @openclaw iOS UI, so as one of the volunteers responsible, ...
surprised more people aren't doing something like this Codex now creates a "newspaper" for me every morning Unread messa...
本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。
论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。