Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。
Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。
Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。
Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...
一位前小型软件公司运营者在朋友15人团队观察到:代码不再是事实来源,开发者依赖Claude编写和解释;人类停止代码审查;部分开发同时运行5+个Claude会话且几乎不看代码;LLM生成的测试数量激增。他认为软件开发正从需要深入理解的精确职业变为概率性、外包理解的工作。评论指出编码从来不是最难部分,AI虽提升效率却增加认知负荷;预计未来对速度和工作量的期望将提升,有效使用AI成为职业发展关键。
博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。
该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。
@lu_sichu Ban on enterprise use of non-approved models + severe criminal penalties for using a non-approved model in the...
Here's how I build beautiful UI using AI (My design workflow)
这算是冷知识吗?问豆包 AI 10 个问题竟然会消耗 500 毫升的矿泉水? 原来 AI 的算力竟然还是需要消耗水的,每年竟然要消耗 230 亿立方米的水,而且还是淡水。Oh my god! 我原来以为只是消耗电。
OpenAI 发布 Codex 整年使用数据:约 24% 请求对应人类需 1 小时以上工作;到 2026 年 5 月,80.6% 个体用户至少有一次 ≥30 分钟任务,25.6% ≥8 小时。内部 Codex token 占比从 <10%(2025 年 8 月前)激增至 99.8%(2026 年 6 月),工程率先过半,法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍(个人)和 189 倍(组织),H1 2026 活跃用户整体 5 倍以上,增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本,ChatGPT 式聊天在工作场景中被快速替代。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...
最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。
刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...
报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。
The GenAI economy has generated $110 billion in sales over the past 12 months. It is growing fast. On an annualized basi...
I used to give the current admin a nod for saying their AI policies are fairly reasonable (chips stuff far messier). In ...
Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。
Dropbox用DSPy构建两阶段评测闭环:人工标注校准LLM裁判后,自动优化Dash Chat提示词,使不完整答案减少26%,遗漏关键信息点减少13%,Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚,支持在step.do()中声明补偿逻辑,引擎自动逆序执行已注册回滚,具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。
It's time for everyone to realize that the fight against data centers has nothing to do with data centers. They have bec...
GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。
For the people saying this is a pause, or a victory for safety, it is not. This does not slow development in any way, it...
Claude Tag is a Trojan horse. Not because Anthropic is doing anything evil. Because the incentives are obvious. Day one,...
http://x.com/i/article/2070125273790492672
If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...
推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。Sail Research 为此构建了集群感知(fleet‑aware)编排系统,以最大化每美元推理支出的吞吐量。
动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。
Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...
Rohan Paul 引用 @TangriKunal 指出,机构知识长期依赖文档索引,但文档只是判断的产出物,判断本身存在于资深员工交付前修改的差异(diffs)中,而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”,即通过软件保存真实工作中的编辑,将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识,而是存储的判断——AI 需要学习初稿与终稿之间的差距,因为那里藏着企业的好标准。
"Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...
麦肯锡报告指出,AI智能体可跨多家商店扫描库存、比对价格并构建可立即购买的购物车,预计到2030年将调解3万亿至5万亿美元全球消费商务。自动化分为6个层级:最低级仅比较价格与功能,最高级由个人AI智能体直接与商店AI智能体谈判价格和运输条款。品牌将更多竞争以赢得算法而非人类消费者。零售商店需通过API使产品目录和退货政策机器可读;隐藏数据的品牌会被AI忽略,而开放定价和库存的商店将主导市场。
Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
推文指出90%的人用AI做UI方式错误,不应直接扔需求让AI随意生成。正确流程分五步:1. 收集灵感;2. 搭建设计系统;3. 生成组件令牌;4. 手动微调细节;5. 最后交给AI批量扩底。强调AI不是设计师,用户需自行定规则与审美,AI只做重复性脏活。附有@Rasmic的详细教程视频链接。
We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...