该工具展示了一项实验:将应用加载于受内容安全策略(CSP)保护的沙盒iframe中,并通过自定义的fetch()函数拦截CSP错误,将其传递至父窗口。父窗口随后可提示用户将受阻域名(如https://api.inaturalist.org)添加至允许列表,刷新页面后即可生效。工具界面包含源代码、预览面板及允许列表管理区,用户可手动添加如https://api.github.com等受信来源。此项目由作者在Codex桌面应用中借助GPT-5.5 xhigh协助构建完成。
http://x.com/i/article/2053655813877870592
http://x.com/i/article/2054390427139383296
作者在游览天津五大道时,尝试利用AI查询该区域复杂的历史背景,发现众多近代名人事件与此地相关。为此,他创新了PPT制作方式,将历史人物的故事卡片与可交互的嵌入式地图相结合进行展示。这种新排版旨在让演示内容更丰富、信息更详实,并计划在未来进行更多类似尝试,以提升PPT的信息承载与呈现能力。
http://x.com/i/article/2053655813877870592
车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。
BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。
用户实测腾讯元宝的群聊总结功能,发现其与预期存在较大差距。该功能无法自动进群总结,需用户手动多选聊天记录并转发给元宝,且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑,缺乏AI应有的智能分析与提炼能力。用户指出,最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点,但目前这一简单需求并未得到实现。
Claude通过四大组件实现自动化任务:Skill是领域工作流指南(如nda-review),指导操作但不执行;Agent是执行主体,Subagent用于并行处理子任务,Scheduled agent则定时自动运行(如合同到期监控);MCP connector连接外部数据源(如合同库),使Agent能访问真实数据;Plugin将上述组件打包,提供完整功能集(如commercial-legal plugin实现企业合同审查)。这些组件共同协作,使Claude能高效处理复杂工作流。
@dotey 大佬能否解释一下,这个 Claude 一会插件的,一会 Skills 的,一会这个 Agent 的,它他到底想干什么呀?
Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。
💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
Andrej Karpathy指出,AI编程账单的90%浪费在发送不必要的上下文上。常见浪费行为包括:过度加载文件、使用高价模型处理简单任务、Agent重复发送整个代码库、默认选用高价模型而非性价比更高的替代品。优化策略强调严格管理上下文、启用提示词缓存、采用多模型路由(如主力用Kimi 2.6,关键任务用Opus)、创建SKILL.md文件避免知识重建、先分析工具调用再优化提示。未来,开发者月花费的巨大差距将取决于其上下文和模型路由的管理能力,而非纯粹的技术水平。
Andrej Karpathy: "90% of your AI coding bill is paying for context you didn't need to send" Here are 10 things senior AI...
财务团队能够利用 Codex,基于实际工作输入构建管理层报告、报告包、差异桥接、模型检查和规划场景。该工具将自然语言指令转化为代码,自动化处理财务数据整合、差异分析和模型验证等复杂任务,从而提升报告生成效率与准确性,并支持快速创建多版本规划场景。
AutoScout24 Group 采用 Codex 和 ChatGPT 来加速开发周期并提升代码质量。公司通过 AI 工具自动化代码审查、生成测试用例和编写文档,将部分开发任务效率提升高达 40%。工程师得以更专注于复杂问题,同时 AI 应用范围从代码辅助扩展至需求分析和数据查询。这一转变推动了团队 AI 采用率的显著增长,并系统化地融入了日常开发工作流。
财务团队可利用 Codex 从实际工作输入中构建管理层报告、报告包、差异桥接、模型检查和规划场景。该工具能将非结构化数据(如电子邮件、会议记录和电子表格)自动转换为结构化的财务分析框架,从而提升报告效率与准确性。Codex 的应用减少了手动数据整理时间,使团队能更专注于高价值的分析与决策支持工作。
Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统,包含 CLUE Triage 自动初筛警报,整合上下文信息分配处置建议;以及 CLUE Investigate 支持分析师用自然语言查询日志,由 Claude 自动生成并执行查询,将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证,一周内交付实现,显著提升了安全运营效率。
本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。
作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
飞书CLI近期悄然更新了100多项能力,允许用户通过AI Agent自动化编排飞书内的多项功能,如Bot、画板、妙记、审批和知识库。这旨在将AI能力从开发层延伸至日常协作层,解决工作碎片化问题。引用推文指出,管理者可为下属配置专属Agent,实现Agent间的自动化沟通与任务处理,从而让人专注于核心决策,提升个人与团队效率。官方提供了能力清单和使用案例以供参考。
我给每个下属都配了一个专属 Agent,跑在飞书上。现在是他们的 Agent 在跟我的 Agent 对话,我在旁边看着。 带团队这些年,我最大的感受不是累,是碎。 各种项目要跟,各种进展要盯,各种需求要确认。AI 让每个程序员的产出翻了好几...
当在多轮代理会话中启用小米MiMo思考模式,且对话历史包含工具调用时,后续用户回合中传回的助手消息必须保留完整的reasoning_content字段,否则API将返回400错误。缺失该字段会导致模型上下文不完整,进而削弱指令跟随能力、增加幻觉并显著降低用户体验。受影响的框架包括TRAE、Cursor、Roo Code等,受影响模型涵盖MiMo-V2.5-Pro、MiMo-V2.5等多个系列。开发团队正与相关维护者合作推送兼容性更新以解决此问题。更多详情请参阅官方文档。
一位 GitHub 员工利用 GitHub Copilot CLI 开发了一款扩展程序,能够将任何代码库转换成一个独特的 Roguelike 风格地下城。该工具通过 AI 辅助的代码生成,实现了程序化关卡创建,展示了 Copilot CLI 在创意编码和游戏原型开发中的实际应用潜力。项目核心是自动解析代码结构并生成对应的可探索地下城布局。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
AI Agent 连你平时买啥、吃啥的上下文都没有, 怎么了解你的消费品味?怎么做你的个人管家? 想拥有吃货Agent、买手Agent、导购Agent? 我又搓了个通宵,替你们调研实操了: 淘宝/京东/闪购(饿了么)/美团外卖/大众点评.....
Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...
小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。
一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。
作者利用人工智能开发了一款工具,用于监测和分析夜间可能吵醒他的声音。该工具通过记录和分析环境音频,识别并分类噪音来源,帮助作者找出睡眠中断的具体原因。这一实践展示了AI在解决个人生活问题上的实际应用潜力。
博主发起一项服务,邀请读者留言提出希望阅读但不愿自行消耗Token的论文或书籍。博主将代为处理,并将其解读成图文并茂的文章供大家共同学习。推文以Vision Transformer(ViT)的经典论文解读作为示例,并附上了相关博客链接。
CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。
If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...
本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。
本文介绍了一种创新方法,将LLM工具直接嵌入脚本的shebang行中执行指令。通过LLM的fragments模式,shebang行可执行简单任务,如生成SVG图像;使用-T选项能调用外部工具(如llm_time)创作包含当前时间的俳句;更复杂的是运行YAML模板,其中定义了Python函数作为工具进行数学计算,示例中演示了计算2344乘以5252加134的过程,并通过调试输出展示了分步结果,最终得到12,310,822。这展现了LLM作为脚本解释器的强大扩展性,能够支持从内容生成到数据查询的多样化任务。
GPT Image 2 on @PixVerse_ Prompt 👇 Ultra high-end fashion editorial collage in a 2 rows and 4 columns grid layout (tota...
文章探讨了在Swift语言中训练大型语言模型时,如何将矩阵乘法的性能从每秒千兆次浮点运算(Gflop/s)提升至每秒万亿次浮点运算(Tflop/s)。这是系列文章的第一部分,聚焦于通过优化技术实现计算性能的数量级飞跃,旨在展示Swift在高效执行核心机器学习运算方面的潜力。
作者提出一种高效学习方法:让Claude等大语言模型生成HTML文档来辅助深入学习与研究。相比纯文本或播客,HTML能嵌入图表和交互元素,支持主动探索。通过迭代提问和修改,文档随理解深入而演化,最终累积成个人知识库。文章引用观点指出,人机交互的输入输出融合尚有巨大发展空间,当前阶段可探索让LLM以HTML格式输出。信息呈现方式正从纯文本、Markdown向HTML及未来的交互式神经视频演进,以充分利用人类强大的视觉处理能力。作者认为,音频可能是人类偏好的AI输入方式,但视觉内容则是更高效的AI输出形式。
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。