💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
Andrej Karpathy指出,AI编程账单的90%浪费在发送不必要的上下文上。常见浪费行为包括:过度加载文件、使用高价模型处理简单任务、Agent重复发送整个代码库、默认选用高价模型而非性价比更高的替代品。优化策略强调严格管理上下文、启用提示词缓存、采用多模型路由(如主力用Kimi 2.6,关键任务用Opus)、创建SKILL.md文件避免知识重建、先分析工具调用再优化提示。未来,开发者月花费的巨大差距将取决于其上下文和模型路由的管理能力,而非纯粹的技术水平。
Andrej Karpathy: "90% of your AI coding bill is paying for context you didn't need to send" Here are 10 things senior AI...
作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
飞书CLI近期悄然更新了100多项能力,允许用户通过AI Agent自动化编排飞书内的多项功能,如Bot、画板、妙记、审批和知识库。这旨在将AI能力从开发层延伸至日常协作层,解决工作碎片化问题。引用推文指出,管理者可为下属配置专属Agent,实现Agent间的自动化沟通与任务处理,从而让人专注于核心决策,提升个人与团队效率。官方提供了能力清单和使用案例以供参考。
我给每个下属都配了一个专属 Agent,跑在飞书上。现在是他们的 Agent 在跟我的 Agent 对话,我在旁边看着。 带团队这些年,我最大的感受不是累,是碎。 各种项目要跟,各种进展要盯,各种需求要确认。AI 让每个程序员的产出翻了好几...
当在多轮代理会话中启用小米MiMo思考模式,且对话历史包含工具调用时,后续用户回合中传回的助手消息必须保留完整的reasoning_content字段,否则API将返回400错误。缺失该字段会导致模型上下文不完整,进而削弱指令跟随能力、增加幻觉并显著降低用户体验。受影响的框架包括TRAE、Cursor、Roo Code等,受影响模型涵盖MiMo-V2.5-Pro、MiMo-V2.5等多个系列。开发团队正与相关维护者合作推送兼容性更新以解决此问题。更多详情请参阅官方文档。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
AI Agent 连你平时买啥、吃啥的上下文都没有, 怎么了解你的消费品味?怎么做你的个人管家? 想拥有吃货Agent、买手Agent、导购Agent? 我又搓了个通宵,替你们调研实操了: 淘宝/京东/闪购(饿了么)/美团外卖/大众点评.....
Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...
一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。
博主发起一项服务,邀请读者留言提出希望阅读但不愿自行消耗Token的论文或书籍。博主将代为处理,并将其解读成图文并茂的文章供大家共同学习。推文以Vision Transformer(ViT)的经典论文解读作为示例,并附上了相关博客链接。
CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。
If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...
GPT Image 2 on @PixVerse_ Prompt 👇 Ultra high-end fashion editorial collage in a 2 rows and 4 columns grid layout (tota...
作者提出一种高效学习方法:让Claude等大语言模型生成HTML文档来辅助深入学习与研究。相比纯文本或播客,HTML能嵌入图表和交互元素,支持主动探索。通过迭代提问和修改,文档随理解深入而演化,最终累积成个人知识库。文章引用观点指出,人机交互的输入输出融合尚有巨大发展空间,当前阶段可探索让LLM以HTML格式输出。信息呈现方式正从纯文本、Markdown向HTML及未来的交互式神经视频演进,以充分利用人类强大的视觉处理能力。作者认为,音频可能是人类偏好的AI输入方式,但视觉内容则是更高效的AI输出形式。
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
Tesla FSD通过跳过图像信号处理器,直接处理传感器记录的原始光子计数数据,而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息,神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下,能超越人眼感知,从一片白茫茫中识别出路、树、车辆等关键信息,实现更优的视觉感知能力。
The human-perceived RGB is image 1 and the Tesla AI photon count reconstruction is image 2. This is why Tesla FSD can se...
推文介绍了一套提升AI生图质量的结构化提示词框架。其核心是“结构越清晰,输出质量越好”。框架将提示系统分解为几个关键模块:首先定义画幅与用途;其次明确主题与核心主体的位置、占比及情绪价值;接着通过视觉隐喻用具体元素象征抽象概念;然后选择如Apple风格等特定画面风格并强调干净、克制等视觉要求;最后规划包含主副标题、英文短句和关键词的文字系统,并列出应避免的限制元素。
针对如何管理日益增长的AI技能(SKILL)以及同步Claude、Codex等不同AI工具的技能问题,建议将技能创建和管理目录统一设置在.agent/skills路径下。对于Claude、Codex等其他工具的目录,推荐使用软链接方式,以实现最大程度的兼容性。同时,推荐使用CC Switch的Skill管理工具,其可视化界面便于升级管理、点亮图标以及开启对不同工具的支持。
向大家讨教两个问题: 1. 你是如何管理日益增长的 SKILL 的? 2. 大家是如何同步 Claude Code 和 Codex 的 SKILL 的?有没有什么好的同步方案?
Ink shouldn't be able to fly, but this one finds a way! Seedance 2.0 1080p on PixVerse | @PixVerse_ Prompt below 👇
一个在GitHub上获得3.3万星标的AI论文学习资源库,作者系统性地收集和整理了高质量的AI学习视频。资源主要来自YouTube和Bilibili平台,例如收录了李沐的论文精讲系列。所有内容已按时间和主题进行了详细分类,便于用户系统学习和收藏。该库旨在为学习者提供一个结构化的视频学习路径。
本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。
作者在让AI开发界面功能时,参考最佳实践发现W3C提供了一套完整的设计系统,涵盖了从面包屑导航到页脚等所有组件的规范。这一发现启发了作者,认为可以系统地让AI Agent学习这套全面的设计规范,从而将其转化为一个可执行的“技能”。这为利用现有、权威的标准化资源来训练和增强AI在特定领域(如前端开发)的能力提供了新的思路。
森马通过AI技术将服装上新周期从6个月压缩至15天,2025年实现数亿元回款并节省数千万元成本。AI作为全链路基础设施,覆盖供应链、库存、直播、运营等400多个场景,重构经营逻辑。AIGC视觉使图像生成效率提升,成本近乎零,支持全款式并行推进。AI不仅替代人工,更挖掘隐性成本,推动传统企业数字化转型。
5️⃣ عجبتني النتيجة وقلت ليه ماستخدم سي دانس ٢ ، ورحت على منصة @PixVerse_ لان احب ان السرعة عندهم عالية جدا لتوليد الفيدي...
藏师傅的PPT Skill工具发布了第二套主题,设计更简洁美观,适用于数据和事实性内容的演示。新主题提供4种颜色和20多种版式选择。其核心功能是集成了Codex内置的GPT-2.0模型,可辅助用户生成演示配图、美化截图,并能自动生成适用于各平台(如公众号)的封面图与配图。相关文章详细介绍了具体使用方法及操作技巧。
http://x.com/i/article/2053655813877870592
AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。
看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D ...
推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。
从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。
http://x.com/i/article/2053059568121282560
作者使用Cursor和Remotion制作视频,初版问题多,严厉批评Cursor Agent后,它反复自检耗时30多分钟才生成最终版。作者由此反思,应清晰列出问题要求AI一次性处理,避免PUA式指责,同时注意Remotion的高Token消耗。
OpenAI Codex的首位产品营销经理阐述了其核心价值:从“写代码的工具”转变为让知识工作者直接接触代码库、Slack等“信息源头”的工作台。具体通过三层应用重塑PMM角色:作为个人助理聚合多工具信息以管理注意力;跟踪产品与工程状态以直接理解源码;生成跨职能对齐文档初稿以提高信息可见性。AI接管了汇总与追踪工作,使人能更专注于不可替代的判断部分,如评估表述、识别计划漏洞。这一让AI做“有据可依的初稿”、接入真实工作场景并实现自动化的模式,可迁移至任何上下文密集型岗位。
http://x.com/i/article/2053505234522238976
如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文...
文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。
Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...
AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。
Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...