http://x.com/i/article/2053655813877870592
http://x.com/i/article/2053655813877870592
oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。
Claude通过四大组件实现自动化任务:Skill是领域工作流指南(如nda-review),指导操作但不执行;Agent是执行主体,Subagent用于并行处理子任务,Scheduled agent则定时自动运行(如合同到期监控);MCP connector连接外部数据源(如合同库),使Agent能访问真实数据;Plugin将上述组件打包,提供完整功能集(如commercial-legal plugin实现企业合同审查)。这些组件共同协作,使Claude能高效处理复杂工作流。
@dotey 大佬能否解释一下,这个 Claude 一会插件的,一会 Skills 的,一会这个 Agent 的,它他到底想干什么呀?
OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。
本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。
Claude Code推出/goal功能,允许用户通过一行命令让Claude持续工作直至任务完成,无需额外指令。该功能旨在实现开发任务的自动化,减少人工干预,提高工作效率。
Anthropic正式开源“Claude for Legal”项目,针对法律行业推出12个具体岗位的AI插件和超过20个连接行业常用软件的MCP连接器。用户通过简短的“冷启动访谈”定制本地CLAUDE.md文件,使插件能遵循团队特定的风格与标准,解决AI法律工具输出内容过于通用的问题。插件功能覆盖合同审阅、NDA分级、专利侵权对比表生成等重复性工作,并深度集成Thomson Reuters CoCounsel、iManage、DocuSign等主流平台。项目基于Claude Opus 4.7模型,但强调所有输出仅为律师审阅的草稿,不能替代专业法律判断。
Skills in Grok Web can be used by typing /
飞书CLI近期悄然更新了100多项能力,允许用户通过AI Agent自动化编排飞书内的多项功能,如Bot、画板、妙记、审批和知识库。这旨在将AI能力从开发层延伸至日常协作层,解决工作碎片化问题。引用推文指出,管理者可为下属配置专属Agent,实现Agent间的自动化沟通与任务处理,从而让人专注于核心决策,提升个人与团队效率。官方提供了能力清单和使用案例以供参考。
我给每个下属都配了一个专属 Agent,跑在飞书上。现在是他们的 Agent 在跟我的 Agent 对话,我在旁边看着。 带团队这些年,我最大的感受不是累,是碎。 各种项目要跟,各种进展要盯,各种需求要确认。AI 让每个程序员的产出翻了好几...
当在多轮代理会话中启用小米MiMo思考模式,且对话历史包含工具调用时,后续用户回合中传回的助手消息必须保留完整的reasoning_content字段,否则API将返回400错误。缺失该字段会导致模型上下文不完整,进而削弱指令跟随能力、增加幻觉并显著降低用户体验。受影响的框架包括TRAE、Cursor、Roo Code等,受影响模型涵盖MiMo-V2.5-Pro、MiMo-V2.5等多个系列。开发团队正与相关维护者合作推送兼容性更新以解决此问题。更多详情请参阅官方文档。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。
AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能,筛选出79万多个,并提取功能、环境及权限等关键信息。它不仅提供精准推荐,还能记录执行步骤、反馈结果以优化技能,并生成工作流组合建议,提升技能价值。相比Vercel仅支持发现安装,SkillsVote覆盖了从发现、适配、归因到迭代的全流程,支持多种Agent客户端,是AI Agent的重要基础设施工具。
OpenAI 为 Codex 推出 OpenAI Developers 插件,将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能,支持开发者直接构建完整应用、创建并配置 API 密钥,以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体,实现从开发到提审的闭环工作流,提升开发效率。
Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.
Anthropic为Claude Code发布智能体视图功能,旨在解决开发者管理多任务时的认知负担。该功能将所有并行会话集中显示在一个面板中,用户主要在关键决策点介入,其余时间会话可自动运行。其核心亮点包括Peek功能,支持快速预览会话最新进展并直接回复,以及使用/bg命令将任务推至后台。该视图支持批量下发任务、管理长期运行Agent及快速处理子任务,从而将多任务协作的组织成本从开发者转移至工具本身,有望显著改变开发工作流。该功能目前以研究预览形式向Pro、Max、Team、Enterprise及API用户开放。
New in Claude Code: agent view. One list of all your sessions, available today as a research preview.
Claude Code 上线新功能 Agent View,允许开发者在单一界面集中管理所有正在运行的 AI 编程会话,解决了以往依赖多个终端标签页或 tmux 分屏、需手动记忆进度的繁琐问题。用户可通过按左箭头或运行 claude agents 命令进入总览界面,直观查看每个会话的状态(如等待回复、运行中或已完成)。其核心便利在于无需切换上下文即可直接回复特定会话,并能“偷看”进展后输入指令,不中断当前工作。此外,支持通过 /bg 命令将会话置于后台,或直接用 claude --bg 启动后台任务。该功能目前以研究预览形式向 Pro、Max、Team、Enterprise 及 API 用户开放。
New in Claude Code: agent view. One list of all your sessions, available today as a research preview.
Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。
Hermes agent running in private browser on free local models Private by design. Local. Open-source
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
Anthropic 真的惊为天人 直接把金融服务行业的 AI 工作流模板全开源了 投资银行 / 股票研究 / 私募 / 财富管理 / 基金管理 / KYC 风控 七大业务线的参考 agent / 技能包 / 数据连接器 全部公开 这超出了 ...
作者在体验Apple Health后,认为其数据可控性与生态开放性不足。新推出的Google Health API提供了31种健康数据点、Webhook实时推送和精细权限控制,在数据颗粒度与开放程度上优势显著,为开发者构建健康AI Agent或自动化工作流奠定了强大基础。作者计划将其接入现有系统作为核心数据源,并强调未来将优先选择接入此生态的海外健康终端以掌握数据主权,同时暗示国内生态在开放性上存在差距。
Google 把 Fitbit Air 的全新 Google Health API 直接开放了! 昨天 Fitbit Air 刚刚发布,但更重磅的是它自带了全新的 @googlehealth API,开发者现在可以直接在上面构建 AI Ag...
一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...
中国移动正式上线AI模型中转平台MoMA,标志着“AI国家队”入场,并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析,预示着基础设施层面的竞争格局变化。
http://x.com/i/article/2051958484304891904
YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。
GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...
文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。
Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...
苹果公司提出一种新型AI代理评估方法,将评估环节从事后分析移至执行循环内部。该方法部署一个专门的审查代理,在主代理执行每个工具调用前进行检查,若发现问题则注入反馈令其修正。研究引入了“帮助性-危害性”指标来权衡修正效果与新错误产生。在BFCL基准测试中,无关性检测准确率从84.9%提升至90.4%;在τ²-Bench多轮对话测试中,准确率从48.7%提升至55.8%。此方法的核心优势在于无需重新训练基础代理,仅通过优化审查代理的模型与提示工程即可实现显著性能提升,为生产部署提供了独立的优化杠杆。
there will be a blog post about this. on what this means for bun, benchmarks, memory usage, maintainability going forwar...
Higgsfield发布Virality Predictor工具,利用基于700多人fMRI数据训练的AI模型,直接预测视频引发的人脑神经反应。它能分析15秒视频的整体病毒潜力、前3秒钩子得分及注意力曲线,并生成脑区激活热图。该工具可与Claude等AI结合,实现批量生成视频变体并自动筛选高分版本,使内容测试成本从高昂广告费降至极低token费。这标志着爆款创作从依赖灵感和人工测试,转向依靠系统化预测与高效淘汰机制,核心竞争力变为利用AI快速筛除非爆款的能力。
Higgsfield releases Virality Predictor What does it mean: > Upload any clip up to 15s > Get viral potential, hook score ...
I'd somehow completely forgotten that Karpathy introduced the wikiLLM a while back (obsidian + Claude code/codex). I'm s...
智能体表现差异的核心在于模型之上的“外壳”,它包括提示词、工具、上下文策略等工程组件。外壳为裸模型提供状态和执行能力,使其成为智能体。行业常将智能体失败归咎于模型,但实为可定位的配置问题。通过“棘轮”方法,每次失误都可转化为优化外壳的永久规则。没有通用的最优外壳,最佳外壳是为具体任务定制的。未来,行业焦点将从构建LLM API转向构建提供运行时环境的Harness API。
http://x.com/i/article/2050749611237847040
推文提出,在Agent工作流和人机协作交互场景中,HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频,并指出虽然生成的解说文案带有明显的AI风格,但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持,强调了HTML在提升人机交互清晰度方面的优势。
http://x.com/i/article/2052796100608974848
Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...
Google 随新款 Fitbit Air 发布了全新的 Health API 并向开发者开放。该 API 提供了涵盖运动、睡眠、心率、血氧等维度的 31 种健康数据点,支持 Webhooks 实时数据推送、精细的读写权限控制以及按时间范围查询和汇总数据。开发者可利用该 API 基于个人真实健康数据构建 AI Agent、MCP Server、CLI 或实时监控系统等应用,从而创建实用的个人健康自动化工作流。官方已发布包含首次调用教学的入门指南。
Yesterday Fitbit Air launched, but did you know it comes with a new @googlehealth API? You can build AI agents, MCP serv...