http://x.com/i/article/2054390427139383296
当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。
Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...
谷歌在I/O大会上发布Gemini Intelligence,将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机,并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务(如在备忘录与购物应用间同步清单),以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本,并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件,如定制食谱或特定天气数据组件。此外,全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果,提升视觉体验。
Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...
Qwen 3.6 Plus by @Alibaba_Qwen is now FREE for a limited time on Nous Portal! Nous Portal is one easy subscription that ...
Claude通过四大组件实现自动化任务:Skill是领域工作流指南(如nda-review),指导操作但不执行;Agent是执行主体,Subagent用于并行处理子任务,Scheduled agent则定时自动运行(如合同到期监控);MCP connector连接外部数据源(如合同库),使Agent能访问真实数据;Plugin将上述组件打包,提供完整功能集(如commercial-legal plugin实现企业合同审查)。这些组件共同协作,使Claude能高效处理复杂工作流。
@dotey 大佬能否解释一下,这个 Claude 一会插件的,一会 Skills 的,一会这个 Agent 的,它他到底想干什么呀?
Google博客以“新员工入职协调Agent”为例,指出AI智能体从演示走向生产需完成三大架构转变,核心是上下文与状态解耦。首先,采用持久化状态机,通过明确进度节点替代对话历史记录状态,解决上下文污染、token成本爆炸和推理幻觉问题。其次,引入事件驱动休眠门控,使Agent在等待外部事件时挂起以零资源消耗。最后,通过多Agent委托机制,将专项任务交由独立子Agent处理,避免提示词膨胀并支持独立优化。完整示例代码已开源。
OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。
OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行,通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序,即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心,从开发被苹果收购的Workflow(现Shortcuts)到如今在OpenAI推动智能体的无缝后台操作,持续拓展人机交互边界。
Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what chan...
Google 刚刚发布了一个新东西:Googlebook 根据Google 自己的表述: 他们想做的已经不再是传统意义上的"操作系统",而是一个以 Gemini 为核心的 AI Laptop 平台。 Gemini 被塞进了"鼠标指针": 你...
Qwen 3.6 Plus by @Alibaba_Qwen is now FREE for a limited time on Nous Portal! Nous Portal is one easy subscription that ...
本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。
AI Agent落地聚焦技术、测试与基础设施三大层面。技术实现上,Google ADK通过持久化状态机和事件驱动机制,解决了长流程Agent的空闲等待与上下文丢失难题。测试环节中,小红书QCon实战揭示GUI Agent测试的真实瓶颈在于业务理解,而非仅靠执行自动化。基础设施方面,PingCAP复盘TiDB支撑Kimi海量站点的案例,说明处理规模是可扩展架构的核心考题。
Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。
💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。
Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...
微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。
Introducing Renderers RL trainers work in tokens. Environments work in messages. Going back and forth corrupts sampled t...
Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。
Google推出Gemini Intelligence,将Gemini AI能力深度整合到高端Android设备,使其从聊天工具转变为主动助手。它整合高端硬件和创新软件,帮助用户提前一步、主动完成任务,例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线,首批在三星Galaxy和Google Pixel设备落地,后续逐步覆盖更多Android设备。
Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...
Gemini Intelligence features will roll out in waves starting with the latest Samsung Galaxy and Google Pixel phones this...
亚马逊设定硬性指标,要求超80%开发者每周使用AI工具,并追踪个人Token消耗量形成排行榜。这导致员工为刷数据而进行“tokenmaxxing”,即使用内部AI工具MeshClaw执行非必要任务。该工具作为AI代理可操作办公软件,灵感源于开源项目OpenClaw。类似情况也出现在Meta等硅谷大厂,反映了企业为证明巨额AI投入回报而强推使用率,进而引发数据注水现象。同时,有员工对AI代理操作系统的潜在安全风险表示担忧。
构建完整的智能体工作流技术门槛已降低,能力不再稀缺。真正的价值在于深入理解具体业务与AI技术,设计出AI Native的解决方案,而非简单地将AI嵌入原有流程。当前行业缺乏最佳实践,需针对不同领域反复试错。同时,模型能力快速迭代导致工作流易过时,需持续调整。竞争焦点已从技术实现转向商业落地,找到独特切入点和解决实际业务问题成为关键护城河,这为程序员和PM转型提供了机会。
一年前,能搭一套完整智能体工作流的人是稀缺的。今年,这变成了相对普通的技能。明年会有更多人会做。 竞争的焦点已经从"谁能做出来",移动到了"谁能卖出去、卖给谁"。 有人问:为什么我会搭智能体,接单却接不到?因为你面对的是信息对称的买家,他知...
http://x.com/i/article/2031521021342388224
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
We just launched holaOS Beta 0.1 - the first product version of what started as our open-source agent computer. I record...
Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。
作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...