Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 6 条Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)OpenClaw 推出手机客户端,可通过二维码或设置码与 AI 助手“小龙虾”配对。支持在手机端实时及后台语音对话;Agent 执行操作前需在手机上确认审批;可跨 App 分享文字、链接、图片;授权摄像头、定位、照片、通讯录、日历等设备权限;接收推送通知与节点状态更新。
美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro 上取得 59.5 分,性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。
同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。
Announcing the hosted X MCP. Agents now have access to the best real-time information source in the world. Connect Grok,...
OpenClaw推出原生iOS和Android应用,将私有云AI助手搬进手机。所有Agent运行在私有云容器中,文件存储于个人云工作空间,数据完全隔离不进LLM训练集。免费套餐每天提供20条由Gemini驱动的AI消息,每月20美元订阅可解锁无限使用权限。与移动端Agent Hermes相比,OpenClaw提供隐私优先的差异化选择。
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 6 条Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)36氪记者 Jessy 到 Oran Ge 所在公司访谈,超过 10 小时录音梳理成文。文章记录了该公司过去一年多真实挣扎与决策:如何在梦想与盈利间平衡,带领团队穿越缺少答案的阶段,以及重构 AI 时代的工作方式。作者将其视为时代剧变下的自身观测点,对读者而言,其中的取舍与挣扎具有参考价值。
媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。
More time to build with Step 3.7 Flash: in partnership with @StepFun_ai, we're extending the free usage period in Nous P...
美团 LongCat 推出 LongCat-2.0,基于 MoE 架构,总参数 1.6T,激活参数约 48B,支持 1M 上下文。模型专为智能体编码设计,包含 LongCat 稀疏注意力(LSA)、零计算专家(33B–56B 动态激活)及 MOPD(三组任务路由专家)。基准测试:Terminal-Bench 2.1 达 70.8,SWE-bench Pro 59.5(超 GPT-5.5 的 58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。
关联讨论 6 条Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。
智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。
Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while ...
Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%),长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时,而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务,即日起向所有人开放公测。
what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
Introducing Cursor for iOS. Build from anywhere by launching always-on cloud agents. Or remotely control agents running ...
You set the goal. Scout gets you there. most agent tools hand you the KPIs everyone already tracks. scout works backward...
Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:维护已有提示词比从零写更常见,最佳起点是评估(Eval)而非直接改提示词。两个场景:客服机器人需用XML标签结构化,移除旧模型冗余指令,为精确计算提供工具;零售排班Agent应拆分成生成-评估-修复循环,使用更强推理模型(Opus)+自适应思考。强调评估是判断改动有效性的唯一严谨方式。
An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。
睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。 核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...
Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:生产提示词大多时间在调试维护,最好起点是评估而非直接修改。维护客服机器人提示词时,需用XML标签结构化,移除冗余补丁,明确输出格式;避免旧模型“禁止列表”指令在新模型上过度拟合;精确计算应赋予工具;升级决策需说明代价与收益。从零构建零售排班Agent,应拆分为生成-评估-修复循环,三个简单提示词各司其职;更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。
Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。
I got tired of reading badly formatted agent written reports, so I put together a writing skill derived from the GOVUK s...
这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...
A self-evolving agent + a 428B model + 3 Macs = ? Your own AI lab. We ran @MiniMax_AI M3 locally with @tryParallax, righ...
推文对三款Flash级模型(Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash)进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比,在Agent测试中Token效率极高(用最少Token完成最多任务),适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色,适合写脚本或驱动ClaudeCode用于AI-Ops。
卡兹克分享Vibe Coding两个必备技巧:①“从第一性原理出发”——强制AI回归问题本质,曾助其发现AIHOT海外信源抓取底层路由隐患并重构;②“对抗式审查”——让AI从恶意用户角度测试,曾找出OOM死循环、未来时间污染等隐蔽BUG。作者建议每2-3周全局对抗式审查。当前AIHOT每周请求量超千万,Skill调用量为网页端10倍以上。两个技巧适用于任何需要验证与创新的场景。