刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...
刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...
Orthrus-Qwen3项目在Qwen3模型上实现了每次前向传播最高可处理7.8个令牌的性能,同时确保输出分布与原版模型完全一致。该项目已在GitHub开源,并在Hacker News社区获得102点热度。这一优化显著提升了模型推理效率,且保持了生成结果的准确性。
在多数AI服务按token涨价之际,OpenAI采取了相反策略,将其ChatGPT的订阅额度共享给了代码编辑器Zed。用户无需额外付费,即可在Zed中直接使用该额度。关键细节在于,Zed中消耗的额度与ChatGPT网页版的订阅限额是共享且实时同步的。这意味着用户在Zed中用尽额度后,仍可返回ChatGPT网页版继续使用其服务。这一合作被形象地比作Codex(OpenAI的代码生成模型)与Zed编辑器的深度结合。
Codex🫸🫷Zed
Image-blaster是一款开源工具,能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布,获得了开发者社区的关注,在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程,有望降低相关领域的制作门槛。
X平台(原推特)已将其最新的“For You”信息流推荐算法在GitHub上开源。新算法从依赖点赞、转发等硬性规则排序,转向更接近Grok风格的AI智能排名系统。该系统通过Thunder实时获取用户关注账号的帖子,再通过Phoenix从全平台检索相关的外部内容进行补充。其核心排名模型不再单一判断帖子质量,而是像Transformer模型一样,将用户、帖子和历史行为作为一个整体进行预测,评估用户可能进行回复、点赞、转发、观看或跳过等多种互动可能性,从而实现更个性化的内容推荐。
The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm
开源项目OpenSquilla通过智能路由架构,在保持与OpenClaw相近性能(0.9251分)的同时,将复杂AI任务处理成本从6美元大幅降至0.68美元。其核心是将简单任务分配给廉价模型,仅复杂任务调用Opus等顶级模型。系统具备四层记忆结构模拟人脑认知,支持按需加载16种工具,并设有三档代码沙箱安全防护。项目提供统一后端,支持网页、命令行及Slack、飞书等平台接入,兼容OpenAI、Claude、Gemini、DeepSeek等20余家主流模型。
兄弟们,老马将𝕏的最新算法公布了。 已经开源到Github上,对于我们普通人这东西有啥用呢? 🤔 创作者真的可以通过算法而“有利可图?” 创作迎合算法的内容还是.....? 地址:https://github.com/xai-org/x-algorithm 我已经让opus 4.7 拉满跑起来了
The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm
高德发布鸿蒙系统首个生成式UI开源框架AGenUI。该框架基于谷歌A2UI协议,以C++为核心,能将AI大模型生成的界面意图直接转化为鸿蒙原生组件,实现手机、平板、车机等多终端无缝适配。它深度适配鸿蒙全场景架构,直连系统渲染与分布式能力,无中间层损耗。性能上,相比iOS和Android版本,其渲染性能提升20%,内存占用降低18%。AGenUI已全面开源,旨在推动生成式UI成为鸿蒙生态的系统级标准能力。
CODEX SKILL THAT TURNS LOCAL SEARCH INTO CLIENT LEADS! I made a Codex skill that helps find local businesses that may ne...
Sat3DGen提出了一种从单张卫星图像生成街景级3D场景的新方法。针对现有方法在几何保真度与语义丰富性间的权衡难题,该方法采用“几何优先”策略,通过整合新颖的几何约束与视角训练策略,有效缓解了因视角差异大、监督稀疏导致的几何失真。在基于VIGOR-OOD测试集与新构建的高分辨率DSM基准上,该方法将几何RMSE从6.76米显著降至5.20米,同时大幅提升视觉真实感(FID从约40优化至19)。所生成的高质量3D资源可支持语义地图转3D合成、多相机视频生成等多种下游应用。代码已开源。
一个名为“WhichLLM”的开源工具已在GitHub发布,可根据用户硬件配置推荐最适合的本地大语言模型。该工具通过基准测试对各类模型进行排名,帮助用户依据自身设备的性能指标选择最优模型。项目在Hacker News上获得116点热度,显示出社区对本地化AI部署效率工具的积极关注。
Anthropic公司在GitHub上开源了专为法律领域优化的AI模型“Claude for Legal”。该模型能更准确地处理法律文本、合同及案例摘要,旨在提升法律从业者效率。此消息在Hacker News上获得105个投票点数,显示出技术社区对其在法律科技领域应用潜力的关注。
http://x.com/i/article/2053655813877870592
蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...
由于这篇文章太伟大了,所以我把它变成了一个 Agent Skill。 大家可以使用自己的 Coding Agent 安装一下这个 Skill,这样就可以用「最佳实践」来轻松地重构或者开发一个既容易跨平台、又极其接近 Native 性能的桌面...
datasette-agent发布了0.1a1测试版本。此次更新涉及权限控制逻辑,现在在向用户列出可查询的数据表前,会先检查是否拥有execute-sql权限。该变更对应项目的第8号议题,是权限模型的一项改进。datasette-agent是一个与Datasette生态相关的工具,其更新动态在相关技术标签下受到关注。
OpenClaw 2026.5.12 🦞 🧠 OpenAI setup defaults to Codex login 🛟 Runtime fallbacks + stalled-stream recovery 📬 Telegram...
为解决datasette.io网站遭受恶意爬虫频繁访问的问题,作者借助Codex开发了一款可配置的IP速率限制插件。该插件能够监控并阻止在设定时间窗口内对特定路径发起过多请求的IP地址。文中给出了当前生产环境的配置示例:通过Fly-Client-IP请求头识别IP,设置最大跟踪键值数为10000,并豁免静态文件等路径;针对“/global-power-plants/*”和“/legislators/*”两类路径,规则限定60秒内最多允许60次请求,违规IP将被封锁20秒。
Tom 兄弟开源了“html-anything”项目,旨在让 AI Agent 能将多种数据格式直接转换为专业设计的 HTML。该工具支持 Markdown、CSV、JSON 等 11 种输入格式,并内置 75 套模板,可生成杂志、海报、推文卡片等多种形态。它能自动兼容 Claude Code、Cursor 等主流本地 code agent,实现一键切换、完全本地运行,无需 API 密钥,边际成本极低。这一能力显著提升了 Agent 的内容呈现效果,对日常使用 Agent 进行内容创作、报告和演示的用户具有实用价值。
正式开源 html-anything 🚀 1:1 让你感受全网爆火 Claude code 作者提的 HTML 效果! 你的 Agent 现在可以将任何数据转为世界级设计水准的 HTML 🔥 历时 3 天,1万五千行代码!支持 75 套...
MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。
We have achieved a milestone in MLX that all tests are passing in CUDA backend now.
蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)腾讯AI团队耗时6个月,针对AI agent在长会话中频繁丢失上下文的问题,开发并开源了一套记忆系统。该系统通过三大核心操作提升性能:实时压缩过期上下文,将token消耗降低61%;利用mermaid语法生成结构化任务地图,使agent在30多步复杂工作流中不易迷失;建立专用Persona记忆,将人格一致性从48%提升至76%。方案基于实际踩坑经验,强调agent记忆的难点在于在正确时间以正确方式回忆正确信息,而非单纯堆叠token。项目已在GitHub开源,为AI agent发展提供实用解决方案。
We spent 6 months on one problem: agents losing context in long sessions. Ended up building and open-sourcing an agent m...
Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...
Long-running agents shouldn't pay frontier-model prices for every turn. We've been quietly building our agent with conte...
腾讯云开源了TencentDB Agent Memory,旨在解决Agent长任务中上下文窗口易满、Token成本高的问题。该方案采用“上下文卸载”与“Mermaid任务画布”两项核心技术,将完整信息卸载至外部存储,同时用结构化任务图保留关键状态与执行路径。实验显示,该方案在多任务连续会话中最高可降低61%的Token消耗,并提升任务成功率。项目已适配OpenClaw等主流框架,支持一键集成与本地SQLite存储。
开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题,提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度,将简单问题路由至廉价模型,复杂任务则分配给更强模型,且路由决策在本地完成,不消耗Token。通过增量发送与缓存命中机制,实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息,支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能,显著提升了使用效率与经济性。
传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。
http://x.com/i/article/2054702609756508160
so we built psql_bm25s. exact BM25 retrieval. native Postgres access method. ~23x faster than pg_search on the standard ...
Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。
SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
New in @openclaw beta: one path scheme to rule them all. `openclaw path read|write|append` works the same across md, jso...
面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B,仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型,Artificial Analysis 评测得 13 分。效率方面,Token 吞吐量为竞品的 1.5 倍,计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构,图像编码计算量降低 55.8%,并支持高分辨率图像快速处理。目前已全面开源,提供完整工具链,适配主流微调与推理框架。
自己的博客,想了大半年,终于上线了。 说来惭愧,"搭一个自己的写作阵地" 这件事在我 TODO 里躺了很久。 选框架、挑主题、搞部署、接公众号...... 每次一想就觉得工程量太大,然后就搁置了。 直到看到 @vista8 乔木老师开源了他...