开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。
HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。
ORCA是一款新开源的Agent IDE,提供iOS及移动端客户端,支持多账号切换(例如多个ChatGPT订阅),并显示Token消耗与5小时重置信息。它能自动检测电脑中已安装的CLI工具,如Claude Code CLI、Codex CLI、Gemini CLI等,支持目录文件拖拽对话及内置Markdown预览。该工具优化了Tui工具的常见痛点,但安装包体积较大。开源地址及官网已公布。
I don't think people understand just how bad it will be if an American open source champion doesn't emerge soon and the ...
写了一个微信读书可视化报告skill:yao-weread-skill,已开源到GitHub 它可以把微信读书数据,生成一份本地可视化读书报告,包括: 1、近2年阅读时长与节律 2、书架书籍分析 3、阅读分类、作者、出版社偏好 4、笔记、划...
xAI与Nous Research合作,允许Grok订阅用户免费将模型接入Hermes Agent。此举旨在结合Grok的实时信息检索优势与Hermes Agent的24小时持续运行能力,用户可在Agent内使用Grok进行对话、语音合成及图像生成。安装过程主要分为三步:安装Hermes Agent、选择xAI提供商并授权、安装所需服务后启动。若遇问题,可借助Claude等工具修复。未来预计有更多开源Agent集成计划。
Marking this as a moment convincing @swyx to bring @aiDotEngineer to India next year with @sanjeed_i @udayan_w Exciting ...
NVIDIA的AI性能基准测试项目AIPerf接受了来自AMD的上游代码贡献,这被认为是AMD代码首次被纳入NVIDIA官方仓库。此举被视为开源社区的重要时刻,意味着高质量的、不依赖特定厂商的代码将能供所有人使用。社区期待未来能有更多此类合作,例如将AMD的RIXL部分代码整合进NVIDIA的NIXL,而非维持独立分支。
Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...
Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...
🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...
杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。
How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...
xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。
You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes
作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。
刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...
剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。
Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...
SuperGrok now in Hermes Agent
A new @bgurley blog post! I have been thinking about how sophisticated executives are using open source in super creativ...
X平台(原推特)已将其最新的“For You”信息流推荐算法在GitHub上开源。新算法从依赖点赞、转发等硬性规则排序,转向更接近Grok风格的AI智能排名系统。该系统通过Thunder实时获取用户关注账号的帖子,再通过Phoenix从全平台检索相关的外部内容进行补充。其核心排名模型不再单一判断帖子质量,而是像Transformer模型一样,将用户、帖子和历史行为作为一个整体进行预测,评估用户可能进行回复、点赞、转发、观看或跳过等多种互动可能性,从而实现更个性化的内容推荐。
The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm
MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...
飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基...
马斯克将X平台“For You”推荐算法开源。其核心是使用Grok Transformer端到端预测用户对帖子各项互动动作的概率,并通过加权求和得出最终得分以决定推荐。推荐流水线包含用户画像、候选池检索、元数据补全、硬过滤、打分及最终选择六个步骤。对创作者的启示包括:必带媒体内容提升点击与停留时长、设计高互动钩子、避免同一主题连发以防被惩罚、警惕引发负向互动信号。值得注意的是,本次开源了流程代码与架构,但未公开具体的模型权重、训练数据及生产环境参数。
The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm
A new @bgurley blog post! I have been thinking about how sophisticated executives are using open source in super creativ...
X平台在GitHub开源了其“For You”信息流的最新推荐算法。该算法融合来自已关注账号的内容和通过相似性搜索发现的网络外内容,并利用基于Grok架构的Phoenix Transformer模型进行统一评分。模型通过分析用户近期互动,同时预测点赞、回复、转发等多种互动概率,并综合成最终相关性分数。排序过程包括候选内容收集、上下文信息补充、AI模型评分、多样性调整及垃圾信息过滤等步骤。此次开源提供了完整的可运行管道、预训练模型、内容理解服务及内置广告混合模块,核心计算完全由Transformer模型驱动。
飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。
近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。
Multi-agent's quiet problem: token cost scales with agents × turns × tool calls. It compounds fast , and that's the bill...
飞书CLI工具发布一个多月即获10000 Star,显示市场对其方向的认可。在AI时代,SaaS软件的竞争正从传统UI转向对Agent的适配。飞书通过开放全部能力的CLI,允许用户和Agent完全绕过复杂UI进行操作,大幅降低了使用门槛。其CLI设计采用分层结构,并配套大量Skills作为“说明书”,便于Agent调用。同时,CLI在命令包装上注重对Agent友好,内置Dry Run、结构化输出等功能,方便AI调试。这为创业或构建Agent提供了新路径,可依托飞书CLI和Agent框架,直接利用其聊天界面、多维表格及组织成员作为基础设施。
蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。
飞书CLI在GitHub上的star数已过万,作者认为这印证了飞书是国内对Agent最友好的平台。作者提出评估开源项目是否靠谱的四项关键标准:star数量反映项目热度;活跃的commit历史表明项目持续维护;issues的数量与关闭速度体现用户活跃度和问题处理效率;社区PR被合并的记录则显示项目对社区参与的重视。飞书CLI在这些方面均表现良好。
我靠!刚看到GitHub上,飞书CLI的star数过万了hhh 牛啊。。。 感觉那个周末一起床,发现飞书开源CLI才过去没几天==。
Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。
Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously o...
开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。
open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio
MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。
We have achieved a milestone in MLX that all tests are passing in CUDA backend now.