字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。
字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。
自回归视频扩散模型因历史帧键值缓存冗余,面临注意力复杂度高、内存开销大的问题。本文提出Forcing-KV混合压缩方法,基于注意力头功能分化的实证研究,将头划分为静态头(关注块间过渡与帧内保真度)和动态头(控制帧间运动一致性),并分别采用结构化静态剪枝和基于分段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,缓存内存降低30%,在480P分辨率下对LongLive和Self Forcing分别加速1.35倍和1.50倍,在1080P分辨率下更可达2.82倍加速。
我为什么反对 html 比 markdown 更适合 ai 的言论呢? 因为我费老大劲开发了 https://docu.md 我要让更多人知道这个超腻害的阅读插件。😇
http://x.com/i/article/2050058966072524800
AMD将于5月19日在上海举办2026年AI开发者日活动,其董事会主席兼首席执行官苏姿丰已确认出席。活动聚焦人工智能计算、系统架构、软件开源生态与真实工程问题,旨在完整呈现AMD对AI未来发展的判断及对开发者的长期投入。本次活动并非概念发布会,而是包含专家指导实战工作坊、AI领袖技术分享、与AMD工程师面对面交流等环节的实战技术日程,面向从事模型、系统、推理、训练、工具链或应用落地的真实开发者。
OpenAI与博通的定制AI芯片项目因资金问题受阻。博通要求微软承诺购买其40%的芯片产量才会投入生产,而微软尚未同意这一条件。OpenAI高管萨钦·卡蒂在内部消息中称这种依赖关系“在财务上缺乏吸引力”。仅项目第一阶段成本就高达约180亿美元。目前三方谈判陷入僵局,芯片生产计划面临搁浅风险。
字节跳动今年将AI基础设施计划支出提高25%,达到2000亿元人民币。原预算为1600亿元,上调主要由于公司对AI的投入继续加深以及内存芯片成本上涨。字节跳动还计划把更大比例资金投向国产AI芯片。
人工智能初创公司Anthropic与美国CDN服务商阿卡迈科技签署了价值18亿美元的计算协议,以应对AI软件需求的激增。该合作消息推动阿卡迈股价连续两日大幅上涨,周四涨25%,周五进一步上涨约28%,股价达到149.05美元。阿卡迈此前已在财报中透露与某前沿模型提供商达成长期合作,公司预计第二季度收入在10.8亿至11亿美元之间。双方均未对此协议发表评论。
在第二届空天信息技术大会上,中国科学院空天信息创新研究院联合百余家单位提出共建“太空云”生态倡议。该倡议旨在将分散的通信、遥感、导航及算力卫星整合为统一的云原生智能服务体系,实现从“功能单星”到“智能星云”的跨越。系统可自动匹配最优天基资源,将数据处理时延压缩至分钟级乃至秒级,用户通过便携终端即可按需调用服务。其应用覆盖应急减灾、大众服务、低空经济与6G等领域,将显著提升我国天基资源的综合应用效能。
当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。
http://x.com/i/article/2052796100608974848
Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...
日月光半导体与楠梓电子宣布,将共同投资352.35亿新台币(约76.28亿元人民币),在高雄楠梓科技产业园区建设一座先进封装工厂。该工厂占地约1.76万平方米,总建筑面积超11.34万平方米,预计于2029年9月投产。其核心工艺为FOCoS与FC BGA技术,其中FOCoS的某些变体可实现XPU与HBM集成,可作为台积电CoWoS工艺的替代方案,且无需中介层的设计有助于降低生产成本。
Arm在财报会议上披露,客户对其首款自研处理器Arm AGI CPU在2027至2028财年的总需求规模已突破20亿美元,较3月发布时增长超一倍。公司预计该芯片将在2027财年第四季度带来近1亿美元的首批收入,并预测到2031财年自研CPU业务累计收入将达150亿美元。Arm表示,得益于现成的软件支持和机架设计,该芯片可快速部署至数据中心。此外,Arm预计2027财年许可收入增长约20%,数据中心Neoverse特许权使用费收入有望再度翻倍,公司近期还签署了两份面向智能手机和数据中心网络芯片的下一代CSS协议。
本次发布的 v2.1.137 版本主要包含一项错误修复。该版本解决了 Visual Studio Code 扩展在 Windows 操作系统上无法激活的问题。此次更新专注于提升特定平台下的扩展兼容性与稳定性。
现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。
The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...
该研究针对大规模系统日志中实例级异常定位标注成本高的难题,提出了LogMILP弱监督框架。该框架仅使用包级标签,即可同时实现包级异常检测与实例级异常定位。其核心是通过原型引导的结构建模与反事实扰动一致性正则化,指导模型定位关键日志条目。在三个公共数据集上的实验表明,LogMILP在取得有竞争力的检测性能同时,生成的实例级定位结果更为可靠。相关代码已开源于 https://github.com/YUK1207/LogMILP。
OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。
自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。
距离谷歌I/O大会仅11天,公司本周推出了一系列AI产品更新。Google Health应用集成Gemini,利用穿戴设备、健康应用和医疗记录提供个性化健康指导。Gemma 4引入多令牌预测技术,可将工作流速度提升高达3倍。NotebookLM新增自动源文件整理和可定制思维导图功能。Gemini API的文件搜索工具升级,支持多模态、自定义元数据和页面引用,并加入Webhooks推送通知以替代轮询。此外,Nano Banana、Veo和Google Photos Remix等热门AI功能现已登陆Google TV平台。
北美电力可靠性公司(NERC)向美加墨地区发布最高级别三级警报,警告数据中心接入电网可能导致整张电网停摆。这是过去9个月内第三次类似警告。警报指出,数据中心尤其是承载AI工作负载的设施用电波动剧烈,需求在数秒内急剧变化,电网运营商缺乏应对流程。加密货币挖矿和传统数据中心同样构成威胁。NERC要求运营商立即采取必要行动,并在8月3日前提交风险缓解计划。
斯坦福AI教授安杰尼·米达指出,美国科技公司需以共情和透明沟通应对数据中心建设阻力。越来越多地方社区因担忧电费上涨、环境影响和生活质量下降而反对新建数据中心,皮尤报告显示43%受访者认为数据中心推高了其电费账单。米达强调,科技公司应清晰说明数据中心对社区的实际影响与建设目的,主动倾听社区意见,否则将面临重大阻力。部分政界人士已提议暂停新项目审批。他认为,在基础设施扩张中平衡技术需求与社区关切,通过类似“营养成分标签”的透明信息缩小分歧,是推动AI发展的关键。
中国移动董事长陈忠岳在移动云大会上宣布,公司将推进全国一体化算力网建设,提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区,升级AI云算服务以支撑大模型发展。同时,中国移动将开放万亿级词元(Token)服务体验包,并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等,提供统一API网关,服务于政务、金融、工业等多类场景。
阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。
迎广科梵特 covalent 工作站全塔台式机箱已在京东开启预约,售价999元。这款机箱专为AI与高性能计算设计,采用全塔结构,提供钢板或强化玻璃侧板选项。它支持EEB和EATX主板,可容纳多张大型显卡,兼容420mm一体式水冷,预装4颗CV140风扇。存储方面支持安装3颗3.5英寸或6颗2.5英寸硬盘,并内置风扇集线器、快拆侧板等模块化设计,满足高扩充与散热需求。
安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。
在NAVIGATE 2026峰会上,新华三发布了面向万亿级大模型的全系列超节点UniPoD S80000,覆盖32卡至1024卡,最高可扩展至16384卡,提供一站式智算解决方案。同时,围绕“AI in ALL”战略,推出了一系列全栈新品,包括:高密全液冷整机S90000,实现1U 6CPU业界最高密度;单芯片102.4T智算交换机,大幅提升带宽与利用率;AI原生存储X20000系列,单节点带宽达200GB/s;新一代AI智能云,支持超大规模纳管;业界最高性能AI防火墙M9000-X;以及凝聚了23年运维经验的灵犀运维智能体。
中国移动发布移动模型服务平台MoMA,接入超过300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎,通过智能路由与资源调度,实现单位Token成本降低约30%,资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略,并能实现故障秒级切换。平台还提供“机密模型”服务,通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。
Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。
http://x.com/i/article/2052422965019439105
在市场监管总局指导下,云南电网成功研发“电动车室内充电风险智能识别系统”。该系统无需硬件改造,依托现有智能电表的15分钟负荷曲线数据,通过人工智能算法识别电动自行车充电的独特“电化学指纹”,实现对高层建筑内违规入户充电行为的精准识别与预警。系统构建了大数据驱动的“技术+管理”协同治理模式,可将预警信息推送至电网、物业、社区等多方,形成闭环管理。目前已在50余个居民区试运行,识别准确率达88%。
AMD近日发布了四年来首款采用PCIe AIC形态的Instinct MI350P加速卡,主要面向现有数据中心基础设施升级。该卡采用新封装,规格相较MI350X大幅缩减:XCD芯片数量减半至4个,HBM3E内存降至4堆栈144GB,性能下降约50%,晶体管数量减少约60%。产品采用双槽全高全长设计,最大功耗600W,支持无风扇被动散热。
软银正与英伟达和富士康磋商,评估在日本本土制造AI服务器的可行性。该计划首先通过组装外购组件建立生产系统,目标是在2029年前逐步掌握完整的AI服务器制造流程。软银将打造配备高级GPU的高性能服务器,此蓝图已纳入公司中期经营计划,预计最快将于下周正式公布。软银CEO孙正义已向OpenAI投资超过300亿美元,显示出其在大型语言模型竞争中的全力投入。
美国科技企业Cloudflare宣布裁员20%,涉及超过1100名员工,以推动公司向AI优先运营模式转型。公司CEO表示,此举并非仅为降本增效,而是为适应智能体时代重构公司架构。数据显示,Cloudflare的AI使用量在三个月内激增超过600%,公司内部日常运营已广泛依赖AI智能体对话。截至去年底,公司全职员工数为5156人,预计此次裁员将产生1.4亿至1.5亿美元的相关费用。
OpenAI与博通联合研发AI芯片项目“Nexus”陷入僵局。博通要求微软承诺采购首批芯片约40%的产能,才愿为首期建设出资。项目首期需1.3吉瓦算力,成本约180亿美元;总规模达10吉瓦,旨在2030年前上线以减少对英伟达依赖。OpenAI视自研芯片为降低运营成本关键,但微软尚未同意采购。若微软采购未达标,OpenAI需自行寻找其他买家。此前OpenAI与英伟达的类似千亿美元合作也已无果。
OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 openai <资源> <命令> 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 curl 与 jq 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 --format explore 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。
small ship / passion project, more details soon https://github.com/openai/openai-cli 1. call responses via cli with all ...