720p saw the bottle, but 4K sees every letter on its skin. ✨ See more in Kling 4K.
译720p 看到了瓶子,但 4K 能看到瓶身上的每一个字母。✨ 更多细节尽在 Kling 4K。
ColaOS 内测 26 天后,Mac 版本终于趋于稳定 我们已经为所有的 waitlist 里的 Mac 用户发放了邀请 如果还没有收到可以检查下垃圾箱 Windows 兼容比预期的要复杂一些,预计在 5 月下旬开放内测 这两天和新榜的朋友深入地聊了这 26 天的故事和思考 这是一些笔记分享给大家 https://mp.weixin.qq.com/s/NvgNv5FOJkyYovFq-g5KFA
译ColaOS内测26天后,Mac版本趋于稳定,已向所有waitlist中的Mac用户发放邀请。Windows版本因兼容性问题比预期复杂,内测预计推迟至5月下旬。作者与新榜深入交流了内测期间的故事和思考,并分享了相关笔记。
这个日本老哥做的这款应用太酷了,自家的胖猫会出来强制你休息, 等我研究下给自家的几只猫都安排上哈哈哈
ChatGPT Images 2.0 is truly incredible. Here @doodlestein created a math explainer infographic on linear transformations and the spectral theorem using the Mona Lisa. Four generation attemps produced noticeably different layouts, matrix examples, and explanatory structures. The core concepts remained consistent, but each offered a different visual approaches to eigenvectors and transformations.
译用户@doodlestein使用ChatGPT Images 2.0,以蒙娜丽莎为主题创建关于线性变换和谱定理的数学解释信息图。尽管使用了相同的详细提示词,模型在四次生成尝试中产出了布局、矩阵示例和解释结构明显不同的结果。虽然核心概念保持一致,但每次生成在特征向量和变换的可视化呈现方式上各有独特之处。这证实了即使输入不变,模型的输出也存在显著变化。因此,对于重要内容,建议进行多次生成以获取不同的视觉方案和创意角度。
Kinetix AI has teased KAI, its new humanoid robot -engineered with 36 degrees of freedom, more than any previous model, a hybrid dexterous hand, and 18,000 sensors embedded across a soft, flexible body-positioning it as the most human-like robotic system to date. Getting closer to real humanoid robots each day.
译Kinetix AI 已预告其新款人形机器人 KAI——拥有 36 个自由度,超越以往所有型号,配备混合灵巧手,并在柔软灵活的身体中嵌入 18,000 个传感器,使其成为迄今为止最类人的机器人系统。 我们距离真正的人形机器人日益接近。
A Chinese company made this desktop blue-eyed companion robot. Exhibits lifelike micro-expressions, eye tracking, and responsive head positioning. Multiple degrees of freedom, fluid neck motion for natural engagement, with eye-mounted cameras.
译一家中国公司制造了这款桌面蓝眼伴侣机器人。 展现出栩栩如生的微表情、眼球追踪和响应式头部定位。多自由度,流畅的颈部运动实现自然互动,并配备眼部摄像头。
小耳做的这个小插件,解决了右键批量命名的问题。 Apple macOS自带的批量修改的问题是只能是批量改一样前缀和后缀的名字,不够智能和方便。 这个就是纯使用AI多模态的Gemini模型来给你识别,可能要消耗token,其实可以直接使用Gemma 4或者qwen多模态本地使用小模型可能成本更低更方便。 推荐大家体验下载使用👇🏻
译一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。
兄弟们手机上现在能跑世界模型了 蚂蚁灵光 App 今天上线"体验世界模型"的功能 上传一张图,等个几秒到几十秒,就能生成一个可以拿摇杆走进去的 3D 世界。 手机的算力怎么可能支撑这件事? 应该是云端生成,但是速度这么快,也是牛P,不过效果没有那么惊艳,但是可以玩... 我连测了四张图都进去了...
译蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。
Grok Imagine
译Grok 想象
Browser Use 团队推出「Browser Use Box (bux)」:一台属于你自己的盒子,一个 7×24 小时在线、自带真实浏览器的 Claude Code Agent @browser_use bux 要解决的问题 · 会话不持久:关电脑 = Agent 断电;登录态、Cookie、记忆不沉淀 · 浏览器很脆弱:本地 Playwright 装一坨依赖,2FA / CAPTCHA / Cloudflare 一来就废 · 没有可达性:人在地铁里,没法让 Agent "顺手帮我处理一下" bux 的做法:把 Agent 跑在自己拥有的盒子上(VPS、Mac mini、树莓派都行),把浏览器外移到 Browser Use Cloud,并通过 Telegram 让你随时随地一句话调用它。 整体架构 Telegram Web Browser │ │ ▼ ▼ telegram_bot.py ttyd │ │ └───┬───┘ │ ▼ claude -p │ ├──► /home/bux │ (持久化状态) ▼ browser-harness │ │ CDP over WSS ▼ BU Cloud 1. 入口层:Telegram 消息 / 浏览器访问 ttyd web 终端,是用户的两条触达通道。 2. 调度层:两条入口最终都汇入 claude -p,由它驱动整轮 Agent 逻辑。 3. 状态层:每一轮对话和产出都落到 /home/bux/,重启不丢。 4. 执行层:claude 通过 browser-harness 走 CDP-over-WSS 协议,远程驱动跑在 Browser Use Cloud 上的真实 Chromium。 三个 systemd 服务,互相独立: · bux-browser-keeper:维持一个 长期存活的云端浏览器会话,解决冷启动 20–30s 的痛点 · bux-tg:Telegram 长轮询机器人,用户的"遥控器" · bux-ttyd:绑定 127.0.0.1 的 web 终端,当 SSH 嫌麻烦时直接进 Claude 开源地址 https://github.com/browser-use/bux
译Browser Use团队发布Browser Use Box(bux),一个可部署在自有设备(如VPS、树莓派)的24/7在线个人代理盒子。它通过将Claude Code Agent部署于本地,并将浏览器外移至Browser Use Cloud,解决了传统智能体会话不持久、本地浏览器环境脆弱(受2FA/CAPTCHA等限制)以及无法随时随地调用的问题。用户可通过Telegram或Web终端远程触发,Agent通过CDP-over-WSS协议驱动云端真实Chromium执行自动化任务(如预订航班、回复消息)。该项目已开源。
Telegram 上线了一个挺有意思的能力,叫 Managed Bots 让机器人创建和管理机器人 而且机器人之间能互相聊天了 以前你想要一个专属 AI 助手 Bot,得打开 BotFather、输命令、复制一长串 token、回到开发者网页粘贴、配 webhook,普通人 90% 卡在第三步就放弃了。 现在变成两步:点链接、确认名字。几秒后你的聊天列表里多了一个挂着你起的名字的 Bot 体验上跟以前最大的差别其实是心理感受,公共 Bot 像在用客服,专属 Bot 像有个私人助手。 说话方式都不一样了。 能干啥(脑洞别太小) • 个人 AI 助手:每个用户挂自己名字一个 bot,记忆 / 配置 / 连的账号全隔离 • 客服 SaaS:平台让每个商家一键开一个挂自家品牌的客服 bot • AI Agent 平台:用户点链接就开通,省掉注册下载订阅整套流程 • 内容订阅:每个订阅者一个专属推送 bot,频率内容按偏好定制
译Telegram上线Managed Bots功能,极大简化了专属AI助手机器人的创建和管理流程。用户只需点击链接并确认名称,几秒内即可获得一个以自己名字命名的专属Bot,体验从使用公共客服转变为拥有私人助手。该功能支持机器人创建和管理其他机器人,并能互相通信。其核心潜力在于支持大规模个性化部署,应用场景包括:为每个用户创建隔离记忆与配置的个人AI助手;让商家一键开通品牌客服Bot的客服SaaS平台;用户点链接即开通的AI Agent平台;以及为每位订阅者提供定制化内容推送的专属Bot。
Grok Imagine 💫
译Grok 想象 💫
🔥DeepSeek Input Cache Price Drop! Effective immediately, the price for input cache hits across the ENTIRE DeepSeek API series is reduced to just 1/10th of the original price! Build more efficiently for less. 📌Reminder: The DeepSeek-V4-Pro 75% OFF promotion is still active until May 5th, 2026, 15:59 (UTC Time).
译🔥DeepSeek 输入缓存价格下调! 即刻起,整个 DeepSeek API 系列的输入缓存命中价格降至原价的十分之一!以更少成本,更高效地构建。 📌提醒:DeepSeek-V4-Pro 七五折优惠活动持续有效至 2026 年 5 月 5 日 15:59(UTC 时间)。
Claude Platform on AWS 即将推出 和之前的 Claude on Amazon Bedrock 完全不同,Claude Platform on AWS 让开发者在 AWS 账户体系内直接使用 Anthropic 的原生产品。 Claude Platform on AWS 提供: · Anthropic 原生控制台 + API 完整体验 · AWS 账户(但背后是 Anthropic 原生平台) · Claude Platform 全功能,未来新功能也会同步 · Anthropic 原生风格,账单/认证归 AWS https://aws.amazon.com/claude-platform/
🚨 微软刚刚开源炸场了! TRELLIS.2 —— 40亿参数图像转3D模型 一张图片 → 仅需3秒 就能生成带完整PBR材质(粗糙度、金属度、不透明度)的超高质量3D资产! 不是粗糙网格,而是直接能用的专业级模型 连开放表面、空心内部、复杂几何体都轻松搞定!
译微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。
Medeo AI just brought a single creative workflow that pairs GPT Image 2.0 for high-quality photos with Seedance 2.0 for cinematic video inside one tool. keep image generation, video generation, and prompt reuse in one pipeline so the same assets can move from still frame to motion without manual handoffs. They are actually giving access to GPT Image 2 for free for a short time.
译Medeo AI推出集成式创意工具,将GPT Image 2.0的高质量图像生成与Seedance 2.0的电影级视频生成结合在同一工作流中。该方案允许用户无需切换工具即可完成从静态图像到动态视频的创作,并支持提示词复用,实现资产无缝衔接。目前正限时免费提供GPT Image 2.0的访问权限,旨在通过整合多款顶尖AI模型提升全流程创作效率。
Medeo AI just brought a single creative workflow that pairs GPT Image 2.0 for high-quality photos with Seedance 2.0 for cinematic video inside one tool. keep image generation, video generation, and prompt reuse in one pipeline so the same assets can move from still frame to motion without manual handoffs. They are actually giving access to GPT Image 2 for free for a short time.
译Medeo AI推出整合性创意工具,将GPT Image 2.0的高质量图像生成与Seedance 2.0的电影感视频生成结合在单一工作流中。该方案允许用户在同一管道内完成图像生成、视频生成及提示词复用,实现静态帧到动态画面的无缝转换,无需手动切换工具或重复导出。目前正限时免费提供GPT Image 2.0的访问权限。
720p saw the silhouette, but 4K sees every hair lit against the sun. ✨ See more in Kling 4K.
译720p 看到了轮廓,但 4K 能看到每一根在阳光下闪耀的发丝。✨ 在 Kling 4K 中查看更多。
说实话,这才是我想要的AI该有的样子。 前_buildspace创始人Farza刚刚发布了Clicky,一个住在你Mac光标旁边的AI伙伴, 你不用打开任何App,不用打字,只要对着屏幕说一句话, 它就会分裂出一个小代理, 直接帮你把活干了。 你说,帮我把桌面这些乱七八糟的截图清理一下, 它就自动给你分类归档。 你说,帮我明天晚上九点设个提醒和Sharif去吃饭,它就直接打开提醒事项帮你建好。 你说,帮我找25个粉丝不到五万的同领域微网红,列成CSV再写几条DM模板, 它就自己上网搜,自己整理,几分钟给你一个现成的表格。 最离谱的是这个, 你说,帮我建一个Mac App,控制本地的Spotify,做成复古唱片机风格,有播放暂停显示歌名,五分钟之后,它真的给你编译出了一个完整的原生App,还自动打开给你运行。 以前所有的AI,都是你去找它,你打开聊天框,你打字,你复制粘贴,而Clicky是它一直在你身边,它看得到你屏幕上的一切,你需要的时候喊一声,它就出来帮你搞定。 Siri会告诉你,我帮你打开提醒事项,然后让你自己填,而Clicky会直接帮你填好保存,这才是真正的AI助手,不是聊天机器人,是你的数字员工。 现在已经可以免费下载了,Mac用户直接冲,这绝对是2026年到目前为止,最让我兴奋的AI产品。
译前_buildspace创始人Farza发布了Mac端AI助手Clicky。它常驻光标旁,用户无需打开应用或打字,直接对屏幕说话即可触发。AI能理解指令并自动执行任务,例如整理桌面截图、创建提醒事项、搜索整理网红列表生成CSV文件,甚至能在几分钟内根据描述编译并运行一个功能完整的原生Mac App。其核心突破在于从“用户主动寻找并操作AI”转变为“AI常驻感知屏幕,听令即执行”,直接完成而非仅提供操作路径,类似于数字员工而非聊天机器人。目前该产品已可免费下载。
Summarize 📝0.14.0 is out. GPT-5.5 Fast mode via `--fast`, Reddit thread extraction in the browser extension, local PDF `--extract`, and fixes for auto model config + Meta site compatibility. https://github.com/steipete/summarize/releases/tag/v0.14.0
译总结 📝0.14.0 版本已发布。 通过 `--fast` 启用 GPT-5.5 快速模式,浏览器扩展支持 Reddit 帖子提取,本地 PDF `--extract` 功能,以及自动模型配置修复 + Meta 网站兼容性修复。https://github.com/steipete/summarize/releases/tag/v0.14.0
说个所有用第二大脑的人都懂的痛,你往里面塞的资料越多,它就越没用, 我自己那个塞了37篇论文的Notebook,打开就是一长串乱码一样的标题,每次找东西都要滚半分钟,滚到最后干脆放弃🤣🤣🤣 NotebookLM昨天的更新,终于把这个问题给解决了👍👍👍 现在只要你往里面放超过5个来源,AI就会自动把所有文档按主题分好组,还会给每个组起好名字, 视频里那个30个来源的园艺指南,被自动分成了堆肥种植日历土壤种子五个大类,点开就能看到里面的具体文档, 你还能自己改名加表情符号,拖来拖去调整, 最狠的是如果一个文档同时属于两个主题,AI会自动把它放到两个组里, 我之前认为NotebookLM最厉害的是生成音频和思维导图, 现在看来真正卡脖子的根本不是输出,是输入的混乱,当你的知识堆成一团毛线球的时候,再强的生成能力也没用, 这次更新最聪明的地方是那个5个来源的门槛, 少于5个的时候人工整理更快,AI绝对不插手, 多了才自动出来帮你干活, 挺感慨的,它终于明白最好的AI不是什么都替你做,而是在你刚好需要的时候出现🥳🥳🥳
译NotebookLM最新更新解决了资料过多导致混乱的核心问题。当用户添加超过5个来源后,AI会自动按主题对所有文档进行智能分组并命名,例如将园艺资料分为堆肥、种植日历等类别。文档可跨组归属,用户也能手动调整。此次更新的关键在于AI仅在资料量达到需要整理的阈值(5个以上)时才自动介入,既避免了过度干预,又有效帮助用户从繁琐查找中解放出来,更专注于思考与学习。
CodexBar 🎚️ 0.23 is out: Mistral support, Claude Designs/Daily Routines usage, Cursor Extra usage, GPT-5.5 pricing, cleaner widgets/menus, and a bunch of reliability fixes. https://github.com/steipete/CodexBar/releases/tag/v0.23
译CodexBar 🎚️ 0.23 已发布: 新增 Mistral 支持、Claude Designs/Daily Routines 使用情况、Cursor Extra 使用情况、GPT-5.5 定价、更简洁的小部件/菜单,以及一系列可靠性修复。https://github.com/steipete/CodexBar/releases/tag/v0.23
If you find any issue or error in Grok, just shake your phone to report it. Your feedback is super important and helps make Grok better.
译如果你在 Grok 中发现任何问题或错误,只需摇动手机即可报告。 你的反馈非常重要,有助于让 Grok 变得更好。
🌟 BestBlogs v2.1.0 上线! 🌟 最近一周,AI 脚步飞快,写下了五万行代码,终于迎来了 v2.1.0 版本的发布!这次更新带来了众多实用的功能与优化,赶快跟随我们一起了解吧: 新增亮点: - 主题解读功能:深度改进的主题页面,使得你能轻松探索不同领域的内容,帮助你快速找到自己感兴趣的优质文章。 - 早报图文优化:让每一份早报都变得更加生动有趣!我们重新设计了早报内容的展示方式,不仅图文并茂,还能让你更直观地了解每日的精彩内容。 - 文档中心上线:文档中心新增,帮助用户更方便地找到最新的使用手册、帮助文档以及常见问题解答,提升使用体验。 - 内容翻译v2:大幅提升了中英文翻译的准确性与流畅度,双语切换变得更加便捷,轻松获取最新的全球资讯。 - 移动端优化:移动端的用户体验有了显著提升,UI 设计更加简洁、流畅。无论是浏览内容还是互动操作,都变得更加高效。 - App 应用(暂未上架):移动端应用功能已经完成开发,待上线后将为大家带来更加流畅的使用体验! 我们热忱欢迎大家使用并提供反馈,帮助我们进一步改进和优化。 👉 查看完整更新日志 https://www.bestblogs.dev/changelog
译AI驱动的BestBlogs平台发布v2.1.0版本,带来多项核心功能更新。主要包括深度改进的主题解读页面、重新设计图文并茂的早报展示、新上线的文档中心以整合帮助资源。同时,内容翻译功能升级至v2版,提升了中英翻译质量与切换便捷性。移动端用户体验获得显著优化,UI更简洁流畅。专为移动端开发的应用也已完工,待上架后将提供更佳体验。
ChatGPT for Clinicians unlocking new use cases:
译面向临床医生的ChatGPT解锁新用例: [引用 @operationdanish]:我刚尝试了面向临床医生的ChatGPT代理模式。这简直难以置信。 我可能会为此录个视频…太疯狂了。
ChatGPT 桌面版现在也支持语音输入,还没有测试中文支持的效果如何。
DAVIS, APRIL 25, 2026 — InferenceX has added DeepSeekv4 for @vllm_project 's day 0 support for GB200 disagg! Great work to @flowpow123 @rogerw0108 @NVIDIAAIDev @inferact for the fast support and engineering!
译DAVIS, 2026年4月25日 — InferenceX 已为 @vllm_project 添加了 DeepSeekv4,以支持 GB200 分解的 day 0 支持!感谢 @flowpow123 @rogerw0108 @NVIDIAAIDev @inferact 的快速支持和工程工作!
I have rushed to test this one 👀 Gemini for iOS got a new voice dictation with wave animation and proper controls. On Gemini, it triggers read aloud automatically in case you have used dictation to prompt. Not new, but now it is really instrumental. Works like a charm 🔥
译我赶紧测试了这个功能 👀 Gemini for iOS 新增了带有波形动画和恰当控制的语音听写功能。 在 Gemini 上,如果你使用了听写来输入提示,它会自动触发朗读功能。这并非全新功能,但现在它确实很实用。 效果非常棒 🔥
ANTHROPIC 🔥: Anthropic is working on Bugcrawl, a new Claude Code feature that would scan repositories for bugs using 10 parallel agents. It is very possible that this feature would target Teams and Enterprise plans, as with the Security and Code Review features. Whose stock will tank next? 👀
译ANTHROPIC 🔥: Anthropic 正在开发 Bugcrawl,这是一项新的 Claude Code 功能,将使用 10 个并行代理扫描代码库中的错误。 该功能很可能针对 Teams 和企业版计划,就像安全和代码审查功能一样。 接下来谁的股票会暴跌?👀
GOOGLE I/👀: Google is working on Website generation for its Pomelli experiment. > Considering that Pomelli is a Marketing AI agent, a new Websites feature may help users generate and potentially host landing pages. > A new Catalog feature is also in the works that may help SMBs upload catalog items in batches and generate marketing assets in bulk.
译谷歌I/👀:Google 正在为其 Pomelli 实验开发网站生成功能。 > 考虑到 Pomelli 是一个营销 AI 助手,新的网站功能可能帮助用户生成并托管落地页。 > 新的目录功能也在开发中,或可帮助中小企业批量上传目录商品并批量生成营销素材。
The new Pangram extension is absolute kryptonite for all the slop-posters on X, LinkedIn and Reddit. Gamechanging way to eliminate slop.
译新的Pangram扩展程序绝对是X、LinkedIn和Reddit上所有灌水帖的克星。 消除灌水的颠覆性方法。
It’s the little things that matter, what are some small papercuts you have noticed in Codex? We’ll fix as many as possible in the next week.
译细节决定成败,你注意到Codex中有哪些小问题?我们将在下周尽可能多地修复它们。
Our GB300 cluster went down yesterday, just as Deepseek released 😱 We were 😥 but @CoreWeave came through to contribute to the Open Source. They scrambled in the compute crisis, finding 2 spare dev racks of GB300 Our team is running Deepseekv4 now for InferenceX benchmarks!
译在DeepSeek发布的关键时刻,原GB300集群意外宕机。云服务商CoreWeave在计算资源危机中紧急调配,找到了两套备用的GB300开发机架,使团队得以顺利运行DeepSeek-V4进行InferenceX基准测试。据引用推文,InferenceX已实现对DeepSeek-V4的Day 0支持,并利用Blackwell B300获得了相比Hopper架构5倍的性能提升。目前,InferenceX团队正全力扩展对更多新硬件架构的即时支持。
🔥DeepSeek-V4-Pro API is 75% OFF until May 5th, 2026, 15:59 (UTC Time)! Don't miss out on this massive discount. 🛠️Integration Updates: 🔹Claude Code: Set model to deepseek-v4-pro[1m] to unlock 1M context! 🔹OpenCode: Update to v1.14.24+ 🔹OpenClaw: Update to v2026.4.24+ Check the latest official API docs for full details: https://api-docs.deepseek.com/quick_start/pricing
译🔥DeepSeek-V4-Pro API 限时75折优惠,截止至2026年5月5日15:59(UTC时间)!切勿错过此次大幅折扣。 🛠️集成更新: 🔹Claude Code:将模型设置为 deepseek-v4-pro[1m] 即可解锁100万上下文! 🔹OpenCode:请更新至 v1.14.24+ 🔹OpenClaw:请更新至 v2026.4.24+ 查看最新官方API文档获取完整详情:https://api-docs.deepseek.com/quick_start/pricing
Obscura 是一个用 Rust 从头编写的 headless browser 引擎,专为 AI Agent 自动化和规模化网络爬取设计,主要特性:独立引擎 + 原生反检测 + CDP 兼容 + 极致轻量 Obscura 精准切中了两个高价值场景的交集:AI Agent 的网页感知与大规模反检测爬取,性能对比非常激进。 维度 Obscura Headless Chrome 内存占用 30 MB 200+ MB 二进制 70 MB 300+ MB 页面加载 85 ms ~500 ms 启动时间 即时 ~2 s 架构拆解:六层 Crate 的精密分工 · obscura-dom:HTML 解析、DOM 树、CSS 选择器 · obscura-net:HTTP 客户端、Cookie、拦截器、robots.txt · obscura-js:V8 集成、JS 运行时、DOM API 绑定 · obscura-browser:页面生命周期、浏览上下文、导航管理 · obscura-cdp:Chrome DevTools Protocol 兼容层 · obscura-cli:命令行入口、Worker 进程管理 Obscura 没有重写整个浏览器,它复用了 Servo 的 DOM 组件和 Google V8 的 JS 引擎,在此基础上构建独立的网络层和 CDP 兼容层。这是一种务实的"站在巨人肩膀上"的策略。 三大技术亮点 1. 深度反检测(Stealth Mode) 项目最具竞争力的特性。编译时启用 --features stealth 后,它在三个层面进行伪装: · 指纹层面:每会话随机化 GPU、屏幕分辨率、Canvas、Audio、Battery 指纹;模拟 navigator.userAgentData 高熵值;将 navigator.webdriver 设为 undefined · 行为层面:分派事件的 event.isTrusted = true;原生函数 toString() 返回 [native code];隐藏内部属性使 Object.keys(window) 安全;Shadow DOM polyfill 兼容 Cloudflare Turnstile · 网络层面:拦截 3520 个追踪/广告/遥测域名,阻止指纹脚本加载 2. 生态兼容策略 项目选择了"兼容而非对抗"的聪明路径:完整实现 CDP 的子集,使现有基于 Puppeteer/Playwright 的脚本可以零成本迁移,只需将 browserWSEndpoint 指向 ws://127.0.0.1:9222。这极大降低了采用门槛。 3. 为 AI Agent 优化的专属功能 · 内置 LP Domain:DOM-to-Markdown 转换,直接输出适合 LLM 消费的结构化文本 · 85ms 页面加载意味着 Agent 的感知-行动循环更紧凑 · 轻量特性使其适合作为 Agent 的常驻感知端点 开源地址: https://github.com/h4ckf0r0day/obscura
译Obscura是一个用Rust编写的轻量级无头浏览器引擎,专为AI Agent自动化和大规模网络爬取优化。其核心优势在于极致的性能与资源效率,内存占用仅30MB,页面加载约85毫秒,远超Headless Chrome。项目采用务实架构,复用Servo的DOM与V8引擎,并构建独立网络层。关键特性包括深度反检测的“隐身模式”,能随机化指纹并拦截追踪域名;通过兼容Chrome DevTools Protocol,实现与Puppeteer/Playwright生态无缝对接。此外,它内置了DOM转Markdown等专为AI Agent优化的功能,旨在作为高效的常驻网页感知端点。
讲真,这可能是第一个我真的愿意买回家的机器人, 前斯坦福机器人博士@aaronistan Tan刚刚发布了Lume,它长得完全就是一盏普通的豪华床头灯, 但是会伸出机械臂帮你叠衣服,床上扔得乱七八糟的T恤裤子, 它会一件一件抓起来叠得整整齐齐,折完机械臂收回去,继续当你的灯, 最狠的是他们下周在Palo Alto办展示会,直接让大家自带脏衣服去测, 我之前也觉得人形机器人才是未来,看完才反应过来,这才是家用机器人该有的样子, 它不会在你家里走来走去,不会盯着你看,不会让你觉得家里多了个陌生人, 它就是一件会干活的家具,解决一个所有人都讨厌到死的问题, 这真的也很酷啊,比任何能跳舞能跑的人形机器人,都更接近我们真正想要的未来。
译前斯坦福机器人博士Aaron Tan发布的Lume机器人,外观设计为一盏豪华床头灯,但内置机械臂可自动叠放衣物。其核心理念是家用机器人应像一件会干活的家具,专注于解决叠衣服这类具体痛点,而非以人形形态在家庭中活动。团队将于下周在Palo Alto举办展示会,邀请公众自带脏衣服进行测试,强调产品解决实际问题的实用性,认为这种形态比追求拟人化功能更接近真正的家用机器人未来。
兄弟们,做App最痛苦的部分终于被AI干掉了, Anything刚刚上线了一个功能, 一键生成设计师级别的App Store截图, 15秒,从空白到4张完美适配规格的上架图, 连App图标评分Get按钮都给你做好了, 改文案只需要输一句话,点一下生成就完事, 以前做过App的都懂,代码写完只是开始,做截图能把人逼疯,要找mockup,要调配色,要写卖点, 还要适配十几个尺寸,要么花几百刀请设计师,要么自己抠三天Figma, 现在这些全没了, 我之前觉得AI写代码已经够离谱了, 现在才发现,AI真正厉害的地方, 是把那些没人愿意干的脏活累活全给你包了, 从idea到上架的全链路, 现在几乎没有任何门槛了, 当然最后还是需要你的审美做最后把关,但这已经帮你省了90%的力气。 也许这就是AI的魅力和价值所在吧😄
译工具Anything推出新功能,能一键生成设计师级别的App Store截图。用户仅需15秒即可从空白状态获得4张完美适配官方规格的截图,系统会自动生成包含图标、评分和下载按钮的完整画面。修改文案也只需输入一句话并点击生成。此举解决了应用开发中制作和适配多尺寸截图的传统痛点,该过程以往需耗费数百美元聘请设计师或投入大量时间自行设计。AI正将开发者从繁琐的“脏活累活”中解放出来,大幅降低了从创意到应用上架全流程的门槛,尽管最终审美把关仍需人工,但已节省约90%的精力。
GLM-5.1 is now on BytePlus's Coding Plan — and the case is straightforward: Opus-class performance, 8-hour autonomous task loops, works natively in Cursor and Claude Code, 6 top models with smart routing. All at roughly 5x lower cost than http://Z.ai official pricing. Hard to ignore.
译GLM-5.1现已登陆BytePlus的Coding Plan——情况很简单:Opus级别的性能,8小时自主任务循环,原生支持Cursor和Claude Code,6个顶级模型配备智能路由。所有这一切的成本大约比http://Z.ai官方定价低5倍。难以忽视。
Google is working on a "Usage Limits" section for Gemini and a new "Images" tab. > At this point, it is unclear if we should expect a new Image model to arrive during Google I/O or if we would see a new Images section with extra features for image editing and more. > Usage Limits tab aligns with a broader direction for Gemini, where we would expect its Desktop app to be expanded to include more agentic features. AI Studio already shares Usage Limits with Gemini. Super Gemini App 👀
译Google正在为Gemini开发"使用限制"板块和新的"图像"标签。 > 目前尚不清楚我们是否能在Google I/O期间迎来新的图像模型,或者是否会看到带有图像编辑等额外功能的新图像板块。 > 使用限制标签符合Gemini更广泛的发展方向,我们预计其桌面应用将扩展包含更多智能体功能。AI Studio已与Gemini共享使用限制。 超级Gemini应用 👀
武侠片里高手过招就是这样, 剑气一指,一招秒杀 Typeless 🤔
译OpenAI为ChatGPT订阅用户推出系统级全局语音输入功能,用户设置热键后即可在桌面任意应用的文本框中进行语音输入并实时转为文字,无需切换应用或额外付费。该功能直接替代了Wispr Flow、Superwhisper等第三方工具的核心服务,使其市场受到冲击。评论指出,此举是OpenAI将Codex转化为“AI操作系统”的战略步骤,旨在将AI深度嵌入用户日常操作流程,未来竞争重点将从语音模型优劣转向AI与工作流的整合程度。
ColaOS内测26天后,Mac版本趋于稳定,已向所有waitlist中的Mac用户发放邀请。Windows版本因兼容性问题比预期复杂,内测预计推迟至5月下旬。作者与新榜深入交流了内测期间的故事和思考,并分享了相关笔记。
I was curious how much the new ChatGPT image model would vary in its outputs given the same detailed prompt to make a ma...
一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。
我是一个 AI Builder & Learn in Publish 👇 🔥一键让AI帮你改文件名🔥 你是不是有这种情况: 📁 截图全叫 Screenshot 2026-04-23 at 14.32.48 📁 下载图清一色 IMG...
蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。
Browser Use团队发布Browser Use Box(bux),一个可部署在自有设备(如VPS、树莓派)的24/7在线个人代理盒子。它通过将Claude Code Agent部署于本地,并将浏览器外移至Browser Use Cloud,解决了传统智能体会话不持久、本地浏览器环境脆弱(受2FA/CAPTCHA等限制)以及无法随时随地调用的问题。用户可通过Telegram或Web终端远程触发,Agent通过CDP-over-WSS协议驱动云端真实Chromium执行自动化任务(如预订航班、回复消息)。该项目已开源。
Introducing: Browser Use Box (bux). Your 24/7 personal agent box, powered by Browser Harness. ♞ We got tired of agents t...
Telegram上线Managed Bots功能,极大简化了专属AI助手机器人的创建和管理流程。用户只需点击链接并确认名称,几秒内即可获得一个以自己名字命名的专属Bot,体验从使用公共客服转变为拥有私人助手。该功能支持机器人创建和管理其他机器人,并能互相通信。其核心潜力在于支持大规模个性化部署,应用场景包括:为每个用户创建隔离记忆与配置的个人AI助手;让商家一键开通品牌客服Bot的客服SaaS平台;用户点链接即开通的AI Agent平台;以及为每位订阅者提供定制化内容推送的专属Bot。
微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)Everyone's talking about GPT Image 2.0💥 Looking for perfect quality photos? GPT Image 2.0 does exactly this What about ...
Everyone's talking about GPT Image 2.0💥 Looking for perfect quality photos? GPT Image 2.0 does exactly this What about ...
前_buildspace创始人Farza发布了Mac端AI助手Clicky。它常驻光标旁,用户无需打开应用或打字,直接对屏幕说话即可触发。AI能理解指令并自动执行任务,例如整理桌面截图、创建提醒事项、搜索整理网红列表生成CSV文件,甚至能在几分钟内根据描述编译并运行一个功能完整的原生Mac App。其核心突破在于从“用户主动寻找并操作AI”转变为“AI常驻感知屏幕,听令即执行”,直接完成而非仅提供操作路径,类似于数字员工而非聊天机器人。目前该产品已可免费下载。
NotebookLM最新更新解决了资料过多导致混乱的核心问题。当用户添加超过5个来源后,AI会自动按主题对所有文档进行智能分组并命名,例如将园艺资料分为堆肥、种植日历等类别。文档可跨组归属,用户也能手动调整。此次更新的关键在于AI仅在资料量达到需要整理的阈值(5个以上)时才自动介入,既避免了过度干预,又有效帮助用户从繁琐查找中解放出来,更专注于思考与学习。
Mo sources mo problems? Not anymore: Rolling out now, NotebookLM can auto-label & categorize sources (when you have 5+),...
AI驱动的BestBlogs平台发布v2.1.0版本,带来多项核心功能更新。主要包括深度改进的主题解读页面、重新设计图文并茂的早报展示、新上线的文档中心以整合帮助资源。同时,内容翻译功能升级至v2版,提升了中英翻译质量与切换便捷性。移动端用户体验获得显著优化,UI更简洁流畅。专为移动端开发的应用也已完工,待上架后将提供更佳体验。
I just tried Agent Mode with ChatGPT for Clinicians. This is unbelievable. I might make a video of this... wild.
Transcription on the Gemini iOS app is finally usable! Thank you @joshwoodward
SAN FRANCISCO, April 24, 2026 - InferenceX has added Day 0 DeepSeek v4 support for @sgl_project's amazing Blackwell B300...
Obscura是一个用Rust编写的轻量级无头浏览器引擎,专为AI Agent自动化和大规模网络爬取优化。其核心优势在于极致的性能与资源效率,内存占用仅30MB,页面加载约85毫秒,远超Headless Chrome。项目采用务实架构,复用Servo的DOM与V8引擎,并构建独立网络层。关键特性包括深度反检测的“隐身模式”,能随机化指纹并拦截追踪域名;通过兼容Chrome DevTools Protocol,实现与Puppeteer/Playwright生态无缝对接。此外,它内置了DOM转Markdown等专为AI Agent优化的功能,旨在作为高效的常驻网页感知端点。
A Rust dev just killed Headless Chrome. It's called Obscura. The open-source headless browser purpose-built for AI agent...
前斯坦福机器人博士Aaron Tan发布的Lume机器人,外观设计为一盏豪华床头灯,但内置机械臂可自动叠放衣物。其核心理念是家用机器人应像一件会干活的家具,专注于解决叠衣服这类具体痛点,而非以人形形态在家庭中活动。团队将于下周在Palo Alto举办展示会,邀请公众自带脏衣服进行测试,强调产品解决实际问题的实用性,认为这种形态比追求拟人化功能更接近真正的家用机器人未来。
We are hosting the largest showing of Lume in Palo Alto Bring your own laundry Details below
工具Anything推出新功能,能一键生成设计师级别的App Store截图。用户仅需15秒即可从空白状态获得4张完美适配官方规格的截图,系统会自动生成包含图标、评分和下载按钮的完整画面。修改文案也只需输入一句话并点击生成。此举解决了应用开发中制作和适配多尺寸截图的传统痛点,该过程以往需耗费数百美元聘请设计师或投入大量时间自行设计。AI正将开发者从繁琐的“脏活累活”中解放出来,大幅降低了从创意到应用上架全流程的门槛,尽管最终审美把关仍需人工,但已节省约90%的精力。
BREAKING: the screenshot bottleneck is gone! Anything now generates designer grade App Store screenshots
卧槽,OpenAI Codex团队刚放了个大招, 直接把所有第三方语音输入工具干懵了, 所有ChatGPT订阅用户,现在可以在桌面任何地方直接语音输入, 不用切App,不用额外花钱,设置一个热键,按住说话,松开文字直接进任何文本框,记事本,...