AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月23日周二
02:08AYi51OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复
02:08Ethan Mollick64宾大教授实测Sakana Fugu Ultra-high:速度极慢,效果仅"fine"未达官方宣称水平
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:12Yuchen Jin26Anthropic Fable 5未回归,研究员可建更强模型
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
00:56Chubby♨️43Delos Workers 让 AI 智能体拥有持久身份,像同事一样传递上下文
00:41Hacker News 热门(buzzing.cc 中文翻译)56Claude Code 的"扩展思维"只是总结,而非真实推理
00:35jason13LLM审计Rust代码的惊人效果
00:35jason19Codex参谋长线程用途调查
00:33凡人小北42微信Agent:云端调度型智能体OS路径
00:12Berryxia.AI20YouMind 的 Sprite 说脏话引吐槽
00:05IT之家(RSS)42谷歌 DeepMind 工程师费恩伯格:进顶尖 AI 实验室需"像狗一样拼命干"
6月22日周一
23:42SenseTime50商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力
23:12Berryxia.AI12Claude Code 1995 发布?
23:12Berryxia.AI64沉浸式翻译接入免费模型教程:以小米MiMo为例
23:04Kling AI37可灵AI创作者Maria Rubtsova分享病毒视频秘诀
22:40Hacker News 热门(buzzing.cc 中文翻译)58向 Zig 软件基金会再捐赠 40 万美元
22:11François Chollet34编程:抽象层管理复杂性的艺术与科学,AI是其中一部分
22:05IT之家(RSS)70精选Anthropic 工程负责人:Claude Code 让程序员更孤独
21:05IT之家(RSS)59Counterpoint:2026年生成式AI手机渗透率将达45%,2027年达52%
20:11Berryxia.AI66Serva总结AI平台防封号四件套方案
20:07AYi44阿易 AI Notes 用 Apodex 核查"白毛股神"CPO 叙事:五条声称四条站不住
19:30公众号:卡尔的AI沃茨65字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台
19:26Chubby♨️59Notion联合创始人谈从笔记应用向AI智能体优先工作空间的演变
19:09Hacker News 热门(buzzing.cc 中文翻译)44Codex SQLite 反馈日志年写入量可达 640 TB,快速消耗 SSD 寿命
19:03The Verge:AI(RSS)65AI编程工具(vibe-coding)应用安全隐患突出
18:05IT之家(RSS)48联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型
17:39Hacker News 热门(buzzing.cc 中文翻译)65GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏
17:07meng shao30邵猛更新国产LLM投票结果:GLM-5.2领先,MiniMax M3垫底
16:56Chubby♨️29用户 Kim 期待 Sonnet 5 发布
16:41karminski-牙医54想买Mac运行大模型? 这是劝退贴
16:34jason10设置Codex的惊叹
16:11Berryxia.AI27CuiMao用seedance2和Grok Imagine Video 1.5制作Fable 5谍战短片
16:07DogeDesigner18Grok将制作好莱坞级电影,指日可待
16:05IT之家(RSS)58微软 CEO 纳德拉:不能任由 AI 巨头吞噬经济
15:56Chubby♨️23Sakana Fugu Ultra多智能体编排性能媲美Fable 5
15:32Peter Steinberger 🦞39用户实测多模型路由:效果远逊GPT 5.5
15:26Chubby♨️49Sakana Fugu Ultra:多智能体编排系统对标Fable和Mythos
15:08Hacker News 热门(buzzing.cc 中文翻译)62微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%
15:04jason60Guinness Chen:用语音输入代替手动编辑提示词
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
02:08
AYi@AYi_AInotes
51
OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI安全/对齐行业动态部署/工程
02:08
Ethan Mollick@emollick
64
宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型,指出其速度极慢--典型编码测试需30分钟,实际效果仅"fine",未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示,在真实编码场景中Fugu Ultra远不及Fable,并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:12
Yuchen Jin@Yuchenj_UW
26
Fable 5 没有回归。 显然,由于禁令,Anthropic 的非公民研究员无法使用 Mythos/Fable 5,但他们仍然可以构建更强大的模型,如 Mythos 6 或 Fable 6。 如果真是这样,我认为这项禁令没什么意义。
Anthropic大佬观点政策/监管
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
00:56
Chubby♨️@kimmonismus
43
Delos Workers 让 AI 智能体拥有持久身份,像同事一样传递上下文

Delos Workers 突破传统 AI 智能体每次任务后重置上下文的限制,为每个智能体保留持久身份和记忆,独立拥有邮箱、电话和 Slack 句柄,能在任务间传递上下文,从而成为组织架构中可直接寻址的成员。引用 @pierre_dlgr 称其为“无限 AI 员工”,数天内实现 100 万美元 ARR,旨在取代邮件回复、CRM 更新等流程化知识工作。

Pierre de la Grand'rive: Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...

智能体产品更新现象/趋势
00:41
Hacker News 热门(buzzing.cc 中文翻译)
56
Claude Code 的"扩展思维"只是总结,而非真实推理

Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。

智能体Anthropic现象/趋势编码
00:35
jason@jxnlco
13
我刚刚读了这篇文章:https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3
教程/实践编码
00:35
jason@jxnlco
19
你们中有多少人有一个Codex参谋长线程? 你们让它们查看什么样的事情?
OpenAI大佬观点编码
00:33
凡人小北@frxiaobei
42
推文分析微信成为超级Agent OS的潜力。对比手机厂商(端侧感知型,偏向控制硬件,但服务碎片化)与微信(云端调度型,依靠小程序作为类MCP工具池,聊天作为天然上下文窗口)。微信可深度操控自身生态(页面跳转、功能触发),但缺端侧长期记忆和规划能力。结论认为真正跑得动的Agent应云负责理解、编排与聚合服务,端负责感知与控制,统一调用链、上下文管理与服务编排者有望成为智能体OS。

凡人小北: 很多人都在说 Agent 是未来的操作系统。但问题是,你让谁来当操作系统?看openai现在的骚操作就有点这个意思。 这就引出一个问题,现在的巨无霸们谁具备打造超级 Agent 的机会? 1)做个聪明的 Agent OS 不难,难的是你能真...

智能体MCP/工具大佬观点
00:12
Berryxia.AI@berryxia
20
这次我没有说脏话,是YouMind的Sprite 先说的啊! @lifesinger 管管你家"孩子"!😄 真人感这下拉满了啊~~
其他现象/趋势
00:05
IT之家(RSS)
42
谷歌 DeepMind 工程师费恩伯格:进顶尖 AI 实验室需"像狗一样拼命干"

谷歌 DeepMind 杰出工程师、Gemini 预训练负责人弗拉基米尔·费恩伯格在博客中指出,进入 OpenAI、Anthropic 等前沿 AI 实验室竞争激烈。顶尖大学生通常具备目标感、数学成熟度和毅力三项特质。他建议选择困难数学证明课程、大量编程,并牺牲夜晚和周末投入额外时间。求职者可从前沿实验室的业务边界(如基础设施或输出接入)寻找突破口,同时要成为同事愿意看到你成功的人,推动合作项目。

Google大佬观点行业动态
6月22日
23:42
SenseTime@SenseTime_AI
50
商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHubHugging Face图像生成多模态
23:12
Berryxia.AI@berryxia
12
如果Claude Code 在1995年发布的话。
Anthropic其他
23:12
Berryxia.AI@berryxia
64
沉浸式翻译接入免费模型教程:以小米MiMo为例

教程演示如何将免费或低成本模型接入沉浸式翻译。步骤:设置→翻译服务→添加自定义翻译服务→选择“自定义AI”→填入API Key和接口地址(以小米MiMo为例,Base URL: https://api.xiaomimimo.com/v1/chat/completions)→选择对应模型(可勾选“输入自定义模型名称”)→点击测试服务,通过即完成配置。后续可在服务选项中切换使用自定义模型。全程视频演示。

铁锤人: http://x.com/i/article/2068948931959255040

教程/实践部署/工程
23:04
Kling AI@Kling_ai
37
可灵AI创作者Maria Rubtsova分享病毒视频秘诀

Maria Rubtsova 使用 Kling AI 创作了多支爆款 AI 视频,其中一支累计超 1 亿次观看、近 500 万次互动。她以数字艺术家的眼光进行 AI 创作,打造逼真的女性形象与流畅动作,风格时尚、自信且生动。在本次对谈中,她分享了如何定位自己的创作方向、利用 Kling 让 AI 视频更加真实精细,以及品味始终主导创作过程。完整问答见视频。

现象/趋势视频
22:40
Hacker News 热门(buzzing.cc 中文翻译)
58
向 Zig 软件基金会再捐赠 40 万美元

Mitchell Hashimoto 家庭宣布再向 Zig 软件基金会(ZSF)捐赠 40 万美元,分两年每年 20 万美元,加上 2024 年首次捐赠,累计捐赠总额达 70 万美元。Zig 项目在语言和编译器开发上稳步推进,其严格禁止 LLM 贡献的政策近期引发公开讨论。Hashimoto 表示自己大量使用 AI,但尊重 ZSF 的选择,认为开源项目有权保持独立文化和边界。Ghostty 终端模拟器的成功很大程度上得益于 Zig。

大佬观点开源生态
22:11
François Chollet@fchollet
34
编程不是关于代码,就像音乐不是关于记谱法一样。它是通过抽象层管理复杂性的艺术与科学。AI只是其中的一部分。
大佬观点编码
22:05
IT之家(RSS)
精选70
Anthropic 工程负责人:Claude Code 让程序员更孤独

6月22日,Anthropic工程负责人Fiona Fung表示,Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作,彼此之间交流减少,长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段,重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具,“氛围编程”兴起使“单人创业者”增多,但Fung强调协作仍不可或缺。

Anthropic大佬观点编码

推荐理由:Claude Code 团队内部反思 AI 编程的副作用,比外界批评更有说服力,编程午餐和结对编程的解法虽然简单,但至少正视了问题。
21:05
IT之家(RSS)
59
Counterpoint:2026年生成式AI手机渗透率将达45%,2027年达52%

Counterpoint Research报告显示,支持生成式AI的机型2026年将占全球智能手机出货量的45%,高于2025年的36%,2027年预计达52%。受内存供应危机影响,2026年全球智能手机出货量预计同比锐减13.9%至10.8亿部,创历史新低。内存成本大幅上涨使低价手机市场收缩,高端市场扩大。运行AI模型需额外DRAM,AI手机批发价目前难以降至400美元以下。长期看,内存压力缓解和端侧模型效率提升将推动生成式AI下放至更亲民的价位。

现象/趋势端侧
20:11
Berryxia.AI@berryxia
66
Serva总结AI平台防封号四件套方案

Berry Xia推荐Serva总结的AI平台防封号方案,针对Claude/ChatGPT因风控被封号。四件套包括:eSIM卡(BeeSIM硬件+giffgaff英国号)获取真实海外手机号;静态住宅IP(EqualVPN美国家庭宽带)避免数据中心IP;指纹浏览器(AdsPower)模拟美国用户环境;虚拟卡(YIKA美国发卡)匹配账单地址。核心思路是将注册、登录、支付、使用全流程身份信号对齐为真实美国用户。单独用VPN或虚拟卡效果有限,四件套组合更稳定。原文附有详细截图步骤。

huangserva: http://x.com/i/article/2069009496891121664

AnthropicOpenAI教程/实践
20:07
AYi@AYi_AInotes
44
阿易 AI Notes 用 Apodex 核查"白毛股神"CPO 叙事:五条声称四条站不住

阿易 AI Notes 用自我验证型 AI 工具 Apodex,拆解“白毛股神”关于 $SIVE 和 CPO 的投资叙事。核查发现五条核心声称中四条站不住:GB200 大量采用 CPO 为假(实际用铜缆);800V 转型与 GB200 同步不成立(GB200 用 54V);$SIVE 被夸大为“最纯受益标的”(近 70% 营收来自无线业务);技术壁垒最高查无实据。英伟达更倾向投资中游厂商。核查报告附 23 条一手来源。

教程/实践现象/趋势
19:30
公众号:卡尔的AI沃茨
65
字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线,核心升级包括 Seedance 2.0 Mini 模型(价格更低)及 720 度场景观看、3D 导演台(可摆放 3D 人偶设定角色位置与机位)等功能。资产库根据剧本生成详细提示语,支持多角色形象切换。单个镜头时长 1-10 秒,生成 15 秒视频约需 4-5 分钟,自带字幕可抹除。用户可用约三百元成本完成一集短剧,支持片段续接和首尾帧参考,最终一键导出到剪映。该工具旨在降低原创短剧制作门槛,尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频
19:26
Chubby♨️@kimmonismus
59
Notion联合创始人谈从笔记应用向AI智能体优先工作空间的演变

在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。

智能体大佬观点
19:09
Hacker News 热门(buzzing.cc 中文翻译)
44
Codex SQLite 反馈日志年写入量可达 640 TB,快速消耗 SSD 寿命

Codex 持续向本地 SQLite 反馈日志数据库写入大量数据,连续运行约 21 天后 SSD 写入约 37 TB,推算年写入约 640 TB。1 TB 的 SSD(约 600 TBW 额定寿命)可能不足一年耗尽保修写入寿命。日志中 TRACE 级别占保留字节的 70.7%,codex_otel.log_only 和 codex_otel.trace_safe 两类镜像遥测日志合计占 25.3%,过滤这些类别可移除约 96% 的日志内容。

OpenAI产品更新编码
19:03
The Verge:AI(RSS)
65
AI编程工具(vibe-coding)应用安全隐患突出

借助AI编程工具(vibe-coding),非专业开发者能快速构建应用,但安全隐患激增。案例包括Boomberg网站发现SQL注入漏洞、PocketOS创始人AI编码代理清空生产数据库,以及完全由AI构建的社交网络Moltbook因数据库开放暴露数万条邮件地址。研究显示约5000个公开应用无身份验证,近2000个泄露敏感数据。安全专家指出,当个人应用处理他人数据时,安全标准必须提高。

安全/对齐编码
18:05
IT之家(RSS)
48
联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型

联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器,集成 Radeon 8060S 显卡与 50 TOPS NPU,板载 128GB LPDDR5x 统一内存(可分配 96GB 显存)。本地部署 OpenClaw 和 Qwen3.6 35B 模型;LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s,120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts,3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体,可接入微信、钉钉等平台。

推理端侧评测/基准
17:39
Hacker News 热门(buzzing.cc 中文翻译)
65
GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏

最新开源 GLM-5.2(Z.ai,MIT 许可,1M token 上下文,输出定价 $4.4/百万 token)与 Claude Opus 4.8 在单次提示构建 3D WebGL 平台游戏任务上对比。Opus(Claude Code)用时 33 分 30 秒,成本约 $21.92;GLM-5.2(Pi/OpenRouter)用时 1 小时 10 分 40 秒,成本仅 $5.39。Opus 游戏更干净、能自检视觉输出(GLM-5.2 纯文本),但 GLM-5.2 价格低且开源权重可下载,始终可用。

Anthropic开源生态编码评测/基准
17:07
meng shao@shao__meng
30
邵猛更新四个国产LLM投票:GLM-5.2获79.7%,DeepSeek V4 13.4%,Kimi K2.7 5.2%,MiniMax M3仅1.7%。他感叹GLM-5.2强势而MiniMax M3惨淡,并指出Gemini 3.5 Flash相比GLM-5.2不能打,Google DeepMind自Gemini 3.0后陷入沉寂。

meng shao: 看到有人发起的 llm 对比投票 GLM-5.2 vs Gemini 3.5 Flash 对比结果应该很明显,主要是因为 Gemini 3.5 Flash 确实不能打,Google Deepmind 到底怎么了,Gemini 3.0 多模态...

大佬观点评测/基准
16:56
Chubby♨️@kimmonismus
29
用户 Kim 期待 Sonnet 5 发布

用户 Kim 期待 Sonnet 5 发布,指出 Sonnet 系列常在发布时强于老一代 Opus,如 Claude 3.5 Sonnet 在编程、速度和性价比上超越 Claude 3 Opus。Sonnet 的核心价值是将前沿智能转化为实用工作模型:足够快、足够便宜、足够可靠,支撑实际产品、智能体工作流和日常大规模编码。引用推文暗示本周可能迎来繁忙发布,包括 GPT-5.6 和 Sonnet 5。

Chubby♨️: So we get Claude-Sonnet-5 instead of Fable 5 soon. Looks like a busy week: probably GPT-5.6 and Sonnet 5. But hey, keep ...

Anthropic大佬观点编码
16:41
karminski-牙医@karminski3
54
想买Mac运行大模型? 这是劝退贴

买MacStudio运行大模型性价比不高。以M3 Ultra 96G(32999元)为例,运行Qwen3.6-27B 4bit量化版并开投机解码,速度约65 token/s。设备成本换算成API调用(GLM-5.2,每百万token 28元)可买约1178M token,需连续运行209天才能回本。512G版(108749元)运行量化GLM-5.2速度仅17 token/s,回本约7年。模型每1.5个月更新,建议普通用户买coding plan或租卡。已有Mac或显卡者,闲置时跑模型才划算。

推理教程/实践端侧
16:34
jason@jxnlco
10
设置 codex,哇。
OpenAI其他
16:11
Berryxia.AI@berryxia
27
CuiMao用seedance2和Grok Imagine Video 1.5制作Fable 5谍战短片

CuiMao使用seedance2与Grok Imagine Video 1.5制作了一部7分钟谍战短片,讲述Fable 5发布后24小时内的虚构事件:Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯,正在美国度假看世界杯的CuiMao收到神秘取件短信,内含验证码、太阳花与自毁录音。短片将近期真实出口管制事件包装成完整剧情,结尾暗示封杀背后更深原因。近日CuiMao为扩大影响力,追加了日语字幕版本。

CuiMao: Fable 5发布后的24小时内,Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯。与此同时,在美国度假观看世界杯的 CuiMao收到一条来自Dario的神秘取件短信。一个验证码,一朵太阳花,一段即将自毁的录音,...

其他图像生成视频
16:07
DogeDesigner@cb_doge
18
Grok 终有一天能制作好莱坞级别的电影,而且那一天并不遥远。
xAI大佬观点视频
16:05
IT之家(RSS)
58
微软 CEO 纳德拉:不能任由 AI 巨头吞噬经济

微软CEO纳德拉向OpenAI、Anthropic等AI巨头发出警告,反对少数公司垄断AI价值并以此索取无限资源。他主张下一阶段AI应转向价格更低的模型,赋予用户更大选择权,并以更可信方式阐述AI社会价值。纳德拉批评前沿模型开发商一边渲染安全风险和失业,一边要求建设大量数据中心。他明确表示,微软不希望AI未来完全由这些公司决定,而应让AI成为企业的知识引擎,由企业灵活调用多种模型,在自有机器内实现持续改进。

Microsoft大佬观点开源生态
15:56
Chubby♨️@kimmonismus
23
Sakana AI发布Fugu Ultra,它不是传统意义上的前沿模型,而是一个学习编排层,将多个前沿模型转化为协调的智能体团队。其多智能体系统性能可与Fable 5相匹敌。然而,欧洲再次被欧盟委员会排除在访问这一最新SOTA技术之外,引发批评。

Chubby♨️: Sakana's Multi-Agent on par with Fable 5: Sakana AI's Fugu Ultra may not be a new frontier model in the classical sense....

大佬观点政策/监管
15:32
Peter Steinberger 🦞@steipete
39
@LLMJunky 实测某多模型路由服务,5小时使用额度在1个prompt内即告罄。在threejs任务(构建Rocket League副本)中,生成效果远差于GPT 5.5,需7-8次来回通过Codex修复才勉强可玩;GPT 5.5一次完成且无需后续调整,Fable同样表现出色。该路由性能不及Mythos,早期印象不佳。

am.will: I tried this so you don't have to. I know this is going to absolutely shock you but no this does not match the performan...

编码评测/基准
15:26
Chubby♨️@kimmonismus
49
Sakana AI 推出 Fugu 多智能体编排系统,通过单一模型 API 调用即可协调多个前沿模型组成智能体团队。其 Fugu Ultra 模型性能与 Fable、Mythos 相当,且不受出口管制限制。主推文指出,Fugu Ultra 并非传统意义上的新基座模型,而是一个学习到的编排层,更智能的测试时编排可能是 AI 能力的下一个跃升点。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体大佬观点
15:08
Hacker News 热门(buzzing.cc 中文翻译)
62
微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%

一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。

推理教程/实践数据/训练
15:04
jason@jxnlco
60
Guinness Chen 表示,2026年6月了,别再手动编辑提示词,应该按住听写按钮即兴说上10分钟,把脑海里的每个碎片、警告、例子和感觉都交给模型--大语言模型最擅长的就是从语言中重建潜在意图。Jason Liu 称赞他只发好内容,观点总是很棒,并建议大家关注他 @guinnesschen。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

大佬观点语音
‹ 上一页
1…2425262728…50
下一页 ›