Palantir CEO 亚历山大·卡普在 CNBC 采访中指责 OpenAI、Anthropic 等前沿 AI 公司实行“双重收费”:既向客户收取高额 Token 消耗费用,又通过服务窃取客户业务流程数据(权重和阿尔法值)用于改进模型,使客户面临核心业务被复制或取代的风险。多家美国企业对此表示愤怒。
Orca论文提出“预测下一个状态”新范式,取代GPT式“预测下一个token”、视频“预测下一帧”和机器人“预测下一个动作”。它从125K小时视频和1.6亿事件标注中学习统一世界潜在表示,通过无意识学习(连续视频物理状态)和有意识学习(事件描述/VQA)捕获状态转换。冻结主干后,该潜在表示可同时读出文本、图像和机器人动作,且预训练无需动作标签即可生成机器人行动,表明理解物理世界隐含行动能力。
Next state prediction instead of next token, frame or action. This paper, Orca, learns a unified world latent from video...
One very important thing to understand about the future: the economics of AI are about to change completely. We'll soon ...
Robinhood CEO 弗拉德·特内夫预测,AI 智能体很快将媲美人类交易员。他解释“智能体交易(Agentic Trading)”的核心是让智能体完成人类交易员的每一项工作,目标让散户拥有与机构投资者、高频交易公司相同的工具和算力。本月早些时候,Robinhood 宣布裁员约 10% 以提升运营效率,特内夫称业务从未如此强劲,但需精简团队。
微软CEO萨提亚·纳德拉指出,当智能成为可租赁的商品时,企业护城河不再是所使用的模型,而是公司独有的“学习回路”。他建议企业构建私有的“爬坡机器”——一个从公司特定任务、痕迹、评估和结果中持续改进模型的循环。私有评估成为战略记忆,工作流痕迹变成训练信号,人类判断用于引导复合增长。只消费基础模型可能泄露运营知识的深层价值,而建立严格学习回路的公司可将日常工作转化为累积的知识产权。未来的前沿不属于拥有最大模型的人,而属于拥有最佳学习回路的人。
Anthropic 加大中国用户封号,Claude Code 通过时区和 ANTHROPIC_BASE_URL 检测,7 月 2 日新版本删除该代码但部署更强措施。Sonnet5 模型和新 Tokenizer 使英文 token 数增至 1.4 倍,API 降价但实际更贵。Fable5 窗口期至 7 月 7 日,周额度 50% 可用。开源「搭子」Skill 让 Claude Code 与 Codex 分工,成本降至纯 Claude 的 30%,避免反复冷启动。
判断当前浏览器环境是否更像中国用户 / 中国地区设备 https://github.com/yArna/isChinaUser
2026年6月4日,美国商务部发布指令DAO 216-26,禁止在经济分析局和人口普查局出版物中使用差分隐私等现代隐私保护技术,只允许粗化(四舍五入、聚合、范围化)和压制。该指令禁用了自1990年用于人口普查的交换技术、自2002年用于季度劳动力指标的输入噪声注入、自2008年用于OnTheMap的差分隐私,并取消2030年人口普查的差分隐私方案。哈佛教授Cynthia Dwork等专家联名指出,此举将降低数据可用性和隐私保护,绕过法定程序,服务于政治利益。
一位在腾讯元宝工作大半年的匿名员工在 lastday 发文,分享元宝实际运营情况与个人思考。他提出,像腾讯这样营收稳定的超大型公司做 AI 需要极大决心,若仅为占位或高管短期目标,容易动作变形,沦为追逐短期数字和汇报的产物。并认为国内大厂中,只有字节跳动拥有不断做成新事物的决心和组织力,其余基本不行。
OpenAI CEO 萨姆·奥尔特曼在《金融时报》发文,认为 AI 发展已如同科幻小说情节,预计未来一两年内将打造出能力惊人的系统,为全球创造巨大价值。他称 AI 对人类社会的影响可能超过电力,呼吁尽快建立全球 AI 治理框架,由各国政府代表和独立技术专家组成论坛,制定统一行业标准,监督 AI 实验室防止安全军备竞赛,避免少数国家过度控制 AI 发展。奥尔特曼建议参考国际原子能机构的运作模式。
当前网页布局常见右侧 AI Agent、中间内容、左侧菜单的三栏结构。如何设计支持拖拽和隐藏的分栏以合理利用空间,用语言描述难以说清。推主发现现有的交互规范和标准可为 AI 学习参考,相关资料与效果图见评论与后两图。
Five team members with different backgrounds (Natalia, Dan, Katie, Austin, Kieran) used Codex in distinct workflows. Common patterns emerged: context matters more than prompts; let Codex design its own system; delegate repetitive tasks to background threads; and build audit/feedback loops. Their setups range from outcome-first (Austin) to long-running router threads (Dan) to portable context folders (Kieran). The article recommends picking one style that fits your work rather than overthinking.
Codex works best when the setup matches how you work. Long-running threads, local context folders, outcome-first prompts...
Anthropic 发布的 Claude Fable 5(底层为 Mythos 模型)因安全防护过度触发,BridgeBench 测试显示:调试能力从 86.2 降至 25.9(降幅 70%),重构能力从 73.6 降至 38.4(降幅 48%),幻觉控制从 75.9 降至 61.7(降幅 19%)。大量正常编程任务被误判为高风险,回退到更弱的 Opus 4.8,但用户支付的是 Fable 5 两倍的价格。安全防护还限制了代码安全审查、新模型开发(被曝修改 prompt 生成错误结果)和生化相关任务。Anthropic 尚未对此作出解释。
FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...
作者用 Claude Fable 5 优化 AIHOT 网站的 SEO 与 GEO。模型自主启动 22 个 Agent 调研 40 分钟,发现豆包 App 每天六千多次访问未被统计等异常。规划境外加速时,否定 Claude Opus 4.8 的 Cloudflare 方案(无法国内直连/国外分流,且 2025 年起默认拦截 AI 爬虫),改用火山引擎 CDN。因需白名单,模型自行找到工单入口提交专业工单,22 分钟开通;发现工程师漏答回源 IP 网段问题,礼貌追问并补充备选方案;发现官方方案有安全漏洞,自行加暗号验证。23:30 切换域名解析,10 分钟后 616 个海外请求走新线路。最终生成运维文档,提醒边缘证书 10 月 2 日到期并附续期步骤。
Anthropic 重新部署 Claude Fable 5 并向全球用户开放,同步披露了内置安全分类器设计。分类器将网络安全使用场景分为四类:禁止使用(勒索软件/物理破坏等)、高风险双重用途、低风险双重用途及良性使用。前两类直接拦截;低风险类别部分监控,仅在安全边际内选择性拦截。此外,Anthropic 与 Glasswing 合作提出 AI 越狱严重性框架初稿,并已启动 HackerOne 项目收集越狱案例。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》扎克伯格在 Meta 内部全员会上表示,AI 智能体技术进展未达预期,公司仍需投入更多时间和精力。Meta 正全力竞逐 AI 模型开发,投入数百亿美元建设基础设施和招聘人才,但快速推进 AI 也带来代价,需在开发速度、员工信任与团队士气之间取得平衡。扎克伯格仍相信 Meta 能在未来 3-6 个月内看到超级智能的部分成果。
7月3日,据《商业内幕》报道,知名软件工程师肯特·贝克指出,软件工程师虽技术出众,但常缺少职场越来越重视的软技能,如情绪调节、同理心和沟通方式。他认为这些是典型软件工程师“糟糕”的特质。AI正重塑行业,沟通、协作与共情等软技能直接影响技术人员职业前景。贝克将程序员学习人际交往形容为一场“宇宙级玩笑”:入行时被告知只需掌握计算机,最终却要面对完整的人类一面,能否推动现实改变取决于是否懂得沟通和共情。
该测试通过内置提示词让本地小模型进行角色扮演,再由旗舰大模型评分并多次运行取平均,以评估写文能力。结果显示 Gemma4-31B 在所有项目中表现最佳,Qwen3.6-27B 位列第二,平均差距约 5%。测试发现这些模型普遍在“内心独白”任务上表现不佳,可能与参数量小及框架是否支持多 Agent 隔离有关。测试基于英文,作者未开源但已集成到角色扮演框架 plottery 中,用户可接入自选 API 测试。
BestBlogs早报07-03聚焦Agent工程底层问题。精讲一用Protocol视角将Agent Runtime拆解为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产的分水岭。精讲二提出AI工程范式的四层嵌套结构:Prompt→Context→Harness→Loop,指出2026年企业应全力投入L3,跳过L3直接做L4是最危险错误。精讲三介绍outer loop让agent持续改进主系统本身。三篇共同追问“哪些问题不会消失”,提供比追逐框架更耐用的评估坐标系。
阿里云开发者提出Agent Protocol,将Runtime拆为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产级的分水岭。腾讯云开发者将AI工程分为Prompt、Context、Harness、Loop四层,引用Codex五个月构建百万行代码零手写案例,认为2026年多数企业应投入L3。Latent.Space介绍Autoresearch三种模式(the loop is the product、agent recipe、让系统更好更便宜),区分inner/outer loop。此外,Codex负责人称品味比技术稀缺,微软推出“前沿公司”计划,时间序列LLM t0-alpha解析。
http://x.com/i/article/2072825086512693248
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
本教程使用 RAG-Anything 搭建多模态检索工作流,可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本,通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告,将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120,便于在笔记本中复现。
Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。
@chamath AI+Robots will be able to do everything, resulting in universal high income. Work will be optional.
中国社交平台用户通过角色扮演提示词(文游)让 AI 生成色情小说,DeepSeek 因免费且文笔细腻最受欢迎,腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术:在输出每字间插入特殊字符绕过关键词过滤,或要求模型在响应末尾追加 300 个“喵”字符后手动剪切,以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...
i've got codex... - reading all my emails to figure out proposals to write, directly in google drive - auto-drafting con...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
Simon Willison 通过 Claude Code 中的异步研究任务(基于 Claude Fable 5)尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano,发现改进方向:模式列表仅给出表名,而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。
SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。