@dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline
@dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline
客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。
We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...
Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...
In May, the New York 'Times' reported that media entrepreneur Steven Rosenbaum had included "more than a half-dozen misa...
Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
当前AI产业链各环节(如NVIDIA、内存、定制芯片、光网络、电力设备等)的估值可能无法同时准确,市场对相关公司的排序并不一致,因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长,利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量,则相关基础设施供应商应获溢价;若稀缺的仍是加速计算,则NVIDIA和内存可能被低估。此外,ASIC(定制芯片)叙事也增加了不确定性。
企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。
Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。
After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.
Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......
用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。
Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...
Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...
AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。
小鹏集团董事长何小鹏表示,公司已进行重大战略转向,放弃原有“缝合怪”体系,全面押注“物理AI”架构。新路径有望在18到24个月内(约2027年底前)实现L4级自动驾驶。他同时透露,高等级人形机器人的商业化量产元年很可能在2027年。何小鹏预测,未来10年硬件与软件价值可能各占50%,用户为软件付费的价值占比将大幅提升。
作者在从北京飞往上海的航班上,以意识流的方式记录近期认知变化,坦诚文章缺乏打磨和吸引人的开头,但认为后半部分内容有价值。行文过程中,作者提到手动打字效率不如 AI,并因使用 Obsidian 卡顿而感到困扰。
http://x.com/i/article/2059839164837982208
Anthropic 的 Claude Code 创建者鲍里斯·切尔尼建议计算机科学毕业生,如有创业想法,现在就是创办公司的黄金时代。他认为 Claude Code 等 AI 工具正让创业者以前所未有的方式创建和扩大规模。在与 Y Combinator 最新一批创业者交流时,约一半人举手表示其公司的“100%代码”都由 Claude Code 编写,而完全不让模型写代码的仅寥寥数人。他预测,未来使用智能体写代码的人群规模将达到今天的 100 倍。
飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。
@UnderwaterBepis @Lari_island yeah, Golem XIV feels very prescient
推文阐述其关于人类独特性的核心观点:人类决策本质上由激素等生理反应驱动,而理性思考常是对这些决策的事后解释。基于此,作者认为AI智能体(Agent)因缺乏激素驱动机制,永远无法真正取代人类。人的本质在于意志力而非工具性,其独特性体现在能通过意识自我解释,并利用激素控制自身,这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法,阅读只能印证已有认知。
推文探讨AI智能体生成结果是否需要人工审查,关键在于验证方法的可靠性及模型理解与执行验证的能力。以编写代码为例,中间结果可减少检查,但初始规划与最终审查仍需人工把关。人工更适合定义总目标,而智能体的思路可能更优。
@dotey 每一步完全人工审核。问题是,进场能力那么强,人工可能都跟不上。对非专业架构师来说,人工是不是反而可能把项目带偏。 我的意思是,人工可以定义总目标、总需求。但是这个过程,Agent给的思路应该更好吧
Every公司CEO Dan Shipper指出,全员使用Codex和Claude Code的公司员工数反而翻倍,揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示,人类得分85-90分,而AI模型平均仅约30分,GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题,却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态:一是公司共用由专人维护的超级AI智能体;二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业,而是要求每个人都学会“驾驭模型”,将AI用在真实工作场景中。
观点认为,AI越强,人的工作量反而越大(如Every公司员工翻倍)。AI自动化创造了管理自动化这一新工作,且每个智能体都需要专人照料。实践中,更可行的模式是公司共用一个智能体,由专人维护。CLI时代结束,GUI是主战场。SaaS不会消亡,反而会因智能体获得更多用户。将AI嵌入SaaS是错误方向,应反向进行。产品经理和全栈设计师将迎来最好时代。AI只是裁员借口,是过度招聘的修正。大规模失业不会发生,但不会使用AI的人将被使用AI的人替代。
http://x.com/i/article/2059821245093560320
华为何庭波提出半导体新演进路径“韬(τ)定律”,以“时间缩微”(如逻辑折叠)替代“几何缩微”作为新指导原则。她表示,过去6年华为已基于此自主研发381款芯片。今年秋季将发布新的麒麟手机芯片,这是首个完整的“韬芯片”,其性能、集成度相比去年是“跳跃性”提升。
同一事件,精选展示《华为何庭波"韬定律"论文发布,逻辑折叠技术提升芯片性能》MCP协议新版本将于7月28日发布,包含几个关键特性:服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制,以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么,并表示自己感觉几乎没有了。
飞书云文档新增“下载为Markdown”功能,文档内图片自动转为公网链接,可供AI读取。Markdown由John Gruber与Aaron Swartz于2004年创建,后被GitHub、Reddit、Slack等平台采用。在AI时代,因纯文本、易生成、有结构、省token,成为人类与大语言模型交互的通用格式——Claude等AI输出底层均为Markdown。尽管Claude Code的Thariq主张HTML更适合展示,作者认为Markdown负责信息流转、HTML负责呈现,建议日常文档改用.md格式以获自由可迁移体验。
Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。
Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural l...
文本指出AI领域存在核心张力。Anthropic联合创始人Chris Olah主张前沿AI实验室需要严肃的外部道德审查,因其激励可能与“做正确的事”冲突。与此同时,Anthropic CEO Dario Amodei的叙事正从“AI可能消灭大量白领工作”转向更市场友好的生产力提升与工作转型论述(如杰文斯悖论)。然而,Yale Budget Lab的跟踪数据显示,自ChatGPT发布以来,美国劳动力市场职业构成无明显变化,AI暴露岗位的失业并未加速。因此,当前AI能力曲线与实际就业数据之间的差距可能比以往更大,这构成了讨论的起点。
Dario Amodei predicted last year that AI would eliminate 50% of entry-level white-collar jobs within years. Unemployment...
本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。
introducing howtoeval dot com. the no-bullshit guide to eval'ing AI agents. from personal experience, and from working w...
Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。
What are your top 3 dream companies to work for right now?