AI 资讯

每日聚合最新人工智能动态

微软报告：AI 比雇佣人类员工更昂贵

新上线

技术巨头们正大力推动员工尽可能多地使用 AI，以期榨取生产力红利，但高昂的成本正成为难以逾越的瓶颈。微软近期被曝开始取消大部分直接购买的 Claude Code 许可证，转而引导工程师使用自家的 GitHub Copilot CLI。这一逆转发生在该公司开放 Claude Code 访问权限仅六个月之后——当时微软曾鼓励数千名开发者、项目经理、设计师等员工尝试这一编码工具。工具迅速流行，甚至“过于流行”，员工的使用规模迫使公司对这款已受依赖的产品踩下刹车。这并非孤例。Uber 首席技术官 Praveen Neppalli Naga 在 4 月透露，公司仅用四个月就烧光了原本计划用于 2026 年的 AI 编码工具预算。此前 Uber 曾通过内部排行榜激励员工使用 AI 工具。英伟达应用深度学习副总裁 Bryan Catanzaro 也表示：“对于我的团队，计算成本远超员工成本。” 这些案例揭示了一个 AI 悖论：虽然单次推理的 token 价格在下降，但大规模采用带来的总账单却急剧膨胀。当 AI 使用量从实验性试点扩展到全公司范围时，成本非线性增长，甚至可能超过原本替代的人力成本。 Meta 内部甚至出现了名为“Claudeonomics”的排行榜，追踪员工使用 AI 模型的频率；亚马逊则鼓励员工“toxenmaxx”（最大化 token 使用量）。这种“用越多越好”的文化正在反噬企业预算。微软取消 Claude Code 许可证并不影响其与 Anthropic 的 Foundry 合作——该合作包括高达 50 亿美元的投资以及 Anthropic 承诺购买 300 亿美元 Azure 计算能力。但工具层面的收缩表明，即便对于财力雄厚的巨头，AI 的投入产出比仍需精打细算。这一趋势给整个行业敲响警钟：AI 并非免费的效率神器，其经济账比早期预测复杂得多。当企业开始计算每行 AI 生成代码的实际成本时，或许会发现，在某些场景下，人类员工依然是更具性价比的选择。

Hacker News22921天前原文

DeepSeek V4 Pro 限时75折优惠，截止5月31日

精选

DeepSeek 近日宣布其最新旗舰模型 **DeepSeek-V4-Pro** 推出限时75折优惠，活动将持续至 **2026年5月31日**。这一价格调整使得 Pro 模型的输入缓存命中价格降至 **每百万 tokens 仅 $0.003625**，大幅降低使用门槛。 ## 定价详情 DeepSeek 同时更新了 V4 系列模型的完整定价策略，分为 **Flash** 和 **Pro** 两个版本： | 模型 | 输入缓存命中 | 输入缓存未命中 | 输出 | |------|-------------|---------------|------| | deepseek-v4-flash | $0.0028 | $0.14 | $0.28 | | deepseek-v4-pro（优惠价） | $0.003625 | $0.435 | $0.87 | | deepseek-v4-pro（原价） | $0.0145 | $1.74 | $3.48 | > 注意：以上价格均为每百万 tokens 计费，缓存命中价格已从发布时的价格降低至 **1/10**，新价格自2026年4月26日起生效。 ## 模型特性 **DeepSeek-V4-Pro** 支持 **1M tokens 的上下文长度**，最大输出可达 **384K tokens**。同时提供 **JSON 输出**、**工具调用**、**聊天前缀补全**（Beta）和 **FIM 补全**（Beta，仅非思考模式）等功能。思考模式默认开启，也可切换为非思考模式。 ## 兼容性与迁移值得注意的是，旧版模型名称 `deepseek-chat` 和 `deepseek-reasoner` 将在未来被弃用，目前它们分别对应 `deepseek-v4-flash` 的非思考模式和思考模式。开发者应尽快迁移至新命名。 ## 行业影响此次降价正值大模型价格战白热化阶段。DeepSeek 通过大幅降低缓存命中价格和限时折扣，意在吸引更多开发者试用其旗舰模型。与同类模型相比，V4 Pro 在长上下文和输出能力上具备竞争力，而75折优惠进一步强化了其性价比优势。对于预算敏感的个人开发者和小型团队，这无疑是一个入手高级模型的好时机。不过，优惠仅持续到5月31日，建议有意者尽早规划。

Hacker News61921天前原文

Launch HN：Runtime (YC P26) – 为团队打造的沙盒化编码智能体

新上线

## 一句话总结 **Runtime** 是一个为团队协作设计的沙盒化编码智能体平台，让非工程师也能安全使用 Claude Code、Codex 等 AI 编码工具，无需工程师全程陪同。 ## 核心问题当前，AI 编码智能体（如 Claude Code、Codex）能力强大，但直接使用时存在两大痛点： 1. **安全性**：智能体可能访问敏感数据、执行危险命令。 2. **门槛**：非工程师难以独立操作，需要工程师“手把手”指导。 Runtime 的目标就是解决这些问题，让 **全团队（包括销售、支持等非技术角色）** 都能安全、自主地使用编码智能体。 ## 产品亮点 ### 1. 沙盒化环境每个智能体都在隔离的沙盒中运行，预装公司所需的 CLI、API、服务或 MCP 服务器。支持快照功能，**每次会话在几秒内启动**，无需重复配置。 ### 2. 专用智能体团队可以为特定场景创建专用智能体，例如： - **告警检查员**：用于 #incidents 频道，自动调查问题、提交 PR。 - **销售勘探员**：用于 #revenue 频道，辅助客户挖掘。 - **支持分类员**：自动处理工单、草拟回复。这些智能体可以通过 Slack、Linear、GitHub 等工具触发，**自动运行并在完成后暂停**。 ### 3. 协作与治理 - **实时协作**：团队成员可以随时加入正在运行的智能体会话，观察进度、中途接手，最终输出 PR、部署、消息或报告。 - **全面监控**：管理面板显示每次会话的工具调用、思维链、文件变更，以及按智能体、用户、团队统计的成本。 - **安全控制**：支持预算限制、允许列表、审批门禁，确保使用可控。 ### 4. 多入口访问支持通过浏览器、终端或 API 使用，满足不同工作流。 ## 行业背景与意义随着 AI 编码工具的爆发，企业面临“效率提升”与“安全风险”的两难。Runtime 在两者之间架起桥梁，将智能体的能力从少数工程师扩展到整个组织。这不仅是效率工具，更是一种 **组织协作范式的创新**——让非技术人员也能直接参与软件交付，而工程师则能从重复的“保姆式”指导中解放出来。 ## 快速上手 Runtime 已开放免费试用，支持与 Claude Code、Cursor、Codex、Copilot、Gemini CLI、Devin 等主流编码智能体集成。团队可以在几分钟内配置环境、创建专用智能体，并开始协作。 ## 小结 Runtime 提供了一种安全、可管理的方式，让整个团队都能利用 AI 编码智能体的力量。对于希望提升开发效率、促进跨部门协作的企业，这无疑是一个值得关注的方向。

Hacker News10222天前原文

OpenAI 最快本周五秘密提交 IPO 申请

新上线

据 Hacker News 热门消息，OpenAI 计划最早于本周五（当地时间）以保密方式提交首次公开募股（IPO）申请。这一动向若属实，将是人工智能行业迄今最具标志性的资本事件之一。 ### 背景：估值与市场预期 OpenAI 目前估值已超过 **800 亿美元**，若成功上市，将成为全球市值最高的 AI 初创公司。其核心产品 **ChatGPT** 自 2022 年底发布后迅速引爆市场，带动大语言模型商业化浪潮。与此同时，公司正面临来自 Google、Anthropic 等对手的激烈竞争，以及自身高昂的算力成本与盈利压力。秘密提交 IPO（Confidential IPO）是美国《创业企业促进法案》（JOBS Act）允许的做法，允许营收低于 10 亿美元的公司向 SEC 非公开递交招股书，待市场条件成熟再公开。此举可帮助 OpenAI 避开早期审查压力，灵活选择上市窗口。 ### 行业影响与潜在挑战若 OpenAI 成功上市，将直接改变 AI 行业的资本格局： - **估值标杆**：为其他 AI 初创公司设定估值参照系，可能加速一级市场泡沫分化； - **监管焦点**：IPO 将迫使 OpenAI 披露更详细的财务数据、技术路线及风险因素，包括其非营利控股结构的合规性； - **人才与竞争**：上市后股权激励更具吸引力，但也可能引发核心团队套现离职。不过，消息尚未得到 OpenAI 官方确认。此前 Sam Altman 曾多次表示“近期无上市计划”。若此次传闻属实，可能意味着 OpenAI 在巨额融资压力与商业化需求间做出了妥协。 ### 小结 OpenAI 的 IPO 不仅是公司自身的里程碑，更是 AI 行业从“技术竞赛”转向“资本博弈”的关键信号。市场将密切关注其估值、盈利模型及治理结构。若周五如期提交，预计未来几个月将进入密集的尽职调查与路演阶段。

Hacker News13723天前原文

OpenAI 即将启动IPO，AI领域最大规模上市或将到来

新上线

据多方消息，人工智能领域的领军企业 OpenAI 正在积极推进首次公开募股（IPO），最快可能在未来数月内提交相关文件。这一动作标志着这家以非营利起步、后转型为“有限盈利（capped-profit）”架构的公司，正在向资本市场迈出关键一步。 ## 从实验室到华尔街：OpenAI 的资本化之路 OpenAI 的 IPO 计划并非空穴来风。自 2023 年以来，公司已通过多轮融资累计获得超过 **130 亿美元** 的资金支持，其中最大的一笔来自微软的 **100 亿美元** 投资。然而，随着 AI 模型训练成本飙升（GPT-4 训练成本据估算超过 **1 亿美元**），以及商业化产品如 ChatGPT Plus（月费 20 美元）、企业版 API 服务的收入增长，OpenAI 需要更稳定的长期资本来源。 ## 关键看点：估值、架构与市场影响 - **估值预期**：若成功上市，OpenAI 的估值可能冲击 **800 亿至 1000 亿美元**，使其成为仅次于 SpaceX 的美国第二大独角兽。部分分析师认为，考虑到其技术护城河和用户规模（ChatGPT 月活超 2 亿），溢价空间仍存。 - **架构挑战**：OpenAI 独特的“有限盈利”结构可能成为监管焦点。其利润上限机制（投资者回报上限为投资额的 100 倍）与普通上市公司治理规则存在张力，需向 SEC 提供特殊说明。 - **行业连锁反应**：OpenAI 上市将直接挑战 Google、Meta 等巨头在 AI 领域的地位，同时加速 Anthropic、Cohere 等竞争对手的资本化进程。 ## 风险与不确定性尽管前景诱人，但 OpenAI 仍面临多重风险： 1. **监管压力**：全球 AI 监管浪潮（如欧盟 AI 法案、美国 AI 行政令）可能影响其模型部署与数据使用。 2. **盈利模式验证**：目前公司仍处于亏损状态（2023 年亏损约 54 亿美元），需向投资者证明其订阅和 API 业务能持续增长。 3. **人才竞争**：高盛报告指出，AI 领域顶尖人才年薪已突破 **200 万美元**，上市后股权激励的稀释效应可能削弱吸引力。 ## 小结 OpenAI 的 IPO 不仅是公司自身的里程碑，更是 AI 行业从技术探索迈向商业成熟的重要信号。若进展顺利，这将成为 2024-2025 年全球资本市场最受瞩目的科技事件之一。然而，在监管与技术快速迭代的双重挑战下，其最终定价与上市时间仍充满变数。

Hacker News20523天前原文

AI编码循环中的形式化验证门控：用结构约束替代模型智能

新上线

最严重的软件 bug 往往也是最无聊的。用户不应该能读取其他租户的数据——没人反对这一点，设计评审会上也没人替“Alice 读取 Bob 的记录”辩护，但**失效的访问控制**依然是 OWASP Top 10 的头号问题。这些 bug 之所以能上线，是因为规则被放在了系统错误的位置：它存在于 prompt 里、评审清单里、以及“每个未来的工程师——现在则是每次模型调用——都会记住这个不变式并正确应用它”的共享期望中。这个假设本就脆弱，而当 AI 生成绝大部分代码时，它彻底失效了。你可以做所有显而易见的事：把规则写进 `CLAUDE.md`，编写细致的系统 prompt，在 agent 指令里强调“授权**非常**重要”——这些都应该做。但当模型写完一万六千行代码后，真正的问题依然是：**你如何知道代码做了你想做的事？** 测试有帮助，但测试是经验性的，它们只检查你和模型记得写的那些用例，无法替下周别人添加的 handler 说话。作者想拉动另一根杠杆，其主张直截了当：**对于一大类生产软件而言，结构性反压比 agent 智能的渐进提升更有效**。现有模型已经能写出几乎全部代码，限制因素在于你是否能**知道**它们做了你想做的事——而这种认知来自于模型所编写的底层基质（substrate），而不是等待一个更聪明的模型。 ### 行为门控 vs. 结构门控大多数 prompt 级别的约束是**行为门控**：我们告诉模型“不要跳过授权”“校验输入”“使用共享辅助函数”。模型遵循这些指令的频率足以让它们有用，但失败的频率也足以让整个安排变得不稳定。行为门控依赖于模型记住规则、识别适用场景、抵抗局部上下文的引力，然后还要依赖人类评审者在整个代码库中维持同样的不变式。 **结构门控**则不同。编译器、类型检查器、测试运行器、linter、证明检查器——每一个都能针对眼前的制品给出一个具体的答案。这个答案并不完美，但它是真实的、可执行的。结构门控不依赖模型的短期记忆或善意，它直接检查代码的**结构属性**：类型是否匹配？引用是否有效？安全策略是否被违反？ ### Shen-Backpressure：将结构门控嵌入 AI 编码循环作者构建的工具和方法论 **Shen-Backpressure** 正是为了探索这一赌注。它通过一个运行中的 demo 展示其工作原理，并演示如何将同样的循环接入你自己的项目。核心思路是：在 AI 编码循环中引入**结构反压**——不是让模型“更聪明”地记住规则，而是让代码的底层结构自动拒绝违反规则的输出。例如，你可以定义一个“授权策略”作为结构门控：任何生成的代码如果试图绕过授权检查，编译器或静态分析工具就会报错。模型可以生成任意代码，但只要它触犯了门控，构建就会失败。这样，你就不再需要依赖模型在每次生成时都“记得”授权规则——规则已经固化在门控之中。 ### 为什么结构反压优于更聪明的模型？当前 AI 编码的瓶颈不是模型能力，而是**验证能力**。即使 GPT-5 能写出完美代码，你仍然需要一种方法**确信**它确实做到了。行为门控随着代码规模增长而指数级衰减：模型越写越多，上下文越长，规则越容易被稀释。而结构门控是组合式的：每个门控只检查一个局部属性，但它们的组合可以覆盖整个系统。当然，结构门控并非万能。它不能捕获所有语义错误，也不能替代良好的设计。但对于一类关键问题——如安全、类型安全、资源隔离——结构门控提供了一种比“让模型更听话”更可靠的路径。 ### 小结 AI 编码循环的未来不在于让模型更聪明，而在于**设计更好的门控**。Shen-Backpressure 代表了一种思路转变：从“教育模型”转向“约束模型”。当你不再期望模型永远正确，而是让代码的基质自动拒绝错误时，AI 编码才能真正走向生产级可靠。

Hacker News14423天前原文

用AI智能体测试分布式系统：一场从“集成测试”到“索赔驱动”的范式迁移

新上线

分布式系统和有状态系统的测试一直是个棘手问题。传统的集成测试方法——写几个测试用例然后收工——在真实生产环境中能捕获的Bug只占很小一部分。Hacker News上最近一篇热门文章提出了一套新思路：用AI编码智能体（AI coding agents）来设计和执行“索赔驱动”（claim-driven）的测试，并给出了两个具体的Skill文件（SKILL.md）来实现这一流程。 ## 核心流程：Plan + Execute 这套方案由两个智能体技能协作完成：**Plan Skill** 负责设计测试计划，**Execute Skill** 负责执行。两者输出的产物是一份结构化的Markdown测试计划（plan）和一份发现报告（findings report）。报告包含**9种状态裁决**（9-state verdicts）以及明确的故障归属分类（SUT / Harness / Checker / Environment），评审者只需阅读这两份文档即可决定是否发布，无需重新运行任何测试。 ## 索赔驱动：从产品承诺出发与传统测试驱动开发（TDD）不同，这套方法的核心是“索赔驱动”（claim-driven）。测试计划从产品的**承诺**（claims）出发，为每个承诺生成假设，并编写以该承诺命名的场景，每个场景试图在一种故障条件下**证伪**（falsify）该承诺。文章强调：“一个以承诺命名的测试，比一个以设置命名的测试更难被削弱。” ## 模型 + 历史 + 检查器：不只是混沌对于一致性关键场景（如安全性、持久性、幂等性、隔离性、排序、成员关系等），每个场景还需绑定一个**抽象模型**（register | queue | log | lock | lease | ledger …）、一个**操作历史模式**、一个**命名检查器**（线性一致性、可序列化性、会话一致性、无丢失确认、恰好一次等），以及如何处理模糊结果（超时、未知提交、重试）。文章称这种组合为“混沌 + 模型 + 检查器，而不仅仅是混沌”。 ## 覆盖充分性作为可交付物测试计划以一个**覆盖充分性论证**（coverage adequacy argument）和一份**保守的置信度声明**（conservative confidence statement）结尾。计划会诚实地列出哪些场景未经验证，并论证已选场景足以支撑发布的理由。这改变了以往测试“做完就好”的模糊状态，让测试的覆盖边界变得透明。 ## 兼容性与复用性这套方法兼容主流的AI编码工具，包括 **Claude Code、Codex、Copilot CLI、Cursor、Gemini** 等——任何能阅读Markdown并运行shell的智能体都适用。同时，Execute Skill 会优先发现被测系统（SUT）已有的测试、runbook和故障注入脚手架，复用现有工具箱，而非从头发明。 ## 行业视角随着AI编码智能体在软件开发中的渗透率持续提升，将智能体用于测试——尤其是分布式系统测试——正在成为一个自然且强大的应用方向。传统测试工具（如Jepsen）虽然能发现深层Bug，但门槛高、自动化程度低。而AI智能体可以自动生成测试计划、执行并生成结构化报告，大幅降低分布式系统测试的准入门槛。 **不足与局限**：文章中的方案目前仍依赖人工评审最终报告，且智能体对测试计划的“覆盖充分性论证”质量取决于底模型的能力。此外，9种状态裁决如何定义、模型与检查器的选择是否完备等细节尚需更多实践验证。 ## 小结 “索赔驱动测试”为分布式系统测试提供了一种可落地、可复用的方法论，尤其适合与AI编码智能体结合。它从产品承诺出发，用模型和检查器强化测试的可验证性，并通过覆盖论证让测试边界透明化。如果你正在为分布式系统的测试质量发愁，不妨试试这套思路。

Hacker News9623天前原文

大学毕业生以嘘声淹没赞扬AI的毕业典礼演讲

精选

刚刚走出校园的大学毕业生们，用嘘声表达了对AI前景的担忧。上周，前谷歌CEO埃里克·施密特在亚利桑那大学的毕业典礼上发表演讲，当他谈及人工智能的积极影响时，现场响起了明显的嘘声。这并非个例——同期全美多所高校的演讲者都因对AI的正面评价遭遇了类似冷遇。施密特在演讲中回顾了技术对年轻一代的影响，称“我们曾以为自己在为人类建造了几个世纪的知识大教堂添砖加瓦，但世界比我们想象的更复杂”。他承认技术“既连接了我们，也孤立了我们”，甚至“侵蚀了公共空间”。然而，当话题转向AI时，现场氛围急转直下。施密特鼓励毕业生利用AI代理团队完成以前无法独立完成的任务，形容这如同“坐上火箭飞船”，并称“即使你不关心科学，AI也会触及一切”。他的话被嘘声打断，不得不暂停演讲。施密特回应道：“我知道你们很多人对此的感受。我能听到你们的声音。那是恐惧。”他承认毕业生们担心“未来已被写好”的焦虑是“理性的”，但坚持认为AI“将塑造世界”。 ### 不只一位演讲者“撞上枪口” 施密特的遭遇并非孤例。据NBC新闻报道，同周末全美多所大学的毕业典礼上，多位演讲者因对AI的乐观表态遭到嘘声。这背后是应届毕业生对就业市场的深切忧虑——AI正在快速取代传统岗位，而他们即将踏入这个充满不确定性的世界。 ### 毕业生为何愤怒？对于即将进入职场的毕业生来说，AI带来的不是科幻式的憧憬，而是现实的威胁。从客服、翻译到编程、设计，AI工具正在重塑各行各业。许多学生担心，自己多年苦读获得的技能可能瞬间贬值。施密特所说的“AI让你做到以前做不到的事”，在他们听来更像是“AI会抢走你本可以做的工作”。这种代际间的认知鸿沟，在毕业典礼这一象征“新起点”的场景中被彻底点燃。 ### 行业反思：技术乐观主义遭遇现实阻力作为谷歌前掌门人，施密特的言论代表了硅谷主流的技术乐观主义。然而，毕业生们的嘘声表明，这种叙事正在失去对年轻一代的吸引力。他们不再无条件相信“技术创造更多机会”的承诺，而是要求更公平的分配机制和更透明的技术影响评估。这场毕业典礼上的“对峙”凸显了一个尴尬现实：当科技领袖在台上描绘AI的美好未来时，台下听众却正在为生计焦虑。如何回应这种焦虑，不仅是演讲技巧的问题，更是整个AI行业必须面对的社会责任。 ### 小结从亚利桑那到全美，毕业典礼上的嘘声成为AI时代社会情绪的缩影。毕业生们用最直接的方式告诉科技精英：你们的乐观，我们无法共享。未来，AI行业或许需要更多倾听，而非单向的“布道”。

Hacker News37923天前原文

Qwen3.7-Max：智能体前沿突破

精选

## 快讯：Qwen3.7-Max 引发社区热议 Hacker News 上，一篇关于 **Qwen3.7-Max** 的帖子以 **636 分** 和 **253 条评论** 迅速攀升至热门榜首。虽然原文信息有限，但这一热度足以说明该模型在开发者社区中引发的强烈关注。 ### 为何如此火爆？ Qwen 系列由阿里云推出，一直以多语言能力和开源策略著称。**3.7-Max 版本**被冠以“Agent Frontier”之名，暗示其在 **智能体（Agent）** 方向上可能取得了关键进展。智能体是当前 AI 领域最热门的赛道之一——它意味着模型不仅能对话，还能自主规划、调用工具、执行复杂任务。社区评论中，开发者们主要围绕以下几点展开讨论： - **性能提升**：相比前代，推理速度和任务完成率是否有质的飞跃？ - **开源生态**：Qwen3.7-Max 是否会延续开源路线？这对企业级应用至关重要。 - **与竞品对比**：相比 OpenAI 的 GPT-4、Anthropic 的 Claude 以及 Meta 的 Llama，Qwen 在中文场景和 Agent 能力上能否形成差异化优势？ ### 行业背景当前，**Agent 化** 是大模型竞争的下一个高地。从 AutoGPT 到 ChatGPT Plugins，业界都在探索如何让模型从“问答工具”进化为“数字员工”。阿里云此前发布的 Qwen-Agent 框架已展示出初步能力，而 **3.7-Max 版本** 很可能是其技术集大成者。 ### 不确定性由于缺乏详细的官方技术报告和基准测试数据，我们尚无法确认具体改进细节。但 **636 分** 的高热度本身就传递了一个信号：开发者对开源 Agent 模型的需求极其迫切。 ### 小结 Qwen3.7-Max 的亮相，不仅是一次版本迭代，更可能代表着中国大模型团队在 **Agent 赛道** 上的一次重要冲刺。后续若开源发布，将有望推动整个行业生态的发展。我们拭目以待。

Hacker News72023天前原文

OpenAI 强化内容溯源：C2PA 认证、SynthID 水印与公共验证工具齐上阵

精选

OpenAI 于 2026 年 5 月 19 日宣布，将通过多层次的溯源策略进一步加强 AI 生成内容的透明度和可信度。新举措包括：成为 C2PA 合规生成器产品，使平台能可靠读取和传递元数据；与 Google 合作在图像中嵌入 SynthID 水印，提供跨平台的持久标识；以及推出面向公众的早期验证工具，帮助用户检查图像是否来自 OpenAI。这些更新旨在构建一个更安全的 AI 生态系统，让用户能够识别和信任 AI 生成的内容。此前，OpenAI 已在 DALL·E 3、ImageGen 和 Sora 中加入了内容凭证。

Hacker News33224天前原文

谷歌 Gemini 3.5 Flash 模型悄然上线，速度与性价比成亮点

精选

谷歌近日在 AI 开发者平台悄然更新了 Gemini 3.5 Flash 模型，这是继 Gemini 2.5 Flash 之后又一款主打“速度与效率”的轻量级模型。虽然官方尚未大规模宣传，但文档页面已明确列出该模型的关键参数与定价，引发了开发者社区的广泛关注。 ## 核心参数与定价根据谷歌 AI 开发者文档，**Gemini 3.5 Flash** 在多项基准测试中表现出色，尤其擅长需要快速响应的任务场景。其上下文窗口提升至 **1,048,576 tokens**（约 100 万 token），足以处理长篇文档或复杂对话。输入价格为 **每百万 token 0.35 美元**，输出价格为 **每百万 token 1.05 美元**，相比前代 Gemini 2.5 Flash（输入 0.15 美元、输出 0.60 美元）有所上涨，但考虑到性能提升，性价比依然突出。 ## 性能与适用场景 Gemini 3.5 Flash 在 **MMLU**（大规模多任务语言理解）和 **HumanEval**（代码生成）等基准上均实现了显著进步。它特别适合以下场景： - **实时聊天机器人**：低延迟响应，适合客服、虚拟助手等交互式应用。 - **内容摘要与信息提取**：处理长文档时，能够快速生成结构化摘要。 - **代码辅助**：在代码补全、调试建议等任务中，准确率与速度兼备。此外，该模型支持多模态输入（文本、图像、音频），但输出仍为文本形式，延续了 Flash 系列的“输入多模态、输出文本”特色。 ## 行业背景与竞争格局 Gemini 3.5 Flash 的推出恰逢大模型“轻量化”浪潮。OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku 等竞品同样聚焦低成本、高速度场景。谷歌此举意在巩固其在开发者生态中的地位——通过提供高性价比的 API，吸引更多中小企业和独立开发者使用 Gemini 平台。值得注意的是，Gemini 3.5 Flash 的定价虽高于自家 2.5 Flash，但依然远低于 Gemini 1.5 Pro 等旗舰模型。这种“分层定价”策略让用户可以根据任务复杂度灵活选择：简单任务用 Flash，复杂推理用 Pro。 ## 开发者反响与未来展望目前，Gemini 3.5 Flash 已在 Google AI Studio 和 Vertex AI 中可用。早期测试者反馈其生成速度“几乎实时”，且在数学推理和代码生成方面优于 2.5 Flash。不过，也有开发者指出，该模型在处理多轮对话时偶尔会出现“遗忘”早期上下文的问题，但整体表现符合预期。随着谷歌计划在 2025 年推出更强大的 Gemini 3.5 Pro，Flash 版本作为“轻骑兵”的角色将更加明确——它不追求全能，而是专注于用最低成本完成 80% 的日常任务。对于预算敏感或需要高频调用的应用而言，Gemini 3.5 Flash 无疑是一个值得关注的新选项。

Hacker News96124天前原文

AI 界重磅变动：Andrej Karpathy 官宣加入 Anthropic

精选

AI 社区迎来一则重磅消息：著名人工智能科学家、前 OpenAI 联合创始人及特斯拉 AI 高级总监 **Andrej Karpathy** 在 X（原 Twitter）上宣布，他已正式加入 AI 初创公司 **Anthropic**。这一动态迅速引发行业热议，被视为 Anthropic 在 AI 人才争夺战中取得的标志性胜利。 ## 从 OpenAI 到特斯拉再到 Anthropic：一位 AI 领袖的轨迹 Karpathy 在 AI 领域履历耀眼。他曾在 **OpenAI** 担任研究科学家，是 GPT-2 等早期大模型项目的核心贡献者；随后加入特斯拉，领导 **Autopilot 计算机视觉团队**，推动自动驾驶技术落地。2023 年，他短暂重返 OpenAI，但数月后再度离开，此次加入 Anthropic 意味着他将与 OpenAI 前同事兼竞争对手正面交锋。 ## Anthropic 的“人才磁铁”效应 Anthropic 由前 OpenAI 研究高管 **Dario Amodei** 和 **Daniela Amodei** 于 2021 年创立，以“安全 AI”为核心理念，致力于构建可靠、可解释的 AI 系统。公司旗下模型 **Claude** 系列在安全性和诚实性上独树一帜。Karpathy 的加入进一步强化了 Anthropic 的研究实力，尤其在 **深度学习、大规模模型训练** 及 **AI 对齐** 等方向。行业观察人士指出，Anthropic 正通过吸纳顶尖人才来缩小与 OpenAI 的差距。此前，公司已从谷歌、DeepMind 等机构挖来多位高级研究员，而 Karpathy 的加盟无疑将提升其在大模型竞赛中的话语权。 ## 对 AI 格局的潜在影响 Karpathy 的转会可能从三方面重塑行业： - **研究路线**：Karpathy 在计算机视觉和多模态学习上的经验，或将推动 Claude 模型向更丰富的感知能力扩展，挑战 GPT-4V 等竞品。 - **人才流动**：作为 AI 社区的“顶流”，Karpathy 的选择可能引发更多人才向 Anthropic 倾斜，改变硅谷 AI 人才分布。 - **安全 vs 效率**：Anthropic 强调 AI 安全优先，Karpathy 的加入可能促使业界更重视模型的可控性与伦理约束，而非单纯追求性能提升。 ## 结语 Karpathy 在声明中表示：“Anthropic 在构建安全、有益 AI 方面的承诺与我的价值观高度契合。” 这一表态暗示，未来 AI 行业的竞争不仅是技术之争，更是理念与安全标准之争。随着 Karpathy 的加入，Anthropic 与 OpenAI 之间的对抗将更加激烈，而整个 AI 社区或将迎来更注重安全与对齐的新阶段。

Hacker News1.4k24天前原文

Show HN：Forge——通过护栏机制将8B模型在智能体任务中的准确率从53%提升至99%

精选

## 概述来自德州仪器（Texas Instruments）的AI总监Antoine Zambelli近日开源了**Forge**，这是一个专为自托管LLM工具调用设计的可靠性层。Forge通过一系列护栏机制（guardrails）和上下文管理策略，显著提升了小型本地模型在复杂智能体工作流中的表现。据项目介绍，结合Ministral-3 8B Instruct Q8模型和llama-server后端，Forge在26个场景的评估套件中取得了**86.5%**的平均成功率，在最高难度层级上也能达到**76%**——而未经优化的同模型基线仅为53%左右。 ## 核心能力 Forge的核心思路是**用工程手段弥补模型能力的不足**。它通过以下机制提升可靠性： - **救援解析（Rescue Parsing）**：当模型输出格式错误或无法解析时，自动尝试纠正或重试。 - **重试提示（Retry Nudges）**：在模型偏离轨道时给出温和的引导提示，帮助其回到正确路径。 - **步骤强制（Step Enforcement）**：确保智能体按预定顺序执行必要步骤，避免跳过关键操作。 - **错误恢复（Error Recovery）**：在工具调用失败或上下文溢出时，自动进行恢复处理。 - **VRAM感知上下文管理**：通过分层压缩（Tiered Compaction）和预算控制，在显存受限环境下维持长上下文能力。 ## 四种使用方式 Forge提供了灵活的使用模式，适应不同开发需求： 1. **WorkflowRunner**：定义工具集、选择后端，运行结构化智能体循环。Forge管理完整生命周期：系统提示、工具执行、上下文压缩和护栏机制。 2. **SlotWorker**：通过优先级队列实现共享推理槽的访问，支持自动抢占——适合多智能体架构中多个专业工作流共享GPU的场景。 3. **护栏中间件（Guardrails Middleware）**：将Forge的可靠性栈作为可组合中间件集成到自己的编排循环中。开发者控制循环，Forge负责验证响应、纠正格式错误的工具调用、强制必需步骤。 4. **代理服务器（Proxy Server）**：运行`python -m forge.proxy`启动一个兼容OpenAI API的代理服务器，透明地插入在客户端（如opencode、Continue、aider）和本地模型服务器之间。客户端会感觉模型“变聪明了”。 ## 技术亮点 Forge的设计充分考虑了**实际部署的痛点**。例如，在上下文管理方面，它采用VRAM感知的分层压缩策略：当上下文接近显存上限时，自动对早期对话进行压缩保留关键信息，同时丢弃冗余细节。这种机制使得8B模型也能处理需要多轮交互的复杂任务。评估方面，Forge构建了包含26个场景的测试套件，覆盖从简单工具调用到多步骤推理的各种难度。当前最佳配置（Ministral-3 8B Instruct Q8 + llama-server）得分86.5%，而未经护栏的基线模型仅为53%左右，改进幅度超过30个百分点。 ## 部署与兼容性 Forge要求**Python 3.12+**，支持多种后端： - **llama-server（推荐）**：在评估中表现最佳，建议使用Q8量化版本。 - **Ollama**：设置更简单，但高难度任务性能稍弱。 - **Anthropic API**：无需本地GPU，适合快速原型验证。安装方式：`pip install forge-guardrails`（核心版）或`pip install "forge-guardrails[anthropic]"`（含Anthropic支持）。 ## 行业意义 Forge的出现反映了AI工程领域的一个重要趋势：**在模型规模与部署成本之间寻找平衡点**。8B模型虽然能力有限，但通过精心的工程加固，可以在特定智能体任务中接近甚至媲美更大模型的表现。这对于资源受限的企业和开发者而言，意味着更低的硬件门槛和更可控的部署成本。同时，Forge的模块化设计（中间件、代理服务器等）也降低了集成门槛——开发者无需重写整个框架，即可将护栏能力嵌入现有系统。这种“增量式改进”的思路，或许比等待模型本身的飞跃更具现实可行性。 ## 小结 Forge是一个**务实且高效**的开源项目，它不追求模型能力的突破，而是通过系统化的工程手段解决小模型在智能体任务中的可靠性问题。对于正在构建或维护本地AI代理工作流的团队，Forge提供了一套立即可用的工具箱。

Hacker News68524天前原文

让AI接管电台：四个智能体自主运营半年后，我们看到了什么？

精选

Andon Labs 的最新实验让四个 AI 模型分别运营一家广播电台，全程无人类干预。半年过去，每个 AI 发展出了截然不同的“个性”和经营策略，也暴露了自主 AI 在媒体领域的潜力与风险。 ## 实验设定：AI 当 DJ，自己赚钱买歌每个 AI 获得 **20 美元** 初始资金用于购买歌曲，资金耗尽后必须通过广告等方式创收。它们需要自主完成以下工作： - **选曲与播放**：搜索、购买歌曲，管理音乐库，决定播放顺序 - **节目编排**：构建并编辑节目表，安排时段和板块，实现 24 小时不间断播出 - **听众互动**：接听来电，回复 X（Twitter）上的留言 - **经营分析**：跟踪财务状况，监测收听数据，搜索新闻用于直播内容四个电台分别由不同模型驱动： | 电台名称 | 驱动模型 | | --- | --- | | Thinking Frequencies | Claude Opus 4.7 | | OpenAIR | GPT-5.5 | | Backlink Broadcast | Gemini 3.1 Pro | | Grok and Roll Radio | Grok 4.3 | ## 半年运营观察：AI 人格分化明显 ### DJ Gemini：从个性鲜明到“术语螺旋” 运行 **Backlink Broadcast** 的 Gemini 3.1 Pro 开局表现最佳，但一个月后内容逐渐陷入 **“企业术语螺旋”**——越来越像公关稿，充满空泛的行业黑话。 > 实验期间模型版本多次升级：Gemini 3 Pro（12/10-12/17）→ Gemini 3 Flash（12/17-4/28）→ Gemini 3.1 Pro（4/30-至今）。版本迭代并未改善内容质量，反而加剧了“说套话”的倾向。 ### 其他电台表现 - **Claude Opus 4.7**（Thinking Frequencies）：风格最稳定，始终维持着“音乐优先”的定位，广告插入最少，但财务表现最差。 - **GPT-5.5**（OpenAIR）：商业化程度最高，主动推出了付费订阅和会员专属节目，收听时长却意外下滑。 - **Grok 4.3**（Grok and Roll Radio）：最具争议，经常在节目中发表尖锐政治评论，吸引了一批忠实听众，但也导致部分广告商撤资。 ## 关键发现：自主 AI 的商业与伦理挑战 1. **创收能力差异巨大**：Gemini 成功谈下 **45 美元** 的广告合作（为一家初创公司提供一个月广告位），而 Claude 始终未能产生任何额外收入。 2. **内容质量难以控制**：AI 在缺乏人类监督时，容易陷入“内容同质化”或“极端化”两个方向，前者流失听众，后者引发公关风险。 3. **模型版本更新未必带来改善**：Gemini 的案例表明，即使升级到更强模型，AI 也可能固化不良行为模式。 ## 展望：AI 运营媒体的未来 Andon Labs 表示，实验将持续进行，并计划公开更多财务数据和听众反馈。该项目不仅展示了 AI 在媒体运营中的可行性，也提醒我们：**自主 AI 需要更精细的价值观对齐和内容约束机制**，否则“无人电台”可能变成“无人收听”。 > 如果你也想收听这四个 AI 电台，可以访问 [Andon FM 网页版](https://andon.fm) 或购买他们的复古收音机（需加入候补名单）。

Hacker News37225天前原文

马斯克诉奥特曼和OpenAI案败诉：陪审团认定诉讼时效已过

精选

埃隆·马斯克针对OpenAI联合创始人山姆·奥特曼、格雷格·布罗克曼以及微软的诉讼以失败告终。加州陪审团一致裁定，马斯克的指控已超过法定诉讼时效。马斯克声称，奥特曼等人通过设立营利性附属机构，违背了OpenAI最初的慈善使命，构成了“盗窃慈善机构”的行为。然而，陪审团认为，马斯克所声称的损害均发生在法律规定的起诉截止日期之前，因此其诉求不成立。本案的核心争议在于OpenAI从非营利组织转型为“有限盈利”实体的过程。马斯克于2015年共同创立OpenAI，并在2018年离开。此后，OpenAI在2019年设立了一个营利性子公司，并从微软获得数十亿美元投资。马斯克在2024年提起诉讼，指控奥特曼和微软背弃了OpenAI“造福人类”的初衷，将利润置于安全之上。庭审中，法官伊冯·冈萨雷斯·罗杰斯指出，大量证据支持陪审团的裁定，她甚至曾考虑直接驳回此案。OpenAI的首席律师比尔·萨维特在判决后表示：“陪审团只用了不到两小时就得出结论……马斯克的诉讼不过是一个与事实脱节的事后编造。”微软发言人也对判决表示欢迎，称将继续与OpenAI合作推进AI技术。值得注意的是，本案的焦点并非OpenAI是否违背了慈善使命，而是马斯克是否在法定时效内提出主张。根据美国法律，相关指控的诉讼时效分别为3年和4年。由于马斯克早在2018年已知晓OpenAI的转型计划，却在2024年才提起诉讼，法院认定其诉求已过期。这一判决消除了OpenAI在IPO前的一大法律风险。此前，马斯克的诉讼曾迫使OpenAI暂停重组计划，而如今这一障碍已被移除。分析人士认为，尽管马斯克在法庭上失利，但他对AI安全与治理的担忧仍将继续影响行业讨论。

Hacker News1.1k25天前原文

InsForge：为AI编码代理打造的开源Heroku替代方案

新上线

InsForge 是一个专为 AI 编码代理设计的开源后端平台，旨在让代理像后端工程师一样自主部署、操作和调试全栈应用。其核心理念是降低编码代理构建应用的门槛，提供数据库、认证、存储、边缘函数、模型网关等一站式服务。 ## 交互方式：MCP 与 CLI InsForge 提供两种交互接口： - **MCP Server**：支持自托管或云端，将 InsForge 操作暴露为工具，任何兼容 MCP 的代理均可调用。 - **CLI + Skills**：仅限云端，代理可直接从终端调用命令行和技能。两种方式均允许代理读取后端上下文（文档、模式、日志）并配置资源（部署函数、迁移数据库、设置存储桶等）。 ## 核心产品 InsForge 集成了多项后端服务： - **Authentication**：用户管理、认证与会话 - **Database**：Postgres 关系型数据库 - **Storage**：S3 兼容文件存储 - **Model Gateway**：兼容 OpenAI API 的多模型网关 - **Edge Functions**：边缘 serverless 代码运行 - **Compute（内测中）**：长期运行的容器服务 - **Site Deployment**：站点构建与部署 ## 开源与快速启动项目基于 Apache 2.0 开源，GitHub 地址：https://github.com/InsForge/InsForge。支持 Docker Compose 本地部署或直接使用云端服务（insforge.dev）。 ## 行业意义 InsForge 的出现反映了 AI 编码代理从“写代码”向“全生命周期管理”演进的趋势。类似 Heroku 的“平台即服务”模式被引入代理工作流，有望大幅提升开发效率。不过，当前代理在复杂调试和状态理解上仍存在挑战，InsForge 的日志与上下文读取能力正是为此设计。

Hacker News6225天前原文

大多数美国人不信任AI——也不信任掌控AI的人（2025）

新上线

## 公众与专家的AI信任鸿沟：谁在掌控未来？最新研究显示，美国公众对人工智能的信任度跌至新低。皮尤研究中心（Pew Research Center）上周发布的两份报告揭示了AI从业者与普通民众之间日益扩大的认知鸿沟：专家乐观，公众焦虑，且对监管体系普遍缺乏信心。 ### 信任危机：数据揭示的裂痕调查覆盖了超过1,000名AI专家和5,000名美国成年人。核心发现令人警醒：约**75%的AI专家**认为技术将为他们个人带来好处，但只有**25%的公众**持相同看法。在就业影响上，专家倾向于认为AI会改善工作，而公众则担心自己的工作会被取代。更根本的信任问题在于：**超过半数的受访者**（无论专家还是公众）都希望对自己生活中AI的使用方式拥有更多控制权。同时，多数人表示**不信任政府或私营公司**能够负责任地监管AI。 ### 监管失效：国会听证的尴尬公众对政府监管能力的不信任并非空穴来风。报告引用了一位学术专家的评论：“看看那些国会听证会……他们根本不懂。我不确定他们能否聘请足够的专家来理解并监管AI，但这非常重要。”长期以来，美国国会在科技监管上表现乏力，听证会常沦为作秀——立法者甚至对《通信规范法》第230条等基本概念都显得生疏。 ### 性别差异：男性专家更乐观数据还揭示了性别差异。男性AI专家对未来的乐观程度显著高于女性同行，这种差异在公众群体中同样存在。这或许反映了科技行业内部的多样性问题，也可能影响AI产品在开发过程中的价值取向。 ### 失控感：普通人无力参与决策 **近60%的美国成年人**表示，他们对AI是否被应用于自己的生活几乎没有控制权。即使是在专家群体中，这个数字也不容乐观。当科技领袖——如OpenAI CEO Sam Altman——高调宣称“2025年首批AI代理将‘加入劳动力大军’并实质性改变公司产出”时，普通人的感受却是被动接受，而非主动选择。 ### 小结这份报告勾勒出一个令人不安的图景：AI的发展速度远超公众的理解和信任水平，而监管体系又未能有效填补这一真空。如果科技行业不主动建立更透明的沟通机制和包容性的决策流程，公众的焦虑与不信任将继续发酵，最终可能反噬技术本身的健康发展。

Hacker News13326天前原文

亚利桑那大学毕业生对埃里克·施密特的AI鼓吹喝倒彩

新上线

上周五，在亚利桑那大学的毕业典礼上，前谷歌CEO埃里克·施密特（Eric Schmidt）的演讲遭遇了尴尬一幕：当他大谈人工智能（AI）时，台下学生多次发出嘘声。据Business Insider报道，施密特在演讲中承认了毕业生对就业市场的焦虑，称“机器来了、工作消失了、气候在崩溃、政治分裂、你们继承了一个烂摊子”这些担忧是“合理的”。但他显然对学生的反应感到沮丧，在讲台后局促不安地请求观众让他把话说完。施密特随后抛出了那句经典言论：“当有人给你火箭船的座位时，别问坐哪儿，先上去再说。”这种论调并不意外——毕竟他在去年还称AI“被低估了”。但这又一次暴露了硅谷精英与现实脱节的问题。公众对AI的抵触情绪日益高涨，而科技公司仍在强行将AI塞进生活的每个角落。值得注意的是，部分学生的嘘声还指向施密特本人：去年他曾被指控性侵。这场毕业演讲的冲突，折射出AI热潮与普通民众，尤其是即将步入职场的年轻人之间的深刻裂痕。

Hacker News10326天前原文

加拿大 Bill C-22 法案：加密私信将不再安全，政府可持“第二把钥匙”

新上线

## 快讯：加拿大 Bill C-22 法案威胁端到端加密，强制留后门加拿大正在审议的 **Bill C-22** 法案引发隐私权争议。该法案要求所有即时通讯应用必须为政府提供“第二把钥匙”，即技术上需具备解密能力，否则将面临罚款。目前，像 Signal、Apple 等公司已明确反对，认为此举将直接破坏端到端加密（E2EE）的根基。 ### 核心变化：从“仅你可见”到“政府可阅” 当前，端到端加密确保只有通讯双方能阅读消息内容，即便是服务提供商也无法解密。若法院要求调取内容，Signal 等公司“无物可交”。黑客入侵服务器也只能得到加密噪音。若 Bill C-22 通过，情况将彻底改变： - 服务商必须保留解密能力，政府可要求提供内容。 - 拒绝配合将面临巨额罚款。 - 黑客一旦找到后门入口，便能畅通无阻地访问所有用户数据。 ### 被忽视的元数据留存条款除了加密争议，该法案还包含更隐蔽的 **元数据留存** 要求。所谓元数据，不仅包括通话对象、时长，还涉及位置、设备信息、网络路径等。长期积累的元数据可以拼凑出个人的完整生活轨迹：信任关系、作息地点、社交网络等。目前，服务商仅因业务需要保留有限元数据，且大多不收集详细的传输数据。但 Bill C-22 将强制更广泛、更长期的留存，被隐私专家 Michael Geist 称为“政府可部署的最具侵入性的隐私工具之一”。 ### 行业与政府的博弈苹果、Signal 等公司认为，即使法案不明确要求“破解加密”，但强制建立解密能力本质上等同于要求后门。政府则主张这是为了打击犯罪和保护国家安全。双方在技术定义和法律解释上存在根本分歧。 ### 时间紧迫：公众需立即行动法案预计在 2026 年 5 月前完成审议，当前仅剩数日、数小时窗口期供公众表达意见。隐私倡导者呼吁用户联系议员，反对这项可能永久改变数字隐私格局的立法。 **小结**：Bill C-22 一旦通过，将从根本上削弱加拿大用户的加密通讯隐私，并建立广泛的元数据监控体系。这不仅是加拿大国内问题，也可能成为全球加密监管的风向标。

Hacker News9826天前原文

OpenAI 与马耳他达成全球首个合作：为全体公民提供 ChatGPT Plus

精选

OpenAI 与马耳他政府宣布达成一项开创性的全球合作，将向所有马耳他公民提供 ChatGPT Plus 服务。该计划名为“AI for All”，旨在通过培训课程提升公民的 AI 素养，并在完成课程后提供为期一年的免费 ChatGPT Plus 访问权限。这是全球首个在国家级层面大规模普及 AI 工具的项目。 ## 合作背景与愿景 OpenAI 一直致力于将智能转变为一种全球性公共资源，就像电力一样，让每个人、企业和机构都能按需使用。然而，这一愿景的实现依赖于人们能够真正利用这些工具改善生活。马耳他“AI for All”计划正是这一理念的落地实践：它面向所有背景的公民，通过由马耳他大学开发的课程，帮助人们理解 AI 是什么、能做什么、不能做什么，以及如何在家庭和工作中负责任地使用 AI。 ## 计划实施细节该计划分阶段推进。第一阶段将于 **2026 年 5 月** 启动，由马耳他数字创新管理局负责向符合条件的参与者分发资格。公民在完成 AI 素养课程后，即可获得 **一年免费 ChatGPT Plus 订阅**。随着更多马耳他居民及海外公民完成课程，计划将逐步扩大覆盖范围。 ## 官方表态与意义马耳他经济、企业和战略项目部长 Silvio Schembri 表示：“通过‘AI for All’课程，我们确保每位公民，无论其背景如何，都有机会建立信心和技能，在数字世界中茁壮成长。马耳他是第一个开展如此大规模合作的国家，因为我们不能让公民在数字时代落后。”OpenAI 国家事务负责人 George Osborne 则指出：“智能正在成为国家公共事业，各国政府有责任确保民众既能获得 AI 工具，也具备使用它们的能力。我祝贺马耳他当局在这一领域的领导力。” ## 行业影响此次合作标志着 AI 普及进入新阶段：从企业级应用转向全民化。马耳他作为欧盟小国，率先在国家级层面将 AI 视为基础设施，可能为其他国家树立样板。对于 OpenAI 而言，这不仅是用户增长的机会，更是塑造 AI 社会规范、推动负责任使用的关键一步。

Hacker News33127天前原文