SheepNav

AI 资讯

每日聚合最新人工智能动态

## 多任务学习中的“遗忘”难题 随着数据隐私法规(如GDPR)的普及,**机器遗忘学习(Machine Unlearning)** 成为AI领域的研究热点。其目标是让训练好的模型“忘记”特定训练数据的影响,同时保持对剩余数据的性能。然而,现有研究多聚焦于单任务场景,而现代模型(如多任务视觉模型)常采用共享骨干网络,这意味着删除一个任务或样本的监督信号可能会无意中影响其他任务。 近日,来自中国台湾大学的研究团队在arXiv上发表了题为《Interference-Aware Multi-Task Unlearning》的论文,首次系统定义了**多任务遗忘学习**的两种场景: - **全任务遗忘**:从所有任务中移除目标实例的贡献; - **部分任务遗忘**:仅从选定任务中移除监督,保留其他任务不变。 ## 干扰的本质:任务级与实例级 研究发现,共享参数是干扰的根源。当模型试图遗忘特定数据时,梯度更新不仅会影响目标任务,还会通过共享骨干传播到其他任务,造成**任务级干扰**;同时,遗忘样本与保留样本之间的梯度冲突会导致**实例级干扰**。这种双重干扰使得现有单任务遗忘方法在多任务场景下性能急剧下降。 ## 解决方案:干扰感知框架 为了应对这一挑战,团队提出了**干扰感知多任务遗忘框架(Interference-Aware Multi-Task Unlearning)**,其核心包含两个技术组件: 1. **任务感知梯度投影**:将梯度更新限制在任务特定的子空间内,减少对非目标任务的影响; 2. **实例级梯度正交化**:通过正交化遗忘信号与保留信号的梯度方向,降低两者之间的冲突。 ## 实验结果:性能显著提升 在包含五个任务的计算机视觉基准测试中,该方法表现出色: - 在全任务遗忘设置下,**未遗忘样本干扰(UIS)** 相比最强基线降低了 **30.3%**; - 在部分任务遗忘设置下,UIS降低了 **52.9%**。 这表明,通过显式建模干扰,遗忘过程可以在保持模型泛化能力的同时,实现更精准的数据擦除。 ## 行业意义与展望 多任务遗忘学习对于实际应用至关重要。例如,在医疗影像分析中,模型可能同时处理病灶检测、器官分割等多个任务,当需要删除某个患者的全部数据时,必须确保不影响其他诊断任务。此外,在推荐系统中,用户可能希望仅移除特定场景下的行为数据(如购物记录),而保留浏览历史。 该研究为多任务场景下的隐私合规提供了新的技术路径,未来可进一步扩展到自然语言处理和多模态模型。不过,论文目前仅验证了计算机视觉任务,其通用性仍需更多实验证明。 **参考**:Ying-Hua Huang et al., “Interference-Aware Multi-Task Unlearning,” arXiv:2605.19042, 2026.

Anthropic13天前原文

## 研究背景:KAN的精度与MLP的鲁棒性,能否兼得? 近年来,**Kolmogorov-Arnold Networks(KAN)** 因其在低维、干净数据上卓越的函数拟合能力而备受关注。然而,当面对真实世界中充满噪声、不完美的传感器数据时,KAN的性能明显下降。相反,传统的**多层感知机(MLP)** 虽然精度不如KAN,但对噪声容忍度更高,计算效率也更具优势。 在**基于惯性测量单元(IMU)的人体活动识别(HAR)** 任务中,简单地将所有MLP组件替换为KAN,往往导致精度和计算效率双双下降。这揭示了一个核心挑战:**如何融合KAN的精确性与MLP的噪声鲁棒性和高效性?** ## 方法:KAN-MLP-Mixer混合架构 针对上述问题,来自德国人工智能研究中心(DFKI)等机构的研究团队系统探索了KAN模块在深层HAR网络中的不同放置位置,并提出了一种名为 **KAN-MLP-Mixer** 的混合架构。该架构的核心策略包括: - **输入嵌入层采用KAN**:利用KAN对复杂函数的高效学习能力,从原始IMU信号中提取高质量特征。 - **中间特征混合保留MLP**:保持MLP层用于中间特征混合,以利用其对噪声的鲁棒性和计算效率。 - **分类层引入LarctanKAN模块**:设计了一种名为 **LarctanKAN** 的专用模块,用于最终的分类决策,该模块通过引入arctan激活函数改进传统KAN的数值稳定性。 ## 实验结果:性能显著提升 在**8个公开HAR数据集**上的实验表明,KAN-MLP-Mixer相比纯MLP模型,**平均宏F1分数相对提升5.33%**,显著优于单纯的KAN或MLP基线。此外,将该混合策略集成到其他先进的HAR架构中,也能持续带来性能提升。 ## 行业启示:混合范式或成趋势 这项研究不仅为IMU-based HAR领域提供了更优的模型方案,更揭示了一个重要思路:**在现实世界的噪声环境中,简单的“替换”不如“融合”**。通过精心设计的混合架构,可以平衡不同网络结构的优势,从而在精度、鲁棒性和效率之间取得最佳折中。 未来,随着可穿戴设备和边缘计算的发展,这种混合范式有望在更多传感器数据驱动的任务中落地,让人工智能更好地服务于真实场景。

Anthropic13天前原文

SpaceX 的 IPO 终于来了,这不仅仅是一次可能让埃隆·马斯克成为全球首位万亿富翁的历史性公开发行,更揭示了他旗下各家公司之间错综复杂的资金往来与利益交织。在长达 330 页的 S-1 文件中,特斯拉被提及 87 次,xAI 出现 356 次,X 平台 267 次,甚至连无聊公司(7 次)和 Neuralink(3 次)也有提及。这些数字背后,是马斯克商业帝国中公司之间频繁的关联交易和交叉持股。 **交叉持股与内部交易** 文件显示,特斯拉持有 SpaceX 近 1900 万股 A 类普通股,占比不到 1%。今年 2 月,马斯克将 xAI 与 SpaceX 合并,xAI 的股份被转换为 SpaceX 股票。此外,SpaceX 以制造商建议零售价从特斯拉购买了价值 1.31 亿美元的 Cybertruck。据 Electrek 分析,如果没有这些内部采购,Cybertruck 的注册量可能会同比下降。特斯拉的 Megapack 储能系统也被用于稳定 SpaceX 在田纳西州孟菲斯的 Colossus I 和 II 数据中心,2024 年 SpaceX 为此支付了 6.97 亿美元。 **依赖与风险** S-1 文件明确将马斯克的领导力列为风险因素,称公司“高度依赖”马斯克的持续参与。同时,马斯克的其他公司(如特斯拉、xAI、X 平台)可能成为 SpaceX 的竞争对手,尤其是在人工智能和卫星通信领域。这种复杂的关联结构让投资者难以评估 SpaceX 的真实独立价值,也引发了公司治理方面的担忧。 **行业背景** SpaceX 的 IPO 正值全球商业航天和 AI 融合的关键时期。马斯克通过将 xAI 并入 SpaceX,试图在太空 AI 领域建立先发优势。然而,这种“家族式”运作模式在华尔街并不常见,投资者需要仔细审视这些内部交易是否公平,以及它们对 SpaceX 长期发展的影响。

The Verge13天前原文

据 Hacker News 热门消息,OpenAI 计划最早于本周五(当地时间)以保密方式提交首次公开募股(IPO)申请。这一动向若属实,将是人工智能行业迄今最具标志性的资本事件之一。 ### 背景:估值与市场预期 OpenAI 目前估值已超过 **800 亿美元**,若成功上市,将成为全球市值最高的 AI 初创公司。其核心产品 **ChatGPT** 自 2022 年底发布后迅速引爆市场,带动大语言模型商业化浪潮。与此同时,公司正面临来自 Google、Anthropic 等对手的激烈竞争,以及自身高昂的算力成本与盈利压力。 秘密提交 IPO(Confidential IPO)是美国《创业企业促进法案》(JOBS Act)允许的做法,允许营收低于 10 亿美元的公司向 SEC 非公开递交招股书,待市场条件成熟再公开。此举可帮助 OpenAI 避开早期审查压力,灵活选择上市窗口。 ### 行业影响与潜在挑战 若 OpenAI 成功上市,将直接改变 AI 行业的资本格局: - **估值标杆**:为其他 AI 初创公司设定估值参照系,可能加速一级市场泡沫分化; - **监管焦点**:IPO 将迫使 OpenAI 披露更详细的财务数据、技术路线及风险因素,包括其非营利控股结构的合规性; - **人才与竞争**:上市后股权激励更具吸引力,但也可能引发核心团队套现离职。 不过,消息尚未得到 OpenAI 官方确认。此前 Sam Altman 曾多次表示“近期无上市计划”。若此次传闻属实,可能意味着 OpenAI 在巨额融资压力与商业化需求间做出了妥协。 ### 小结 OpenAI 的 IPO 不仅是公司自身的里程碑,更是 AI 行业从“技术竞赛”转向“资本博弈”的关键信号。市场将密切关注其估值、盈利模型及治理结构。若周五如期提交,预计未来几个月将进入密集的尽职调查与路演阶段。

Hacker News13713天前原文

## 当安卓遇上墨水屏:Boox Go 10.3 能否挑战 Remarkable 的地位? 在电子墨水屏平板市场,Remarkable 凭借极简设计和专注书写的体验,一直占据着高端用户的心智。但高昂的价格和封闭的系统也让不少用户望而却步。最近,我尝试用 **Boox 第二代 Go 10.3 平板** 替代我的 Remarkable,结果发现——它不仅更便宜,而且体验出人意料地好。 ### 硬件与设计:轻便与实用并存 Boox Go 10.3 采用 **10.3 英寸 E Ink 屏幕**,分辨率为 1872×1404,显示细腻程度与 Remarkable 相当。机身厚度仅 **5.5 毫米**,重量约 390 克,比 Remarkable 2 还要轻便。最让我惊喜的是,它内置了 **前光照明**,这意味着在暗光环境下也能舒适阅读,而 Remarkable 2 需要额外购买昂贵的背光保护套。 ### 系统与生态:安卓开放性的胜利 与 Remarkable 的封闭 Linux 系统不同,Boox Go 10.3 运行 **Android 12 系统**,这意味着你可以自由安装各类应用。我第一时间装上了 Kindle、微信读书和 Notion,实现了阅读、笔记和同步的“三位一体”。它甚至支持 **Google Play 商店**,应用生态远超 Remarkable。 当然,开放系统也带来了一些挑战:应用适配度参差不齐,部分 App 在墨水屏上刷新率偏低。但 Boox 提供了 **刷新模式调节**,针对不同应用可选择“速度优先”或“清晰优先”,一定程度上缓解了这个问题。 ### 书写体验:接近纸质的触感 书写是这类平板的核心。Boox Go 10.3 标配 **电磁笔**,无需充电,支持 4096 级压感。笔尖与屏幕的摩擦感经过优化,书写时沙沙声明显,非常接近真实纸张。延迟方面,虽然比不上 iPad Pro 的丝滑,但作为墨水屏产品,表现已属第一梯队。 相比 Remarkable,Boox 的笔记软件功能更丰富:支持 **图层、模板、手写转文字** 以及云端同步。不过,Remarkable 的“纸张感”和极简 UI 仍是其独特优势——如果你只想要一个纯粹的书写工具,Remarkable 依然是不二之选。 ### 价格与价值:性价比之选 Boox Go 10.3 的售价约为 **350 美元**,而 Remarkable 2 加上 Marker Plus 和背光保护套后轻松超过 500 美元。考虑到 Boox 提供了更丰富的功能(前光、安卓应用、可扩展存储),对于需要多任务处理的用户而言,它的性价比显然更高。 ### 小结:谁更适合你? - **选择 Remarkable**:如果你追求极致的书写体验,不需要任何额外功能,且预算充足。 - **选择 Boox Go 10.3**:如果你想要一台能阅读、能写笔记、还能装 App 的“全能型”墨水屏设备,且看重性价比。 最终,我保留了 Boox Go 10.3。它并非完美——电池续航不如 Remarkable,系统偶尔会卡顿——但它用更低的成本提供了更多可能性。对于像我这样的“重度数字笔记用户”来说,这种取舍完全值得。

ZDNet AI13天前原文
SpaceX 在 IPO 文件中将 Grok 的“辣味”模式列为风险因素

SpaceX 在提交给监管机构的 IPO 文件中,罕见地将旗下 AI 聊天机器人 Grok 的“辣味”(Spicy)与“疯狂”(Unhinged)模式列为潜在业务风险。这些模式允许 Grok 在减少安全过滤的情况下生成露骨图像或语音回复,可能使公司面临监管审查和声誉损害。 文件显示,截至去年 12 月,SpaceX 已预留 **5.3 亿美元** 用于潜在诉讼损失,其中部分与 Grok 生成性化图片的投诉有关。这一风险敞口源于 SpaceX 今年 2 月收购马斯克旗下 AI 初创公司 xAI 的交易,该交易将这家火箭制造商的私人估值推高至 **1 万亿美元** 以上。 **监管雷区:Grok 的“无拘束”代价** 尽管马斯克常将 Grok 的“自由奔放”特性作为卖点,但实际运营中已触发多起法律纠纷。SpaceX 在文件中承认,公司正因 Grok 生成涉及未成年人的性化图片而在美国及其他国家接受调查,同时面临多起集体诉讼。文件警告,未来对 AI 产品的“滥用”可能导致更多监管制裁,包括“失去进入某些市场的机会”。 **风险与商业的平衡** IPO 文件中披露潜在业务风险是常规法律要求,部分担忧未必会成真。但 SpaceX 的案例凸显了 AI 行业在追求技术差异化的同时,如何平衡内容安全与商业扩张的挑战。Grok 的“辣味”模式设计初衷是提供“更坦诚、直接且少保留”的输出,但这种缺乏护栏的路线使其在监管趋严的背景下显得尤为脆弱。 **行业背景** SpaceX 并非唯一受审视的聊天机器人开发商。全球各国政府正加紧应对生成式 AI 的社会影响,多家 AI 公司均面临类似的合规压力。对于计划通过 IPO 进入公开市场的 SpaceX 而言,明确披露 AI 相关风险既是对投资者的保护,也是应对潜在监管风暴的未雨绸缪。

WIRED AI13天前原文

英伟达CEO黄仁勋在财报电话会上宣称,公司新推出的Vera CPU将为“智能体AI”开辟一个价值2000亿美元的全新市场。尽管华尔街对GPU巨头涉足CPU领域存有疑虑,黄仁勋认为Vera是首款专为智能体AI设计的CPU,能快速处理令牌,满足AI代理的运算需求。目前所有主流云厂商和系统制造商均在合作部署,有望成为英伟达新的增长引擎。

TechCrunch13天前原文

据《华尔街日报》报道,Anthropic 已向投资者透露,其第二季度营收将超过 **109 亿美元**,较上一季度翻倍有余,并有望首次实现 **运营利润**。这一里程碑式的增长使其在与主要竞争对手 OpenAI 的竞争中占据有利位置。然而,由于未来计划中的高额计算成本,公司可能无法在整个财年保持盈利。 这些财务数据是在最近一轮融资中向投资者披露的。过去一年,随着越来越多专业人士表达对其聊天机器人 **Claude** 的偏好,Anthropic 的人气持续攀升。公司近期还努力实现客户群多元化,包括为小企业主推出新服务,以及为律师事务所提供专用工具。 有趣的是,Anthropic 盈利消息公布的当天,恰逢 OpenAI 可能即将提交 IPO 申请的新闻传出。Anthropic 拒绝进一步置评。 ## 行业背景与分析 Anthropic 的快速盈利增长反映了 AI 赛道的激烈竞争与商业化加速。相比 OpenAI 依靠消费者订阅和 API 收入,Anthropic 更侧重企业级应用,其 Claude 模型在安全性和可控性方面建立了差异化优势。此次盈利突破可能进一步巩固其市场地位,并吸引更多投资。 不过,盈利的可持续性仍是关键挑战。AI 训练和推理的算力成本高昂,Anthropic 若要保持增长,需在营收扩张与成本控制之间找到平衡。此外,OpenAI 的 IPO 计划可能改变行业格局,带来新的资金和竞争压力。

TechCrunch13天前原文

亚马逊云科技今日宣布,Amazon SageMaker AI 实时推理端点正式支持 OpenAI 兼容 API。这意味着使用 OpenAI SDK、LangChain 或 Strands Agents 等框架的开发者,只需修改端点 URL,即可直接调用 SageMaker AI 上托管的模型,无需编写自定义客户端、SigV4 签名包装器或重写代码。 ## 核心变化:一条 /openai/v1 路径打通壁垒 SageMaker AI 端点现在暴露一个 **/openai/v1** 路径,原生接受 Chat Completions 格式的请求,并返回包含流式响应在内的标准回复。该功能对所有使用标准 SageMaker AI API 创建的端点和推理组件自动生效。SageMaker AI 会根据 URL 中的端点名称进行路由,因此任何 OpenAI 兼容的客户端都能即插即用。此外,用户现在可以为端点创建**限时 bearer 令牌**,直接用于 OpenAI 客户端,进一步简化了认证流程。 ## 三大典型应用场景 ### 1. 自有基础设施上的智能体工作流 如果你使用 Strands Agents 或 LangChain 构建多步骤 AI 智能体,现在可以将这些工作流完全运行在自己的 SageMaker AI 端点上。智能体调用模型时沿用同一套 OpenAI 兼容接口,但推理实际运行在用户账户内的专用 GPU 实例上,兼顾性能与数据安全。 ### 2. 多模型统一托管,单一接口调用 如果需要运行多个模型——例如 Llama 处理通用任务、微调版 Mistral 处理领域问题、小模型做分类——可以将它们全部托管在单个 SageMaker AI 端点上,通过推理组件分配独立资源。每个模型都可通过同一个 OpenAI SDK 调用,应用代码中无需维护多套 API 客户端或路由逻辑。 ### 3. 微调模型零代码改造上线 针对特定场景微调的开源模型,可直接部署到 SageMaker AI 并通过 OpenAI 兼容接口调用。应用程序只需修改端点 URL,无需任何代码改动,即可享受微调模型的定制能力。 ## 行业视角:降低云上推理的迁移成本 长期以来,AWS 用户若想将 OpenAI 生态中开发的应用迁移到自托管模型,往往需要额外开发 SigV4 签名层或适配自定义 SDK。此次更新直接消除了这一障碍,使得 **SageMaker AI 成为 OpenAI 生态系统的“一等公民”**。对于已投资 Agent 框架和 LLM 网关的企业,这意味着可以在不改变架构的前提下,灵活切换底层推理供应商,或将部分工作负载迁入自有账户以控制成本与延迟。 Caffeine.AI 的 AI/ML 工程师 Giorgio Piatti 在公告中表示:“我们运行 AI 编码智能体,通过一个兼容 OpenAI 聊天补全协议的 LLM 网关使用多个提供商。bearer 令牌功能让我们能将 SageMaker 作为即插即用的 OpenAI 兼容推理端点加入,无需自定义 SigV4 签名,原生适配我们的网关、Vercel AI SDK 和标准 OpenAI 客户端。” ## 快速上手 AWS 官方提供了配套 Jupyter Notebook([GitHub 仓库](https://github.com/aws-samples/)),演示从部署到调用的完整流程。用户可以通过标准 SageMaker API 创建端点,获取 bearer 令牌后,在 OpenAI 客户端中将 `base_url` 设置为 `https://<endpoint-url>/openai/v1` 即可开始使用。 此次更新标志着 AWS 在**模型服务兼容性**上的重要一步——不强迫用户锁定在特定 SDK,而是主动适配业界最广泛使用的接口标准。对于正在构建多模型、多提供商 AI 系统的团队来说,这无疑降低了架构复杂度与运维成本。

AWS ML13天前原文
SpaceX 豪掷28亿美元购买燃气轮机,为AI数据中心供电

马斯克的 SpaceX 正斥巨资为旗下 AI 部门 xAI 的数据中心采购燃气轮机,以应对电力短缺对算力扩张的制约。这一举动不仅揭示了 AI 基础设施对能源的巨大需求,也引发了关于碳排放和环保合规的争议。 ## 巨额投资背后的电力焦虑 根据 SpaceX 近期向监管机构提交的文件,该公司在短短几个月内承诺投入超过 **28 亿美元** 购买燃气轮机,专门用于为其 AI 数据中心供电。这笔投资发生在 SpaceX 准备于纳斯达克上市的前夕,是其 IPO 招股书中的关键披露之一。 具体来看,2025 年 3 月,SpaceX 与某未具名公司签署了一项 **8.05 亿美元** 的涡轮机采购协议,合同期至 2029 年。随后在 4 月底,马斯克的公司又敲定了一笔 **20 亿美元** 的移动燃气轮机及相关设备交易,该交易目前尚待最终完成。 ## 为何选择燃气轮机? 当前美国正经历数据中心建设热潮,但 **电力短缺** 已成为制约扩张的首要瓶颈。便携式燃气轮机可以脱离电网独立运行,被视为快速、临时的解决方案,能在更稳定的能源供应(如可再生能源或核电)上线前提供过渡支持。 SpaceX 的 AI 部门 xAI 运营着两个大型数据中心——位于田纳西州孟菲斯的 **Colossus 1** 和密西西比州南aven的 **Colossus 2**,用于支撑其 Grok 聊天机器人及其他 AI 项目。据 WIRED 上周报道,Colossus 2 在过去两个月内新增了 19 台便携式涡轮机,总数达到 **46 台**。 ## 环保争议与监管风险 然而,燃气轮机的使用并非没有代价。SpaceX 此前已因使用这类设备而遭到公众投诉、诉讼以及监管调查,焦点在于其是否因大量排放 **二氧化碳** 而污染空气,以及是否规避了环境许可要求。根据现行法规,便携式涡轮机可在无清洁空气许可证的情况下运行一年,这一“窗口期”可能被企业利用,但长期来看环保压力不容忽视。 ## 跨界布局:从火箭到云计算 值得注意的是,SpaceX 不仅自用这些算力,还以 **150 亿美元** 的年租金将 Colossus 数据中心的服务器容量租给 AI 初创公司 Anthropic(Claude 聊天机器人的开发商)。马斯克周三表示,SpaceX 计划签署更多此类租赁协议。这标志着 SpaceX 正从火箭发射和卫星互联网服务商,向 **云计算基础设施提供商** 的角色延伸。 ## 行业启示 SpaceX 的激进能源投资折射出 AI 行业的深层矛盾:算力需求爆发式增长,而电网基础设施升级滞后。短期内,燃气轮机成为“救火队员”;但长期看,AI 巨头们必须寻找更清洁、可持续的能源方案,否则可能面临环保合规与公众舆论的双重压力。

WIRED AI13天前原文

短视频无处不在,从播客片段到电影高光时刻,品牌们发现这种格式是极具性价比的营销利器。然而,从冗长视频中精准截取最吸引人的 30 到 90 秒(即“剪辑”),并决定投放哪些平台,往往让营销团队头疼不已。创业公司 **Clouted** 正试图用一套结合 AI 与众包创作者的基础设施,将这一过程自动化。 ### 从 DJ 爱好到商业洞察 Clouted 的诞生源于创始人 Justin Banusing 的个人热情。他是一名长期活跃的 DJ,最初将公司技术用于推广自己创办的马尼拉电子音乐节 &Friends,该音乐节如今已能吸引超过 **2 万人** 参与。这段经历让他意识到,优质内容的传播不应依赖运气,而需要系统化的策略。 ### 700 万美元种子轮,资本看好“算法渗透测试” Clouted 刚刚宣布完成 **700 万美元** 种子轮融资,由 **Slow Ventures** 领投,Gold House Ventures、Weekend Fund、Peak XV 的 Surge 等跟投。公司曾参与 a16z 的 Speedrun 加速器(2024 年批次)。 与单纯追求剪辑数量的工具不同,Clouted 的 AI 更像一个 **持续测试循环**:它会尝试不同格式和渠道策略,不断积累数据,找出真正有效的爆款配方。创始人 Banusing 将这一过程类比为网络安全领域的 **渗透测试**——不是寻找漏洞,而是通过成千上万种剪辑和分发方案,试探哪些内容能触发社交平台的推荐机制。“每执行一次营销活动,系统就会变得更聪明、更高效,”他表示,“平台会学习哪些格式能赢、哪些受众会转化、哪些分发渠道能持续放大效果。” ### 如何运作:AI + 10 万创作者网络 Clouted 平台连接了超过 **10 万名** 自由职业创作者,负责实际剪辑工作;AI 则负责分析内容,并自动决策最佳分发平台和目标受众。这种“人机协作”模式既保留了创作者的创意判断,又通过算法优化了投放效率。 ### 行业背景与竞争 当前,短视频营销工具赛道已相当拥挤,既有传统的剪辑外包平台,也有纯 AI 驱动的自动剪辑工具。Clouted 的差异化在于:它不追求剪辑数量,而是强调 **策略优化**——通过持续测试和反馈循环,让每个后续活动都更精准。其直接竞争对手包括类似服务,但 Clouted 更聚焦于“算法友好型”内容生产,而非简单批量产出。 ### 小结 Clouted 的崛起反映了短视频营销从“经验驱动”向“数据驱动”的转变。对于品牌和营销机构而言,这套系统有望显著降低试错成本,让爆款不再是偶然。随着融资到位,Clouted 计划进一步扩大创作者网络并优化 AI 模型,或许很快我们就会看到更多“算法定制”的病毒视频。

TechCrunch13天前原文

SpaceX的IPO文件首次披露了埃隆·马斯克旗下AI公司xAI的财务细节,显示该公司在2025年亏损高达**64亿美元**,同时计划大规模扩展其AI模型**Grok**。这份文件为外界提供了难得的机会,一窥马斯克AI帝国的真实财务状况及其雄心勃勃的扩张计划。 ## 巨额亏损与扩张计划 根据SpaceX提交的IPO文件,xAI在2025年的运营支出远超收入,净亏损达到64亿美元。这一数字凸显了AI领域高昂的研发和基础设施成本。然而,xAI并未因此放缓脚步,反而计划进一步扩大Grok的部署规模,包括增加计算资源、招聘顶尖人才以及拓展应用场景。文件指出,xAI的支出“远未结束”,暗示未来仍需大量资金投入。 ## 与SpaceX的关联 xAI与SpaceX之间存在紧密联系。马斯克曾表示,xAI将利用SpaceX的技术和经验,特别是在计算和数据处理方面。此外,xAI的AI模型可能被用于优化SpaceX的火箭设计和任务规划。此次IPO文件披露xAI的财务状况,也反映了SpaceX作为母公司的战略布局——通过公开市场融资支持旗下AI业务的发展。 ## 行业背景 xAI的巨额亏损并非个例。当前,AI行业正处于“烧钱换增长”的阶段,OpenAI、Anthropic等公司同样面临高昂的运营成本。例如,OpenAI在2024年的亏损预计超过50亿美元。xAI的64亿美元亏损进一步印证了AI领域的资本密集型特征。然而,马斯克的野心不止于此:Grok的目标是成为通用人工智能(AGI),这需要持续的大规模投入。 ## 未来展望 尽管亏损巨大,但xAI的扩张计划表明马斯克对AI前景的坚定信心。随着Grok在更多场景中的应用,xAI有望通过商业化实现盈利。然而,短期内,xAI仍需依赖外部融资,包括可能通过SpaceX的IPO获得资金支持。这份文件无疑为投资者提供了重要参考,但也揭示了AI行业的高风险与高回报并存。

TechCrunch13天前原文

英伟达在周三美股盘后公布了截至4月26日的季度财报,再次刷新营收纪录。该季度公司实现 **816亿美元** 营收(环比增长20%),其中数据中心收入达到创纪录的 **752亿美元**。公司同时宣布授权 **800亿美元** 的股票回购计划。 CFO Colette Kress 表示:“我们的 Blackwell 架构无处不在,被所有主要超大规模云服务商、云提供商和主流模型厂商采用。”不过,英伟达预计下一季度营收为 **910亿美元**,增速放缓至12%。在中国出口方面,Kress 指出 H200 芯片虽已获美国出口许可,但尚未产生任何收入,且不确定是否允许进入中国市场。 财报中最引人注目的数字是英伟达对 **非上市公司的持股** 规模。从1月到4月,这一数字从 **220亿美元** 飙升至 **430亿美元**,几乎翻倍。其中 **185亿美元** 为当季新增购买,而上一季度同类购买仅 **6.49亿美元**。该数据不包括英伟达近期对康宁、IREN 等上市公司的投资,也未反映尚未完成的未来承诺。今年2月,英伟达承诺向 OpenAI 投资 **300亿美元**,但交易结构未披露。 在财报电话会上,CEO 黄仁勋强调了英伟达广泛的影响力,包括与 Anthropic 的扩建计划。“我们今年和明年将为 Anthropic 带来相当可观的算力容量,”黄仁勋表示,“此前我们对 Anthropic 的覆盖几乎为零。”

TechCrunch13天前原文

Elon Musk 的 AI 公司 xAI 正因使用污染性发电机而陷入法律纠纷,但最新披露的文件显示,它计划在未来三年内再购买价值 **28 亿美元** 的燃气轮机用于 AI 基础设施。这一消息来自 SpaceX 的 IPO 文件,其中提到 xAI 将采购包括 **20 亿美元移动燃气轮机** 在内的设备——正是当前被起诉的那类发电机。 上个月,NAACP(全国有色人种协进会)对 xAI 提起诉讼,指控其在田纳西州孟菲斯附近的数据中心未经许可运行数十台燃气轮机,加剧了当地空气污染。该地区已是全美污染最严重的区域之一。NAACP 已申请禁令,要求停止使用这些设备。目前 xAI 仅获批 **15 台** 涡轮机的许可,但实际运行数量已达 **46 台**。每台涡轮机每年可排放超过 **2000 吨** 氮氧化物(NOx),这种化学物质会形成诱发哮喘的烟雾。 xAI 辩称,这些发电机属于“移动式”(仍安装在运输拖车上),因此可在 **一年内** 无需许可运行。这一说法利用了州与联邦法规之间的差异:密西西比州不要求为移动发电机发放许可,但联邦法规明确,此类大型涡轮机即使装在拖车上,也须遵守空气污染规定。美国环保署(EPA)今年早些已裁定 xAI 的运营违反联邦法律。 SpaceX 在 IPO 文件中承认了相关风险:“我们目前严重依赖天然气和燃气轮机技术为数据中心供电。” 若禁令生效或许可被撤销,“将对我们的 AI 业务产生不利影响”。 这一事件凸显了 AI 基础设施扩张与环保法规之间的尖锐矛盾。随着大模型训练对算力的需求激增,数据中心能耗和排放问题日益突出。xAI 的做法并非孤例——许多科技公司都在寻求快速部署计算资源,但往往以牺牲环境合规为代价。此次诉讼和后续采购计划表明,xAI 似乎选择优先保障算力供给,而非立即解决污染争议,但法律风险可能迫使其调整策略。

TechCrunch13天前原文

Elon Musk's xAI surprised the AI world when it made a deal to sell compute to Anthropic. Now we know how much it's worth.

TechCrunch13天前原文

在今年的Google I/O主题演讲尾声,Google DeepMind CEO Demis Hassabis面无表情地宣称,公司希望“重新构想药物发现过程,目标是有一天解决所有疾病”。这句话听起来像是“如果属实,那意义重大”的典型例子。Hassabis实际描述的是**Gemini for Science**,一套旨在鼓励研究人员探索和做出新发现的实验性AI工具集。 我经常在《Optimizer》中对AI健康持批评态度,但Hassabis的声明需要更多背景解读。好的科学传播——既让外行人容易理解,又不无意中助长错误信息——已经变得越来越困难。I/O现场的科研人员想必明白,这句话意味着AI的进步大幅缩短了医学发现所需的时间。但对于普通人(甚至科学传播者)来说,它听起来更像是“Gemini将凭借AI的力量治愈所有疾病”。 现实世界中的医学突破并非如此运作。数十年来,AI一直是医学研究和发现不可或缺的一部分。可穿戴设备使用的算法?那是AI。基因组学中的发现?那也是AI。但“解决所有疾病”是一个极其宏大的目标,远非单一技术或工具所能实现。疾病机制复杂,涉及遗传、环境、生活方式等多重因素。即使AI能加速药物筛选、优化临床试验设计,从实验室发现到真正应用于临床,仍需要数年甚至数十年的验证和监管审批。 Hassabis的言论更像是一个**愿景声明**,而非近期可实现的目标。它反映了DeepMind在AI for Science领域的雄心,但也容易引发过度期待。在AI健康领域,我们见过太多类似的“革命性”承诺,最终却未能兑现。例如,从AI诊断工具到个性化健康建议,许多技术仍处于早期阶段,面临数据隐私、算法偏见和临床验证等挑战。 对于消费者而言,重要的是保持理性:AI确实正在改变医疗研究,但它不是万能药。**Gemini for Science**可能帮助科学家更快地发现新靶点、设计新分子,但“解决所有疾病”需要整个科学界的长期努力。Google I/O上的这句豪言,更像是为AI描绘一个美好未来,而非一个具体的路线图。

The Verge13天前原文

OpenAI 宣称其新型推理模型成功证明了一个自 1946 年以来悬而未决的几何猜想。与七个月前 GPT-5 声称解决 10 个 Erdős 问题却遭数学家驳斥的尴尬不同,这次有多位知名数学家为结果背书。 ## 背景:从“翻车”到“翻盘” 去年,OpenAI 前 VP Kevin Weil 曾高调宣布 GPT-5 解决了 10 个 Erdős 问题并取得 11 个进展,随后被数学家指出这些“解决”只是复现了已有文献中的结果,并非原创证明。Yann LeCun 和 Demis Hassabis 等业界领袖纷纷嘲讽,Weil 不得不删除帖子。 ## 这次有何不同? 本次成果针对的是 Paul Erdős 于 1946 年提出的一个几何猜想。OpenAI 表示,其新推出的通用推理模型(非专门为数学设计)独立发现了一类全新的构造,证明“近似正方形网格是最优解”这一近 80 年的信念是错误的。数学家 Noga Alon、Melanie Wood 以及维护 Erdős 问题网站的 Thomas Bloom 均发表了支持性评论。Bloom 曾批评 OpenAI 之前的说法是“严重的误述”,但这次他评价道:“AI 正在帮助我们更全面地探索几个世纪以来建造的数学大教堂。” ## 意义与行业影响 OpenAI 强调,这是 AI 首次自主解决一个领域内的核心开放问题。该模型并非专攻数学,而是通用推理模型,这意味着 AI 已具备**维持长链推理**和**跨领域连接思想**的能力。这种能力可应用于生物学、物理学、工程学和医学等领域。 然而,业界仍需保持审慎:一次成功的验证并不能完全消除对 AI 数学推理可靠性的疑虑。但至少,这次有权威数学家的公开背书,让 OpenAI 的声明有了更坚实的依据。

TechCrunch13天前原文

Linux 创始人 Linus Torvalds 在 Linux 基金会北美开源峰会上坦言,自己对 AI 持有一种“爱恨交织”的态度。他指出,AI 工具在过去六个月显著提升了内核开发提交量(增幅约 20%),降低了新贡献者的入门门槛,但他坚持认为 AI 是“工具而非替代品”,程序员的工作机会不会消失。同时,AI 在安全漏洞的发现与修复方面也带来了新的挑战。

ZDNet AI13天前原文

三星The Frame Pro 85英寸电视今日在三星官网限时特价,直降**1500美元**,仅售**2800美元**。这款画廊风格电视采用哑光显示屏、支持One Connect和艺术模式,适合打造家庭艺术画廊。优惠仅限今天,从三星官网直接购买。

ZDNet AI13天前原文

在构建视觉购物、图像或文档理解、图表分析等应用时,如何验证模型输出是否真正基于源图像是一大挑战。纯文本评估器无法判断描述是否忠实反映图像、提取的发票金额是否与文档一致,或屏幕摘要是否虚构了不存在的按钮。Gartner 预测,到 2030 年,80% 的企业软件将具备多模态能力,而 2024 年这一比例还不足 10%。缺乏自动化多模态评估,企业只能在昂贵的人工审核和不可靠的纯文本代理之间左右为难。 如今,AWS 在 Strands Evals SDK 中推出了四种新的多模态大语言模型(MLLM)作为裁判的评估器,专门用于图像到文本任务:**Overall Quality**(整体质量)、**Correctness**(正确性)、**Faithfulness**(忠实性)和 **Instruction Following**(指令遵循)。每个评估器都会根据源图像对模型输出进行评分。评估器将图像直接发送给多模态裁判模型,同时附上查询、响应以及可选的参考答案。裁判模型返回基于图像的分数以及推理过程字符串,便于调试。 这些评估器可以无缝替换现有 Strands Evals 工作流中的纯文本评估器,并集成到持续集成(CI)中,自动捕捉视觉幻觉、事实错误和指令违规。本文将介绍如何设置这四种多模态评估器并运行图像到文本任务;如何在有参考和无参考评估之间切换;如何为特定领域标准编写自定义多模态评估标准;如何在 Amazon Bedrock 上选择平衡准确性、成本和延迟的裁判模型;以及如何应用提示设计选择来提升评估器与人类判断的一致性。 ## 设置与使用 首先,确保已安装 Python 3.10 或更高版本。通过 Strands Evals SDK 可以快速调用这些评估器。示例代码如下: ```python from strands_evals import MultimodalEvaluator evaluator = MultimodalEvaluator( judge_model="anthropic.claude-3-sonnet-20240229-v1:0", evaluator_type="faithfulness" ) result = evaluator.evaluate( image_path="invoice.jpg", query="提取发票总金额", response="总金额为 $123.45", reference="$123.45" # 可选 ) print(result.score, result.reasoning) ``` ## 自定义多模态评估标准 若需针对特定领域制定标准,可编写自定义评估标准。例如,在医疗影像报告中,可以定义“报告必须描述病变位置和大小”等规则,评估器将据此打分。 ## 选择裁判模型 Amazon Bedrock 提供了多种多模态模型,如 Claude 3 Sonnet、Claude 3 Haiku 等。**Claude 3 Sonnet** 在准确性和延迟之间取得了良好平衡,适合大多数场景;而 **Claude 3 Haiku** 则更注重成本效益。用户可根据任务需求灵活选择。 ## 提示设计技巧 实验表明,在提示中加入“逐步推理”指令(如“请先描述图像内容,再评估回答”)可以显著提升评估器与人类判断的一致性。此外,明确要求模型输出评分理由,有助于调试和审计。 通过引入多模态评估器,开发者可以更可靠地自动化评估图像到文本任务的输出质量,减少人工干预,加速 AI 应用的落地。

AWS ML13天前原文