SheepNav

AI 资讯

每日聚合最新人工智能动态

临床AI系统依赖多模态生理数据,但传感器在实际应用中频繁失效。现有基准缺乏对多种融合架构在两类缺失模式下的系统评估。为此,研究者提出了 **MuteBench**——一个覆盖 7 个临床领域、9 个数据集、6 种融合架构和 125,000 个样本的基准,专门评估模型在**模态缺失**(整个通道丢失)和**模态内缺失**(连续时间片段丢失)下的鲁棒性。 ### 核心发现 - **架构族是鲁棒性的最强预测因子**,其影响远超参数量。**通道独立模型**(如处理各模态独立分支的架构)对模态缺失容忍度高,但对模态内缺失敏感,尤其在短序列上。 - **课程式模态丢弃**(训练中逐步增加丢弃率)仅在丢弃率不超过训练最大值时可靠。 - **通道数、序列长度和模态对齐方式**共同决定哪种缺失模式更具威胁。 ### PTB-XL案例研究 在 PTB-XL 心电图数据集上的实验表明,**基于扩散的插补**可改善模态内缺失下的下游分类性能,尤其对**专家路由机制**对损坏输入敏感的那些模型提升最大。不过,该结论在更广泛数据集上的泛化性仍需验证。 ### 实际意义 MuteBench 为从业者提供了具体指导:在选择现有架构时,应优先考虑架构族而非参数量;在训练策略上,课程式模态丢弃需谨慎设置最大丢弃率;在缺失处理上,扩散插补是值得探索的方向。该基准也为设计更鲁棒的多模态融合方法提供了评估框架。

HuggingFace1个月前原文

arXiv:2605.15242v1 Announce Type: new Abstract: The reliability of Healthcare Information Systems (HIS) is frequently compromised by human-induced data entry errors, which existing statistical anomaly detection methods fail to distinguish from legitimate clinical extremes. This paper proposes Logic-GNN, a novel neuro-symbolic framework that treats clinical records as a structured ``private language'' governed by latent logical games. By integrating Temporal Graph Neural Networks (TGNN) with Grap

HuggingFace1个月前原文

## 背景与问题 在大语言模型(LLM)驱动的Agent系统中,**技能(skills)** 已被广泛用于赋予模型处理特定任务的能力。现有框架通常将技能以上下文形式注入Agent的推理循环:当运行时任务匹配到某个技能后,整个技能内容被作为提示词送入模型,随后模型进行推理和规划。然而,这种方式带来了**两大冗余问题**:一是注入大量与当前任务无关的上下文,二是每次执行都需要重复进行技能相关的推理与规划,导致Token消耗高、推理延迟大。 ## 核心思路:边界优先的编译-运行时框架 针对上述问题,来自上海交通大学等机构的研究者提出了 **SkillSmith**,一种创新的**边界优先(boundary-first)编译-运行时框架**。其核心思想是:**在离线阶段将技能包编译为最小化的可执行接口**,而非在运行时直接投喂原始技能文本。 具体而言,SkillSmith 首先从技能中提取**细粒度的操作边界(operational boundaries)**——即技能中每个步骤的输入、输出、前置条件与后置条件。然后,将这些边界编译为轻量级的运行时接口。在运行时,Agent 只需动态访问和执行与当前任务相关的接口组件,**无需加载整个技能上下文**,也无需重复进行技能层面的推理规划,从而大幅减少不必要的上下文注入和推理开销。 ## 性能提升:Token消耗减半,推理速度翻倍 在研究者构建的 **SkillsBench** 基准上,SkillSmith 与直接使用原始技能(raw-skills)的方案进行了对比。结果显示: - **求解阶段Token用量减少 57.44%** - **思考迭代次数减少 42.99%** - **求解时间缩短 50.57%(加速2.02倍)** - **按Token计费的货币成本降低 57.44%** 这些数据充分证明了 SkillSmith 在效率优化上的显著优势。 ## 额外亮点:跨模型复用与能力迁移 更引人注目的是,SkillSmith 编译后的制品(compiled artifacts)**可以被不同模型复用**。例如,由更强模型(如GPT-4)编译得到的接口,可以被更小或更高效的运行时模型(如Llama 3)直接调用,甚至在原始技能无法被小模型正确解读的情况下,仍能保持较高的任务准确率。这意味着 SkillSmith 不仅优化了单次执行效率,还为**模型间的技能迁移**提供了可行路径,降低了 Agent 系统对大型模型的过度依赖。 ## 总结与展望 SkillSmith 从一个细微但关键的视角切入——**技能的使用方式**——并提出了“边界优先编译”这一优雅的解决方案。它不改变技能本身的内容,而是通过重新组织技能的表示与调用方式,实现了效率的大幅提升。这种思路对于构建大规模、低成本的Agent系统具有重要价值。未来,该框架或许能进一步扩展到多技能协作、动态技能组合等更复杂的场景。 论文及代码已公开,感兴趣的读者可访问 arXiv 或项目仓库获取更多细节。

Anthropic1个月前原文

大型语言模型(LLM)的安全对齐往往以牺牲推理能力为代价,这一现象被称为“安全税”(safety tax)。最新研究指出,传统监督微调中使用的离线策略(off-policy)训练是导致这一权衡的重要原因。来自多所机构的研究团队提出了**OPSA(On-Policy Self-Distillation for Safety Alignment)**方法,通过在线策略自蒸馏有效改善了安全与推理的平衡。 ## 安全税的来源 安全对齐通常通过人类标注、外部模型或固定自生成轨迹的安全示例进行监督微调。然而,这些示例并非来自目标模型自身的策略分布,导致**分布不匹配**。研究团队发现,这种离线策略训练是安全税的第二大来源。模型在推理时面对的是自己生成的轨迹,而非训练时看到的固定示例,因此难以泛化。 ## OPSA的核心机制 OPSA让模型生成自己的展开轨迹(rollouts),并从自身的一个冻结教师副本接收密集的逐token KL散度监督。这个教师副本在训练时被赋予一个“特权安全上下文”(privileged safety context),使其能够比学生轨迹更安全。关键创新在于引入了**教师翻转率(teacher flip rate)**指标:衡量特权上下文将不安全响应转换为安全响应的频率。通过这个信号,可以自动搜索能激活模型内在安全推理能力的上下文,而非仅仅诱发表面安全的行为。 ## 实验效果 在两组推理模型家族(R1-Distill和Qwen3)及五个模型规模上,OPSA在相同数据和全参数微调条件下,**显著优于**离线自蒸馏和外部教师蒸馏方法。尤其在小模型上提升明显: - R1-Distill-1.5B:安全评分提升 **+8.85** 点 - Qwen3-0.6B:安全评分提升 **+5.49** 点 这些优势在不同训练集大小和自适应越狱评估中均保持稳定。 ## 机制分析 逐token分析表明,OPSA的更新主要集中在早期的“合规决策token”(compliance-decision tokens)附近。这意味着模型在决定是否服从恶意请求的关键节点上得到了强化,从而在不干扰后续推理过程的前提下提升安全性。这解释了为何OPSA能在保持推理能力的同时增强安全对齐。 ## 行业意义 安全税一直是LLM部署中的核心痛点:过于保守的模型可能拒绝合理请求,而过于开放的模型则易受攻击。OPSA提供了一种无需外部教师或复杂数据收集的轻量级方案,尤其适合资源受限的小模型场景。未来,结合在线策略的自我改进方法可能成为安全对齐的主流方向。

HuggingFace1个月前原文

## 简介 多智能体编排框架如 LangChain、LangGraph 和 CrewAI 通过基于图的流水线路由任务,但未能强制执行真实业务流程中的阶段约束。针对这一痛点,研究人员提出了 **SDOF(State-Constrained Dispatch Orchestration Framework)**,将多智能体执行视为一个受约束的状态机,通过两层防御机制实现可控、可审计的任务调度。 ## 核心机制 SDOF 由三个组件构成: - **在线 RLHF 专用意图路由器(Online-RLHF Specialized Intent Router)**:通过生成式奖励建模(GRPO)训练,用于准确识别用户意图并路由到合适的工作流。 - **状态感知调度器(StateAwareDispatcher)**:内置**目标阶段(GoalStage)**有限自动机检查,确保任务按预定义状态转移执行。 - **技能注册表验证(SkillRegistry)**:验证前置条件/后置条件,提供可审计的执行控制。 这两个防御层协同工作,防止非法操作和状态冲突,从而降低“对齐税”——即通用智能体在开放环境中因缺乏约束而产生的偏差成本。 ## 实验验证 研究团队在 **北森 iTalent 平台**(服务 6000+ 企业)的招聘系统上进行了评估: - **185 个专家策划的场景** 触发 **1671 次实时 API 调用**。 - 在 FSM 约束的对抗性路由基准上,使用 **GSPO 对齐的 7B 意图路由器** 达到了 **80.9% 的联合准确率**,而零样本 GPT-4o 仅为 **48.9%**。 - 端到端执行中,SDOF 实现了 **86.5% 的任务完成率**(95% 置信区间 80.8–90.7),并 **阻止了所有 22 个注入和非法 HR 子集操作**。 - 在更广泛的消息级审计中,SDOF 的精确率为 **100%**,召回率为 **88%**,专家一致性 kappa 值为 **0.94**。 此外,在涵盖 8 个服务领域的 **960 个 SGD 派生对话** 上,SDOF 的 FSM 映射发现了 **201 个阶段顺序冲突**,其中 41 个出现在正常分割中。 ## 行业意义 SDOF 的提出为多智能体系统在复杂业务场景中的落地提供了新思路。通过将状态机约束引入编排层,它有效平衡了智能体的灵活性与业务规则的刚性需求。对于企业级应用(如招聘、客服、审批流程),这种受约束的调度能显著降低错误率和安全风险,同时保持较高的任务完成质量。 当前版本为 arXiv 预印本,后续将发布多种子训练对比和更深入的工作流评估。

Anthropic1个月前原文

## 当 AI 不再只“做”幻灯片,而是“教”你演讲 学术交流的核心是“讲”,而不仅仅是“看”。然而,现有的 AI 幻灯片生成工具大多聚焦于产出视觉上合理的演示文稿(artifact),却严重忽略了演讲过程中的节奏把控、叙事逻辑和排练支持这一整套交付体验。近日,一篇发表于 arXiv 的论文提出了 **DeepSlide**,一种全新的人机协同多智能体系统,旨在覆盖从需求分析、时间预算叙事规划,到基于证据的幻灯片与脚本生成、注意力增强及排练支持的全流程。 ## 从“做 PPT”到“准备一场演讲” DeepSlide 的核心设计理念是“交付优先”。它并非简单生成静态的幻灯片,而是将整个演讲准备过程拆解为几个关键步骤,并通过多个智能体协作完成: 1. **可控的逻辑链规划器**:首先,系统会根据用户提供的主题和时长要求,生成一个带有每个节点时间预算的叙事逻辑链。这意味着,系统会主动规划哪部分内容该讲多久,确保整体节奏合理。 2. **轻量级内容树检索器**:为了确保内容有据可依,该组件会从用户提供的资料或知识库中检索相关证据,将幻灯片和脚本“扎根”于真实信息,避免 AI 常见的“幻觉”和空洞表述。 3. **马尔可夫式顺序渲染**:系统采用类似马尔可夫链的渲染方式,在生成连续的幻灯片时自动继承样式和布局,保证视觉风格的一致性。 4. **沙盒执行与最小修复**:在最终输出前,系统会在沙盒环境中验证幻灯片的可渲染性,并对潜在错误进行最小化修复,确保用户拿到的是可直接使用的文件。 ## 双维度评估:不只比“好看”,更比“好讲” 为了全面衡量系统性能,研究团队提出了一个**双记分板评估框架**,将静态的幻灯片质量(artifact quality)与动态的演讲交付质量(delivery excellence)分开评测。实验覆盖了 **20 个不同领域**和多种受众画像,结果显示:DeepSlide 在幻灯片本身的视觉质量上与现有强基线模型(如基于大语言模型的生成器)持平,但在**叙事流畅性、节奏精准度、幻灯片与脚本的协同度以及注意力引导清晰度**等交付指标上,取得了显著优势。 ## 对 AI 辅助创作行业的启示 DeepSlide 的出现,标志着 AI 辅助创作工具从“内容生成”向“体验设计”的范式转变。传统的幻灯片生成器往往只关注“产出物”,而忽略了“使用场景”。DeepSlide 通过将**时间预算、叙事规划和排练支持**纳入系统核心,实际上是在模拟一位经验丰富的演讲教练。对于科研人员、教师和职场人士而言,这类工具不仅能节省制作时间,更能提升演讲的实际效果,让 AI 真正成为“表达伙伴”而非“排版工具”。 当然,DeepSlide 目前仍处于学术研究阶段,其实际应用效果还需更大规模的用户测试来验证。但这一方向无疑为 AI 在知识传播领域的应用提供了新的思路:**最好的辅助,是让你在台上讲得更精彩,而不是让你在台下改得更辛苦。**

Anthropic1个月前原文

大型语言模型在MAPDL有限元仿真中面临可靠性挑战:缺乏结构化执行控制、工具封装和故障恢复时,输出不一致且任务失败频发。CAX-Agent通过领域特定的编排中间件解决这一问题,该中间件管理工具生命周期、工作流状态和恢复升级。本文介绍CAX-Agent的架构,并将其三层结构(LLM服务、智能体框架、求解器后端)与恢复阶梯(从确定性规则修补、模型驱动重生成到上下文丰富和人工干预)结合。基于50个标准结构基准的评估显示,**模型驱动恢复策略(model_only)** 在任务完成率(0.9267)、任务得分(3.59/4)、总分(9.16/10)和零干预率(0.84)上显著优于规则驱动恢复(rule_only)和无恢复(no_recovery),效应量大(Cliff's delta = 0.81–0.87)。该研究为LLM在工程仿真自动化中的可靠部署提供了实用方案。

Anthropic1个月前原文

## 从转录组到分子:一种全新的药物设计范式 传统药物研发往往依赖于已知的靶点蛋白三维结构,但许多疾病(如复杂神经退行性疾病或癌症)的靶点结构难以获得,或表型源于多条信号通路的失调。在此背景下,一项来自中科院等机构的研究提出了**转录组药物设计(TBDD)**框架,将药物发现重新定义为**生成式逆问题**:根据期望的转录组状态转变来设计药物分子。 ## 挑战:跨模态鸿沟与数据稀疏性 该研究指出,TBDD本质上是一个**病态问题**——相同的转录组变化可能对应多种分子结构,而生物学与化学之间巨大的“领域鸿沟”以及转录组信号的高稀疏性,使得直接学习映射关系极为困难。现有方法往往忽略这些挑战,导致生成分子在功能一致性上表现欠佳。 ## CURE框架:多分辨率转录组引导扩散模型 为解决上述难题,团队提出了**CURE(Cellular Response Engine)**,一种多分辨率转录组引导的扩散模型。其核心组件是**转录组扰动功能特征提取器(TFE)**,它包含三个关键步骤: 1. **功能导向扰动嵌入**:从药物处理前后的转录组状态中提取与功能相关的特征表示; 2. **跨模态对齐**:将这些生物学特征与化学分子视图(如分子图、SMILES序列)进行对齐,弥合生物-化学鸿沟; 3. **异质性感知聚合**:从噪声转录组数据中提取稳健的状态特异性信号,降低批次效应和个体差异的影响。 ## 实验结果:结构质量与功能一致性双提升 在标准基准测试和严格的**分布外(OOD)协议**下,CURE在分子结构质量(如有效性、新颖性)和功能一致性(如转录组预测匹配度)上均显著优于现有基线模型。此外,研究团队通过一个**零样本基因抑制剂设计任务**验证了其实用价值——模型无需针对特定基因重新训练,即可直接生成能抑制该基因表达的候选分子,展示了表型驱动生成发现的潜力。 ## 行业意义:当AI开始“读”细胞 这项研究标志着AI药物设计从“结构导向”迈向“功能导向”的关键一步。传统基于结构的药物设计(SBDD)受限于靶点结构数据,而转录组数据在公共数据库中大量积累(如LINCS、CMap项目)。CURE框架有望利用这些数据,在靶点未知或通路复杂的情况下加速先导化合物发现。 不过,该研究仍处于理论验证阶段,其生成分子的实际药效和毒性仍需湿实验验证。未来,如何将转录组动态变化与多模态数据(如蛋白质组、代谢组)融合,将是提升模型泛化能力的重要方向。

HuggingFace1个月前原文

## 公众与专家的AI信任鸿沟:谁在掌控未来? 最新研究显示,美国公众对人工智能的信任度跌至新低。皮尤研究中心(Pew Research Center)上周发布的两份报告揭示了AI从业者与普通民众之间日益扩大的认知鸿沟:专家乐观,公众焦虑,且对监管体系普遍缺乏信心。 ### 信任危机:数据揭示的裂痕 调查覆盖了超过1,000名AI专家和5,000名美国成年人。核心发现令人警醒:约**75%的AI专家**认为技术将为他们个人带来好处,但只有**25%的公众**持相同看法。在就业影响上,专家倾向于认为AI会改善工作,而公众则担心自己的工作会被取代。 更根本的信任问题在于:**超过半数的受访者**(无论专家还是公众)都希望对自己生活中AI的使用方式拥有更多控制权。同时,多数人表示**不信任政府或私营公司**能够负责任地监管AI。 ### 监管失效:国会听证的尴尬 公众对政府监管能力的不信任并非空穴来风。报告引用了一位学术专家的评论:“看看那些国会听证会……他们根本不懂。我不确定他们能否聘请足够的专家来理解并监管AI,但这非常重要。”长期以来,美国国会在科技监管上表现乏力,听证会常沦为作秀——立法者甚至对《通信规范法》第230条等基本概念都显得生疏。 ### 性别差异:男性专家更乐观 数据还揭示了性别差异。男性AI专家对未来的乐观程度显著高于女性同行,这种差异在公众群体中同样存在。这或许反映了科技行业内部的多样性问题,也可能影响AI产品在开发过程中的价值取向。 ### 失控感:普通人无力参与决策 **近60%的美国成年人**表示,他们对AI是否被应用于自己的生活几乎没有控制权。即使是在专家群体中,这个数字也不容乐观。当科技领袖——如OpenAI CEO Sam Altman——高调宣称“2025年首批AI代理将‘加入劳动力大军’并实质性改变公司产出”时,普通人的感受却是被动接受,而非主动选择。 ### 小结 这份报告勾勒出一个令人不安的图景:AI的发展速度远超公众的理解和信任水平,而监管体系又未能有效填补这一真空。如果科技行业不主动建立更透明的沟通机制和包容性的决策流程,公众的焦虑与不信任将继续发酵,最终可能反噬技术本身的健康发展。

Hacker News1331个月前原文

如果你一直想尝试寻宝探险,现在可能是入手金属探测器的最佳时机。亚马逊上的一款金属探测器套装正在以**60美元折扣**促销,对于2026年的智能购物者来说,这是一个极具吸引力的选择。 这款金属探测器专为业余爱好者和初学者设计,配备了多种功能,让寻宝变得简单有趣。套装包含探测器主机、可调节探杆、耳机以及携带包,开箱即用。它具备**防水探测线圈**,可以在浅水区或潮湿沙地上使用,非常适合海滩寻宝。此外,设备支持**多种探测模式**,可区分不同金属类型,减少误报。 为什么说这是2026年的明智之选?首先,金属探测技术近年来不断进步,入门级设备已经具备了以前高端型号才有的功能,如**数字目标识别**和**深度指示**。这款探测器在性能和价格之间取得了良好平衡。其次,随着户外活动兴起,金属探测成为一种既有趣又能锻炼身体的休闲方式。无论是在自家后院寻找丢失的硬币,还是在海滩上搜索历史遗物,这款设备都能带来乐趣。 从AI行业背景来看,虽然金属探测器本身并非AI产品,但现代探测技术正逐渐融入智能算法。例如,一些高端型号使用机器学习来优化信号处理,提高目标识别准确率。不过,这款入门级设备更注重实用性和性价比。 总之,如果你对寻宝感兴趣,又不愿投入过多预算,这款折扣中的金属探测器套装值得考虑。它提供了必要的功能,价格亲民,是2026年探索户外的好伙伴。

ZDNet AI1个月前原文

Bose 在停产 SoundTouch 系列数月后,推出了 Lifestyle Ultra 系列,包括条形音箱、低音炮和一款智能音箱。其中,智能音箱成为最引人注目的产品。它支持原生 Android 和 iOS 投屏,设计现代,音质出色,但价格高于部分竞品,且更偏重 Bose 自家空间音频而非 Atmos。ZDNET 编辑 Jada Jones 在评测中发现,这款音箱能与 Sonos Era 100 在同一个家中和平共处,互不干扰,展现了 Bose 在多元生态下的兼容性和灵活性。 ## 设计与兼容性 Lifestyle Ultra 智能音箱采用 sleek 现代设计,可无缝融入各种家居风格。它支持原生投屏,无论是 Android 还是 iOS 用户都能轻松播放音乐。更令人惊喜的是,它并未刻意封闭生态,而是允许用户同时使用 Sonos 等其他品牌音箱,这打破了以往“全家桶”的固有思维。 ## 音质与功能 在音质方面,Bose 延续了其一贯的饱满和清晰度,低音有力,中高音通透。不过,它更倾向于推广 Bose 自家的空间音频技术,而非行业标准的 Dolby Atmos,这可能会影响部分用户的体验。此外,其定价高于同类竞品,但考虑到品牌和做工,仍具竞争力。 ## 小结 Bose Lifestyle Ultra 智能音箱是一款兼具颜值和实力的产品,尤其适合那些不想被单一品牌绑定的用户。它与 Sonos 设备的共存能力,为多音箱家庭提供了更多选择自由。

ZDNet AI1个月前原文

Bose 最新推出的 **Lifestyle Ultra 回音壁** 试图在竞争激烈的家庭影院市场重新定义自己。经过数周的实际使用,这款产品在设计和功能上确实有不少亮点,但它的表现能否真正挑战像 **Sonos Arc** 这样的市场标杆? ### 设计与做工:Bose 的经典美学 Lifestyle Ultra 延续了 Bose 一贯的精致设计语言,机身采用金属与织物结合,线条流畅,能够很好地融入现代家居环境。相比 Sonos Arc 的极简风格,Bose 更注重细节质感,比如隐藏式接口和更薄的机身。不过,它的体积略大,对于小尺寸电视可能显得有点突兀。 ### 音质表现:优点与短板同样明显 在音质方面,Lifestyle Ultra 展现了 Bose 的技术底蕴。**中高频清晰通透,人声对白还原自然**,非常适合观看电影和电视剧。同时,它支持 **Dolby Atmos**,能够营造出不错的沉浸式声场。 但问题出在低频控制上。**当音量调高时,低音会变得有些失控**,出现轰头感,这对于追求震撼体验的用户来说是一个缺点。相比之下,Sonos Arc 的低音更紧实,整体声音均衡性更好。 ### 功能与生态:Google Cast 是亮点 Bose 在软件方面做了不少努力。Lifestyle Ultra 内置 **Google Cast**,可以方便地通过手机流媒体播放音乐,同时支持 **AirPlay 2**。Bose Music 应用的体验流畅,设置过程简单,多房间同步功能也很实用。不过,它缺少像 Sonos 那样成熟的语音助手集成和丰富的流媒体服务支持。 ### 价格与市场定位:稍显尴尬 **售价 999 美元** 的 Lifestyle Ultra 直接对标 Sonos Arc(899 美元)和 Samsung HW-Q990C 等产品。虽然 Bose 的品牌和设计加分,但考虑到音质上的不足和相对有限的功能生态,这个定价显得有些偏高。如果你追求全面的音质表现和智能生态,Sonos Arc 依然是更稳妥的选择;但如果你偏爱 Bose 的设计和 Google Cast 的便利,Lifestyle Ultra 也值得考虑。 ### 总结 Bose Lifestyle Ultra 回音壁是一款有诚意的产品,但它并没有在竞争中形成绝对优势。它在设计、中高频表现和软件体验上做得很出色,**低频失控和价格偏高** 是主要短板。对于 Bose 粉丝或需要 Google Cast 的用户来说,它是一个不错的选择;但对于大多数消费者,建议先对比其他竞品再决定。

ZDNet AI1个月前原文

在众多扫地机器人品牌中,Roborock 和 Ecovacs 始终是市场领先的选择。本文基于长期测试,从清洁性能、智能功能、导航技术、价格等维度对两大品牌进行深度对比,帮助读者根据自身需求做出明智决策。

ZDNet AI1个月前原文

据彭博社马克·古尔曼报道,苹果将在6月全球开发者大会上发布全新Siri,隐私保护将是重要主题。新版Siri将推出独立应用,由谷歌Gemini驱动,提供类似ChatGPT的聊天体验,但会限制用户数据的使用和存储时间。例如,Siri可让用户选择自动删除聊天记录的时间选项(30天、一年或永久保留)。古尔曼指出,苹果可能以隐私为理由解释Siri与竞品的差距,但这可能掩盖谷歌处理部分安全细节的事实。

TechCrunch1个月前原文

在马斯克诉OpenAI案的庭审尾声,一个核心问题浮出水面:OpenAI CEO萨姆·奥尔特曼是否值得信任?本案焦点在于OpenAI向营利性组织转型是否违规,但双方律师的结案陈词反复围绕奥尔特曼的可信度展开。马斯克律师史蒂夫·莫洛质询奥尔特曼在国会证词中的真实性,而奥尔特曼本人也承认自己“回避冲突”,有时会说出对方想听的话。然而,TechCrunch播客主持人指出,信任问题不仅限于奥尔特曼——马斯克本人也曾发表误导性言论。在AI行业,所有实验室都面临信任赤字,因为私营公司缺乏透明度,外界难以洞察其内部运作。庭审揭示了一个更深层的行业困境:当技术影响力日益扩大,公众、政策制定者和投资者却只能依赖对领导者个人品格的判断。 ## 信任的裂痕 奥尔特曼的“回避冲突”性格被反复提及。他承认自己倾向于告诉人们他们想听的答案,这可能导致误解。但批评者认为,这种模式在关键时刻可能演变为更大的问题——例如OpenAI董事会去年试图罢免他的“The Blip”事件,正是源于对其领导风格的深层不信任。 ## 双重标准? 值得注意的是,马斯克一方也并非毫无瑕疵。Kirsten Korosec指出,马斯克本人曾多次做出误导性陈述。因此,这场庭审不仅是关于奥尔特曼的诚信,更是对整个AI行业“黑箱”运作的拷问。当所有实验室都是私营公司,外界缺乏洞察时,信任就成了唯一的杠杆。 ## 行业启示 这场庭审的判决尚待陪审团决定,但它已经揭示了AI行业的一个核心矛盾:技术越强大,公众越需要透明度和可信赖的领导者。然而,在缺乏监管和公开审计的情况下,信任只能建立在个人声誉之上——这本身就是一个脆弱的基石。

TechCrunch1个月前原文

据彭博社 Mark Gurman 报道,计划在 **iOS 27** 中推出的新版 Siri 将首次提供聊天记录自动删除选项。用户可选择将对话保存 **30 天、一年或永久保留**。这一举措与当前主流 AI 聊天机器人普遍仅提供临时无痕模式形成鲜明对比。 苹果正试图将自身在隐私保护方面的长期积累转化为 AI 领域的差异化优势。随着公众对 AI 数据安全的焦虑加剧,苹果认为部分用户愿意为更高隐私标准而牺牲一定便利性。尽管苹果已与 Google 达成合作,在众多底层组件中采用 **Gemini 技术**,但其策略并非全面追赶竞品,而是将 **Apple Intelligence** 的某些“弱点”重新包装为卖点。 Gurman 指出,当前主流 AI 聊天机器人高度依赖历史记录和记忆系统来个性化回复、优化后续交互。但苹果将严格限制记忆功能的工作方式,包括明确哪些信息可以持久保存以及保存时长。这种“有限记忆”设计旨在降低数据泄露风险,并给予用户更清晰的控制权。 对于长期在 AI 领域落后的苹果而言,隐私牌能否真正赢得用户信任仍是未知数。但这一决策至少表明,苹果无意在数据收集维度上参与军备竞赛,而是希望开辟一条更注重用户主权的发展路径。

The Verge1个月前原文

上周五,在亚利桑那大学的毕业典礼上,前谷歌CEO埃里克·施密特(Eric Schmidt)的演讲遭遇了尴尬一幕:当他大谈人工智能(AI)时,台下学生多次发出嘘声。据Business Insider报道,施密特在演讲中承认了毕业生对就业市场的焦虑,称“机器来了、工作消失了、气候在崩溃、政治分裂、你们继承了一个烂摊子”这些担忧是“合理的”。但他显然对学生的反应感到沮丧,在讲台后局促不安地请求观众让他把话说完。 施密特随后抛出了那句经典言论:“当有人给你火箭船的座位时,别问坐哪儿,先上去再说。”这种论调并不意外——毕竟他在去年还称AI“被低估了”。但这又一次暴露了硅谷精英与现实脱节的问题。公众对AI的抵触情绪日益高涨,而科技公司仍在强行将AI塞进生活的每个角落。 值得注意的是,部分学生的嘘声还指向施密特本人:去年他曾被指控性侵。这场毕业演讲的冲突,折射出AI热潮与普通民众,尤其是即将步入职场的年轻人之间的深刻裂痕。

Hacker News1031个月前原文

正值毕业季,几位演讲嘉宾发现,要让毕业生对人工智能塑造的未来感到兴奋,实在不容易。上周,房地产公司Tavistock Development的高管Gloria Caulfield在中央佛罗里达大学的演讲中承认,我们生活在一个“深刻变革”的时代,这既“激动人心”又“令人生畏”。当她宣称“人工智能的崛起是下一次工业革命”时,台下的学生开始发出嘘声,声音越来越大,直到Caulfield笑着转向其他演讲者问道:“怎么了?”她随后试图继续演讲,说“就在几年前,AI还不是我们生活的因素”,但再次被观众的欢呼和掌声打断。前谷歌CEO Eric Schmidt在亚利桑那大学的演讲中也遭遇了类似反应。据当地新闻报道,嘘声在Schmidt上台前就开始了。当他告诉学生“你们将帮助塑造人工智能”时,也遭到了强烈的嘘声。Schmidt试图盖过嘘声,坚持道:“现在你可以组建一个AI代理团队,帮助你完成那些你永远无法独自完成的部分。当有人给你火箭飞船上的座位时,不要问哪个座位,直接上去。”不过,AI并非在所有毕业典礼上都成为禁忌话题。英伟达CEO黄仁勋最近在卡内基梅隆大学的毕业典礼上发言,当他说AI“重新定义了计算”时,似乎没有遇到任何明显的反对。然而,一些学生对此表示不满并不令人惊讶。最近的盖洛普民调显示,在15至34岁的美国人中,只有43%的人认为在当地找到好工作是好时机,较2022年的75%大幅下降。这种悲观情绪并非完全是对AI崛起的反应,但记者兼科技行业评论家Brian Merchant指出,对许多学生来说,AI是就业市场不确定性的象征。

TechCrunch1个月前原文

## 快讯:加拿大 Bill C-22 法案威胁端到端加密,强制留后门 加拿大正在审议的 **Bill C-22** 法案引发隐私权争议。该法案要求所有即时通讯应用必须为政府提供“第二把钥匙”,即技术上需具备解密能力,否则将面临罚款。目前,像 Signal、Apple 等公司已明确反对,认为此举将直接破坏端到端加密(E2EE)的根基。 ### 核心变化:从“仅你可见”到“政府可阅” 当前,端到端加密确保只有通讯双方能阅读消息内容,即便是服务提供商也无法解密。若法院要求调取内容,Signal 等公司“无物可交”。黑客入侵服务器也只能得到加密噪音。 若 Bill C-22 通过,情况将彻底改变: - 服务商必须保留解密能力,政府可要求提供内容。 - 拒绝配合将面临巨额罚款。 - 黑客一旦找到后门入口,便能畅通无阻地访问所有用户数据。 ### 被忽视的元数据留存条款 除了加密争议,该法案还包含更隐蔽的 **元数据留存** 要求。所谓元数据,不仅包括通话对象、时长,还涉及位置、设备信息、网络路径等。长期积累的元数据可以拼凑出个人的完整生活轨迹:信任关系、作息地点、社交网络等。 目前,服务商仅因业务需要保留有限元数据,且大多不收集详细的传输数据。但 Bill C-22 将强制更广泛、更长期的留存,被隐私专家 Michael Geist 称为“政府可部署的最具侵入性的隐私工具之一”。 ### 行业与政府的博弈 苹果、Signal 等公司认为,即使法案不明确要求“破解加密”,但强制建立解密能力本质上等同于要求后门。政府则主张这是为了打击犯罪和保护国家安全。双方在技术定义和法律解释上存在根本分歧。 ### 时间紧迫:公众需立即行动 法案预计在 2026 年 5 月前完成审议,当前仅剩数日、数小时窗口期供公众表达意见。隐私倡导者呼吁用户联系议员,反对这项可能永久改变数字隐私格局的立法。 **小结**:Bill C-22 一旦通过,将从根本上削弱加拿大用户的加密通讯隐私,并建立广泛的元数据监控体系。这不仅是加拿大国内问题,也可能成为全球加密监管的风向标。

Hacker News981个月前原文

汽车行业正经历一场由AI驱动的深刻变革——这不仅意味着技术进步,更是一场就业市场的重新洗牌。通用汽车(GM)近期裁减了其IT部门超过10%的员工,约600名受薪员工,理由是为了进行“技能置换”。公司明确表示,这些岗位空缺将优先招募具备AI背景的人才,包括AI原生开发、数据工程与分析、云工程、代理与模型开发、提示工程以及新型AI工作流等方向。 这种“用AI人才替换传统IT员工”的策略并非通用独有。据CNBC统计,福特、通用和Stellantis三家汽车巨头自本世纪就业高峰以来,已累计削减超过2万个美国受薪岗位,占其总员工数的19%。虽然裁员原因多种多样,但技术变革——尤其是AI的渗透——是核心驱动力之一。 然而,并非所有企业都清楚如何有效利用AI。一些工程师和创始人的反馈表明,许多公司在AI应用上仍处于摸索阶段。但也有成功案例:物联网公司Samsara利用其安装在数百万辆卡车上的摄像头收集的海量数据,训练出能够检测路面坑洼并评估其恶化速度的模型。该产品已向城市政府推销,并已与芝加哥等多个城市签订合同。 这场AI技能军备竞赛正在重塑汽车行业的就业格局。一方面,传统岗位被削减;另一方面,对AI专业人才的需求急剧上升。但值得注意的是,裁员与招聘并非一比一置换,这意味着净就业岗位很可能会减少。对于从业者而言,掌握AI技能已从“加分项”变为“生存项”。 未来,汽车行业的技术竞争将更多体现在数据、算法和AI应用能力上。企业需要在人才战略上做出果断调整,而个人则需要主动拥抱技能升级。这场变革才刚刚开始。

TechCrunch1个月前原文