SheepNav
新上线今天0 投票

亨廷顿银行:借助 AWS 从 4 亿+ 文档中智能脱敏,处理时间从数年缩短至数月

面对超过 4 亿份、积累近十年的海量文档,如何高效识别并脱敏其中的敏感客户数据,同时满足 PCI DSS 等合规要求?美国前十大银行亨廷顿银行(Huntington Bank)通过构建基于 AWS 的可扩展工作流,将原本预计耗时数年的处理任务缩短至数月完成,且脱敏准确率达到 95% 以上。

挑战与需求

自 2015 年起,亨廷顿银行的文档管理系统已在本地安全存储了数亿份文档。2025 年,作为一项主动合规计划的一部分,银行决定对这些文档进行全面处理,脱敏其中的个人身份信息(PII)和支付卡行业数据(PCI)。文档格式多样,需要灵活处理方案,同时还要具备处理数百万份文档的高吞吐量。

核心需求包括:

  • 数据在传输和存储中必须加密
  • 数据访问和存储位置需满足严格访问要求
  • 所用服务必须在 PCI DSS 合规范围内
  • 脱敏结果需复制回本地数据存储
  • 脱敏准确率不低于 95%

解决方案架构

亨廷顿银行设计了一套可扩展的脱敏工作流,核心组件包括:

  • Amazon Textract:从文档中提取文本和结构
  • Amazon SageMaker:用于运行自定义机器学习模型,识别敏感数据
  • AWS Step Functions:编排处理流程
  • AWS Lambda:执行无服务器函数

安全数据传输

首先需要将超过 4 亿份文档从本地文件共享迁移到 Amazon S3。银行使用 AWS DataSync 结合 AWS Direct Connect 实现加密传输,并通过 AWS KMS 管理密钥。AWS DataSync 可监控本地 SMB 文件共享,不仅支持上传,还支持将处理结果同步回本地。

处理与脱敏流程

  1. 文档上传:通过 AWS DataSync 将文档加密传输至 S3 存储桶。
  2. 文本提取:使用 Amazon Textract 从 PDF、图片等不同格式文档中提取文本。
  3. 敏感数据识别:基于 SageMaker 上部署的机器学习模型,识别 PII 和 PCI 数据(如姓名、地址、信用卡号等)。
  4. 自动脱敏:利用 Lambda 函数对识别出的敏感区域进行遮盖或替换。
  5. 结果回传:脱敏后的文档通过 AWS DataSync 复制回本地存储,同时保留审计日志。

成效与价值

通过这一架构,亨廷顿银行将处理时间从最初估计的 数年缩短至数月,并实现了 超过 95% 的脱敏准确率,满足合规要求。该方案不仅解决了当前的数据处理难题,还建立了可复用的自动化流程,为未来持续合规奠定了基础。

行业启示

亨廷顿银行的实践为金融行业大规模文档脱敏提供了参考范例。云原生服务+机器学习 的组合能够显著提升处理效率,同时保证安全与合规。对于同样面临海量文档处理需求的机构,关键要素包括:选择可扩展的存储与计算服务、利用 AI 提升识别精度、以及确保端到端的数据加密与审计能力。

延伸阅读

  1. 反亚马逊Prime Day:我在百思买、塔吉特、沃尔玛、山姆会员店找到了更好的折扣
  2. 美众议员否认工作人员使用AI撰写国防拨款修正案
  3. 蓝牙音箱并非千篇一律——Prime Day我推荐的机型
查看原文