亨廷顿银行使用AWS从4亿+文档中脱敏敏感数据

面对超过 4 亿份、积累近十年的海量文档，如何高效识别并脱敏其中的敏感客户数据，同时满足 PCI DSS 等合规要求？美国前十大银行亨廷顿银行（Huntington Bank）通过构建基于 AWS 的可扩展工作流，将原本预计耗时数年的处理任务缩短至数月完成，且脱敏准确率达到 95% 以上。

挑战与需求

自 2015 年起，亨廷顿银行的文档管理系统已在本地安全存储了数亿份文档。2025 年，作为一项主动合规计划的一部分，银行决定对这些文档进行全面处理，脱敏其中的个人身份信息（PII）和支付卡行业数据（PCI）。文档格式多样，需要灵活处理方案，同时还要具备处理数百万份文档的高吞吐量。

核心需求包括：

数据在传输和存储中必须加密
数据访问和存储位置需满足严格访问要求
所用服务必须在 PCI DSS 合规范围内
脱敏结果需复制回本地数据存储
脱敏准确率不低于 95%

解决方案架构

亨廷顿银行设计了一套可扩展的脱敏工作流，核心组件包括：

Amazon Textract：从文档中提取文本和结构
Amazon SageMaker：用于运行自定义机器学习模型，识别敏感数据
AWS Step Functions：编排处理流程
AWS Lambda：执行无服务器函数

安全数据传输

首先需要将超过 4 亿份文档从本地文件共享迁移到 Amazon S3。银行使用 AWS DataSync 结合 AWS Direct Connect 实现加密传输，并通过 AWS KMS 管理密钥。AWS DataSync 可监控本地 SMB 文件共享，不仅支持上传，还支持将处理结果同步回本地。

处理与脱敏流程

文档上传：通过 AWS DataSync 将文档加密传输至 S3 存储桶。
文本提取：使用 Amazon Textract 从 PDF、图片等不同格式文档中提取文本。
敏感数据识别：基于 SageMaker 上部署的机器学习模型，识别 PII 和 PCI 数据（如姓名、地址、信用卡号等）。
自动脱敏：利用 Lambda 函数对识别出的敏感区域进行遮盖或替换。
结果回传：脱敏后的文档通过 AWS DataSync 复制回本地存储，同时保留审计日志。

成效与价值

通过这一架构，亨廷顿银行将处理时间从最初估计的 数年缩短至数月，并实现了 超过 95% 的脱敏准确率，满足合规要求。该方案不仅解决了当前的数据处理难题，还建立了可复用的自动化流程，为未来持续合规奠定了基础。

行业启示

亨廷顿银行的实践为金融行业大规模文档脱敏提供了参考范例。云原生服务+机器学习 的组合能够显著提升处理效率，同时保证安全与合规。对于同样面临海量文档处理需求的机构，关键要素包括：选择可扩展的存储与计算服务、利用 AI 提升识别精度、以及确保端到端的数据加密与审计能力。

亨廷顿银行：借助 AWS 从 4 亿+ 文档中智能脱敏，处理时间从数年缩短至数月