深圳昂楷科技有限公司

关于昂楷

数据在流动，风险也在流动——某银行半结构化数据脱敏治理实录

发布时间：2026.06.11 / 作者：

每天，这家银行的业务系统都在产生大量数据文件。客户的账号、身份证号、交易记录，就藏在这些文件的字段里。这些数据要流向运维人员、流向测试环境、流向总行、流向监管单位——每一次流转，都是一次潜在的暴露机会。

这不是一个极端场景，而是金融行业里普遍存在的日常。数据越流通，业务越高效；但流通得越广，敏感信息的暴露面也越大。如何在两者之间找到可以长期落地的平衡点，正在成为越来越多银行无法回避的问题。

昂楷科技参与了华南地区某银行深圳分支机构的数据安全治理项目，协助客户在不影响业务运行的前提下，建立起面向业务数据文件的静态脱敏能力。

一、当数据需要不断流转，安全边界在哪里？

该银行深圳分支机构主要经营外汇及境内人民币业务，数字化程度较高，系统间数据交互频繁。与大多数银行一样，它也面临着一个共同的现实：

核心业务系统由多个第三方团队参与开发和日常运维；
各业务系统每天产生大量Html\XML格式的报文和数据交换文件；
数据需要在内部、总行、银监局及外联单位之间多向流转；
共享、测试、上报等场景长期存在，数据流转链路长且分散。

这些场景本身都是正常的业务需求，没有一个可以被简单切断。但它们叠加在一起，意味着有相当数量的人在有意或无意间，具备接触真实敏感数据的条件。

问题不在于"谁不该看"，而在于"流转过程中没有任何一层保护"。业务数据文件格式开放、字段繁多、缺乏访问控制，是整条链路上最薄弱的环节。

二、这家银行面临的，是流转链路上的四重压力

1. 敏感字段识别靠人工，覆盖不全

HTML/XML结构复杂，字段数量多，传统人工梳理方式效率低，且难以持续覆盖所有业务文件。更棘手的是，业务数据中常见将姓名、身份证、联系方式等多类敏感信息集于单一字段的特殊格式，进一步加大了人工识别的难度与遗漏风险。

2. 第三方运维人员直接接触真实数据

第三方团队在日常运维与问题排查中，可以直接打开包含真实客户信息的XML文件，缺乏隔离机制。

3. 数据流转链路长，中间环节难管控

数据从业务系统到总行、再到监管单位，经历多个节点，任何一个环节缺乏控制都可能形成暴露点。

4. 数据出境和上报面临合规压力

随着数据安全相关法规持续收紧，监管对金融机构数据处理的要求也在提高，如何确保对外报送数据经过合规处理，成为亟需回答的问题。

三、昂楷的方案：让数据“可用，但看不见”

昂楷科技基于静态脱敏技术，为客户设计了一套面向业务数据文件的半结构化数据安全治理方案。整体思路是：在不改变现有业务流程的前提下，在数据流出的关键节点建立脱敏处理层。

1.自动识别

对FTP服务器中的HTML\XML文件自动扫描，基于内置规则与自定义规则，精准识别身份证号、账户号、手机号等多类敏感字段，替代人工梳理；针对多类敏感信息混合于单一单元格的复杂场景，则进一步采用智能算法进行精准识别。

2.动态处理

结合业务应用场景，对识别出的敏感字段按策略进行脱敏处理，处理后的数据存入共享FTP服务器，供各下游场景使用。

3.场景适配

针对运维人员、内部测试、数据报送等不同角色配置差异化脱敏规则，在保障业务正常运行的前提下，精细控制数据在每一个流转节点上的暴露面。

四、项目落地后，带来了哪些改变？

1. 敏感数据自动识别

实现了对HTML\XML文件的自动化扫描与敏感字段识别，覆盖身份信息、账户信息、员工信息等多类数据，替代原有人工处理方式，识别效率和覆盖范围均有明显提升。尤其针对个人客户、公司客户等敏感信息混合存储于单一字段的复杂格式，系统采用智能算法自动识别姓名、负责人、法人、公司名称、地址、联系方式等，全程无需人工查找核验。

2.数据暴露面收窄

通过脱敏机制，运维人员及共享流转场景中不再流通明文敏感信息，从源头减少了非必要的数据暴露，降低了因人员操作带来的信息泄露风险。

3.合规基础更扎实

数据上报及对外报送场景中的敏感字段得到规范处理，符合相关数据安全法规及隐私政策要求，有效降低数据出境合规风险。

4.运营压力明显减轻

自动化流程替代了大量人工处理环节，数据安全处理的一致性和可追溯性得到提升，运维团队的日常工作压力有所减轻。

5.为后续建设打下基础

项目积累的敏感数据识别规则与处理经验，为客户后续开展数据分类分级、数据安全运营等工作提供了可复用的基础能力。

这些改变，没有一项依赖额外增加人手，也没有改动任何业务流程。

五、不只是银行，也不只是这一种文件格式

XML、JSON、日志、接口报文……在数字化程度不断提升的今天，半结构化数据已经广泛存在于各个行业。数据的价值在于流通，但流通得越广，管控的难度也越高。不论数据以哪种格式存在，只要涉及敏感字段在多个角色和场景之间流转，这套治理逻辑都是相通的。

以下场景同样适用本次项目所涉及的治理能力：

半结构化数据安全，往往不是技术问题，而是被排在后面的问题。很多机构在推进数据安全建设时，往往从数据库安全、边界防护入手，这没有错。但HTML\XML、接口报文、业务日志这类数据，因为“看起来不像数据库”，常常排在优先级的后面——直到出了问题才被重视。

这家银行的经验是：早一步识别、早一步脱敏，要比事后补救省力得多。如果你的业务环境中也存在类似的半结构化数据场景，不妨从摸清现有文件中的敏感字段分布开始。

与金融同行，向数智而行｜昂楷科技亮相第二十届深圳国际金融博览会

集中管控与分权隔离如何兼得？——台州市数据局政务云数据库审计安全运营实践