Keep original data

In case you need to normalize data, write multiple pipelines: first, the one which scrapes original data unformatted. Then write extra pipeline which normalizes data from previous pipeline.

This way you can always fix problems ar adjust normalization for older datasets (no data is lost)