Étape 1 : Repérage des zones pour la lecture OCR

Dans chaque notice il est procédé au repérage à la main des zones structurantes.
A la fin du lot la lecture automatique se déroule.
Une correction orthographique élémentaire est réalisée à partir de dictionnaires par langues créés au fil de l’eau, (+32 langues sont présentes dans les notices).
Selon les langues et les années les machines à écrire cyrilliques pouvaient être différentes.

A ce stade les notices lues et corrigées sont stockées dans des fichiers textes (txt) codés en UTF8.