Pendant qu'Olivier planche toujours sur la reconnaissance de caractères, j'ai attaqué l'autre bout de la chaîne : l'extraction des caractères. Une première étape à permis de localiser les lignes de caractères puis d'isoler des ensembles de caractères dans ces lignes. En effet, et en particulier lorsque les caractères sont en italiques, ils se chevauchent verticalement et on obtient ce que l'on appelle un "blob" : un ensemble de caractères comme celui-ci par exemple : Nous avions en tête depuis le début un algo spécial qui pouvait éventuellement ce sortir de ce genre de cas. Et on obtient : Mince! Ca marche ! On voit que l'accent du "e" à été extrait comme un caractère à part entière. C'est normal et nous nous y attendions. Il va falloir maintenant trouver un moyen logique de le rattacher au "e". Nous avons quelques idées, que nous essaierons demain... |