Fiabilité des données extraites
Une fois l’extraction et le nettoyage effectués et les données finales obtenues, plusieurs questions se sont posées avant de procéder aux statistiques :
L’échantillon de données obtenus est t-il représentatif ?
Les extractions successives ont-elles été efficaces ? Ont-elles provoqué la perte d'une grande quantité de données ?
Les extractions ont-elles été plus efficaces sur certaines parties du recensement que sur d’autres (erreurs à la main comprises) ?
Extraction des données
Pour effectuer ce projet, différentes données ont été mises à disposition : le recensement lausannois numérisé par les Archives de la ville de Lausanne et une extraction automatique de ce document sous forme de tableau Excel.
Ce travail portant sur les femmes cheffes de famille, une seconde extraction a été nécessaire pour obtenir un tableau Excel ne comportant que les ménages dirigés par des femmes. Pour ce faire, la seconde extraction a été effectuée sur la base des prénoms de ces femmes. Ainsi, à partir du tableau Excel de l’extraction automatique, d’une base de données contenant uniquement des prénom féminins ainsi que le mot “veuve”, et quelques lignes de code, nous avons pu extraire les lignes du recensement pour lesquelles le nom de baptême du chef de famille correspondait à un prénom féminin.
Le document Excel comportait encore beaucoup d'erreurs : certaines lignes ont été extraites alors qu’elle n’aurait pas dues, et d’autres ont été extraites de façon erronée. Ainsi il a été nécessaire de procéder à un nettoyage manuel des données. Pour cela nous avons vérifié, et le cas échéant corriger les lignes les unes après les autres en se basant sur la version numérisée du document original.
Fiabilité des données
Pour effectuer des statistiques, il est apparu nécessaire d'évaluer la fiabilité des données extraites. Pour ce faire, la première étape a été de compter manuellement le nombre de ménages dirigés par des hommes et ceux dirigés par des femmes directement dans le document original. Ainsi, dans le recensement on décompte 3654 ménages dont 2628 avec des hommes pour chefs de famille et 1026 avec des femmes pour cheffes de famille.
Ensuite, l’efficacité de l’extraction automatique des données a été évaluée. Pour ce faire, nous avons comparé le nombre de ménages dans le recensement et le nombre de ménages extrait automatiquement. Le tableau Excel résultant de l’extraction automatique étant composé de 3397 lignes et sachant que 1 ligne correspond à un ménage, il est apparu que 3397 ménages ont été extrait suite à cette étape.
Ainsi, après cette étape 93% des données ont été extraites et 7 % ont été perdus.
L’étape suivante a été d’évaluer l’efficacité de l’extraction des ménages dirigé par des femmes via les prénoms puis le nettoyage des données. Ainsi, comme précédemment indiqué, dans le recensement, nous avons décompté 1026 ménages avec des femmes cheffes de famille. L’extraction automatique a ensuite permis d’obtenir 93 % des données. Ainsi, nous estimons que 954 ménages avec des femmes pour cheffes de famille ont été extraits après cette étape. Suite à l’extraction via les prénoms, 751 entrées sont obtenues, ce qui représente 73 % des ménages dirigés par des femmes. Cette étape a ainsi entraîné une perte supplémentaire des données de 20 %. Enfin, après nettoyage manuel, nous obtenons 738 entrées, ce qui représente 72 % des ménages dirigés par des femmes.
En conclusion, il apparaît que l’étape qui a entraîné la plus importante perte de données est l’extraction effectuée via les prénoms. Cependant, ces étapes successives ont permis d’obtenir des données nettoyées et exploitables pour 72 % des ménages dirigées par des femmes présent dans le recensement ce qui est très probablement représentatif de l’intégralité des données.
Pour finir, nous avons pu observer que le recensement de 1832 avait été rédigé par différentes personnes, ainsi au fil des pages l’écriture n’est pas la même. Ceci a pu entre autres influencer l’extraction automatique des données. En effet, certaines parties du recensement sont écrites de façon claire et propre, d'autres sont en revanche moins lisibles. De plus, sachant que dans le recensement les ménages sont répertoriés rue après rue, nous avons décidé d’évaluer le taux d’extraction des ménages avec des femmes cheffes de famille par rue/quartier.