Le 10 décembre 2025 s’est tenue au Campus Condorcet, une journée d’étude organisée dans le cadre de l’ANR OCEANLINKS. Il s’agissait d’une journée de présentations autour des méthodes de reconnaissance optique de caractères manuscrits ou tapuscrits à des fins de recherche. La matinée s’intéressait au cas particulier de données issues des archives de l’enseignement supérieur et la recherche et l’après-midi portait sur l’extraction et le traitement de l’information spatiale extraites à partir de sources anciennes. Des protocoles de travail ont été présentés et des chaînes de traitements ayant vocation à être réutilisées.

Les diaporamas qui ont été présentés à cette occasion sont consultables ci-dessous, ils sont ordonnés dans l’ordre de passage des interventions.

Archives de l’enseignement supérieur et la recherche en France et en Belgique

  • Viera Rebolledo-Dhuin (Université Paris-Est Créteil, Centre de Recherche en Histoire européenne comparée). Le développement de la base PRET19 à partir de l’HTRisation des registres de prêt de bibliothèques universitaires parisiennes au XIXe siècle : conception, construction, alimentation.
  • Matthieu Pichon (ULB, Ratio DH). La numérisation est-elle encore un problème ? Réflexions autour de l’OCR du corpus des thèses de l’Université Libre de Bruxelles.

  • Pierre Verschueren (Centre Lucien-Febvre, Université Marie et Louis Pasteur). Les doctorats ès lettres et ès sciences : numérisation des thèses et prosopographie des docteur-es (XIX-XXe siècles).

  • Marion Maisonobe (CNRS, Géographie-cités). Le projet OCEANLINKS : des sources hétérogènes pour reconstituer les échanges savants entre stations marines.
  • Océane Valencia (Sorbonne Université). Cartographie et état des traitements des fonds des stations marines de Sorbonne Université.

Défis et bonnes pratiques pour l’extraction d’information spatiale depuis des sources anciennes numérisées

  • Carmen Brando (EHESS, Plateforme géomatique, CRH). Travaux collectifs de l’ANR TopUrbi : méthodes et impasses dans le travail textuel et cartographique du dictionnaire historique d’Alcedo.
  • Nathalie Abadie (LASTIG, Univ. Eiffel, IGN-ENSG). Des annuaires du commerce parisien du 19ème siècle à des graphes de connaissances géohistoriques professionnels.
  • Solenn Tual (LASTIG, Univ. Eiffel, IGN-ENSG). Interprétation sémantique de tables historiques : des sources anciennes aux graphes de connaissances.

  • Joseph Chazalon (Laboratoire de recherche de l’EPITA). Des sources sérielles aux données structurées pour les humanités numériques : présentation de l’écosystème Mezanno.

L’équipe du projet Mezanno a présenté sa démarche générale visant à proposer un écosystème d’outils libres, interopérables et centrés autour de la production de données structurées à partir de sources historiques sérielles (annuaire, registres, tables, etc.) pour les humanités numériques. L’intérêt de la démarche et l’ergonomie de l’outil “Corpusense”, qui permet de traiter une collection de son choix en toute autonomie, ont été illustrés sur un cas d’annuaires du cinéma. Ces premiers résultats sont encourageants et permettent d’identifier plus précisément les défis associés à ce type d’approche, en particulier autour de la mesure de la confiance qu’il est possible d’accorder aux données produites.

  • Thierry Paquet (LITIS, Université de Rouen Normandie). Pop Pop Pop… : Apport des modèles génératifs multimodaux dans les projets de démographie historique.