- Données de conférence
Les données de participation à des congrès sont la source à partir de laquelle notre méthode se fonde. Il s’agit d’abord de collecter, structurer et normaliser les listes de noms des participants à plusieurs éditions de l’évènement étudié. Ensuite, nous nous appuyons sur ces mêmes données sources pour reconstituer des liens de co-participation et de co-présentation et leur évolution.
- Normalisation des noms
La normalisation des noms des participants est réalisée à l’aide de méthodes de traitement automatique de texte. Nous avons recours pour cela à des bibliothèques de fonctions spécialisées tel que le package R {stringr}. Disposer d’informations complémentaires comme l’adresse email des participants peut aussi permettre de repérer qu’une personne est la même d’une édition à l’autre, même quand elle s’est inscrite avec un nom orthographié différemment d’une fois à l’autre ou quand le nom est devenu composé suite à un mariage.
- Réseaux
Plusieurs options sont possibles pour reconstituer les réseaux car les informations de co-présence sont présentes à différents niveaux :
– participation à une même édition de la conférence
– participation à une même session thématique
– participation à un même panel de la session thématique
– co-présentation à une même communication
Il est aussi possible de reconstituer des liens à travers le partage d’attributs communs, par ex : partage d’une même thématique, partage d’une même provenance géographique, ou d’un même laboratoire.
Nous faisons l’essentiel du travail de reconstitution et d’analyse des réseaux à l’aide des fonctions du package {igraph}. Nous utilisons aussi des fonctions des packages {ggplot}, {VizNetwork} et {cartography} pour visualiser les réseaux.
- Récupération des données de publications
Analyse de sensibilité
Dans les populations étudiées, quelques noms de famille sont extrêmement courants et il est alors possible d’extraire un nombre très important de publications associées à ces noms. D’autres noms sont beaucoup moins courants. Certains noms posent un problème annexe qui vient du fait qu’ils sont associés à des formes nombreuses car le prénom ou le nom est parfois composé ou enrichi d’une initiale. Pour anticiper ces différents problèmes et mesurer le niveau de difficulté représenté par la population, on réalise d’abord une analyse de sensibilité, c’est-à-dire qu’on étudie à combien de publications et de formes sont associées les noms de famille de nos populations. On s’appuie pour cela sur les données de l’Index du Web of Science.
Récupération des publications
Une fois réalisée l’analyse de sensibilité, on formule les requêtes permettant d’optimiser la récupération d’information. Cette phase de notre travail est en cours et fera l’objet d’une description plus détaillée ultérieurement.
Désambiguïsation
Une fois les métadonnées de publications récupérées, il s’agira de s’assurer que les publications sont bien celles des individus de notre population. Un algorithme de désambiguïsation sera appliqué. La littérature sur le sujet est très riche et tend à être de plus en plus foisonnante ces dernières années, une revue de la littérature sera réalisée pour faire le choix de la méthode la plus appropriée à notre recherche.
Reconstitution des réseaux
Lorsque ces phases de traitement seront terminées, nous pourrons reconstituer les réseaux de co-écriture et de citations entre participants et les superposer aux réseaux préalablement constitués à partir des données de conférence. On disposera alors d’une information enrichie et librement exploitable sur la dynamique des réseaux savants d’une population de scientifiques en activité dans plusieurs disciplines, permettant des comparaisons originales sur les modes de socialisation et de production de la science dans des communautés distinctes.