Pour étudier la dynamique de participation à des congrès, reconstituer les réseaux de co-participation, la provenance géographique des participants, on s’appuie sur les données issues des congrès. Il s’agit d’une part de la liste des noms des participants accompagnée de leur affiliation et d’autre part de la liste des communications et de la composition des sessions dans lesquelles elles ont été présentées. Ces données sont en grande partie disponibles en ligne via le programme des évènements. Il est aussi possible d’accéder aux données d’inscription et de soumission de résumés en s’adressant aux organisateurs des évènements étudiés.

Un autre volet de notre recherche consiste à mobiliser des sources complémentaires pour reconstituer les liens entre participants qui existent préalablement ou qui se nouent au fur et à mesure de leur participation aux évènements étudiés. On s’intéresse en particulier aux liens qui peuvent être retracés à partir des données de publications scientifiques : lien de cosignatures à des publications, de co-participations à des numéros spéciaux de revues ou encore liens de citations.

Pour cela, nous effectuons un travail de récupération d’information bibliographique en mobilisant le contenu des bases de données de publications accessibles en ligne via API. L’accès à ces bases étant plus ou moins ouverts et la couverture de ces sources variant beaucoup, nous cherchons à multiplier les sources. Pour apparier toutes ces données entre elles, il convient de travailler à désambiguïser les noms d’auteurs; et de dédoublonner les informations lorsqu’elles ont été récupérées plusieurs fois depuis différentes sources.

Pour le traitement de l’information géographique des données de participation et des données de publications, on applique la méthode mise en place dans le cadre de l’ANR Géoscience et le projet Netscience, présentée sur le site Géoscimo. Cette méthode suppose de partir d’un premier niveau de structuration de l’information géographique qui est le triplet « ville, province, pays ». Pour simplifier cette information de départ, les triplets sont soumis à des opérations d’homogénéisation à l’aide de catalogues de toponymes ou gazettes. La procédure de géocodage automatique permet ensuite d’associer à chaque triplet un jeu de coordonnées géographiques (une latitude et une longitude). Les coordonnées permettent de localiser chaque publication scientifique ou présentation à une conférence sur un plan. Pour travailler à un niveau de résolution homogène à l’échelle du monde, les proches localités sont regroupées pour obtenir des agglomérations. Après avoir retenu une méthode de comptage scientométrique (comptage entier fractionné) et appliqué une procédure de lissage permettant d’atténuer les effets relatifs aux petites fluctuations annuelles (moyennes mobiles d’ordre 3), des tableaux d’information géographique par agglomération ou couple d’agglomérations sont obtenus. En plus des analyses statistiques et de réseaux, l’information finale est représentée à l’aide de dispositifs de visualisation complémentaires : cartes, réseaux et graphiques.

graphique_geoscience