Axe 6 : Qu’est-ce qui fait l’identité métropolitaine ? Étude à partir des données Twitter

Métropole/population : Comprendre les déterminants de l’identité métropolitaine à partir des données Twitter

Julie Fen-Chong – Laurent Gautier

Le recours aux données issues des réseaux sociaux tend à se généraliser dans les travaux réalisés en Sciences Humaines et Sociales. La masse d’informations ainsi que la facilité d’accès à ces données comme Twitter expliquent cet engouement pour les recherches engagées dans ce domaine (Cebeillac, 2018 ; Barbosa, 2018, Wigham/Ledegen 2017). L’analyse des dynamiques urbaines (Calabrese et al., 2014) n’échappe pas à cette tendance pour étudier des objets aussi divers que la mobilité, le tourisme, l’usage des sols ou la diffusion d’épidémies. Dans le cadre de ce projet, nous souhaitons interroger les apports des réseaux sociaux pour comprendre les rapports, en termes de perception et de représentation, entre les acteurs de la métropole et les habitants de celle-ci. Ces nouvelles données massives sont-elles en mesure de révéler des différences entre les habitants des quartiers centraux, des communes périurbaines et rurales extérieures à la métropole ? Les analyses peuvent-elles apporter de la connaissance sur l’identité métropolitaine et, par le biais de la circulation virale de l’information sur l’existence de communautés qui pourraient adhérer ou rejeter les projets métropolitains (cité de la gastronomie, ville intelligente, piétonisation du centre-ville…) ? Autant de questions qui nécessitent de mettre en place une méthodologie exploratoire pour collecter et analyser ce corpus.

La collecte d’informations est effectuée sur un réseau social très utilisé et dont l’information est relativement simple d’accès. Ainsi, une sélection de messages est prévue sur trois types de requêtes : des comptes identifiés d’utilisateurs de Twitter,  des hashtags comme traitant de l’aire urbaine dijonnaise et des messages géolocalisés au sein de l’aire urbaine. La période de collecte est planifiée sur une période de 3 fois 3 mois sur une année calendaire. Ensuite, différentes étapes de filtrage sont nécessaires.

  • Définition d’une liste de mots clefs en se basant sur les hashtags des communes de l’aire d’étude (ex : #Dijon) mais aussi sur la base d’évènements qui y sont liés (ex : #foiregastro), ainsi que les lieux d’intérêt (ex : #palais des Ducs). Des hashtags de circonstances lancés par les utilisateurs en réaction à des évènements donnés devront pouvoir être intégrés en monitoring dès leur détection.
  • Déterminer la population enquêté afin d’organiser un suivi des comptes : acteurs politiques, entreprises, associations, élus, habitants de l’aire urbaine
  • Filtrer la zone géographique de recherche en fonction des données géolocalisées, tout en sachant que la proportion de tweets géolocalisés varie entre 1,5 et 3 % (Murdock, 2011).
  • Compenser le manque d’information localisée par le développement d’une méthodologie robuste, ensuite facilement transférable, permettant la modélisation des informations sémantiques spatialement pertinentes contenues dans les tweets eux-mêmes et dépassant la simple identification d’odonymes.

La collecte d’information sur les réseaux sociaux n’est pas aisée en raison des nombreuses contraintes imposées par les API publiques. Pour ne prendre qu’un exemple, le nombre de requêtes par jour est limité. Si l’on souhaite constituer un corpus cohérent, la mise en place d’une infrastructure technique de collecte est dès lors nécessaire. La MSH de Dijon s’est dotée de machines virtuelles adaptées à ce type de traitement.

Les sorties de ce dispositif sont tout d’abord quantitatives. Des communautés de discours peuvent être mises en évidence sur la base de nœuds d’interaction rendus possibles par les opérateurs discursivo-techniques du dispositif Twitter (partage d’information, retweet…). L’intensité des échanges, les principales thématiques ou la qualité du discours peuvent être analyse dans des graphes. Les données qualitatives permettent de recueillir des informations sur les avis, les thématiques et la polarité des avis dans le sillage de l’analyse de sentiments. Des contacts avec l’équipe POPSU de Nice (collectivité et le laboratoire Espace) ont été engagés afin d’échanger sur les méthodes et les résultats.

Résultats attendus :

  • Vérification de l’hypothèse d’un gradient centre périphérique à l’aide de graphes de communautés
  • Analyse des opinions et du sentiment d’appartenance vis-à-vis de la métropole à l’aide de calculs de polarité.
  • Analyse des termes significatifs et les plus fréquemment utilisés par l’analyse textométrique
  • Détection des thématiques les plus significatives à l’aide d’outils de type text mining.