TLDR Alors j'ai demandé un résumé à chatGPT, je partage dans le texte long😉 <p>Le rapport technique analyse les biais potentiels de l'algorithme de la plateforme X (anciennement Twitter) lors de l'élection présidentielle américaine de 2024, en se concentrant sur les engagements des utilisateurs en fonction de leurs affinités politiques. L’étude se divise en deux phases : la première analyse l’engagement sur le compte d’Elon Musk, et la seconde compare les comptes orientés Républicains et Démocrates.</p><p><strong>Phase 1 : Compte d'Elon Musk</strong> </p><p>L'analyse montre qu’un changement structurel des engagements est survenu vers le 13 juillet 2024, coïncidant avec le soutien public de Musk à Donald Trump. Après ce point, Musk a reçu un important coup de pouce dans la visibilité et l'interaction, avec une augmentation significative des vues, retweets, et likes comparé aux autres comptes. Cette différence pourrait indiquer un ajustement algorithmique privilégiant ses publications.</p><p><strong>Phase 2 : Comparaison Républicains vs Démocrates</strong> </p><p>L’étude montre également un changement structurel vers la même période. Les comptes Républicains ont bénéficié d'un gain de visibilité spécifique dans les vues, contrairement aux comptes Démocrates. En revanche, les retweets et likes n'ont pas montré de différence marquée entre les deux groupes, suggérant une amplification globale de l'engagement sans favoriser un camp.</p><p><strong>Conclusion</strong> </p><p>Les résultats suggèrent une augmentation de la visibilité pour certains utilisateurs (notamment Elon Musk et les comptes Républicains) après le 13 juillet. Cela soulève des questions sur l’impartialité des algorithmes de la plateforme, car certains contenus ont potentiellement bénéficié de biais de recommandation.</p><h2>Methodologie</h2><p>Oui, le rapport décrit en détail la méthodologie utilisée pour identifier et analyser les biais potentiels.</p><p>1. <strong>Collecte de données</strong> : Les chercheurs ont utilisé un outil open source pour collecter des données sur les publications de comptes spécifiques entre le 1er janvier et le 25 octobre 2024, incluant 56 184 posts. Les comptes sélectionnés étaient répartis en deux groupes : Républicains (dont Jack Posobiec, Tucker Carlson, Ben Shapiro) et Démocrates (dont Alexandria Ocasio-Cortez, Bernie Sanders, Kamala Harris).</p><p>2. <strong>Détection de points de rupture</strong> : Pour identifier des changements significatifs dans l’engagement, ils ont appliqué la méthode du Cumulative Sum (CUSUM), qui détecte les écarts par rapport à la moyenne historique. Cela a permis de repérer un changement structurel majeur aux alentours du 13 juillet 2024.</p><p>3. <strong>Analyse par "Difference-in-Differences" (DiD)</strong> : Avec le point de changement unifié en place, une analyse DiD a été utilisée pour mesurer l'effet de ce changement sur l’engagement des comptes (vues, retweets, likes). En créant des variables pour différencier les groupes (Musk et les autres, Républicains et Démocrates), les chercheurs ont pu isoler les effets d’un éventuel biais algorithmique.</p><p>4. <strong>Tests de Mann-Whitney U</strong> : Afin de confirmer les différences d’engagement avant et après le changement, les chercheurs ont utilisé le test non-paramétrique de Mann-Whitney U. Ce test, adapté aux distributions asymétriques des données d’engagement, a aidé à valider les différences significatives pour chaque type de métrique.</p><p>Cette méthodologie rigoureuse, combinant CUSUM, DiD et tests statistiques non paramétriques, a permis de dégager des tendances claires et de valider la présence d’une possible amplification algorithmique de certains contenus.</p><h2>Explication des trucs compliqués </h2><p>- <strong>CUSUM (Cumulative Sum)</strong> : Une méthode de détection de changement qui identifie les écarts significatifs dans une série de données en mesurant les déviations cumulées par rapport à une moyenne historique.</p><p> </p><p>- <strong>Mann-Whitney U</strong> : Un test statistique non paramétrique qui compare les distributions de deux échantillons, utile pour évaluer les différences sans présumer de la normalité des données.</p><p>- <strong>Difference-in-Differences (DiD)</strong> : Une méthode quasi-expérimentale qui compare les effets d'un événement sur deux groupes avant et après un changement pour isoler les impacts spécifiques de cet événement.</p><p>Une statistique non paramétrique est une méthode d'analyse de données qui ne repose pas sur des hypothèses strictes concernant la distribution des données (comme la normalité). Contrairement aux tests paramétriques, qui supposent souvent que les données suivent une distribution normale, les tests non paramétriques, comme le test de Mann-Whitney U, sont plus flexibles et peuvent être appliqués aux données asymétriques ou aux petites tailles d’échantillons. Ces méthodes sont souvent préférées lorsque les données sont ordinales, de faible volume, ou n'obéissent pas aux conditions classiques des tests paramétriques.</p>