Le premier réflexe aujourd’hui pour s’informer est d’ouvrir Google news sur son téléphone ou de consulter son fil d’actualité Twitter. L’accès à l’information a été complètement bouleversé, en quelques années seulement, par la révolution numérique et les Big Data ; les algorithmes sont au cœur de cette révolution.
Pour comprendre la révolution informationnelle en cours, il suffit de comparer notre quotidien médiatique et celui du poilu de la Première Guerre, la jeunesse de nos arrière-grands-parents finalement. La majorité de l’information médiatique était alors diffusée sur des « feuilles de chou » à travers la France ; une information mettait parfois plusieurs semaines à arriver de l’autre bout du monde pour être imprimée sur papier (la radio n’existait pas encore) et connue du paysan au fin fond du Berry. Aujourd’hui, l’information sous forme de vidéo haute-définition parcourt la Terre en moins d’une seconde pour être potentiellement portée à la connaissance de toutes celles et tous ceux qui sont équipés d’un smartphone connecté à Internet (ce qui correspond encore à une minorité de personnes dans le monde mais à la très vaste majorité dans les pays développés). L’accélération des moyens d’échange, la multiplicité des supports, le nombre exponentiel de producteurs constituent une révolution en soi, la « révolution informationnelle ». Elle découle de la révolution numérique, plus large, qui transforme profondément nos sociétés depuis une génération.
Une quantité immense de connaissances à notre portée
Pour se donner une idée, la circulation sur Internet augmente de 20 à 30% en moyenne par an depuis vingt ans (elle double donc tous les trois ans). La quantité de données stockées sur tout support est estimée à 2.6 exaoctets en 1984, 2 zettaoctets en 2010 (mille fois plus) et 181 zettaoctets en 2025 (donc cent fois plus qu’en 2010). Au fur et à mesure que la quantité d’informations à traiter est devenue plus importante, des outils ont été mis au point pour la stocker et la traiter ; en retour, le développement de ces outils permet de traiter plus de données, alimentant cette fuite en avant. Ainsi, une quantité immense de connaissances est à notre portée, mais, sans structuration ni hiérarchisation, l’information reste une donnée.
« L’information, si on ne fait rien du point de vue politique, sera générée avec des IA par quelques personnes et trié par des algorithmes pour des utilisateurs qui consomment des flux d’information, le tout contrôlé par quelques plateformes. »
Le travail éditorial des journaux « traditionnels » répondait à ce besoin de trier, de hiérarchiser l’information, dûment vérifiée au préalable par des journalistes. Ce rôle autrefois dévolu aux équipes éditoriales est maintenant pris en charge par de nouveaux types d’acteurs aux fonctionnements et aux objectifs différents : le moteur de recherche, l’agrégateur de contenu et l’algorithme de génération de flux.
Moteur de recherche, agrégateur de contenu, algorithme
Le moteur de recherche a été la grande invention qui a révolutionné le traitement des contenus sur Internet. Avant Google, des personnes avaient pour rôle éditorial de maintenir des listes de liens hypertexte vers des contenus. Un travail fastidieux, peu précis et, surtout, qui passait à côté de la richesse en pleine croissance exponentielle qu’était Internet au début des années 1990. Les moteurs de recherche avec leurs robots capables de faire une carte de l’ensemble des données accessibles sur Internet leur ont donné valeur d’information. Les premiers sites qui apparaissent sur une recherche sont ceux qui seront consultés dans 90% des cas par un internaute à la recherche d’une information, d’une actualité par exemple.
Ces robots et les algorithmes de ranking de Google sont ultraperformants et faisaient déjà un travail éditorial basique. La présence médiatique de certains sites d’information repose uniquement sur leur taux de visibilité dans les recherches Google. C’était l’époque des sites complotistes qui ressortaient plus haut dans la liste que les sites internet des médias traditionnels, composés de « vrais journalistes ». Pas facile en effet de modifier « à la main » les résultats de recherche quand, effectivement, des sites dits « complotistes » étaient plus consultés que des sites d’acteurs traditionnels...
« Aujourd’hui, l’information sous forme de vidéo haute-définition parcourt la Terre en moins d’une seconde pour être potentiellement portée à la connaissance detoutes celles et de tous ceux qui sont équipés d’un smartphone connecté à Internet. »
L’agrégateur de contenu est arrivé ensuite en réponse au foisonnement des sites d’information sur Internet, directement liés aux médias « traditionnels » (L’Humanité, le Monde, le Figaro, etc.) mais aussi à des nouveaux médias uniquement numériques (Blast, Elucid,...). Google news et autres ont alors appliqué leurs algorithmes de recherche pour proposer une « vue d’ensemble » de l’information, provenant de plusieurs sources, adaptée au lecteur (grâce aux cookies que l’on accepte tous sans trop se poser de questions), et tout cela de manière totalement automatique. Aucun employé de Google ne vérifie la qualité de l’information ou sa pertinence. L’algorithme se contente de déterminer les sujets importants en fonction des publications sur les sites considérés comme « fiables », le travail éditorial et de journalisme ne revenant pas à Google.
« La circulation sur Internet augmente de 20 à 30 % en moyenne par an depuis vingt ans ; elle double donc tous les trois ans. »
Cependant, la visibilité du site qui rapporte de l’argent via les publicités, lui, revient bien à Google. Les grands journaux se sont souvent attaqués à ce système, comme en Australie en 2021 où le gouvernement sous pression des groupes de presse a édicté une loi réduisant le pouvoir de Google news et consorts. Plus grave, à partir du moment où une information se répand dans les médias traditionnels, qui se copient bien souvent, elle acquiert une visibilité qui la fait passer de l’anecdotique au fait d’actualité. C’est très souvent le cas avec les faits divers, les deux processus s’alimentent ; un exemple frappant est celui du fameux supraconducteur supposé « LK-99 » durant l’été 2023. Le papier de recherche, qui aurait pu passer inaperçu, s’est vu propulsé sur Google news, Twitter et autres et repris par tous les médias traditionnels après que quelques sources sérieuses ont fait passer cette découverte « d’espoir pour l’humanité ». L’information s’est finalement révélée fausse. Le temps scientifique n’est décidément pas celui de Google news et les médias traditionnels, pressés par le temps médiatique, n’ont finalement qu’alimenté les algorithmes qu’ils dénoncent pourtant.
Effet de viralité et effet de bulle
Depuis quelques années, les données produites sont surtout l’œuvre de tout le monde sur les réseaux sociaux et autres plateformes. La quantité de données à traiter est encore une fois démultipliée, ce sont dix mille tweets ou encore trois cent vidéos Tiktok par seconde qui sont publiés dans l’espace public/privatif. On parle alors de générer des flux « d’actualités » pour chaque utilisateur parmi toutes ces nouvelles informations. Les techniques de Big Data (technique de recherche et de traitement de très grosses bases de données), de méta data (données qui accompagnent le contenu d’un message comme la localisation, les connexions, les mots clefs) et d’intelligence artificielle sont utilisées avec des résultats qui sont assez bien étudiés et connus aujourd’hui. Le premier étant l’effet de « viralité ». Un message qui correspond parfaitement pour X ou Y raisons (que seul l’algorithme connaît) à un groupe d’utilisateurs sera largement diffusé dans ce groupe et prendra de l’ampleur avant de se répandre dans d’autres groupes. Dans le même temps, ces algorithmes génèrent des effets de « bulle », peu perméables aux informations provenant d’autres groupes. Ces effets de bulle donnent alors une vision biaisée de la représentativité de ses propres opinions dans le débat général, en plus d’avoir des effets de renforcement des convictions. Du fait de la viralité de certains contenus d’information qui suscitent la réaction, les études montrent que ces deux phénomènes ont eu une grande influence sur la radicalisation de la société américaine, mais on peut imaginer que le même processus est à l’œuvre en Europe.
Un enjeu démocratique
Il y a alors un enjeu démocratique à comprendre et réguler ces algorithmes pour que le tri et la génération de tout ce contenu mis en avant, produit par les utilisateurs, favorisent un véritable échange. Cela ne peut pas passer par une censure par les plateformes ; les utilisateurs trouveront toujours une manière de diffuser leur message, sur la même plateforme ou ailleurs. Cela ne peut pas non plus reposer sur la censure privée des plateformes qui dicteraient leur propre loi pour se mettre en conformité vis-à-vis des règlements, mais aussi des intérêts des propriétaires de plateformes...
« Nous sommes probablement en train de vivre une nouvelle rupture dans le rapport à l’information avec l’émergence de l’IA générative, comme ChatGPT ou Midjourney. »
Pour conclure, nous sommes probablement en train de vivre une nouvelle rupture dans le rapport à l’information avec l’émergence de l’intelligence artificielle (IA) générative, comme ChatGPT ou Midjourney. Ces nouvelles technologies, impressionnantes par les résultats qu’elles produisent, vont s’ajouter aux technologies déjà présentées. L’information, si on ne fait rien du point de vue politique, sera générée avec des IA par quelques personnes et triée par des algorithmes pour des utilisateurs qui consomment des flux d’information toute la journée, le tout contrôlé par quelques plateformes qui ont les moyens et les architectures pour supporter la masse d’information et d’utilisateurs. Cela dépasse largement le cadre de l’information et des médias. Les enjeux sont bien plus importants que simplement une question de régulation ou de censure. C’est un sujet qui touche la technique, la culture, les choix de sociétés. Nous avons la chance d’avoir beaucoup de chercheurs qui travaillent sur ces questions. Il s’agit maintenant d’en faire un enjeu, et pas uniquement pour « sauver » le métier de journaliste de l’IA.
Flavien Ronteix est membre de la commission Révolution numérique du PCF.
Cause commune n° 40 • septembre/octobre 2024