‍‍‍‍‍‍
Logo Afffect Media - l'actualité du marketing et de la publicité.
Marketing

Comment reconnaitre un contenu généré par l'IA ?

L'IA est partout, dans ce contexte distinguer le vrai du faux se fait de plus en plus pressant. On fait le point.

Grâce à sa capacité à créer un contenu remarquablement réaliste, l’IA est devenue un outil puissant capable de façonner et de manipuler l’information comme jamais auparavant. À mesure que le contenu généré par l’IA se répand, une question importante se pose : comment pouvons-nous distinguer ce qui est réel de ce qui est créé artificiellement ?

En moins de temps qu’il n’en faut pour le dire, les outils d’IA générative sont passés du stade de prototype de recherche à celui de produit commercial. Les modèles comme ChatGPT, Dall-E ou Sora d'OpenAI, Gemini ou VEO de Google, peuvent désormais générer du texte, des images et des vidéos souvent impossibles à différencier du contenu créé par l'homme. En tant que tels, les modèles d’IA générative soulèvent des inquiétudes quant à la crédibilité du contenu numérique et à la facilité de produire du contenu préjudiciable à l’avenir.

Pourquoi est-il important de détecter les contenus créés par des IA ?

Les motivations des politiques et des organismes de régulation sont diverses, mais visent notamment à limiter la prolifération du spam, les escroqueries, la pornographie « non consensuelle » et le harcèlement ciblé, les fake news ou encore à confirmer l'authenticité de certains contenus pour les procédures judiciaires. Mettre en œuvre des méthodes de détection efficaces s’avère donc une priorité. À ce stade, si certaines technologies sont en cours de développement pour détecter les contenus générés par des IA, il n’existe que peu d’outils réellement opérationnels. En attendant,  quelques techniques peuvent aider à identifier le contenu généré par l’IA et à atténuer ses impacts négatifs. On fait le point.

Comment reconnaitre un texte généré par l'IA ?

Les articles générés par l’IA sont de plus en plus publiés dans les médias et sur les blogs, il est donc important de pouvoir détecter ce type de contenu. Voici quelques moyens pratiques de les identifier :

  • Analysez le style d'écriture : les articles générés par l'IA manquent souvent de touche humaine et peuvent manquer de profondeur et d’originalité. Faites attention aux phrases à consonance robotique ou aux modèles de langage non naturels. Recherchez les incohérences dans la grammaire, la ponctuation et la structure des phrases. Surveillez les incohérences : l’IA peut avoir du mal à maintenir la cohérence tout au long d’un article.
  • Analyser le langage : examinez l’utilisation du jargon ou des termes techniques. Le contenu généré par l’IA peut abuser de ces termes sans fournir d’explications ou de contexte clairs. Prenez note des répétitions excessives ou de la verbosité inutile. L’IA peut avoir tendance à répéter des phrases ou à utiliser un langage trop complexe pour compenser une compréhension limitée.
  • Repérer les erreurs factuelles : même si l’IA peut produire un texte cohérent, il peut parfois contenir des informations fausses ou inexactes. La vérification croisée des faits avec des sources fiables peut révéler du contenu généré par l'IA. L’IA peut également produire des arguments décousus ou illogiques, dépourvus de la progression naturelle de la pensée que l’on retrouve souvent dans le contenu écrit par des humains.
  • Pensez à la vitesse et au volume : les algorithmes d’IA peuvent générer des articles à une vitesse extraordinaire et en grande quantité. Si une source d’information produit soudainement un volume d’articles inhabituellement élevé, cela peut indiquer l’utilisation de l’IA.
  • Absence de parti pris ou d'opinions controversées : les articles générés par l'IA sont moins susceptibles d'exprimer des points de vue controversés ou des préjugés. Ils ont tendance à fournir des informations neutres sans prendre position.
  • Vérifier la source ou l’auteur : S’il s’agit d’un article de presse, n’hésitez pas à comparer avec d’autres écrits de l’auteur.

Comment détecter une image créée par l’IA ?

MidJourney, DALL-E, Stable Diffusion : ces logiciels sont capables de générer une infinité de clichés. Certains, ultra-réalistes et reliés à l’actualité, peuvent aller jusqu’à semer la confusion. On se souvient du Pape stylé comme jamais en doudoune Balenciaga, de Donald Trump arrêté en pleine rue par des policiers ou encore d’Emmanuel Macron en éboueur… Fake, fake, fake. Alors comment éviter de tomber dans le panneau ? Interrogé par le média La Voix du Nord, Axel Legay, spécialiste en cybersécurité, IA et enseignant à l’université de Louvain, indique : « La première chose à faire, en cas de doute, c’est une recherche d’image inversée sur Google. Cet outil, qui existe depuis plusieurs années, nous permet de retrouver le contexte d’origine du cliché. Qui en a parlé pour la première fois, dans quel cadre. Si rien ne sort, c’est déjà une bonne indication. Si l’image renvoie vers un site, s’assurer que les informations qui y sont associées sont de bon sens. Si la photo ressort de La Voix du Nord, par exemple, c’est sérieux. Si la photo ressort d’un blog qui s’appelle "Hate Emmanuel Macron", il faut se méfier. »

  • Mains et membres : La plupart des gens ont cinq doigts à chaque main, deux bras et deux jambes. De nombreux générateurs d’IA s’emballent un peu plus. Les dernières technologies sont certes meilleures et les six doigts ou griffes caractéristiques des premières images sont désormais rares. Toutefois, soyez vigilant sur les détails. Dans les scènes de groupes, par exemple, faites attention aux personnages en arrière-plan : il n’est pas impossible que vous remarquiez un surplus de jambes, des mains noueuses ou encore un bras en bandoulière autour d'une épaule sans corps.
  • Mots : Les générateurs d'images ne sont pas des générateurs de texte, et créer des images avec des éléments qui ressemblent à du texte est un travail très différent de la création d'un texte lisible. Des mots mal orthographiés, des lettres floues et des caractères mystérieux peuvent être de bons signes. Par exemple, sur les photos de l'arrestation de Donald Trump, les inscriptions sur les casquettes des policiers sont illisibles.
  • Cheveux : Les cheveux humains sont constitués de mèches qui partent de la tête vers le bas. Les mèches de cheveux IA ont souvent un début et une fin moins définis. De près, elles peuvent presque paraître peintes. Attention cependant : parfois, la compression d’image peut aussi faire des choses qui peuvent sembler incohérentes.
  • Symétrie : Les objets peuvent se présenter souvent par paires ou en groupes. Pensez aux boucles d'oreilles ou aux couverts. Certains systèmes d'IA peuvent oublier ce qui se passe sur le côté gauche d'un visage ou d’une table une fois venu le temps de restituer l’autre côté.
  • Textures : Les motifs, tissus et textures répétés sont difficiles à restituer. Dans le monde réel, les briques ont tendance à avoir une taille et une forme uniformes dans l’ensemble d’un bâtiment, tandis que l’imprimé floral sur un papier peint sera identique trait pour trait à chaque fois qu’il se répète.
  • Géométrie : regardez l'espace dans lequel se trouve une image et les objets qu'elle contient. Les angles droits sont-ils droits ? Un mur s’intègre-t-il harmonieusement à une étagère en arrière-plan ? Pouvez-vous visualiser comment le canapé s'insère derrière la table qui semble affleurante au mur ? Autant d’incohérences qui peuvent laisser supposer que l’image a été créée par un système qui n’a aucune compréhension de l’espace 3D.
  • Cohérence : Existe-t-il plusieurs images prétendant montrer la même chose ? Comparez-les ! Générer plusieurs images du même espace sous différents angles et à différents moments est trivial dans le monde réel et à la pointe de l’IA. Même les générateurs vidéo tels que Sora, qui peuvent créer des vidéos se déplaçant dans un espace virtuel, reculeront rarement pour montrer quelque chose dont ils se sont éloignés, car cela révèle qu'ils ont « oublié » ce qui était là à l'origine.

Notez que certaines IA « signent » leurs œuvres. C’est le cas de DALL-E, par exemple, qui génère automatiquement une barre multicolore sur toutes ses images, ou de Crayion, qui place un crayon de couleur rouge.

Ne vous attardez pas (trop) sur l'IA

Si une image semble suffisamment douteuse pour que vous l'examiniez pour savoir qu'elle est générée par l'IA, prenez du recul et demandez-vous si vous devez faire confiance à votre instinct. Peut-être que l'image n'est pas du tout générée par l'IA, mais elle pourrait quand même être le résultat d'un échange de visage par l'IA, éditée sur Photoshop à l'ancienne, entièrement mise en scène, ou même simplement mal sous-titrée (un « cheapfake »). Ce n’est pas parce qu’une IA n’a pas créé quelque chose de toutes pièces que ce que vous voyez est vrai.

Comment repérer une vidéo générée par l’IA ?

Même si l’IA s’améliore dans la création de vidéos, vous pouvez toujours tenter de déterminer si une vidéo est créée par l’intelligence artificielle. Recherchez ce qui suit :

  • Mouvements ou expressions étranges : regardez comment la personne bouge et agit. Les vraies personnes ont des mouvements naturels et libres. Les vidéos créées par l’IA peuvent comporter des mouvements trop fluides ou trop rigides qui passent à côté de la complexité subtile du véritable comportement humain.
  • L'audio et la vidéo ne correspondent pas : les vidéos créées par l’IA peuvent parfois mal gérer la synchronisation entre ce que vous voyez et ce que vous entendez, ce qui fait que le mouvement des lèvres et le son ne correspondent pas bien et peuvent être en décalage. Bien que ce ne soit pas un signe révélateur, car des erreurs de désynchronisation et d'édition audio peuvent se produire, ça peut être un avertissement.
  • Textures et éclairage inhabituels : l'esthétique visuelle d'une vidéo peut révéler des informations cruciales sur son authenticité. Les textures brillantes et l’éclairage non naturel sont des signaux courants dans le contenu généré par l’IA. Qu’il s’agisse d’un grain de peau trop poli ou de conditions d’éclairage qui s’écartent des normes naturelles, ces anomalies peuvent être le signe d’une falsification de l’IA.
  • Un peu trop parfait : méfiez-vous des vidéos qui semblent excessivement soignées. Souvent, le contenu de l’IA présente un aspect brillant et fluide. Ainsi, si les personnes ou les objets semblent un peu trop parfaits, avec peu ou pas d’imperfections, il se peut qu’il s’agisse de l’IA.
  • Objets apparaissant/disparaissant ou se transformant : Surveillez les changements soudains et inexplicables d’objets ou de paysages. Ces changements au sein d’une vidéo, tels que l’apparition ou la disparition d’objets ou des scènes subissant une transformation abrupte, peuvent être de bons indicateurs de l’implication de l’IA. En effet, alors que le contenu créé par l’homme a tendance à maintenir sa cohérence, les algorithmes d’IA peuvent avoir du mal à mélanger les scènes ou à maintenir des transitions logiques de manière transparente.
  • Essayez de trouver la source de la vidéo : vous pouvez franchir une étape supplémentaire en tentant de retracer l’origine de la vidéo. Un contenu « authentique » a généralement une source traçable, qu'il s'agisse de la personne qui a mis en ligne le contenu d'origine ou de la plateforme du créateur de contenu. En revanche, les vidéos générées par l’IA peuvent manquer de source claire. De plus, les vidéos IA sont souvent des vidéos modifiées, donc si vous trouvez la vidéo originale, vous aurez la réponse à votre question. N'hésitez donc pas, comme pour les images, à effectuer une recherche inversée.

Comment reconnaître un deepfake ?

Les deepfakes sur les réseaux sociaux font référence à des vidéos ou des images manipulées créées à l'aide de la technologie de l'IA. La détection de ce type de contenu devient de plus en plus difficile, à l’image du compte TikTok @deeptomcruise qui se fait passer pour la star américaine. Et c’est bluffant !

Une façon d’identifier les deepfakes consiste à rechercher des anomalies dans les expressions faciales ou des incohérences dans les tons de la voix. Comme pour une vidéo ou une image, l’analyse de l’arrière-plan et l’évaluation du contexte du contenu peuvent aider à découvrir des anomalies potentielles. Un recoupement avec des sources fiables ou une recherche d’image inversée est recommandé.

Quelles sont les technologies en cours de développement pour détecter les contenus générés par des IA ?

Dans ce contexte, distinguer le vrai du faux se fait de plus en plus pressant et la nécessité de réglementer aussi. La loi de l’UE sur l’IA, par exemple, contient des dispositions qui obligent les utilisateurs de systèmes d’IA à divulguer et à étiqueter leur contenu généré par l’IA ainsi que des dispositions qui exigent que les personnes soient informées lorsqu’elles interagissent avec des systèmes d’IA. Aux États-Unis, différentes pistes sont étudiées, notamment par la NDDA (National Defense Authorization Act) et le ministère de la Défense, pour intégrer les informations sur la provenance du contenu dans les métadonnées des fichiers audio/vidéo officiels rendus publics. De son côté, la Maison Blanche a annoncé l’été dernier avoir obtenu des engagements volontaires des grandes sociétés d’IA pour développer « des mécanismes techniques robustes pour garantir que les utilisateurs sachent quand le contenu est généré par l’IA », comme le filigrane ou la provenance du contenu pour les médias audiovisuels. Malheureusement, l’engagement semble limité au contenu audiovisuel et exclut des modèles de langage.

Parmi les approches en cours de développement, le filigrane aussi appelé « tatouage »semble la plus prometteuse.

Le filigrane ou watermark

Le filigrane (sous ses différentes formes), consiste à intégrer un motif identifiable dans un élément de contenu pour suivre son origine. Les filigranes numériques les plus simples ajoutent une étiquette visible à une image, un son spécifique à un clip audio ou une citation dans un texte. Un exemple simple est celui des cinq carrés colorés au bas d'une image générée par DALL-E. Malheureusement, ce type de filigranes sont faciles à supprimer et à falsifier.

Les chercheurs ont récemment commencé à explorer des approches basées sur l’apprentissage automatique pour le tatouage d'images. Une approche étudiée par les chercheurs de Meta utilise un modèle d'apprentissage automatique pour intégrer un filigrane caché basé sur une « clé » qui peut ensuite être détectée par un autre modèle d'apprentissage automatique. Google a travaillé de son côté sur SynthID, un outil expérimental de filigrane et d'identification des images générées par les modèles d'IA de l'entreprise qui utilise un modèle d'apprentissage automatique pour intégrer un filigrane imperceptible et un autre modèle pour détecter le filigrane. Le SynthID de Google est censé être également utilisé pour filigraner l'audio, bien que l'outil soit toujours en cours de test et que les détails sur son fonctionnement n'aient pas été divulgués.

La technique de tatouage qui suscite le plus d’intérêt en recherche est peut-être le « filigrane statistique ». Ces tatouages statistiques sont l'un des systèmes les plus précis et résistants à l'effacement ou à la falsification. Au lieu d’intégrer un motif clairement défini dans un texte ou un contenu audiovisuel, un algorithme intègre un arrangement statistiquement inhabituel de mots/pixels/sons.

Bien que le filigrane soit peut-être l’approche de détection de l’IA la plus étudiée, trois autres approches suscitent l’intérêt des chercheurs.

Détecteurs post-hoc

L’idée la plus simple pour détecter si le contenu a été produit par des humains ou par l’IA est de « combattre l’IA par l’IA ». L’hypothèse est que le contenu généré par l’IA présente des différences systématiques (bien que subtiles) par rapport au contenu créé par des humains, qui peuvent être détectées par un modèle d’apprentissage automatique. Cette approche ne nécessite aucune intervention lorsque le modèle d'IA génère du contenu, se concentrant uniquement sur la vérification du contenu après sa génération (donc post-hoc).

Détection basée sur la récupération

La détection basée sur la récupération consiste à stocker le contenu généré par un modèle donné dans une base de données gérée par le développeur du modèle, puis à comparer toute requête à cette base de données pour vérifier si elle a été générée par l'IA. Dans le contexte de l'IA générative, un détecteur basé sur la récupération ne rechercherait pas seulement une correspondance exacte comme le font généralement de simples vérificateurs de plagiat ; au lieu de cela, il rechercherait des correspondances dans la base de données en fonction de la signification ou du contenu sous-jacent. Dans le contexte linguistique, cette technique s’est avérée plus précise que la détection post-hoc, même si elle n’est peut-être pas encore suffisamment fiable.

Stocker des informations sur l’origine du contenu dans les métadonnées

Une autre approche pour détecter le contenu généré par l’IA consiste à stocker des informations sur l’origine (ou la provenance) d’un élément de contenu dans les métadonnées. L'initiative la plus importante de ce type est la Coalition pour la provenance et l'authenticité du contenu (C2PA - ou Content Authenticity Initiative). Le C2PA, est un standard technique ouvert qui permet aux éditeurs, aux entreprises et à d'autres acteurs d'incorporer des métadonnées dans les médias qui certifient la source et la provenance du contenu en ligne afin de vérifier leur origine et les informations associées. Adobe, Google, Open AI, Microsoft, Sony ou encore la BBC sont membres de la C2PA.

Les réseaux sociaux commencent à étiqueter les contenus crées par des IA

Sur les réseaux sociaux, TikTok, YouTube, Meta et depuis peu Viméo traquent aussi les contenus crées par des IA. Si certaines s'en remettent aux créateurs pour informer les internautes, d'autres tels que TikTok et Meta commence à étiqueter automatiquement le contenu généré par l'IA. Comment ? En s'appuyant sur le C2PA. Même si la technologie n'est pas encore stable, certains photographes se sont plaints que Meta avait appliqué des étiquettes à de vraies photos sur lesquelles ils avaient utilisé des outils d'édition de base, elle offre une première ligne directrice pour lutter contre les fake news.

Lire davantage d'articles

Recevez Le Feuillet
Votre Newsletter marketing hebdo, pour ne manquer aucune actualité.
Il y a une erreur..