Comment Détecter un Article Généré par une IA : Guide Pratique
Mis a jours le 12 Dec 2025 à 00:00 · 1656 mots · Lecture en 8 minutes
L’Art de Repérer un Texte Écrit par une Machine
Vous venez de lire un article. Quelque chose cloche. Les phrases sont trop lisses, les chiffres tombent trop rond, et bizarrement, tout semble… parfait. Trop parfait. Félicitations, vous avez peut-être développé un sixième sens pour la détection de contenu IA.
Avec la démocratisation de ChatGPT, Claude, et autres LLMs, le web se remplit de contenu généré automatiquement. Ce n’est pas forcément mal en soi (ce blog utilise parfois des workflows d’IA pour la création de contenu, comme je l’ai documenté dans mon post sur les workflows sub-agentiques), mais savoir distinguer le vrai du synthétique devient une compétence essentielle.
Voici un guide concret pour développer votre radar à bullshit synthétique.
Le Problème des Statistiques Inventées
C’est probablement le signal d’alarme le plus fiable. Les LLMs sont des machines à patterns, pas des encyclopédies. Quand ils ont besoin d’un chiffre, ils en génèrent un qui semble plausible.
Comment les repérer ?
Les chiffres suspects ressemblent à ça :
- “73% des entreprises utilisent désormais l’IA” (pourquoi 73% et pas 71% ou 74% ?)
- “Les études montrent une augmentation de 40% de la productivité” (quelles études ? Où ? Quand ?)
- “Selon les experts, 8 développeurs sur 10 préfèrent…” (quels experts ?)
Les red flags :
- Chiffres ronds ou “satisfaisants” (40%, 50%, 80%) OU chiffres étrangement précis sans source
- Attribution vague : “des études montrent”, “selon les experts”, “les recherches indiquent”
- Statistiques qui semblent trop parfaitement alignées avec l’argument
- Absence totale de source ou de lien
Le problème n’est pas le chiffre lui-même, mais la combinaison : chiffre précis + absence de source vérifiable.
Comment vérifier :
- Copiez la statistique exacte entre guillemets dans Google
- Cherchez la source primaire (pas un autre article qui cite le même chiffre)
- Vérifiez la date de publication de l’étude citée
- Si vous ne trouvez rien de concret après 5 minutes de recherche, c’est probablement inventé
Ma règle personnelle : Si un article cite plus de 3 statistiques sans aucun lien vers les sources, je le considère suspect par défaut.
Les Tics de Langage Révélateurs
Les LLMs ont des patterns linguistiques reconnaissables. Ils ont été entraînés sur des millions de textes, et certaines formulations reviennent plus souvent que d’autres.
Les phrases d’ouverture clichés
❌ "Dans le monde d'aujourd'hui..."
❌ "Il est important de noter que..."
❌ "À l'ère du numérique..."
❌ "Force est de constater que..."
❌ "Il convient de souligner..."
Un humain qui écrit régulièrement développe son propre style. Un LLM génère du texte “moyen” qui ressemble à un mix de tout ce qu’il a lu.
L’overdose de connecteurs logiques
Un texte IA abuse souvent des transitions :
"Premièrement... De plus... Par ailleurs... En outre...
Néanmoins... Toutefois... En définitive... En conclusion..."
C’est techniquement correct, mais ça sonne comme une dissertation de lycée. Les vrais auteurs varient leur style, font des phrases courtes qui claquent, puis des longues qui développent une idée complexe avec des digressions parfois inutiles mais qui donnent du caractère.
La structure mécaniquement parfaite
Regardez la structure de l’article :
- Chaque section fait exactement la même longueur ?
- Chaque point a exactement 3 sous-points ?
- Chaque paragraphe suit le pattern : affirmation → explication → exemple ?
C’est un signal. Les humains sont désordonnés. On fait des sections courtes quand on n’a pas grand-chose à dire, des sections longues quand le sujet nous passionne, et parfois on part en digression pendant 3 paragraphes sur un détail qui n’a rien à voir (comme là, maintenant).
Le Manque de Personnalité
Où sont les opinions ?
Un article humain contient généralement des prises de position :
- “Personnellement, je pense que cette approche est stupide”
- “J’ai essayé ça pendant 6 mois et c’est nul”
- “Je sais que tout le monde adore X, mais franchement…”
Un LLM standard (non fine-tuné pour avoir une personnalité) reste neutre. Il présente “les deux côtés” de chaque argument, ne se mouille jamais, et conclut avec un consensus mou du type “en définitive, chaque approche a ses avantages et ses inconvénients”.
L’absence d’expérience vécue
Les indices d’authenticité humaine :
- Des anecdotes spécifiques (“Quand j’ai déployé ça en prod un vendredi soir…")
- Des échecs assumés (“J’ai passé 3 heures sur ce bug avant de réaliser que…")
- Des références datées et contextuelles (“En 2019, quand j’utilisais encore la v2.3…")
- Du jargon interne ou des private jokes
Un LLM n’a pas vécu. Il ne peut pas raconter “la fois où le serveur est tombé pendant la démo client” avec des détails qui sonnent vrais.
Tableau Comparatif : Humain vs IA
| Caractéristique | Texte Humain | Texte IA |
|---|---|---|
| Statistiques | Sourcées ou absentes | Précises mais invérifiables |
| Ton | Variable, parfois incohérent | Uniformément neutre |
| Structure | Organique, désordonnée | Mécaniquement parfaite |
| Opinions | Présentes et assumées | Évitées ou équilibrées |
| Anecdotes | Spécifiques, datées | Génériques ou absentes |
| Longueur des sections | Variable | Similaire |
| Digressions | Fréquentes | Rares |
| Humour | Personnel, contextuel | Générique si présent |
La Boîte à Outils de Détection
Vérifications manuelles
- Rechercher les statistiques exactes entre guillemets sur Google
- Vérifier si l’auteur existe réellement (LinkedIn, autres publications)
- Chercher des incohérences temporelles (événements récents mal datés)
- Comparer avec d’autres articles du même auteur (cohérence de style ?)
- Rechercher des phrases entières pour détecter du plagiat ou de la génération
Outils de détection automatique
Il existe des outils comme GPTZero, Originality.ai, ou les détecteurs intégrés de certaines plateformes. Mais attention : ils ne sont pas fiables à 100%.
Pourquoi les prendre avec des pincettes :
- Taux de faux positifs significatif (humains accusés d’être des IAs)
- Facilement contournables (paraphrase, réécriture)
- Les modèles évoluent plus vite que les détecteurs
- Un texte humain édité par une IA (ou l’inverse) brouille les pistes
Mon conseil : utilisez ces outils comme un signal parmi d’autres, pas comme un verdict final.
L’analyse de “perplexité” et “burstiness”
Deux concepts techniques intéressants :
Perplexité : mesure à quel point le prochain mot est prévisible pour un modèle de langage. Les LLMs génèrent du texte à faible perplexité quand mesuré par un modèle similaire (le texte suit des patterns que l’IA “connaît” bien). Les humains sont généralement plus imprévisibles, mais ce n’est pas une règle absolue.
Burstiness : variation dans la longueur et complexité des phrases. Les humains ont une écriture “en rafales” - parfois simple, parfois complexe. Les LLMs sont plus uniformes.
Ces métriques sont utilisées par certains détecteurs, mais restent imparfaites.
Les Zones Grises (et l’Éthique)
Le spectre de l’assistance IA
La réalité n’est pas binaire “100% humain” vs “100% IA”. Il existe un spectre :
- Texte 100% humain : écrit sans aucune assistance
- Humain + correcteur IA : écrit par humain, corrigé par IA (grammaire, style)
- Humain + suggestions IA : structure humaine, certaines formulations suggérées
- Collaboration humain-IA : plan humain, rédaction IA, édition humaine
- IA + édition humaine : généré par IA, retravaillé par humain
- 100% IA : prompt → publication sans modification
Où mettre la limite du “acceptable” ? Ça dépend du contexte. Un post LinkedIn généré par IA, on s’en fiche. Un article scientifique, c’est problématique. Un blog technique personnel ? C’est quelque part entre les deux.
Les faux positifs existent
Avant d’accuser quelqu’un d’utiliser une IA :
- Certains humains écrivent naturellement de façon “générique”
- Les non-natifs peuvent avoir un style plus formulaïque
- L’éducation académique pousse vers des structures rigides
- Certains sujets techniques nécessitent un ton neutre
Ne jouez pas au détective accusateur. Utilisez ces outils pour votre propre discernement, pas pour des chasses aux sorcières.
Ce Qui Compte Vraiment
Au final, la question n’est peut-être pas “est-ce écrit par une IA ?” mais plutôt :
- L’information est-elle vérifiable ? Sources, liens, preuves
- L’auteur assume-t-il ses propos ? Signature, historique, réputation
- Le contenu apporte-t-il de la valeur ? Originalité, insight, utilité
Un excellent article généré par IA avec vérification humaine vaut mieux qu’un mauvais article 100% humain rempli d’erreurs.
Le vrai problème n’est pas l’IA. C’est le contenu de mauvaise qualité, peu importe sa source.
Développer Votre Esprit Critique
La meilleure défense contre le contenu IA de mauvaise qualité, c’est un esprit critique aiguisé :
- Vérifiez toujours les sources (humain ou IA, peu importe)
- Méfiez-vous de ce qui confirme trop parfaitement vos biais
- Cherchez les voix dissonantes (les vrais experts ne sont jamais 100% d’accord)
- Privilégiez les auteurs avec un historique vérifiable
- Croisez l’information (si vous ne trouvez l’info que sur un seul site, méfiance)
Ces compétences vous protègent contre le mauvais contenu IA, mais aussi contre la désinformation humaine, les arnaques, et le clickbait.
Checklist Rapide de Détection
La prochaine fois que vous lisez un article suspect, passez-le par cette grille :
- Les statistiques sont-elles sourcées avec des liens ?
- L’auteur a-t-il d’autres publications vérifiables ?
- Le texte contient-il des opinions personnelles assumées ?
- Y a-t-il des anecdotes spécifiques et datées ?
- La structure est-elle variable ou mécaniquement régulière ?
- L’article évite-t-il les clichés d’ouverture (“Dans le monde d’aujourd’hui…") ?
- Le ton varie-t-il au fil du texte ?
- Les informations récentes sont-elles correctement datées ?
Score :
- 6-8 coches : Probablement authentique
- 3-5 coches : Zone grise, creusez plus
- 0-2 coches : Forte probabilité de génération IA non vérifiée
Et Après ?
Les modèles s’améliorent. Les textes IA de demain seront plus difficiles à détecter que ceux d’aujourd’hui. Les prochaines générations de modèles (Claude 4, GPT-5, et au-delà) auront des patterns moins reconnaissables.
Ce qui ne changera pas :
- Le besoin de vérifier les sources
- L’importance de l’esprit critique
- La valeur de l’expertise et de l’expérience authentique
La course entre générateurs et détecteurs continuera. Mais au final, la vraie compétence n’est pas de détecter l’IA - c’est de distinguer le contenu de qualité du bullshit, quelle que soit sa source.
Note de Transparence
Ce blog post a été créé en utilisant mon workflow sub-agentique avec OpenCode (détaillé ici). L’ironie d’utiliser une IA pour écrire sur la détection de contenu IA n’est pas perdue sur moi.
La différence ? Vérification humaine, édition, et surtout : je vous le dis ouvertement. La transparence, c’est ça le vrai game changer.
Et oui, j’ai volontairement évité les statistiques invérifiables dans cet article. Vous voyez le pattern ?

L'auteur: Tom Moulard
Depuis mon enfance, je suis captivé par les articles de science et de technologie. Un jour, j'ai décidé de faire partie de ce monde : j'ai pris ma calculatrice programmable (une TI-82 stat).... La suite, sur mon site
Vous avez vu une erreur ? Quelque chose ne va pas ? Vous pouvez contribuer à cette page sur GitHub ou laisser un commentaire en dessous. Merci d'être passé par là :)