Tu écris ton script vidéo dans ChatGPT. Tu sors un texte propre. Tu enregistres. Tu publies. Personne ne regarde au-delà de la 30e seconde. Tu blâmes l'algorithme. Le problème n'était pas l'algorithme — c'était que ton script avait une rétention de 28 %.
L'écart de performance entre les scripts générés par IA en mode brut et les scripts bien structurés est l'un des plus larges documentés dans la production de contenu en 2026. Selon une analyse Virvid de février 2026, les scripts vidéo IA génériques produisent une rétention spectateur moyenne de 28 à 42 %, contre 52 à 68 % pour les scripts spécialisés bien construits. Soit un écart de 26 points. Sur YouTube, c'est la différence entre une vidéo qui s'enterre dans l'algorithme et une vidéo qui décolle. Sur TikTok ou Reels, c'est la différence entre 1 000 vues et 100 000.
Cet écart ne tient pas à la qualité brute de l'IA — les modèles 2026 (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) sont parfaitement capables de produire des scripts excellents. Il tient à la méthode d'utilisation. Le réflexe de la majorité des créateurs est de demander « écris-moi un script sur X ». L'IA produit alors un script à structure prédictible : intro générique, transitions chevillées (« par ailleurs », « il est important de noter »), pas de tension narrative, pas de point de vue tranché, fin en CTA mou. C'est techniquement correct et opérationnellement mort.
L'enjeu de ce contenu est massif : 4,61 millions de podcasts actifs dans le monde, 600 millions d'auditeurs en 2026 selon Statista, et la production vidéo qui explose sur tous les formats courts. Le marché est saturé d'IA-générique, ce qui crée mécaniquement un avantage pour les créateurs qui savent produire des scripts avec une structure pensée. La compétence rentable n'est pas savoir utiliser ChatGPT — c'est savoir contraindre ChatGPT pour qu'il produise un script qui retient l'attention.
Cet article te donne le système opérationnel. La structure-mère valide pour vidéo et podcast (hook + contexte + promesse + corps + CTA), la méthode 5 phases pour passer de l'idée au script final, l'adaptation aux 5 formats les plus fréquents (Shorts/Reels/TikTok, vidéo YouTube longue, podcast solo, podcast interview, voice-over commercial), et les pièges qui tuent un script même bien construit. À la fin, tu disposes d'un protocole reproductible qui élimine le syndrome du script IA générique.
— Virvid février 2026 · Analyse rétention scripts IA
26 pts
Écart de rétention spectateur entre scripts IA génériques (28-42 %) et scripts IA bien structurés (52-68 %), mesuré sur des centaines de chaînes YouTube. Cet écart représente la différence entre vidéo qui s'enterre dans l'algorithme et vidéo qui décolle. La cause documentée n'est pas la qualité brute du modèle — c'est l'absence de structure narrative, de hook construit, de point de vue tranché, et la présence des marqueurs IA (transitions chevillées, formulations creuses) que l'audience a appris à détecter en 2025-2026. Étude r/NewTubers 644 000 créateurs : la plainte la plus fréquente sur les scripts IA est « instantanément reconnaissables comme IA — formules prédictibles, zéro personnalité ».
— 1 / 4La structure-mère du script qui retient.
Avant la méthode, comprendre la structure. Tout script qui retient — vidéo ou podcast — repose sur la même architecture de base, validée par les analyses de rétention sur Spotify, YouTube, TikTok et Substack vidéo. Cette structure n'est pas une tendance 2026 — elle est l'application de la dramaturgie classique aux formats courts numériques. Je te donne les 5 blocs avec leur fonction et leur durée relative.
Bloc 1 — Hook (3 à 8 secondes selon le format). Pas une intro polie, pas une présentation. Une accroche qui pose une tension. Trois formes qui marchent : (1) contre-intuitif (« Tout ce qu'on t'a dit sur X est faux »), (2) chiffre choc (« 73 % des Y échouent à cause de ça »), (3) question ouverte qui dérange (« Pourquoi ton podcast a 40 écoutes alors que ton concurrent en a 40 000 ? »). Si après le hook le spectateur ne peut pas s'empêcher de se demander « et alors ? », c'est gagné. 71 % des spectateurs décident de rester ou de partir dans les 3 premières secondes selon les données Instagram research 2025.
Bloc 2 — Contexte (10 à 30 secondes). Pourquoi ce contenu existe et pour qui. C'est ici que tu poses ton angle, ton autorité (sans la jouer), ton cadrage. Erreur fréquente : sauter le contexte parce que « c'est ennuyeux ». Conséquence : l'audience ne sait pas pourquoi elle devrait écouter cette personne sur ce sujet. Sans contexte, le hook tombe à plat 10 secondes plus tard.
Bloc 3 — Promesse (5 à 15 secondes). Ce que le spectateur va apprendre/comprendre/ressentir s'il reste. Précis et concret, pas vague. « Tu vas comprendre comment X » bat « On va parler de X ». La promesse fait office de contrat : si tu la tiens, le spectateur reste. Si tu la trahis (clickbait), il quitte et ne reviendra jamais. Voir l'article dédié aux hooks pour la mécanique fine.
Bloc 4 — Corps (60 à 80 % du temps total). Le contenu lui-même, structuré en 3 à 5 sections clairement séparées. Chaque section doit avoir : (1) une transition courte qui annonce le micro-thème, (2) le développement avec exemples concrets, (3) un mini-cliffhanger qui pousse vers la section suivante. Le « tunnel d'ennui » de la section unique sans relances internes est le tueur n°1 de rétention.
Bloc 5 — CTA (5 à 15 secondes). Action précise demandée à l'audience. Pas « like et abonne-toi » qui marche peu — une action liée au contenu (« si tu veux le template gratuit, c'est en commentaire »). Le CTA doit donner envie d'agir maintenant, pas dans une semaine. Il vient en dernier — jamais avant que la promesse de l'introduction ait été tenue.
Format-clés à connaître pour le minutage (Descript / Adobe Podcast 2026) : 120-160 mots par minute pour audio standard, 140-180 mots par minute pour vidéo dynamique. Donc une vidéo de 5 min = 700-900 mots de script ; un podcast de 30 min = 4 500-4 800 mots. Si l'IA t'écrit 6 000 mots pour 5 minutes de vidéo, elle se trompe — coupe.
L'algorithme ne pénalise pas les scripts IA. Il pénalise les scripts qui ne tiennent pas l'attention. Les deux ne sont pas la même chose — sauf quand on confond ChatGPT par défaut et un vrai outil.
— 2 / 4La méthode 5 phases.
Le protocole pour passer d'une idée à un script publiable. Chaque phase a un prompt précis. Total : 30-60 minutes pour un script propre, vs 10 minutes pour un script générique qui ne marchera pas — donc plus rentable en temps total si on compte le temps perdu à publier du contenu qui ne décolle pas.
— PHASE 1 / 5 · ANGLE
Trouver l'angle qui n'est pas générique
L'erreur n°1 est de demander à l'IA un script sur un sujet large. « Fais-moi un script sur l'IA » te donne du contenu fade à coup sûr. Tu commences par contraindre ton angle — l'IA t'aide à le trouver, pas à l'écrire pour toi.
— Prompt à utiliserJe veux faire [un Reel / une vidéo YouTube / un épisode de podcast] sur le sujet : [sujet général].
Mon audience : [décris en 2 lignes : qui, quel niveau, quel besoin].
Ne me propose pas de script. Aide-moi d'abord à trouver l'angle.
1. Donne-moi 5 angles potentiels sur ce sujet, classés du plus consensuel au plus tranchant.
2. Pour chaque angle :
— Une formulation en 1 phrase de la thèse défendue
— Le type d'audience qui réagit (qui en a marre / qui sera surpris / qui sera énervé)
— Le risque (« ça peut déranger les X »)
3. Identifie les 2 angles déjà saturés en 2026 sur ce sujet (à éviter sauf si on a vraiment quelque chose de nouveau à dire).
4. Identifie l'angle le plus contre-intuitif qui a une chance de surprendre — celui où la majorité des créateurs n'est pas allée.
Sois honnête. Si le sujet est trop saturé pour tenir 5 minutes sans répéter ce qui est partout ailleurs, dis-le.
— PHASE 2 / 5 · STRUCTURE
Construire la structure avant les mots
Une fois l'angle choisi, tu construis la charpente. À ce stade tu ne veux toujours pas de phrases — tu veux les os du script : hook + contexte + promesse + 3 à 5 sections de corps + CTA. C'est la phase la plus négligée et la plus déterminante pour la rétention.
— Prompt à utiliserMon angle choisi : [la formulation en 1 phrase]
Format : [Reel 60s / vidéo YouTube 8 min / podcast 30 min...]
Construis la structure du script en respectant l'architecture suivante. Pas de phrases rédigées encore — uniquement la charpente :
1. Hook (3-8 secondes selon format) : propose-moi 3 hooks possibles dans 3 styles différents (contre-intuitif, chiffre choc, question dérangeante). Pour chacun, dis pourquoi il fonctionne.
2. Contexte (10-30 secondes) : pourquoi ce contenu existe, pour qui. En 2-3 lignes.
3. Promesse (5-15 secondes) : ce que l'audience aura compris / appris / changé à la fin. Précis.
4. Corps (60-80 % du temps total) : 3 à 5 sections principales. Pour chacune :
— Le micro-thème en 1 phrase
— Le mini-cliffhanger qui pousse vers la section suivante
— L'exemple concret prévu (1 par section minimum)
5. CTA (5-15 secondes) : action précise liée au contenu (pas « abonne-toi »).
À la fin, vérifie que :
— L'audience a une raison de rester à chaque transition
— Aucune section ne dure plus de 90 secondes sans relance
— Le minutage total tient dans le format visé (120-160 mots/min audio, 140-180 mots/min vidéo)
— PHASE 3 / 5 · ÉCRITURE
Écrire section par section, pas en un coup
L'erreur classique est de demander à l'IA d'écrire le script complet en un seul prompt. Tu obtiens un script lisse et plat, sans variation. La meilleure technique : tu fais écrire chaque section séparément, en ajustant le ton et la longueur au fur et à mesure. C'est plus long mais le résultat est radicalement différent.
— Prompt à utiliser (par section)Voici la structure validée à la phase 2 : [colle la structure]
Écris uniquement la section [numéro] du corps : [micro-thème].
Contraintes strictes :
— Durée cible : [X secondes] (donc [Y] mots maximum)
— Ton : [direct / didactique / provocant / chaleureux selon ton style]
— Niveau d'audience : [novice / habitué / expert]
— Voix : [parlée comme à un ami / formelle / hybride]
Règles d'écriture parlée :
1. Phrases courtes (max 15-20 mots par phrase pour de la vidéo)
2. Pas de transitions chevillées (« par ailleurs », « en outre », « il est important de noter »)
3. Au moins 1 exemple concret tangible dans la section
4. Une formulation tranchée au moins (un avis assumé ou une affirmation forte)
5. Le mini-cliffhanger en dernière phrase pour pousser vers la section suivante
Termine par 3 versions alternatives de la première phrase de la section, pour me permettre de choisir celle qui s'enchaîne le mieux avec la section précédente.
— PHASE 4 / 5 · OPTIMISATION RÉTENTION
Tester avec un œil critique avant d'enregistrer
Avant de te lancer dans l'enregistrement, tu fais relire le script à l'IA en mode « anti-spectateur » — pour identifier les passages où l'attention va tomber. Cette phase de critique active te fait gagner 50 % de rétention sur le produit fini.
— Prompt à utiliserVoici mon script complet : [colle le script]
Format : [Reel / vidéo / podcast]
Joue le rôle d'un spectateur exigeant qui cherche une excuse pour partir. Identifie :
1. Les 3 passages où l'attention va le plus probablement chuter — avec timestamp précis et raison (transition molle, exemple manquant, redondance, etc.)
2. Les marqueurs IA qui restent et qui font sonner « écrit par ChatGPT » : transitions chevillées, formulations creuses (« il est important de noter », « dans le monde d'aujourd'hui »), structures parallèles trop régulières (« d'abord X, ensuite Y, enfin Z »). Liste-les avec le passage exact à réécrire.
3. Les 2 endroits où la promesse de l'intro semble ne pas être tenue — où le spectateur risque de penser « je suis venu pour autre chose ».
4. L'évaluation du hook : note-le sur 10 selon ces 3 critères (force de tension, clarté de la promesse implicite, originalité). Si moins de 7, propose 3 alternatives.
5. Les zones à improviser : marque les 2-3 passages que je devrais ne pas lire mot pour mot mais reformuler avec mes mots à l'enregistrement, pour casser le côté lisse.
Sois sévère. Je préfère réécrire avant qu'avoir une mauvaise rétention après publication.
— PHASE 5 / 5 · ADAPTATION SUPPORT
Ajuster pour la parole vs lecture
Le script est presque prêt — dernière étape. Un script vidéo/podcast s'écrit pour être parlé, pas lu. Cette adaptation finale change tout. C'est elle qui distingue le créateur amateur (lit son script en monocorde) du créateur professionnel (parle naturellement à partir de son script).
— Prompt à utiliserVoici mon script optimisé : [colle le script]
Adapte-le pour qu'il sonne parlé et pas lu. Pour ça :
1. Marque les pauses naturelles avec « // » entre les segments où je dois respirer ou laisser respirer le spectateur (pas plus de 3 segments par minute).
2. Identifie 5-8 mots-clés à souligner à l'oral (intonation marquée). Ces mots portent l'argument — sans accent dessus, le script tombe.
3. Réécris les phrases trop écrites en version parlée :
— Remplace les subordonnées par des phrases simples
— Remplace « cependant » par « mais »
— Remplace « par conséquent » par « donc »
— Si une phrase fait plus de 20 mots, coupe-la en deux
4. Ajoute 2-3 « décrochages » : moments où je peux improviser ou réagir spontanément (anecdote courte, parenthèse, réaction). Marque-les « [DÉCROCHAGE possible : sujet] ».
5. Donne-moi le minutage prévu par section : section 1 = X secondes, etc. — pour que je vérifie en relisant à voix haute si je tiens dans le format.
Le script final doit pouvoir être lu à voix haute en sonnant comme une conversation, pas comme un communiqué.
L'astuce du mentor
Le geste qui transforme un bon script en script qui décolle : lis-le à voix haute avant l'enregistrement, idéalement le jour avant. Tu repères en 5 minutes les phrases qui sonnent écrites alors qu'elles devraient sonner parlées. Tu repères les passages où ta voix s'éteint (signe que la section est plate). Tu repères les passages où tu trébuches (signe que la formulation n'est pas naturelle pour toi). Cette discipline est invisible pour le créateur débutant et systématique pour le créateur confirmé. L'écart entre les deux n'est pas le talent — c'est ce passage de 5 minutes à voix haute. Si tu n'as pas le temps de le faire, ton script n'est pas prêt à être enregistré.
— 3 / 4Adaptation aux 5 formats.
La méthode générale fonctionne sur tous les formats. Mais chaque format a ses contraintes. Voici les ajustements précis pour les 5 plus fréquents.
— 4 / 4Les 5 pièges qui tuent un script.
Piège 1 : demander un script complet en un prompt
Le piège le plus fréquent. Tu écris « écris-moi un script de 5 minutes sur X » — l'IA te sort 700 mots cohérents et plats. Ce script aura les caractéristiques exactes du contenu IA générique : structure prédictible, transitions chevillées, ton homogène, pas de point de vue tranché. Discipline : jamais de script complet en un prompt. Méthode 5 phases obligatoire — angle, structure, écriture par sections, optimisation rétention, adaptation parlée. Le surcoût en temps (30-60 min vs 10 min) est largement compensé par le gain en rétention (×2 à ×2,5 selon les analyses 2026).
Piège 2 : laisser passer les marqueurs IA
Voir
l'article 3.2 sur les marqueurs IA. Les transitions chevillées (« par ailleurs », « en outre »), les formulations creuses (« il est important de noter », « dans le monde d'aujourd'hui »), les structures parallèles trop régulières — l'audience les détecte en 2026 même inconsciemment. Sur de l'écrit, c'est mauvais. Sur de la vidéo/podcast, c'est mortel — la voix amplifie ces marqueurs et le spectateur décroche en 30 secondes.
La phase 4 de la méthode est dédiée à ça. Si tu la sautes, ton script aura ces marqueurs et tu ne le verras pas tout seul (biais de cécité d'auteur).
Piège 3 : lire mot pour mot au lieu de parler
Le piège qui ruine même un excellent script. Tu lis ton script comme un texte écrit, ton intonation est plate, ton rythme est mécanique, l'audience entend que tu lis et décroche. Discipline : phase 5 (adaptation parlée) obligatoire. Lecture à voix haute la veille de l'enregistrement. À l'enregistrement, tu utilises le script comme une carte, pas comme un texte sacré. Tu peux et tu dois improviser sur les passages où ça vient naturellement. Les meilleurs créateurs travaillent avec un script à 80 % rédigé et 20 % improvisé en direct — et ces 20 % sont ce que l'audience préfère.
Piège 4 : négliger le hook
71 % des spectateurs décident en 3 secondes. Si ton hook est faible, ton corps est inutile. Pourtant la majorité des créateurs passent 90 % du temps sur le corps et 10 % sur le hook.
Inversion à pratiquer : 30 % du temps sur le hook (génération de 3-5 alternatives, choix du meilleur, test à voix haute). 10 % sur le contexte. 30 % sur le corps. 20 % sur les transitions et le CTA. 10 % sur la phase d'optimisation. Le hook est l'investissement marginal le plus rentable de tout le process. Voir
l'article dédié 3.3 sur les hooks.
Piège 5 : déconnecter le script de la production
Tu écris ton script comme s'il s'auto-suffisait. Tu enregistres. Au montage, tu réalises que rien n'a été pensé pour le visuel : pas de B-roll prévu, pas de moments où tu veux insérer une animation, pas de variation de ton. Résultat : la vidéo finale est plate visuellement même si le script est bon. Discipline : à la phase 3, demande à l'IA d'ajouter des notes B-roll et visuelles en marge du texte (« [insérer image de X] », « [graphique des chiffres] »). Pour le podcast : demande des notes sonores (« [pause longue] », « [musique stinger ici] »). Le script et la production se pensent ensemble.
Ma règle de mentor
L'écriture de scripts est l'un des cas d'usage IA où la frontière entre « ça marche pas » et « ça décolle » passe entièrement par la méthode, pas par l'outil. Un débutant sur Claude Opus 4.7 (le meilleur modèle 2026) qui demande « écris-moi un script » obtient un produit moins performant qu'un créateur expérimenté sur GPT-3.5 (modèle de 2022) qui suit la méthode 5 phases. L'investissement utile n'est pas dans l'outil — il est dans le protocole. Et ce protocole se transmet en une lecture de cet article + 3-4 scripts pour s'approprier les phases. C'est l'un des rares domaines où 2 heures d'apprentissage te font passer de la moyenne au top 5 % des créateurs IA. Pour la suite : lis l'article 3.7 sur l'article long si tu écris aussi de l'écrit, et l'article 3.6 sur les newsletters si tu construis une audience email parallèle au format vidéo/podcast.
— L'essentiel à retenir —
5 points sur les scripts vidéo et podcast.
- Étude Virvid 2026 : scripts IA génériques 28-42 % de rétention vs 52-68 % pour scripts bien structurés. Écart de 26 points qui fait la différence entre vidéo enterrée et vidéo qui décolle. La cause n'est pas la qualité brute du modèle — c'est la méthode d'utilisation.
- Structure-mère universelle : Hook (3-8s, 71 % décident dans les 3 premières secondes selon Instagram research) + Contexte (10-30s) + Promesse (5-15s) + Corps (60-80 % du temps, 3-5 sections avec mini-cliffhangers) + CTA (5-15s, action précise liée au contenu). Minutage : 120-160 mots/min audio, 140-180 mots/min vidéo.
- Méthode 5 phases : (1) angle non-générique avec 5 alternatives classées par tranchant, (2) structure complète sans phrases avant écriture, (3) écriture section par section avec contraintes strictes, (4) optimisation rétention avec relecture critique anti-marqueurs IA, (5) adaptation parlée avec marqueurs de pause et décrochages. 30-60 min total vs 10 min pour un script générique qui ne marchera pas — donc plus rentable.
- 5 formats à connaître : Shorts/Reels/TikTok (hook = 50 % du poids, sweet spot 45-90s), vidéo YouTube longue (4-6 sections avec cliffhangers obligatoires, ancres visuelles), podcast solo (script aéré, 10-15 min idéal pour nouveaux shows), podcast interview (cartographie d'arc narratif, relances cruciales), voice-over commercial (promesse en 1 phrase, phase 5 décisive).
- 5 pièges qui tuent un script : demander un script complet en un prompt (méthode 5 phases obligatoire), laisser passer les marqueurs IA (phase 4 dédiée), lire mot pour mot au lieu de parler (script = carte, pas texte), négliger le hook (30 % du temps total à investir), déconnecter script et production (notes B-roll et sonores intégrées dès la phase 3).