Transcrire ses fichiers audio ou vidéo ? De bons conseils sur YouTube.

Voici une très bonne vidéo publiée par le youtubeur Justin Brown et très instructive sur les contraintes qu’il rencontre sur la transcription audio de ses vidéos (qualité de l’enregistrement audio et délai de réalisation de la transcription). Il énumère dans cette vidéo les différentes possibilités de recours à des services de transcription en fonction de différents besoins et situations rencontrées.

Ci-dessous la traduction française des sous-titres de cette vidéo : 

Vous voulez transcrire vos vidéos ou vos podcasts pour pouvoir réutiliser facilement votre contenu ? Nous allons voir de quelle manière transcrire de l’audio en texte et les meilleurs moyens de le faire, de manière gratuite ou payante et quel que soit votre budget.

Transcrire des vidéos ou des podcasts est un excellent moyen de réutiliser facilement du contenu existant et d’ainsi en produire la description.

Il existe de nombreuses solutions lorsque vous cherchez à transformer la parole en texte, allant de logiciels gratuits, de plateformes automatisées payantes à la transcription manuelle. De grandes disparités existent aussi dans la précision du texte produit et le coût de chaque option. Chaque option peut trouver sa place en fonction de votre projet et de votre budget.

J’utilise un mix de différentes solutions pour mes différents projets (en fonction du niveau de précision du texte attendu et du délai dont je dispose pour que le texte soit traité).

Nous allons parcourir mes options préférées pour la transcription de vidéos.

Faites-moi savoir de quelle manière transcrivez-vous vos audios ou vidéos et quels services de transcription utilisez-vous. De nouveaux services de transcription sont lancés de manière régulière et vos commentaires aideront la communauté.

Nous allons commencer par parler des services payants, puis nous passerons aux options gratuites de transcription.

Il est important de préciser que pour toute solution de transcription ou service de transcription, la transcription sera de meilleure qualité si l’enregistrement audio ou vidéo est clair et de bonne qualité.

Il est donc préférable que vous utilisiez un fichier audio ou vidéo avec un minimum de bruit de fond et sans musique de fond. L’idéal est une vidéo comportant uniquement des dialogues. Cela n’est évidemment pas le cas de tous les enregistrements, mais essayez le plus possible que dans votre vidéo, les dialogues soient les plus clairs possible.

Pour les options payantes de manière générale : plus le tarif d’un service de transcription sera élevé, meilleure sera la qualité des textes.

Il existe deux grandes catégories de transcriptions payantes : les transcriptions manuelles et les transcriptions automatisées.

La transcription automatisée comporte aussi deux sous-catégories : vous pouvez soit automatiser votre transcription via des sites web ou vous pouvez utiliser un logiciel de reconnaissance vocale. Les sites web sont des plateformes où vous téléchargez vos enregistrements qui seront traités de manière automatisée et la transcription vous sera ensuite retournée.

Pour les logiciels de reconnaissance vocale, vous devrez d’abord acheter une licence, installer le logiciel sur votre ordinateur et enfin lancer les transcriptions.

Au niveau des solutions web automatisées existantes, je vais vous expliquer comment des solutions comme Temi ou Spext fonctionnent. Une fois votre compte créé, vous pourrez soit envoyer un lien vers votre vidéo ou uploader la totalité de votre enregistrement en format audio ou vidéo et la plateforme travaillera à partir de ce fichier.

Le délai de traitement sur ces plateformes est très court, car l’humain n’intervient pas dans le travail et il n’y a pas besoin d’attendre qu’un transcripteur vienne s’asseoir, télécharge, lise votre fichier audio ou vidéo et le tape. Tout est automatisé et la plupart du temps votre transcription commencera immédiatement. Ce type de plateforme web est donc très rapide pour vous retourner votre document texte.

On peut toutefois noter que ces logiciels ou plateformes ont vraiment besoin d’un enregistrement audio parfaitement clair afin d’obtenir des résultats corrects. Avec des bruits ou musiques de fond ou des personnes parlant avec de forts accents, du bruit de vent ou d’autres éléments de ce type, cela va vraiment parasiter la compréhension des dialogues et il sera alors très difficile pour les algorithmes de déchiffrer ce que vous dites.

Au niveau des points positifs, en plus d’être vraiment rapides, ces plateformes logicielles sont la plupart du temps très bon marché. Par exemple, la tarification pour la solution Temi commence à environ 10 centimes la minute d’audio, alors que la tarification pour Spext commence aux alentours de 25 centimes par minute d’audio. Un grand nombre d’autres solutions existent aussi, mais Temi ou Spext sont les deux plateformes que je vous recommande pour commencer.

Je suis personnellement un grand fan de Temi et je l’utilise sur des projets où la précision n’est pas trop importante, mais où disposer d’un texte est pratique, surtout sur des projets de montage avec des vidéos de longue durée. Une transcription complète des vidéos sur lesquelles vous travaillez permet de retrouver rapidement des éléments et vous pourrez les retrouver dans des temps vraiment très courts. Peu importe s’il y a quelques fautes de frappe ou même quelques phrases en contresens total, je pense que Temi est parfait pour ce type d’usage. Je n’utiliserais toutefois pas cette solution si j’ai vraiment besoin d’un bon niveau de précision de la transcription ou si les enregistrements comportent de trop nombreux participants ou une musique de fond, car cela va être trop compliqué pour le logiciel et les résultats ne seront vraiment pas bons.

Une autre option pour la transcription automatique de vos enregistrements est d’utiliser un logiciel de reconnaissance vocale à installer en local sur votre machine. 

Ce logiciel peut être juste une interface vers certaines plates-formes web, mais il vous donnera beaucoup plus de contrôle et la plupart du temps un niveau de précision plus élevé.

Plusieurs logiciels existent, mais le meilleur que j’ai pu utiliser est un plugin pour Adobe Première Pro nommé Transcriptive (logiciel édité par la société Digital Anarchy). Il est vendu 299 $, ce qui peut sembler cher, mais ce logiciel apporte jusqu’à 95 % de précision et peut transcrire 60 minutes d’enregistrement en seulement 10 minutes. Du fait que ce logiciel soit intégré à Adobe Première, cela signifie aussi que l’ensemble de l’exportation et du téléchargement est automatisé au niveau d’Adobe Première. Une fois que vous avez récupéré votre vidéo transcrite, Adobe Première vous permet aussi d’utiliser des marqueurs ou des points de référence qui facilitent la recherche de segments dans votre vidéo (ceux-ci sont reliés avec le code temporel de votre fichier vidéo).

Transcriptive peut se connecter soit à au moteur d’intelligence artificielle d’IBM, Watson, ou à la plateforme nommée Speechmatics. Watson est moins précis, mais offre 1 000 minutes de transcription gratuite par mois (puis deux centimes par minute au-delà des 1 000 premières minutes offertes).

Le texte généré par Speechmatics est de meilleure qualité que celui généré par Watson : vous atteignez une précision de 95 % et j’ai été époustouflé de voir que cette solution fonctionne également sur des vidéos avec d’importants bruits de fond. Le tarif en passant par Speechmatics est de sept centimes par minute d’enregistrement.

L’utilisation du plugin Transcriptive permet également un export facile et rapide en format sous-titres ou Word.

J’ai pu tester à la fois sur Watson et Speechmatics sur l’une de mes vidéos YouTube comportant du bruit de fond et le résultat obtenu avec Speechmatics était vraiment bluffant. Watson s’en est bien sorti pour les parties sans bruit de fond, mais de manière générale Speechmatics était beaucoup plus précis et plus rapide (24 minutes de vidéo ont pu été traitées en moins de deux minutes).

Pour résumer, une licence à tout de même 299 $ et un fonctionnement uniquement avec Adobe Première, mais cela reste une excellente solution si vous utilisez Adobe Première et avez des projets avec de longues durées de vidéos. D’un clic et en quelques minutes, vous pouvez transcrire toute votre séquence ou tout le projet sur lequel vous travaillez. C’est un outil formidable pour transcrire vos montages au quotidien, par exemple sur des documentaires ou des courts-métrages et il sera beaucoup plus facile avec cette solution de travailler avec vos clients et votre équipe pour trouver des passages précis sur les vidéos. Si vous n’utilisez pas Adobe Première Pro et ne voulez pas dépenser 299 $ avant de pouvoir commencer à transcrire, cela ne sera néanmoins pas la meilleure solution pour vous.

Voilà au niveau des solutions payantes et je vais aussi maintenant vous recommander quelques solutions gratuites.

Les solutions gratuites ne mettent généralement pas à disposition le même degré de précision, mais celles-ci pourraient parfaitement suffire à votre usage.

En solution gratuite existe tout d’abord la transcription automatique générée sur les vidéos YouTube. Cela fonctionne uniquement lorsque vous uploadez votre vidéo sur YouTube et il faut attendre que les serveurs retournent la transcription (cela peut prendre jusqu’à 12 heures).

YouTube va donc automatiquement transcrire votre vidéo et une fois que cela est fait, vous pourrez vous connecter et télécharger le texte pour l’insérer dans un document Word ou dans n’importe quel éditeur. Avec cette solution vous n’avez pas besoin de faire quoi que ce soit pour transcrire.

Une autre solution consiste à laisser travailler Google Voice ou Siri pour qu’il réalise votre transcription. J’ai déjà fait une vidéo expliquant comment transcrire avec Google Voice et Google Docs.

Vous devez ouvrir l’application de traitement de texte sur votre smartphone et au lieu de taper au clavier, vous appuyez sur le bouton « microphone » qui active la saisie vocale. Tout ce que vous avez à faire est donc d’appuyer sur le bouton du microphone, de lancer votre vidéo à transcrire sur les enceintes et la transcription commencera toute seule.

Cette technique va toutefois énormément dépendre du bruit de fond du lieu dans lequel vous enregistrez, mais aussi de la qualité de l’audio dans la vidéo que vous lancez.

Cela marchera très mal s’il y a beaucoup de musique de fond dans cette vidéo, mais si la musique de fond est très faible ou qu’il n’y a pas de musique du tout et très peu de bruit de fond, vous pourrez obtenir des résultats assez décents.

Cette technique marche bien en utilisant votre smartphone et vous pourrez souvent obtenir encore de meilleurs résultats en utilisant votre ordinateur de bureau.

Sur un ordinateur fixe, vous pouvez à partir de Chrome accéder à Google Drive et il faut ensuite créer un nouveau Google Docs et sélectionner « outils » en haut de la page pour accéder à la saisie vocale. Tout ce que vous avez ensuite à faire est de cliquer sur l’icône du microphone et de lancer la lecture de la vidéo depuis une autre fenêtre sur les enceintes de l’ordinateur.

En fonction de la configuration de votre ordinateur et de votre microphone, vous obtiendrez parfois de meilleurs résultats en lisant votre fichier vidéo directement sur votre smartphone et le tenant près du micro de votre ordinateur.

Si l’enregistrement contient un accent quelconque ou si la langue principale de votre compte Google n’a pas été définie, vous risquez de ne pas obtenir de bons résultats.

Pour obtenir les meilleurs résultats possible, mes deux recommandations pour l’utilisation de cette solution est donc d’utiliser Chrome et de définir votre langue principale.

Nous allons maintenant nous intéresser aux options manuelles de transcription, les transcriptions traitées par une main-d’œuvre humaine.

Le plus grand avantage de cette solution est l’atteinte d’un plus haut niveau de précision dans les textes. Le plus grand inconvénient de cette solution est que le traitement prendra du temps.

Vous pouvez vous diriger vers des sites comme Fiverr ou Upwork.com et publier votre demande. Beaucoup de prestataires vous proposeront de transcrire votre vidéo à des tarifs intéressants. J’ai personnellement fait l’expérience de très bons prestataires à des tarifs très bas, mais dans d’autres cas la communication a été très mauvaise et les textes finaux n’ont pas été non plus de bonne qualité. Ces plateformes peuvent donc s’avérer assez hasardeuses quant à la qualité du résultat.

Il existe également beaucoup de sites dédiés à la transcription, où les transcriptions seront réalisées par des humains et pour lesquelles il y aura également un contrôle qualité.

J’utilise personnellement Rev.com Pour utiliser ce site, vous devez créer un compte et envoyer soit un lien vers votre vidéo soit directement le fichier vidéo ou audio que vous souhaitez faire transcrire.

Une fois votre commande validée, la transcription est réalisée dans les 12 heures.

Le gros avantage de ce type de site est que la transcription est réalisée par un humain et que la précision du texte final est bien meilleure, avec aussi un contrôle qualité et un processus de révision dans le cas de Rev.com Si vous n’êtes pas content de la qualité du texte transmis, vous pouvez demander des révisions. Vous avez également plusieurs options et vous pouvez demander de nombreuses versions différentes de votre texte (avec timecodes ou directement sous forme de sous-titres, etc.)

Vous pouvez aussi demander une mise en page particulière lors du brief et ils répondront à votre demande.

Le coût pour Rev.com est de 1 $ par minute d’enregistrement. Cela est un peu plus cher que les autres options automatisées, mais étant donné qu’a été mis en place un réel contrôle sur la qualité et que votre audio ou vidéo sera transcrite par une personne physique réelle qui comprendra les nuances de sens et d’accent, cela vaut vraiment le coup de payer plus cher pour un produit de bien meilleure qualité.

Cette solution est également très utile pour les fichiers audio ou vidéo avec des intervenants multiples, car la précision du texte final sera bien plus élevée dans ces situations.

Le recours à une main-d’œuvre humaine est donc particulièrement utile lorsqu’il y a de multiples interlocuteurs et accents, même si des services en transcription automatisée prétendent les gérer.

Je vais maintenant vous montrer comment j’utilise Rev.com pour mes vidéos YouTube. Comme vous avez pu le voir, il existe de nombreuses options pour que vos fichiers audio ou vidéo soient transcrits (automatiquement, manuellement ou via votre téléphone). J’utilise personnellement un mélange de ces solutions en fonction de la précision dont j’ai besoin et du délai dans lequel j’ai besoin du texte. Pour disposer d’une transcription vraiment rapidement et où la précision n’est pas indispensable, je vais soit utiliser mon smartphone soit utiliser Google Docs voire utiliser Temi pour 10 centimes par minute d’enregistrement.

Pour des projets de montage vidéo avec plus de volume d’enregistrements et où la précision des textes récupérés n’est pas indispensable (ils seront de toute manière constamment édités et mis à jour au fur et à mesure du montage), j’utiliserais le plugin Transcriptive avec le monteur Speechmatics sur Adobe Première Pro.

Pour tout texte qui ne sera pas utilisé comme document de travail, mais sera communiqué de manière publique et où j’ai besoin d’une précision à 100 %, j’utiliserais Rev.com.

Même si le délai de traitement est plus long que sur d’autres plateformes entièrement automatisées, je suis content d’attendre, car ce n’est pas si long que ça et la qualité du texte est vraiment incomparable, ainsi que le contrôle sur les formats et les éventuelles corrections que vous pourrez demander.

Si vous voulez des sous-titres ou un document Word mis en page exactement comme vous le désirez, je vous conseille d’utiliser Rev.com.

La transcription de votre contenu YouTube peut également améliorer votre référencement dans les résultats de recherche YouTube.

Découvrez un tarif unique pour toute transcription audio réalisée par l’équipe retranscriptionaudio.com : 1€ la minute d’enregistrement

transcrire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *