Quelle méthode utiliser pour la transcription de l'audio en texte ?

Transcription audio en texte : saisie 100 % au clavier de l’audio en texte ?

On peut penser a priori que convertir un enregistrement audio en texte peut se faire en direct ou dans un temps proche du direct, mais l’activité de saisie à l’écrit d’un enregistrement audio est particulièrement chronophage et toute personne s’y étant essayé a pu fortement le ressentir.

En effet, le temps de l’écoute de l’intégralité d’un enregistrement n’est pas compressible et l’écouter entièrement prendra déjà au minimum la totalité de sa durée. À cela, il faut ajouter que le débit de la parole à l’oral est souvent proche des 200 mots par minute, alors que la vitesse de frappe manuelle au clavier excède rarement les 60 mots par minute pour une personne tapant régulièrement au clavier. Il n’est de plus pas toujours possible de comprendre du premier coup tous les mots prononcés sur une bande audio et certains acronymes ou noms propres amènent des temps d’hésitation. La vitesse de saisie au clavier pour un audiotypiste risque par conséquent de diminuer d’au moins 25 % lorsqu’il doit se concentrer sur ce qu’il entend tout en restant agile au clavier.

À une vitesse de 35 mots par minute, il faudra donc près de 6 heures travaillées pour traiter un enregistrement d’une heure. Le texte généré ne sera toutefois pas encore de qualité suffisante pour une publication web ou papier et il y a de très fortes chances qu’il y reste des coquilles ou contresens non acceptables pour un client exigeant. À ces 6 heures travaillées, il faudra donc ajouter au moins une heure de réécoute et en moyenne une heure de pause pour la correction des dernières coquilles et la vérification des derniers noms propres, acronymes ou points de vocabulaire. Tout ceci porte à environ 8 heures travaillées pour la transcription écrite d’un enregistrement d’une heure où l’élocution y est de 200 mots par minute. À ces huit heures travaillées, il faudra aussi rajouter des temps de pause, car la fatigue cognitive survient très rapidement en audiotypie (autre nom utilisé pour désigner la saisie d’un audio en texte) du fait de la concentration requise.

Retranscription audio : saisie en respeaking avec logiciel de reconnaissance vocale ?

Afin de diminuer ces temps de travail très importants pour un résultat à la valeur ajoutée tout de même contestable, les transcripteurs retranscriptionaudio.com ont pu se pencher sur les logiciels de reconnaissance vocale (qui permettent par définition une saisie audio à la vitesse de la parole). Cette méthode est parfois appelée le « respeaking reconnaissance vocale » ou la « technique du perroquet » : le rédacteur répète in extenso tout ce qu’il entend dans l’enregistrement. Toutefois, afin que cette technique puisse être intéressante en termes de temps de travail, il faut le moins possible faire de pause lorsqu’on écoute l’enregistrement et c’est un exercice particulièrement fatigant mentalement.

À ceci s’ajoute un temps de relecture particulièrement important afin de corriger tous les contresens (homonymes et mots cousins dont la phonétique est proche) et rendre la ponctuation plus naturelle. Au final, le temps de traitement total des enregistrements s’approche également de 8 heures travaillées pour une heure d’enregistrement et un résultat nettement moins convaincant en terme qualitatif qu’avec une saisie directe au clavier. Cette méthode de travail a donc été abandonnée, car les résultats en termes de qualité étaient décevants.

Même s’il peut y avoir une certaine euphorie à avancer très rapidement lorsque la reconnaissance vocale semble être de qualité et que les doigts ne se fatiguent plus, il y aura très certainement de grosses déconvenues à la mesure du temps nécessaire à la correction de ce même texte. Pour résumer : un texte donnant dans un premier temps l’impression d’être transcrit rapidement, mais quasi impossible à rattraper qualitativement dans un temps inférieur à une saisie 100 % au clavier.

Audio en texte : saisie dans un logiciel de transcription automatique ?

Ces dernières années ont vu apparaître un bouleversement dans les méthodes utilisées par les transcripteurs pour convertir enregistrements audio ou vidéo en texte : la transcription automatique de l’audio en texte. La transcription est réalisée en chargeant directement un enregistrement sur une unité de calcul disposant d’algorithmes en réseau neuronal. Des algorithmes qui se basent aussi sur des bases de données importantes et qui utilisent la probabilité que tel mot se situe à côté de tel autre.

Cette technologie permet avant tout de s’affranchir du temps particulièrement long de saisie au clavier ainsi que de la technique éprouvante du « perroquet » dans un logiciel de transcription vocale. Cette méthode permet donc d’arriver – sans main d’œuvre humaine marginale – à la transcription automatique en ligne de ces très nombreux 200 mots par minute d’enregistrement.

L’équipe retranscriptionaudio.com a décidé de se doter de cette technologie, car elle gomme considérablement la partie la plus dure du travail de transcription. Les textes produits sont toutefois loin d’être publiables en l’état et les transcripteurs de notre équipe doivent donc s’organiser dans un second temps autour de la relecture de ces textes. La relecture la plus efficace pour gommer les contresens et erreurs grammaticales systématiques de la transcription automatique est la réécoute intégrale des enregistrements audio et la correction manuelle de cette première ébauche de texte.

Cette première relecture avec audio manuelle au clavier prend en moyenne quatre heures pour une heure d’enregistrement (sous réserve que l’enregistrement audio ou vidéo soit de bonne qualité, sans accent atypique et sans bruit de fond et sans trop d’intervenants parlant en même temps).

À ceci nous avons décidé d’ajouter une seconde relecture manuelle avec audio au clavier croisée avec un second transcripteur. Cela permet d’éliminer les dernières coquilles et de garantir un bon niveau de qualité du texte. Cette seconde relecture prend en moyenne 2,5 heures travaillées pour une heure d’enregistrement.

Au final, le temps total pour transcrire une heure d’enregistrement audio avec cette méthode sera d’environ 6,5 heures travaillées. Cela est inférieur d’une heure et demie à la première méthode avec un niveau de qualité supérieur du fait de la relecture croisée. Cette méthode de travail a aussi pour bénéfice de renforcer la solidarité et l’apprentissage entre transcripteurs (qui apportent leur savoir et ont aussi une vision sur le travail de leurs collègues).

Exemple illustré de notre méthode de transcription

Vous trouverez dans le document PDF ci-dessous une comparaison de document en trois temps donnant plus d’éléments sur notre méthode de transcription par reconnaissance automatique de la parole puis double relecture croisée :

Temps 1 : transcription automatique de l’enregistrement ;

Temps 2 : première relecture manuelle avec audio au clavier ;

Temps 3 : seconde relecture croisée manuelle avec audio au clavier ;

Les éléments mis en évidence en rouge sont les éléments qui diffèrent du texte du compte-rendu officiel publié sur le site de l’Assemblée.

On voit nettement les nombreuses erreurs de sens émises par la transcription automatique (qui n’émet pas non plus de ponctuation) dans la première partie du texte.

Le nombre de problèmes diminue largement lors de la première relecture manuelle avec audio au clavier, même si de petites coquilles et erreurs de grammaire persistent.

Le filtre de la seconde relecture croisée manuelle avec audio au clavier permet d’éliminer les dernières coquilles. Les éléments restants en rouge mettent en avant les choix de lissage utilisés par le rédacteur du compte-rendu officiel pour fluidifier la lecture du journal officiel. Cela est un autre point important dans le métier de transcripteur, qui sera probablement traité dans un prochain article, mais peu utile dans les transcriptions d’entretiens sociologiques (la majorité de l’activité des transcripteurs retranscriptionaudio.com) qui se doivent de transcrire l’audio en texte de la manière la plus fidèle possible.

Découvrez un tarif unique pour toute transcription audio réalisée par l’équipe retranscriptionaudio.com : 1,25€ la minute d’enregistrement

Transcription audio en texte : quelle méthode de travail adopter pour transcrire ?

Transcription audio en texte : saisie 100 % au clavier de l’audio en texte ?

Retranscription audio : saisie en respeaking avec logiciel de reconnaissance vocale ?

Audio en texte : saisie dans un logiciel de transcription automatique ?

Exemple illustré de notre méthode de transcription

Une réflexion au sujet de « Transcription audio en texte : quelle méthode de travail adopter pour transcrire ? »

Laisser un commentaire Annuler la réponse