Reconaissance vocale en occitan

(gascon et languedocien)

Les technologies de la langue – reconnaissnace vocale, synthèse vocale, traduction automatique ou encore l’analyse sémantique – constituent un enjeu vital pour les langues minorisées.
ReVOc est un nouveau programme de développement de la reconnaissance vocale en occitan (variétés gasconne et languedocienne) engagé par le Congrès permanent de la lenga occitana.

La reconnaissance vocale permet la transcription de la voix en texte, une technologie qui est désormais largement diffusée dans des applications grand public, notamment par les assistants personnels (Siri d’Apple, Google Home ou encore Alexa d’Amazon pour les plus connus), le sous-titrage automatique de vidéos, et également l’aide à la transcription de collectages.

On estime à environ 200 heures le besoin de transcriptions audio et à 500 millions de mots le corpus textuel nécessaires pour chaque variété. L’occitan restant une langue encore trop peu dotée, nous comptons sur la participation du plus grand nombre de locuteurs pour renforcer la présence de la langue dans l’espace numérique.

Ce programme triennal (2020-2022) se réalise dans le cadre d'un partenariat transfrontalier qui associe l'institution aragonaise Rolde de Estudios Aragoneses (qui développera la même technologie pour la langue aragonaise) et la fondation basque Elhuyar (en charge de la partie technique du programme), il bénéficie du soutien financier de la région Nouvelle-Aquitaine, de la région Occitanie et du département des Pyrénées-Atlantiques.