Legendagem automática
Em Novembro de 2009 o Youtube passou a disponibilizar, ainda que nessa altura apenas a um público restrito sendo depois alargado a todos os utilizadores, legendas geradas automaticamente. Como motivação para a criação desta aplicação, previu-se aumentar a acessibilidade da aplicação aos seus utilizadores, principalmente a utilizadores com dificuldades auditivas e a outros que pretendessem visualizar um vídeo numa outra língua que não a sua e que não a compreendessem, reduzir o custo de uma transcrição feita por uma pessoa para um processo computacional e para oferecer ao utilizador uma procura de texto que conduz aos momentos em que certa palavra, ou texto, é dita.
A transcrição de voz no Youtube é realizada recorrendo à tecnologia de reconhecimento de voz automática ASR que é também usada pela Google no Google Voice e no Nexus One, reconhecendo o que é falado no vídeo e gerando legendas. Essas legendas são assim criadas no idioma em que é falado o vídeo e podem depois ser traduzidas para outros 49 idiomas. Outra funcionalidade é a de que após a geração da legenda, que pode conter erros devido ao ruído sonoro no vídeo que prejudica a diferenciação da voz com as outras componentes sonoras presentes, o proprietário do vídeo pode descarregar essa legenda incompleta ou errada, melhorá-la e carregá-la de novo para o vídeo, criando assim uma legenda mais fidedigna. Este processo deve funcionar independentemente da entidade que fala, do ambiente e do dispositivo onde a voz foi gravada. A Fig.1 apresenta uma arquitectura da ASR.
O ASR começa por criar um sinal temporal correspondente à voz com os sons externos a ela. Depois de se ter o sinal de voz, este é convertido numa sequência de vectores [w1,w2,…wn] (vector por palavra) que são medidos durante a duração do sinal. Após isto, é usado um descodificador sintático que tenta fazer corresponder cada vector a uma palavra correspondente dum dicionário originando o novo vector de palavras [W1, W2,….Wn]. Com isto, o descodificador consegue criar uma estimativa do texto lido.
Experimente a funcionalidade de legendagem automática no vídeo seguinte.
Referências
- [1] https://tecnoblog.net/17027/youtube-implementa-legendas-automaticas-para-todos/
- [2] http://www.docsoft.com/Resources/Studies/Whitepapers/whitepaper-ASR.pdf
- [3] https://googleblog.blogspot.pt/2009/11/automatic-captions-in-youtube.html
- [4] Dia AbuZeina, Husni Al-Muhtaseb and Moustafa Elshafei, Cross-Word Arabic Pronunciation Variation Modeling Using Part of Speech Tagging
