Opus





Esquema do codificador SILK






Tendo em conta o referido na secção anterior, rapidamente se percebe que a função do codificador apenas corresponde à determinação e envio do conjunto de parâmetros que melhor descreve o sinal de voz à entrada do sistema para um dado instante.

Para tal, inicialmente, o sinal passa pelo detetor de atividade de voz que auxilia o bloco seguinte a decidir se as tramas são vozeadas ou não vozeadas, sendo essa classificação feita com base no conhecimento que os sons vozeados possuem uma maior energia, especialmente nas baixas frequências. Assim, numa primeira fase, o sinal de cada trama é separado em quatro sub bandas e é calculada a energia presente em cada uma. De seguida, é determinada a relação sinal-ruído das mesmas, bem como a média resultante, conseguindo, a partir daqui, estimar o nível da atividade da voz e o declive espetral de cada trama constituinte do sinal.

Segue-se, então, a análise do período fundamental. Neste bloco, para além de se conseguir identificar as tramas vozeadas e não vozeadas, é ainda, para o primeiro caso, determinado o período fundamental de cada uma das suas subtramas, bem como um fator que os correlaciona, indicando, deste modo, a periodicidade do sinal.

A seguinte etapa é uma das mais exigentes, pois diz respeito à análise da predição, isto é, à estimação dos coeficientes de predição. Esta fase apresenta, à semelhança do bloco anterior, um tratamento diferencial consoante a classificação da trama. Deste modo, caso a trama seja vozeada, é realizada a estimação dos coeficientes de longa duração os quais são, em seguida, quantificados. Após a sua quantização, os mesmos, para além de serem enviados para o codificador entrópico, são novamente revertidos e usados para filtrar o sinal o que corresponde a retirar ao som vozeado as componentes periódicas introduzidas pelas cordas vocais. Note-se que é de extrema importância que se use os coeficientes após a sua quantificação uma vez que se pretende que o codificador mantenha o sincronismo com o descodificador. O sinal daqui resultante, conhecido por resíduo da predição de longa duração, é, então, usado para a estimação dos coeficientes de curta duração os quais, à semelhança dos outros, são quantificados e transmitidos, com a condicionante de antes serem convertidos numa representação alternativa denominada de LSF (Line Spectral Frequency). Esta transformação dos coeficientes LPC em LSF deve-se apenas ao facto destes últimos apresentarem propriedades desejáveis para quantificação e transmissão, pois tomam uma gama limitada de valores e possuem uma grande correlação intertrama. Por outro lado, caso a trama seja classificada como sendo não vozeada, não existe a necessidade de ser feita a análise LTP e, como tal, são estimados diretamente os coeficientes LPC pelo mesmo método acima referido.

Para além dos processos descritos anteriormente, é de referir que em paralelo com estes encontra-se um módulo que é responsável pela análise do ruído, isto é, o codificador possui um esquema de mascaramento auditivo do ruído de quantificação e, como tal, enaltece-o nas regiões onde o sinal possui uma maior energia e minimiza-o nas de menor energia, que são perceptualmente mais sensíveis. A sua função é, pois, otimizar os parâmetros de controlo do pré-filtro e do quantificador a fim de reduzir a perceção do ruído aquando da descodificação do sinal.

Finalmente, e não menos importante, é à saída do filtro branqueador, que se obtém o resíduo de predição, ou excitação, o qual idealmente corresponde ao sinal original completamente descorrelacionado, obtido através da sua filtragem pelos coeficientes que modelam o modelo glotal (LTP) e subsequentemente pelos do modelo do trato vocal (LPC). No entanto, tal não acontece, sendo a excitação também composta por erros devidos à quantificação dos coeficientes e a próprias imprecisões dos modelos usados para caracterizar a glote e o trato vocal.