O Modelo Psico-Acústico

Como já dito anteriormente, tanto o MP3 como o AAC fazem uso de um modelo de compressão com perdas. A base deste modelo reside num método que encontra fundamento na já mapeada sensibilidade do ouvido humano comum, como tal torna-se essencial fazer aqui uma breve descrição do comportamento do mesmo. É relevante ter em conta que a audição não é apenas um fenómeno de propagação de ondas puramente mecânico mas também um evento sensorial e de percepção. O ouvido humano, como parte do processo de transformação do som num estímulo sensorial, realiza uma decomposição espectral, tornando inaudíveis certos eventos sonoros que se situem fora dos limites de audição. A compressão faz uso deste facto, reduzindo a precisão de certas partes do som que se encontram para além da resolução auditiva do comum ouvinte. Este método é conhecido como perceptual coding e providencia uma representação do som, numa determinada janela de análise tempo/frequência, ao fazer uso do modelo psico-acústico para descartar ou reduzir a precisão de componentes menos audíveis ao ouvido humano, e assimilando a restante informação de forma eficiente.

Assim, O que é o modelo psico-acústico?

É um modelo matemático que retrata de forma simplificada, as principais propriedades do sistema auditivo humano, nomeadamente, a percepção de intensidade sonora, a selectividade espectral e o efeito máscara. Serve para estimar, adaptativamente, a quantidade e o perfil do ruído de codificação que se pode reduzir, atenuando assim também a quantidade de informação do sinal áudio, sem que se torne perceptível para o ouvido humano. Permite assim também a redução do débito associado à codificação.

No processo de mascaramento é utilizado um ciclo externo de modo a reduzir o ruído de quantificação e de forma a não exceder o limiar de mascaramento. Este ciclo é por isso também conhecido por controlo de ruído.

Falando agora da sensibilidade do ouvido humano, esta tem uma gama dinâmica de 96dB e a sua frequência varia entre 20Hz e 20KHz, para uma pessoa com boa audição. Dentro desta gama o ouvido é mais sensível em determinadas frequências que noutras, situando-se essa gama entre o 1KHz e 3KHz, como se pode observar na figura 2.

Fig.2 – Sensibilidade do ouvido humano

Quando dois sons de frequências próximas estão simultaneamente presentes, o ouvido humano assimila melhor o som com maior amplitude. Situação inversa ocorre quando estes se encontram espectralmente afastados, onde o ouvido humano já terá uma percepção mais nítida de cada um dos sons. A este fenómeno atribui-se o nome de mascaramento, sendo esta outra propriedade do sistema auditivo humano, já referida anteriormente, e que nos permite aumentar o nível de ruído uma vez que este será mascarado. Existem dois tipos de mascaramento, em frequência e temporal, os quais serão explicados em baixo com maior detalhe.

Torna-se agora necessário a inserção de um novo conceito, dimensão de banda crítica. Esta corresponde à largura de banda das curvas dos sinais que causam o efeito mascara, não sendo esta proporcional à frequência. É representativa da capacidade do ouvido de distinguir entre tons simultâneos, em diferentes frequências, e tem o valor aproximado de 100Hz para baixas frequências aumentando consideravelmente para frequências mais elevadas.

Na figura 3 é finalmente possível observar um exemplo de mascaramento:

Fig.3 – Fenómeno de mascaramento.

Neste exemplo temos um primeiro sinal forte com frequência de aproximadamente 0,3KHz e outro sinal mais fraco na sua vizinhança com sensivelmente 0,4KHz e 20dB abaixo em relação ao primeiro. Este sinal não será ouvido, dado que é mascarado pelo primeiro como ilustrado na figura acima. No entanto se este sinal tivesse mais distante, por exemplo em 1KHz já seria ouvido.

O Mascaramento temporal por sua vez, ocorre quando um som forte faz com que outro de igual ou menor intensidade não seja perceptível durante um certo intervalo de tempo. Se um som é mascarado por outro som forte antes de este se fazer ouvir, atribui-se o nome de pré-mascaramento e poderá ter uma duração máxima de 20ms. Se por outro lado um som é mascarado por um som forte depois deste se fazer ouvir, encontramo-nos numa situação de pós-mascaramento e poderá ter uma duração máxima 200ms; tal como ilustrado na figura 4.

Fig.4 – Situações de Pré e Pós-Mascaramento

Decorre dos factos supra referidos que é apenas necessário codificar o perceptível, ou seja, o que se insere dentro dos limites do sistema auditivo humano. Nesse sentido, encontram-se esses limites ilustrados na figura 5.

Fig.5 – Limites do sistema auditivo humano