MP3
Descrição
Os ficheiros MP3 são gerados, através da modulação do sinal áudio original utilizando a Pulse Code Modulation (PCM). Esta codificação é obtida descartando os bits que são considerados irrelevantes para a audição humana. O limiar de audição é considerado para o processo de codificação aplicando-se o modelo psicoacústico. Às componentes do sinal, cujas frequências se encontram fora da gama captada pelo sistema auditivo humano são atribuídas um número menor de bits durante o processo de codificação. Por outro lado, tendo em consideração que o HAS é especialmente sensível a gamas de frequência entre 2-5 kHz, o algoritmo do MP3 distribui mais bits de informação nessa gama. Embora o algoritmo de compressão do MP3 seja por norma um modelo de codificação com perdas (lossy) também é possível codificar o sinal de áudio sem qualquer perda (lossless) mantendo um factor de compressão considerável de seis para um ou mais.
Algumas das características importantes da codificação MP3 são seguidamente apresentadas:
Como as características relacionadas com a percepção do ouvido humano aproveitadas por códigos perceptivos de áudio (PAC) como o MP3 as frequências perceptivas são representadas de forma exacta ao contrário das frequências menos perceptivas que podem ser retransmitidas de forma menos exacta assim como as frequências que não são definitivamente captadas pelo sistema auditivo humano podem ser descartadas. Tendo em consideração as afirmações referidas podemos facilmente depreender que a quantidade de informação que estará no ficheiro final codificado, será consideravelmente inferior, no entanto também existe o inconveniente de introduzir um sinal de ruído indesejável.
A qualidade de codificação do MP3 é definida pelo ritmo binário, ou seja, a quantidade de dados codificados que são usados para representar cada segundo de áudio. Naturalmente, quanto maior o ritmo binário menor será à diferença entre o ficheiro original e o codificado.
Codificação
Passa-se a descrever os blocos que compõem método de codificação utilizado para o MP3 e que estão representados na figura 4:
Figura 4 - Esquema de codificação MP3
Caso o modelo Psicoacústico detecte que um sinal das 32 sub-bandas é igual ao anterior, é aplicada uma janela Long que melhora a resolução espectral, caso contrario é aplicado uma janela Short que melhora a resolução temporal. As transições entre uma janela Short para Long são designadas por janelas Start. O fenómeno inverso é designado por janela Stop. As janelas Start e Stop são enviesadas para os lados, para melhorar as transições entre as janelas Long e Short o que permite a eliminação mais eficiente da redundância.
Os limiares referidos anteriormente para os coeficientes espectrais são utilizados no processo de quantificação para determinar o tamanho do passo de quantificação óptimo e o escalonamento através de:
- Big values – Consiste em coeficientes maiores de frequência e usa 32 tabelas codificadas de huffman, que podem ser divididas em 3 regiões, cada região escolha a sua tabela codificado baseado na característica estatística do sinal áudio.
- Count 1 – Consiste nos coeficientes de frequência -1, 0 ou 1.
- Rzero – Consiste numa série de coeficientes de zeros que não são codificados.