3-MP3

Como já foi referido anteriormente, a partir de cerca de 1995, o codec MP3 assume-se como o codec padrão para codificação de música. Este codec conseguia, com um grau muito aceitável de complexidade (o tempo de codificação era relativamente baixo), comprimir um ficheiro em PCM, ou seja, de áudio ‘virgem’ proveniente de um CD para até um décimo do seu tamanho, com diferenças quase imperceptíveis em relação ao ficheiro original.

A ideia inicial que culminou com o desenvolvimento deste codec foi tentar eliminar dum ficheiro de áudio aquilo que o ser humano não consegue perceber auditivamente, e uma vez que o erro de codificação é uma constante, injectar o máximo de erro nas zonas de mais difícil audição (tais como altas frequências). Precisamente por isto esta família inicial de codec’s, MPEG-1, foi chamada de codec’s “perceptuais”. Apesar de tudo (e como iremos mostrar no ponto 4 deste artigo), este codec não era o que conseguia melhores rácios de codificação ou até mesmo qualidade de som, e até é mesmo denominado como um codec “suficiente”.

3.1-Tecnologia

Figura 3.1- Diagrama de blocos do algoritmo MP3 [5]

Podemos então explicar o funcionamento do codec MP3 através da explicação de cada um dos blocos. Inicialmente o áudio PCM em simultâneo enviado para um Banco de Filtros (Filter Bank) e para o modelo perceptual, que actua segundo modelos psicoacústicos: [5]

Modelo Perceptual (Perceptual Model): neste passo estão ‘escondidos’ os modelos psicoacústicos. Através de modelos matemáticos define propriedades e limites de tolerância para o sistema auditivo humano, como por exemplo limites para as amplitudes dos sons que somos capazes de captar. É também responsável por dizer ao banco de filtros em que frequência pode introduzir mais erro. Uma imagem que especifica as tolerâncias que são empregues é a imagem de seguida:

Figura 3.2- Tolerâncias do ouvido humano. [6]

Banco de filtros (Filter Bank): o sinal PCM (sinal fundamental, não afectado por qualquer tipo de codificação), é enviado para um banco de filtros, que decompõe o sinal em várias frequências, com base na informação de controlo que recebe do modelo perceptual, preparando o sinal para ser codificado não no domínio do tempo, mas no domínio da frequência. Este banco de filtros híbrido é constituído por 25 filtros de transição, que varrem frequências de 0 a 20kHz.

De seguida, após o sinal estar decomposto nas várias frequências é enviado para um conjunto de blocos que tem como função quantificar e manipular o erro por banda de frequências.

Quantificador (Quantization): recebe informação saída do Modelo Psicoacústico e com base nesses dados, atribui pesos específicos a cada frequência. Desta forma às frequências mais altas, que são menos perceptíveis pelos seres humanos, são atribuídos pesos menores e portanto é injectado mais erro.

Codificador Entrópico (Entropy Coder): codificador que atribui uma palavra a cada sinal, que é proporcional ao logaritmo negativo da probabilidade, desta forma aos sinais mais frequentes é atribuída uma palavra mais curta.

Voltar ao início

Perguntas ou problemas sobre este site da Web e/ou artigo de divulgação devem ser dirigidas aos seguintes contactos: andresantiago@ist.utl.pt ou joao.cardoso.matos@ist.utl.pt .
Última modificação: 26/05/10.