Your Site or Page Name Here

Codificação de Áudio

1. Homepage

2. Base da Codificação de Áudio

3. Breve História da Compressão de Áudio

4. MPEG - Codificação Áudio

5. Conclusão

6. Bibliografia

MPEG, Moving Picture Experts Group, é um grupo de especialistas que foi estabelecido em conjunto pela Organização Internacional de Normalização (ISO) e a Comissão Electrotécnica Internacional (IEC) com o objectivo da criação de standards de compressão de vídeo e áudio digital. O grupo define qual é a semântica e sintaxe de sistemas áudio e vídeo (preferencialmente para meios limitados de transmissão) e operações a desempenhar pelos descodificadores. Uma das caracteristicas é que o processo de codificação não é normalizado (definido) ao contrário do processo de descodificação em que é especificado um valor normativo. O primeiro standard de compressão áudio definido foi o MPEG-1, que só permitia no máximo dois canais estéreo. Mais tarde foi desenvolvido o MPEG-2. A liberdade de compressão referida promoveu a evolução tecnológica e a competitividade, tornou possível por exemplo o aparecimento do codificador MPEG Layer III de diferentes origens (por exemplo Fraunhoffer IIS ou Xing Corporation). Mais recentemente foram desenvolvidas novas normas, tais como MPEG-4 e o MPEG-7. Como já foi referido estes codificadores trouxeres grandes benefícios em inúmeras áreas como: produção de áudio, transmissão de som televisivo, armazenamento digital, produção e distribuição de programas. Seguidamente, iremos abordar o MPEG-1, MPEG-2 e o MPEG-4 ao nível de codificação de áudio.

MPEG-1 Áudio

Foi o primeiro standard de compressão áudio definido pelo grupo MPEG em 1993 (finalizado), que resultou na norma ISO / IEC 11172-3. É constituído por três camadas de codificação de áudio ou layers: Layer I,II e III, sendo cada uma mais eficiente e mais complexa do que a anterior e os principais módulos funcionais das camadas inferiores também são utilizados pelas camadas superiores.

Cada uma das layers baseia-se em técnicas diferentes, embora as primeiras duas camadas apresentem uma estrutura muito similar. Os blocos essenciais são os apresentados na secção 1, figura 3. Comparada à Layer I, a Layer II é capaz de remover mais redundância do sinal e aplicar um limiar psicoacústico mais eficiente. Por fim, a Layer III sendo a mais complexa é direccionada para aplicações de baixa taxa de bits devido à remoção adicional redundância, à eficiente extracção de irrelevância e à resolução da frequência no seu banco de filtros, esta Layer é bem conhecida por todos, tem também o nome mp3, e é extensamente utilizada hoje em dia. À altura da criação desta norma a Layer que se julgava ser a mais capaz era a II, uma vez que a I era demasiado simples e não conseguia taxas de compressão aceitáveis e a III era demasiado complexa, o que para a altura significava um peso computacional impossível de acarretar. Apresenta-se em seguida uma descrição mais detalhada das três camadas.

MPEG-1 - Layer I

Como podemos ver na figura 3, a entrada de áudio digital alimenta dois blocos. Um dos blocos é constituído por um banco de filtros que tem a função de segmentar o sinal em 32 sub-bandas em frequência (Figura 5). O outro bloco é constituído por um analisador de espectros que calcula a FFT do sinal com 512 coeficientes e que o envia a um bloco responsável pelos limiares do mascaramento. Este limiares estão directamente relacionados com as limitações do ouvido humano já referidas, fazendo uso de modelos psicoacústicos.

Figura 5: Diagrama de blocos do codificador MPEG-1 - Layer I.

Após o cálculo destes limiares o sinal passa para o bloco de alocação dinâmica de bits e factor de escala. Este bloco recebe a margem de mascaramento do sinal (SMR) que é aproveitada para optimizar o número de bits alocados a cada banda. Sabe-se que não existirá ruído perceptível se a relação sinal-ruído (SNR) do sinal quantificado for maior que a relação sinal-limiar de mascaramento (SMR). Após o cálculo da optimização do numero de bits necessários para a quantização de cada banda, no caso da layer I são no total são 32 bandas multiplicadas por 12 amostras = 384 amostras, e de um factor de escala, o passo seguinte consiste na quantificação. Por último, é efectuada uma multiplexagem, conjugando estes dados com a informação do número de bits utilizados na quantização e do factor de escala de cada bloco.

MPEG-1 - Layer II

A principal diferença entre a Layer I e II é que na ultima a redundância é explorada recorrendo a triplo das amostras. Logo, esta camada utiliza blocos de 36 amostras (12x3) por banda ao contrário das 12 da Layer I. Deste modo, obtém uma redução de 50% na compressão de dados PCM.

MPEG-1 - Layer III ou mp3

A sua arquitectara está representada na figura 6. Esta veio introduzir a utilização de um banco de filtros seguido do cálculo de uma MDCT, que permite uma maior resolução na frequência. O mp3 utiliza 2 janelas, uma de 6 e outra de 18 amostras (comutação de janelas). Utiliza a de maior dimensão para maximizar a resolução na frequência, ou seja 576 amostras por bloco (32x18), e a de menor dimensão para uma melhor resolução temporal, 192 amostras por bloco. Outro factor que diferencia esta layers das inferiores passa pelo o uso de um bloco de codificação entrópico (Huffman), que é responsável por adaptar o comprimento médio dos símbolos de saída do codificador à entropia dos símbolos saídos do quantificador.

Figura 6: Diagrama de blocos do codificador MPEG-1 - Layer III.

MPEG-2 Áudio

A grande diferença do MPEG-2 áudio para o seu antecessor é o facto de permitir codificar áudio em multi canal. Um deles é por exemplo o de cinco canais (Esquerdo, Centro, Direito, Esquerdo Surround, Direito Surround) mais um canal para baixas frequências.

Esta norma satisfaz requisitos de retro-compatibilidade utilizando frequências de amostragem mais reduzidas e métodos de codificação mais baixo do que MPEG-1. MPEG-2 encontra-se dividido em duas normas. Uma com retro-compatibilidade e a outra sem.

A primeira norma (backward compatible, BC) é uma extensão das capacidades do algoritmo de compressão MPEG-1, diversificando as características de multi canal e admitindo submúltiplos das frequências de amostragem de 16, 22.05 e 24Khz e bit rates a partir de 8kbits/s. Isto irá permitir uma codificação mais eficiente com menor custo no que toca a largura de banda.

Para permitir a compatibilidade com o MPEG-1, o MPEG-2 áudio pode codificar o áudio em duas vias separadas: uma via normal, comum ao MPEG-1 com os canais esquerdo e direito; outra via contendo os restantes canais usados.

Devido às dificuldades encontradas na norma para satisfazer o requisito de retro-compatibilidade, justificou-se o desenvolvimento duma nova solução, onde se prescinde do requisito.

A nova solução chama-se MPEG-2 Non Backwards Compatible (NBC) (ISO/IEC 13818-3) a qual foi designada por Advance Audio Codding (AAC) e foi finalizado em 1997. O AAC estrutura-se num conjunto de módulos de processamento, independentes, denominados como ferramentas. Utilizando determinadas selecções de ferramentas, a norma consegue definir 3 perfis de codificação: Perfil Principal, com todas as ferramentas activas exige uma potência de processamento considerável; o Perfil de Complexidade Baixa (LC), com menos factor de compressão para armazenar dados de processamento e de memória RAM; e finalmente o Perfil de Factor de Amostragem escalável, com habilidade para adaptar a várias larguras de banda. A figura 7 representa os blocos do modelo AAC, onde são facilmente indentificaveis os blocos de um codificador genérico.

Figura 7: Diagrama de blocos do codificador MPEG-2.

No modelo da figura 7 existem ferramentas essenciais, são elas: o Banco de filtros de (MDCT), onde o sinal é transformado numa representação espectral, sendo a chave para se poder aplicar princípios psicoacústicos e algoritmos de redução de redundância para conteúdos áudio; o Processamento estéreo, em que os processamentos estéreo Intensity e Mid-Side estão disponíveis a fim de aumentar a eficiência de compressão para sinas estéreo; o Temporal Noise Shaping (TNS), esta ferramenta permite ao codificador moldar o ruído de quantização no domínio do tempo, através da execução de uma previsão nos dados espectrais do sinal. Isto evita efeitos indesejáveis causados pela resolução grosseira do tempo dos filtros de bancos MDCT; e por ultimo a Quantização e Codificação, as ferramentas para quantizar e codificar o espectro são similares às utilizadas pelo mp3, com significativas melhorias na fase de codificação entrópica, resultando num melhoramento da eficiência de compressão.

ACC ultrapassa o MP3 em muitos detalhes utilizando novas ferramentas de codificação de modo a obter um melhoramento da qualidade para menores débitos binários. As ferramentas utilizadas são: resolução de alta frequência, de 576 para 1024 linhas de frequência comparando com o mp3; Predição, uma previsão opcional para trás calcula linha por linha, obtendo uma melhor eficiência de codificação especialmente para os sinais com tons muito semelhante; Codificação estéreo, mais flexível, permitindo reduzir mais a taxa de compressão; e Codificação de Huffman, a atribuição das tabelas de códigos de Huffman para as partições do codificador podem ser muito mais flexíveis. Utilizando as técnicas descritas acima, o ACC consegue em média a mesma qualidade do MP3 com apenas 70% do débito binário. Concluindo, para além de oferecer melhores resultados de alta qualidade com menores tamanhos nos arquivos, suporta multi canais de áudio com uma maior resolução e revela também uma melhor eficiência na descodificação.

MPEG-4 Áudio

O MPEG-4 (ISO/IEC 14496) surgiu em resultado da convergência de diversos modelos de comunicação e consumo de informação multimédia, que acentuou por um lado a importância da interacção dos conteúdos, e por outro lado interoperabilidade entre diverso serviços e aplicações, tornando-se como o codificador padrão de multimédia para todo o mundo. Desta maneira, esta norma baseou-se nos conceitos de objecto de áudio ou visual (natural ou sintético), ferramentas de sistema (tais como compressão, escalabilidade de débito ou largura de bandas, ou interacção com o conteúdo) e perfil da aplicação.

O MPEG-4 integra diferentes aplicações onde a codificação pode ser de fala, de áudio,de texto para fala (áudio sintético) e/ou MIDI. Para isto utiliza 3 codificadores principais:

• Codificação paramétrica para falar com um débito binário baixo;

• Análise-por-síntese para débitos binários médios;

• Codificação por sub-banda para altos débitos binários (MPEG4-AAC).

Figura 8: Diagrama das ferramentas/opções MPEG-4.

Como se pode ver na figura 8, consoante o tipo de dados de áudio irá utilizar-se uma codficação específica. MPEG-4 ainda tem as vantagens de realizar uma codificação e descodificação com baixos atrasos.

1 - 2 - 3 - 4 - 5 - 6