Codificação de voz
Como para qualquer sistema de codificação, o conhecimento da natureza do sinal de entrada é essencial para uma boa codificação. A voz, em particular, apresenta um conjunto de características, que ao contrário por exemplo do aúdio, permitem factores de compressão elevados. Dois exemplos disso mesmo são o elevado grau de correlação entre amostras consecutivas de voz ou a subjacente componente de correlação de longo termo, devida à periodicidade do sinal.Simultaneamente, dispondo de um adequado modelo psico-acústico do ouvido humano, é possível obter ganhos de compressão superiores, à custa da supressão de componentes espectrais inaudíveis.
Recorrendo a uma análise espectral da voz, Figura 1, é possivel identificar dois intervalos de frequência distintos: [200;3400] Hz e [50;7000] Hz, correspondentes respectivamente a um sinal telefónico típico, aqui designado de banda estreita (Narrow Band, NB), e a um sinal de voz de banda larga (Wideband, WB).
O primeiro intervalo corresponde ao intervalo de frequências tipicamente usado na rede telefónica enquanto o segundo abrange adicionalmente um conjunto de componentes de frequência mais elevada. Apesar de grande parte da potência do sinal se concentrar no primeiro intervalo, uma parte da componente espectral é rejeitada considerando apenas esse intervalo.
As limitações da transmissão de voz NB estão bem patentes na análise espectral de dois sinais de voz, vozeada e não vozeada, Figura 2.Verifica-se que, no caso do sinal de voz vozeada, grande parte da potência é captada por um sinal NB, cuja banda está assinalada; no entanto, no caso do sinal de voz não vozeada, apenas uma parte da potência do sinal original pode ser capturada por um sinal de banda estreita.


Do ponto de vista do utilizador, prova-se que o sinal de banda estreita permite traduzir uma grande parte da informação contida no sinal, e que mesmo no caso da transmissão de voz não vozeada, os sinais de potência de banda estreita transmitida, permitem distinguir entre diferentes consoantes de uma língua (e.g. distinção entre ‘s’ e ‘f’). Em baixo encontra-se um exemplo (seed e feed pronunciados em NB e WB).
No entanto, isto é feito à custa de uma redução da QoS da voz transmitida, i.e., obtendo um sinal de razoável inteligibilidade em troca de menor complexidade. De modo a permitir ganhos na qualidade sujectiva da voz, surgem neste sentido novas tendências nos codecs usados em comunicações móveis actualmente.