O aspecto mais importante na codificação de áudio é a psicoacústica, ou seja, a percepção humana dos sons. É neste aspecto que o codificador se baseia para comprimir a informação: onde o ouvido humano for menos sensível, a informação é menos importante.
O alcance frequencial que o aparelho auditivo humano (HAS), por norma, atinge vai dos 20Hz até aos 20kHz, sendo a intensidade mínima audível, limiar de audição (threshold of hearing), variável ao longo do espectro, como ilustra a figura 2.1. Esta figura ilustra também a gama de frequências da voz e o limiar de dor (threshold of pain). É importante distinguir a voz do áudio em geral, pois são codificados de forma diferente, com modelos perceptivos diferentes devido às diferentes formas como os percebemos (uma das principais características da voz é o conhecimento a priori do seu espectro típico).
Figura 2.1 – Limiar de audição
O limiar de audição pode ser descrito por um conjunto de curvas para as diferentes intensidades sonoras (figura 2.2), sendo cada uma representativa da percepção dum som relativamente à sua intensidade real.
Figura 2.2 – Curvas de igual intensidade sonora
A curva do limiar de audição é afectada pelos sons ouvidos, havendo uma distorção desta em função do som ouvido como mostra a figura 2.3.
Figura 2.3 – Mascaramento na frequência
Assim, num dado instante, uma dada frequência pode “eliminar” outras quando estas estão sob o limiar de audição distorcido pela dita frequência. Este fenómeno é chamado de marcaramento na frequência, pois uma dada frequência “mascara” outra(s). Como exemplo, pode imaginar-se uma conversa na estação que se deixa de ouvir quando o comboio chega. A largura da máscara varia de forma não linear com a frequência (figura 2.4).
Figura 2.4 – Variação da largura da máscara com a frequência
Há também mascaramento no domínio do tempo, sendo os sons dos instantes imediatamente antes e a seguir ao som mascarante, “eliminados”, se estiverem sob a curva do limiar de audição (figura 2.5).
Figura 2.5 – Mascaramento temporal
Como o HAS é limitado, os algoritmos de compressão dos vários formatos exploram este facto de maneira a usar mais bits na codificação das componentes mais importantes do som (mais audíveis) e menos nas restantes, assegurando que as primeiras têm melhor qualidade.