Para poder obter altas taxas de compressão um codec deve aproveitar não só as redundâncias mas também as irrelevâncias. Assim, o mp3 é um formato de compressão com perdas aproveitando os efeitos psico-acústicos da percepção humana. Um ser humano comum só consegue percepcionar a diferença entre dois tons quando existe uma diferença considerável entre as suas frequências. Do mesmo modo nos instantes precendentes e procedentes de um pico sonoro em amplitude não são percepcionados pelo ouvido humano. Não é portanto necessário descrever o sinal exactamente como no original, com toda a sua complexidade, sendo suficiente limitar o sinal a um que contenha a grande maioria da informação realmente audível pelo ouvido humano. Como o receptor de referência é o ouvido humano, e todos os ouvidos são diferentes, o resultado da codificação vai ser melhor ou pior para cada pessoa. O codificador deve jogar pelo seguro sem no entanto ser demasiado exigente. A tarefa do codificador é portanto comprimir o sinal, descartando irrelevância, mantendo uma qualidade transparente, aparentemente tão boa quanto o seu original. Na forma como esta irrelevância é filtrada, é que vai estar a diferença entre uma boa ou má compressão, tendo de evitar o risco de cortar informação a mais.

Figura 1 – Diagrama de blocos da codificação;
A arquitectura base de um codificador mp3 é feita em várias etapas:
1. A primeira etapa consiste em dividir o sinal de amostragem de áudio em componentes menores chamadas frames. O sinal é ajustado para poder passar por um banco de filtros de mapeamento “tempo-frequência” que divide o sinal em sub-bandas. Este banco de filtros é chamado polifásico e aplica um filtro pseudo QMF. As amostras são então quantificadas.
2. Na segunda etapa é aplicada uma FFT (Fast Fourier Transform) a cada amostra. O mascaramento do modelo psico-acústico é então aplicado. Os seus limites servem para descartar dados que supostamente são inaudíveis. O resultado final do modelo é uma relação sinal-mascara (SMR – Signal to Mask Ratio) para cada grupo de bandas. A concatenação de um filtro MDCT à saída da primeira e da segunda fase completa o bloco principal da compressão mp3.
.
3) A terceira fase consiste em quantizar e codificar cada amostra de cada sub-banda através do cálculo de um coeficiente necessário para representar o sinal de saída com determinada relação sinal-ruído (SNR), conhecido como a atribuição de ruído. O alocador compara as amostras de saída do banco de filtros e para o RLG do modelo psico-acústico, e ajusta a atribuição de ruído a fim de atender simultaneamente tanto a taxa de bit e os requisitos de mascaramento. O resultado passará ainda por uma codificação entrópica de Huffman (lossless).
4) Em último lugar, o bit stream tem que ser formatado para atender os requisitos da norma e assim formar uma espécie de “linguagem” acordada, para que esteja garantida a interoperabilidade de codificadores e descodificadores de vários fabricantes.
A divisão do sinal em frames facilita o tratamento de dados, no entanto introduz ao mesmo tempo um problema nas transições entre dois blocos conhecido como pré-eco. Este efeito incómodo ao ouvinte é produzido pela introdução de ruído de quantização e pelo facto de este ser espalhado pela secção da transformada discreta modificada do co-seno (MDCT). Como o mascaramento após o impulso é mais forte que antes, o pré-eco torna-se mais notável em quanto que o pós-eco passa despercebido. O pré-eco é especialmente pertubador em passagens silenciosas que são interrompidas abruptamente por um sinal de alta amplitude (o que acontece por exemplo no caso de um tambor).
A Além do pré-eco, a estrutura de blocos também pode causar intervalos silenciosos ao final de um ficheiro, pois não existe informação áudio suficiente para encher completamente o último bloco. Isso pode incomodar por exemplo em Audiobooks que sejam compostos por vários ficheiros em que aparecem pausas impedindo um decorrer fluido e agradável.