Em 1990 surge a norma ITU-T H.261 que introduz, pela primeira vez, um esquema de codificação híbrida, com o uso da tranformada
DCT (Discrete Cosine Transform), da compensação de movimento e da codificação entrópica.
Cada trama é dividida em GOB (Group Of Blocks) e cada um deles constituído por 33 MB (MacroBlocos).
Cada um destes MB é constituído por 4 blocos de luminância e 2 de crominância. Um bloco, por sua vez, é formado por 8 x 8 pixels
e é terminado por uma palavra de EOB (End Of Block).
Existem 2 resoluções:
CIF (Common Intermediate Format): 352 x 288 pixels para a luminância (Y) e 176 x 144 pixels para cada uma das crominâncias (U, V). Isto significa que o formato é 4:2:0, posicionados em "quincux", progressivos, 30 tramas/s e com factor de forma 4/3. A trama é dividida em 12 GOB.
QCIF (Quarter CIF): 176 x 144 pixels para a luminância e 88 x 72 pixels para cada uma das crominâncias. O ritmo das tramas e o factor de forma são os mesmos que no CIF. A trama é dividida em 3 GOB.
A norma disponibiliza dois modos de codificação dos MB:
Inter: compara a imagem a ser codificada com a imagem anterior. Usado quando há bastante redundância temporal.
Intra: assume-se que a imagem a ser codificada é independente da anterior. Usado quando não há, ou não se quer explorar, redundância temporal.
A primeira imagem, obviamente, é sempre codificada no modo Intra. As imagens seguintes, se codificadas no modo Inter, são comparadas
apenas com a imagem anterior.
A estimação de movimento é feita pesquisando, numa área de 32 x 32 pixels da imagem anterior, o MB mais
parecido com aquele que se está a codificar, enviando-se o vector que representa a posição relativa entre os dois MB. Se estes dois MB forem
significativamente diferentes envia-se também a diferença. Esta diferença é codificada usando a transformada DCT, que vai fazer a transformação do
domínio espacial para o domínio frequencial. Os coeficientes DCT a transmitir são selecionados e quantificados de maneira a poder-se explorar a
irrelevância espacial. Estes coeficientes são varridos em zig-zag, começando nos de menor frequência, uma vez que o ser humano é mais sensível às
baixas frequências. Na transmissão de um coeficiente não nulo é enviada o seu nível e a sua posição, sendo que esta é definida pelo número de
coeficientes nulos que o precedeu. A norma usa 31 níveis de quantificação, sendo estes todos os números pares entre 2 e 62. Por fim, é feita uma
codificação entrópica, tendo como principal ferramenta a codificação de Huffman, para explorar a redundância estatística. O diagrama de
blocos dum codificador H.261 é presente na ilustração 2.
Ilustração 2. Diagrama de blocos dum codificador H.261 e seguintes.
Tendo em conta que a produção de bits pelo codificador é não uniforme, e o canal exige um fluxo constante, é usada uma
memória de saída.
A correcção de erros é feita através de um código de blocos BCH (511, 493) – Bose-Chaudhuri-Hocquenghem – e o seu uso na
descodificação é opcional.
A principais aplicações desta norma são a videotelefonia e a videoconferência, em canais síncronos a p x 64 kbit/s, com
p = 1, ..., 30.
Embora esta norma tenha sido importante no estabelicimento de requesitos de compatibilidade, que influenciaram normas
posteriores, ela já está ultrapassada.