4.5 – Caracterização do DVB-T: Codificador de fonte:

O codificador de fonte é provavelmente o grande responsável pelo sucesso dos sistemas baseados em transmissão digital de sinais. Se só se utilizasse digitalização do tipo PCM, para transmitir um sinal de vídeo semelhante ao analógico, seria necessário um ritmo binário de cerca de 166Mbit/s, significando que a banda a disponibilizar teria de ser maior, do que para um serviço típico analógico. Este facto corrobora a importância do codificador de fonte, que vai permitir factores de compressão elevados, só possível utilizando sinais digitais e permitindo que estes sistemas estejam a substituir todos os serviços que até aqui eram analógicos.

A norma de compressão de vídeo usada nos vários sistemas de Tv digital, é a norma MPEG-2 (Moving Pictures Experts Group), uma norma ISO desenvolvida em parceria com a ITU-T, designada por “Recomendação H.262”. Comum a todas as normas, o objectivo passa por permitir operacionalidade entre os vários serviços e sistemas digitais. No seguimento desta ideia, a norma MPEG-2 é pois uma extensão da norma MPEG-1, de forma a poder transmitir-se sinais digitais de televisão de média e alta qualidade.

A norma MPEG-2, seria só por si, um motivo para a execução de um trabalho semelhante a este, devido quer á sua complexidade, quer extensão. Não sendo possível reunir toda a informação no âmbito deste trabalho, focam-se de seguida os aspectos que mais influenciam um sistema de difusão de televisão digital terrestre.

4.5.1 – Codificador de fonte. MPEG-2 Sistema:

A primeira parte da norma corresponde ao Sistema, que permite a multiplexagem, sincronização e protecção dos fluxos elementares codificados, que são o áudio, vídeo e dados. A imagem seguinte representa um possível esquema básico de um sistema MPEG-2.

Fig. 3.5.1: MPEG-2 Sistema.

A codificação de uma stream elementar de áudio ou vídeo (sinal original), vai permitir formar um pacote de dados com requisitos temporais semelhantes aos do sinal original. Estes pacotes vão de seguida ser transformados, por conveniência do tamanho dos blocos de dados, num Packetized Elementary Stream (PES). Estes PES, para alem dos campos para transporte de dados possuem informação de controlo em campos criados para o efeito, como se pode observar na figura 3.5.2.

Fig. 3.5.2: Estrutura do PES.

O MPEG-2 sistema permite, que os vários PES de áudio e vídeo sejam combinados, formando um “Program Stream” com um fluxo digital contendo apenas uma base de tempo para todos os fluxos multiplexados. O fluxo resultante tem um tamanho variável e é usado sobretudo para armazenamento de informação em canais sem erros, tais como o DVD. O “Program Stream” serve pois sobretudo para criar compatibilidade entre esta norma e o MPEG-1.

Para a transmissão de Tv digital, é usado o “Transport Stream” que é originado por vários PES, sendo posteriormente subdivididos em pacotes menores (figura 3.5.4). Cada programa de Tv vai ser constituído por vários destes pacotes. Por esta razão, o fluxo de dados vai incluir várias bases de tempo, possível graças ao facto de o “Transport Stream” ter um mecanismo que permite a transmissão de múltiplos sinais de relógio PCR (“Program Clock Reference”). Cada programa é mais tarde regenerado no descodificador graças ao PCR.

Fig. 3.5.3: MPEG-2 Transport Stream.

Mas um fluxo do tipo “Transport Stream” é mais que uma simples multiplexagem de áudio e vídeo, uma vez que inclui campos na trama capazes de descrever o Stream de dados. É o caso do PAT (“Program Association Table”), que permite listar todos os programas que estão no “Transport Stream”. Por sua vez cada entrada para o PAT, aponta para o PMT (“Program Map Table”), que permite listar todas as streams que fazem parte de um determinado programa de Tv. Alguns programas são abertos e utilizados, mas outros poderão estar protegidos através de técnicas de encriptação.

O “Transport Stream” consiste portanto, num número fixo de pacotes, que têm obrigatoriamente de ter 188 Bytes. Cada pacote tem um identificador designado por PID. Pacotes da mesma PES têm o mesmo ID, possibilitando ao descodificador que escolha os pacotes que pretende, rejeitando os que não lhe servem dentro do “Transport Stream”. Para que tudo corra de forma eficaz, é necessário que haja sincronização, permitindo ao descodificador identificar o início de cada pacote.

Fig. 3.5.4: Estrutura do Transport Stream.

Tal como se pode observar pela figura 3.5.4, um sistema de “Transport Stream”, pode ter ainda o NIT (Network Information Table), cujo ID se encontra no programa 0 da PAT, que quando utilizado serve para fornecer informação sobre a rede fixa, tal como a frequência dos vários canais, fornecedor do serviço, redes alternativas disponíveis, etc. Por fim, podemos ter ainda o CAT (Conditional Access Table), um campo obrigatório quando temos um PES protegido num “Transport Stream”. Serve para fornecer ao sistema informação de protecção e gestão.

4.5.2 – Codificador de fonte: Compressão DCT:

No caso do DVB, e tal como noutros serviços digitais, a compressão dos sinais multimédia, é sobretudo resultado da aplicação de técnicas que permitem eliminar a redundância e a irrelevância do sinal original. A redundância permite relacionar as semelhanças e preditabilidade das amostras correspondentes á informação, havendo preservação da informação durante a codificação. A irrelevância permite retirar informação que não é perceptível para o sistema auditivo ou visual humano, é pois um processo que introduz perdas e é irreversível do ponto de vista matemático. No entanto, na maioria dos casos, a qualidade subjectiva permanece inalterada. (Qualidade Transparente).

No caso do MPEG, os grandes factores de compressão devem-se sobretudo á exploração da redundância espacial entre imagens consecutivas. No entanto os conteúdos MPEG são formados por imagens. A técnica mais utilizada para a compressão das imagens é a DCT (Discrete Fourier Transform), que consiste numa transformada de Fourier para Amostras discretas. Esta técnica, muito robusta, permite decompor um sinal que é contínuo no tempo, numa série de sinais harmónicos do tipo coseno e seno.

No caso de uma imagem, o sinal que a representa é bidimensional, o que também vai originar uma DCT com duas dimensões (matriz 2*2). De forma a reduzir a complexidade e o tempo de processamento a imagem é dividida, geralmente em blocos de 8 por 8 pixels, conduzindo a uma transformada DCT também de 8 por 8 pixels. (Observe-se a figura 3.5.6).

Fig. 3.5.6: Divisão da imagem em blocos de 8*8 pixel.

Observando a imagem anterior, podemos ver que cada bloco contém uma informação numérica, que corresponde ao valor da luminância de cada pixel.

Fig. 3.5.6: Transformação do bloco da imagem em coeficientes DCT.

Podemos observar que os 64 pixéis são transformados em 64 coeficientes DCT. O primeiro coeficiente, posição (0,0) na matriz, corresponde á componente DC do sinal. Isto significa que se o bloco fosse constituído por apenas um padrão, então ele seria representado apenas pelo primeiro coeficiente DCT da matriz. Da mesma forma, os padrões com menos detalhe no bloco a codificar, são representados pelos coeficientes que estão na parte superior esquerda da matriz, (coeficientes de baixa frequência), enquanto que os blocos que apresentam padrões com mais detalhe, são representados pelos coeficientes que se encontram na parte inferior direita da matriz (coeficientes de alta frequência).

Fig. 3.5.6:Contribuição de cada Coeficiente da DCT para o padrão do bloco.

A DCT é pois uma técnica, que tem a capacidade de concentrar a energia do bloco, num pequeno número de coeficientes. Para além disso, os coeficientes não estão correlacionados entre si, ou seja a informação da imagem é expressada de forma independente por cada coeficiente.

Até aqui não há nenhuma informação perdida, sendo que o processo inverso poderia ser executado. No entanto quando se pretende alcançar factores de compressão mais elevados, a DCT “arruma” a informação de forma muito eficiente. Este facto possibilita que se eliminem coeficientes, tendo em conta quer os seus valores quer a sua frequência, sem que ocorra uma degradação perceptível da qualidade da imagem.

No entanto, como há perda de informação, cria-se um processo matematicamente irreversível, isto é, deixa de ser possível reconstruir a imagem original, tal como ela era no início.

A compressão do sinal assenta prioritariamente em dois processos:

Primeiro eliminam-se os coeficientes irrelevantes da DCT, substituindo-os por zero (Thresholding). No processo de eliminação, para que a imagem não perca qualidade subjectiva, devem-se eliminar os coeficientes com menor valor em módulo e devem-se eliminar os de maior frequência. Tal como foi referido, os coeficientes de maior frequência, traduzem padrões mais complexos, que á escala do bloco são imperceptíveis para olho humano.

Os coeficientes que sobram, são de seguida quantificados, permitindo uma vez mais diminuir a quantidade de informação a ser codificada. Uma boa estratégia é utilizar passos de quantificação mais pequenos nas baixas frequências, enquanto que nas altas devem ser utilizados passos de quantificação maiores, pelas mesmas razões do ponto anterior.

A quantificação e o thresholding devem ser dinamicamente regulados, tendo em conta o ritmo binário pretendido após a codificação.

4.5.4 – Codificador de fonte. MPEG-2 Video: Compressão

Tal como foi referido, a principal forma de obter elevados factores de compressão, é usar a forte correlação que existe entre imagens sucessivas. Estas técnicas de predição e compensação de movimento, permitem representar imagens contíguas através das diferenças que existem entre si, permitindo ao mesmo tempo diminuir a quantidade de informação necessária para as poder guardar ou transmitir. As imagens usadas na codificação MPEG podem ser de três tipos.

Fig. 3.5.8: Concatenação possível dos vários tipos de imagem.

Imagens do Tipo I (intra): Estas imagens não referenciam outras imagens. Por esta razão, têm toda a informação que necessitam para ser descodificadas de forma independente. São a base de toda a codificação, embora tenham factores de compressão baixos. Permitem ainda a entrada aleatória por parte do utilizador, numa secção do vídeo MPEG.

Imagens do Tipo P (Predição): São codificadas a partir das imagens I ou P que precedem esta imagem. Usam técnicas de compensação de movimento, garantindo factores de compressão mais elevados. Porque a compensação de movimento não é perfeita, não podem haver muitas imagens P entre duas I.

Imagens do Tipo B (Bidireccionais): Estas imagens são codificadas a partir da interpolação entre imagens I e P, que estão adjacentes a si (Quer na sua traseira, que à sua frente). Como estas imagens não são utilizadas na interpolação de outro tipo de imagens, elas não propagam erros e ao mesmo tempo, são as que apresentam um maior ganho de compressão.

O número de imagens entre duas imagens sucessivas do tipo I representam um GOB (Group of Pictures), cuja relação com a sequência de imagens esta representada na figura seguinte.

Fig. 3.5.9: Sequência MPEG

Tal como foi observado ao longo deste ponto, o aspecto mais importante de um codificador MPEG, reside no seu bloco de compensação de movimento. Sendo a parte mais complexa do codificador, é ele que vai determinar a performance particular de cada codificador MPEG. Este facto reside sobretudo na flexibilidade imposta pela norma, permitindo que diferentes parâmetros sejam escolhidos tendo em conta o compromisso que existe entre complexidade, compressão e qualidade.

Fig. 3.5.9: Codificador MPEG-2

Basicamente a compensação de movimento, consiste em encontrar uma correlação óbvia entre duas zonas distintas, de uma imagem que já ocorreu e a seguinte. Quando esta correlação é encontrada, origina-se a um vector de movimento para ser usado no descodificador.

Fig. 3.5.9: Descodificador MPEG-2

Tal como seria de esperar, a maior parte do processamento, está toda na parte da descodificação. Este facto é positivo, sobretudo para evitar elevados custos no equipamento do cliente final.

4.5.5 – Codificador de fonte. MPEG-2 Video: Diferenças.

Num serviço digital terrestre de Tv, as aplicações são assimétricas sendo possível a construção de codificadores de boa qualidade. Deste modo os principais requisitos que deve ter o MPEG-2, são os seguintes:

O sistema deve suportar uma vasta gama de resoluções espaciais e temporais, em formato entrelaçado e progressivo.

Deve também ter a capacidade de conter vários formatos de sub amostragem da crominância (4:4:4, 4:2:2, 4:2:0).

Deve ter flexibilidade em termos de débito binário.

Tal como para outros sistemas do género deve ter diversas facilidades, tais como, acesso condicionado, leituras rápidas, acesso aleatório, fácil transcodificação para outras normas, assim como quer compatibilidade directa quer compatibilidade inversa entre normas. (MPEG-1,H.261).

Por fim, um aspecto muito relevante para o DVB-T, é o facto de a norma dever ter requisitos que permitam adaptação a vários meios de transmissão, em termos de sincronização, resistência a erros, entre outros.

As grandes diferenças entre as normas MPEG-1 e Mpeg-2 na área do vídeo, têm a ver sobretudo como entrelaçamento e a escalabilidade.

A escalabilidade tem a ver sobretudo, com a possibilidade de se obter uma recuperação útil do sinal de vídeo, descodificando apenas algumas partes da informação comprimindo. É uma característica útil, sobretudo quando não se consegue garantir os requisitos de débito por parte do descodificador.

O entrelaçamento, permite por sua vez, codificar de forma mais eficiente o material entrelaçado. Para o efeito, a norma MPEG-2, classifica as imagens como:

Imagem Trama: Os macroblocos (conjuntos de 4 blocos), a codificar são definidos na trama, pela combinação de dois campos, um par e outro impar.

Imagem Campo: Os macroblocos (conjuntos de 4 blocos), a codificar são definidos em cada um dos campos, par e ímpar. (ver figura 3.5.10)

Fig. 3.5.10: A) Modo de Trama B) Modo de Campo

A codificação usando conteúdos entrelaçados, vai usar diferentes modos de predição, consoante a aplicação que se pretende usar:

Modo Trama para Imagens Trama: Corresponde basicamente ás técnicas anteriormente estudadas, usando para a codificação tramas I, P e B. Temos bons resultados para conteúdos com movimento moderado.

Modo Campo para Imagens Campo: É semelhante ao modo anterior, mas os vários macroblocos e predições, são definidas em cada campo separadamente.

Modo Campo para Imagens Trama: Cada macrobloco na imagem trama é dividido nos pixels correspondentes ao campo par e campo impar, fazendo-se a predição de matrizes 16×8 tendo como base um dos campos par ou impar.

Blocos 16×8 para Imagens Campo: Este modo de predição, permite atribuir um vector de movimento a cada uma das metades de cada macrobloco num dado campo.

4.5.6– Codificador de fonte. MPEG-2 Áudio: Compressão.

Por fim temos a parte de Áudio. A compressão desta componente do sinal deve-se sobretudo, á aplicação de métodos capazes de explorar particularidades da percepção auditiva humana, eliminando informação que não é audível para a maioria das pessoas.

Existem duas normas MPEG-2 áudio:

Áudio (Parte 2) – Esta norma permite codificar até 5 canais, mais um de baixa frequência. A todos os canais oferece alta qualidade, a um débito de 384 kbits/s. Um dado muito importante, reside no facto de a norma oferecer compatibilidade do tipo “backward” e “forward” com a norma MPEG-1 áudio. Por esta razão, esta norma é frequentemente designada por MPEG-2 BC (Backward e Forward).

Codificação de Áudio Avançado (Parte 7) – Esta norma prescinde de qualquer compatibilidade com a norma MPEG-1 Áudio, obtendo maior qualidade para o mesmo débito que a norma anterior. Por esta razão, esta norma também é frequentemente designada por MPEG-2 NBC (Non Backward Compatible).

4.6– Considerações Finais.

Recentemente tem-se proposto a utilização de uma outra norma de codificação de sinal para transmissão digital terrestre. A norma MPEG-4 AVC (também conhecida por H.264) recentemente desenvolvida, permite um ganho de compressão de aproximadamente 50% em termos de eficiência ou qualidade em relação às norma MPEG-2. Este aumento da eficiência da codificação é devido à maior complexidade da codificação, designadamente em termos de estimação de movimento e escolha do modo de codificação com predição multi-trama. A ser implementada, esta norma permitiria diminuir a banda necessária para transmitir um canal, aumentando a capacidade do sistema, sem grandes alterações da rede, uma vez que a codificação só se dá na fonte.