Codificação

CODING

O factor compressão é preponderante na televisão 3D, uma vez que o sinal terá de ser emitido e visto em tempo real. No caso do cinema 3D esse problema não existe, uma vez que o filme esta armazenado.

Para se usufruir da televisão 3D é necessário, pelo menos, duas vistas (uma para o olhos esquerdo e outra para o direito), bem como proceder ao broadcasting dessas duas vistas. Este factor requer a utilização do dobro da largura de banda utilizada em televisão convencional. O aumento abrupto da largura de banda levou à necessidade de um codificador que explorasse a redundância entre as duas vistas para a mesma imagem.

Convencionalmente uma imagem stereo é formada com duas vistas da mesma imagem, estando cada uma dessas vistas deslocada uma da outra no plano horizontal. Tendo em conta que o deslocamento é ténue, é facilmente verificável que de uma imagem para a outra exista muita informação redundante, à imagem da redundância temporal de um vídeo em 2D, sendo assim possível utilizar princípios semelhantes aos utilizados nos primeiros codificadores de vídeo.

Na norma H.262/MPEG-2 já se contempla a combinação de duas imagens, utilizando a predição entre vistas e a predição temporal (Figura 5).

Figura 5 – Exemplo de predição multivista no H.262/MPEG-2 [6].

Desta forma tem-se compatibilidade directa, visto ser possível apenas descodificar o bitstream do olho esquerdo e mostrar um vídeo 2D para televisores sem tecnologia 3D.

Para televisores 3D é possível explorar a redundância espacial (apenas entre a vista da direita em relação à da esquerda). Embora se ganha eficiência, quando comparado com a codificação independente dos dois vídeos, esta opção é sempre limitada porque não explora a redundância temporal na imagem da direita.

Para contornar esse problema, na norma lançada em Maio de 2003 o H.264/MPEG-4 AVC já se considera um “Multi View Codding” (MVC) onde se explora a redundância estatística entre vários pontos de vista diferentes bem como a redundância temporal para cada uma das vistas, aborda-se igualmente a construção de dois bitstreams distintos, um que suporta um número arbitrário de pontos de vista e outro especificamente criado para duas vistas para o vídeo estereoscópico (3D). Estas extensões MVC foram apenas acabadas em Novembro de 2009 e estão especificadas no anexo H do H.264/AVC [7]. Estes bitstreams são completamente compatíveis com equipamentos anteriores onde novamente se usa apenas uma das imagens. O problema desta combinação de perdições temporal, e entre vistas, como se mostra na Figura 6, é a complexidade. Neste sistema são necessários, requisitos adicionais de memória e delays adicionais, é preciso ter em conta também que existem condições diferentes de iluminação nas duas câmaras, que irão afectar a exploração da redundância espacial entre vistas.

A vantagem deste tipo de codificação é que mesmo que a largura de banda de transmissão desça, o cliente pode apenas descodificar e visualizar um pequeno número de vistas, reduzindo no entanto a qualidade e o número de ângulos de visualização como se observa na Figura 4 c) – “Narrow view angle”.

Figura 6 - Estrutura típica de um MVC [8].

2. MVC – codificaçao de VIDEO MULTI-VISTA

A condição para se ter qualquer imagem ou video 3D é haver várias vistas da mesma cena, de forma a posteriormente, criar o produto 3D, independentemente da tecnologia usada.

A solução mais simples para fazer a codificação destas vistas, que originam o objecto 3D seria, partindo do pressuposto que são necessárias N vistas para a aplicação, codificar independentemente cada uma das N imagens usando para isso, por exemplo um codec como o H.264/AVC. Contudo, ao se ignorar todas as dependências estatísticas que cada vista tem com as outras N-1, vários algoritmos MVC foram criados, explorando as varias dependências, Figura 6, que levaram a grandes ganhos no factor de compressão. No entanto, um MVC que explore todo o tipo de redundâncias tem bastante mais complexidade.

Foi demonstrado também que a complexidade diminui drasticamente se a predição entre vistas for restrita a imagens chave, denominadas imagens I REF _Ref262479098 \n \h [9].

3. 2D-3d

A ideia fundamental da conversão 2D-3D é recriar a visão binocular humana através de uma única imagem 2D, ou seja, criar a partir de uma imagem denominada original uma outra imagem secundária, ligeiramente diferente da original (estereoscopia), permitindo assim ter uma imagem para cada olho. Para criar uma imagem secundária existem vários métodos, contudo, todos se focam no deslocamento horizontal. Ou seja, a imagem secundária é igual à original mas deslocada horizontalmente.

Figura 7 - Representação de conversão 2D-3D [20]

O método mais simples denomina-se “cut and paste thecnique”, este método usa a imagem original para o olho esquerdo e com ligeiros deslocamentos horizontais cria uma segunda imagem para o olho direito. É de reforçar que esses deslocamentos não são iguais para toda a imagem, é feito um reconhecimento de objectos na imagem e esse deslocamento e independente para cada objecto aumentando com a profundidade do mesmo.

Este método tem como principal desvantagem o facto de ser demasiado lento e pesado quando a imagem contém muitos objectos. Facto que levou a criação dos chamados “depth maps ” (mapas de profundidade).

Os “depth maps” são imagens que contêm níveis de iluminação da imagem original, sendo estes valores inversamente proporcionais à profundidade. Novas vistas da imagem podem ser criadas usando a original e o seu mapa de profundidade, este processo é denominado DIBR (imagem de profundidade baseada em “rendering”).

Como se pode observar na Figura 8, a imagem do olho esquerdo e a imagem do olho direito nas posições de câmara c_i e c_r podem ser geradas para uma posição de câmara indicada (t).

Figura 8 – Configuração de câmara para geração de imagens estereoscópicas [10].

Se for conhecida a profundidade (Z) e a distância focal (f), a extensão de mudança de pixel pode ser calculada pela relação demonstrada em (1):

Estes métodos têm particular interesse para a televisão 3D pois permite uma transmissão eficiente em termos de armazenamento, ou seja, um conjunto de imagens e os seus mapas de profundidade respectivos são mais facilmente comprimidos do que dois (ou mais) streams de imagens utilizados para TV-3D.

Figura 9 – Mapa de profundidade [19]

Mapas de profundidade com duas câmaras