Codificação

3D-Text-effect

Codificar a informação gerada por uma imagem com a densidade de dados de uma imagem 3D é uma tarefa árdua e complexa. Olhando primeiro para o modelo apresentado no inicio deste artigo, este tenta atingir uma imagem 3D a partir de um fluxo de imagens RGB clássicas, juntamente com o seu mapa de profundidades. Este sistema ATTEST utiliza o DIBR como processo de sintetização de vistas “virtuais” de uma cena, de imagens paradas ou em movimento e a sua informação de profundidade por pixel associada. A ideia é realizar a codificação do conteúdo simples RGB 2D, que até poderia ser codificado utilizando o velhinho e mais simples MPEG-2 (quando este sistema foi apresentado desejava-se que fosse compatível com o DVB da altura), deixando a informação de profundidade ser tratada pelo MPEG-4 ou pelo Avanced Video Coding (AVC). Esta informação representava 20% do bitrate do vídeo 2D comprimido pelo MPEG-2, a um rácio de emissão típico de 3 Mbit/s. O facto de assim existirem dois fluxos de dados, codificados separadamente, faz com que seja salvaguardada a ideia de escalabilidade e de backwards-compatibility visto que assim, seja possível serem vistas imagens 3D por quem possuir hardware para tal, aproveitando a informação de profundidade, ou apenas 2D, se tal não for possível.



						Um dos métodos utilizados para comprimir vídeo 3D, explora a relação entre a sequência de vídeo 2D e o mapa de profundidade, usando os vectores de movimento (MVs) obtidos do 2D para codificar também o mapa. Contudo é já sabido que devido a limitações na resolução das câmaras que criam os mapas, algumas saliências presentes nestes, são ligeiramente mais nítidas que as suas partes correspondentes no vídeo 2D. Isto faz com que os MVs ou os macroblocos (MBs) usados para a sequência 2D não sejam a melhor escolha para a codificação de borda nem de regiões de objectos distantes da sequência presente no mapa de profundidade. De uma vasta pesquisa, concluiu-se que o H.264/AVC é o padrão mais avançado em termos de codificação de vídeo à data, conseguindo aproximadamente menos 50% de bitrate necessário para a mesma codificação, quando comparado com o MPEG-4 e o MPEG-2. A procura pelo codec ideal para fazer a codificação das imagens 3D tem sido intensa, desde a experimentação dos codecs padrão até a adaptações dos mesmos, caso do shared MV method e o modified shared MV method, que apesar de terem gerado melhores resultados, advêm também de um maior esforço computacional.





	Atentando agora à existência do multiview, isto é na combinação de imagens de várias câmaras, foi aberta uma nova oportunidade, e um novo desafio à codificação. Não só explorar a redundância temporal e espacial numa imagem, mas explorar múltiplas imagens captadas simultaneamente. Se no início se pensava em apenas uma câmara estéreo, explorando-se a redundância resultante das duas câmaras, com o Free viewpoint, aliou-se a utilização do DIBR com a predição de movimento de blocos. Tudo isto tentando-se sempre atingir uma boa taxa de compressão. Aliás o 3D de base, pensando na estereoscopia, não é mais de que um multiview de apenas duas imagens. Curioso o facto, de para além de se poder retirar partido da redundância na imagem captada por cada olho do sistema visual humano, é possível codificar a imagem relativa a cada olho com bitrates diferentes, visto que existe uma dominância natural de um olho sobre o outro, isto é, um olho consegue perceber maior qualidade que o outro, normalmente o direito, conseguindo-se aumentar ainda mais o factor de compressão, e está demonstrado que a norma H.264 consegue tirar partido disso, resultando apenas um ligeiro aumento de largura de banda necessária. Por fim resta acrescentar que os padrões de compressão estão a ser estudados por várias entidades, incluindo o comité MPEG e o chamado 3DAV.