Renderização baseada em Geometria

O outro extremo de representação 3D, estudado pelo mundo da computação gráfica (Computer Graphics), representa a cena filmada à custa de objectos 3D. Esses objectos são constituídos por polígonos tridimensionais (3D meshes), usualmente triangulares, que determinam a forma do objecto e pela sua textura, obtida a partir das imagens capturadas.

O bloco de representação 3D consiste, nesta abordagem, na construção de um modelo geométrico da cena (feito normalmente a priori, a partir do conhecimento dos objectos filmados), ou seja, especificação das coordenadas dos polígonos constituintes dos objectos na cena em função de um número reduzido de graus de liberdade (por exemplo, para um objecto que seja o corpo humano, ângulos das articulações, posição no espaço 3D, entre outros), na estimativa dos parâmetros do modelo construído a partir das imagens filmadas e na representação das texturas adquiridas pelas câmaras a mapear nos objectos. A renderização é, para este método, um assunto bem conhecido do ramo da visão computacional (Computer Vision): este processo resume-se à projecção dos (polígonos dos) objectos do modelo 3D no plano do ponto de vista sintético e ao mapeamento das texturas nos objectos projectados. Existem hoje em dia tecnologias gráficas que efectuam esta renderização de modo muito eficiente, visto que estes modelos 3D baseados em polígonos já há muito tempo são usados intensamente em domínios como a lúdica computacional (jogos), cinema (nos incorrectamente denominados "filmes 3D"), ou a Internet.

Uma técnica para ajustar os parâmetros do modelo 3D construído a priori à cena filmada consiste na execução de um algoritmo iterativo baseado na análise por síntese (Figura 8): em todas as vistas reais filmadas, é feita a segmentação dos objectos de interesse, sendo construída em cada vista uma imagem binível cuja fronteira é o contorno dos objectos filmados. Paralelamente, é renderizado (sintetizado) o modelo 3D a partir dos parâmetros que se têm na iteração actual do algoritmo, no ângulo dos pontos de vista reais. As imagens produzidas sinteticamente por este método são, após limiarizadas (binarizadas), comparadas com as imagens reais segmentadas (por exemplo através da contagem do número de pixels de nível diferente entre as imagens), sendo gerada uma medida de discrepância entre a versão sintética do objecto e a versão real. Através de um algoritmo de optimização, é minimizada essa discrepância por variação dos parâmetros.

Fig. 8: Esquematização do processo de análise por síntese para a estimativa dos parâmetros do modelo 3D em Model Based Rendering. Extraído de [1].

Comparando esta forma de representação 3D com a representação baseada em imagem, encontram-se como vantagens a elevada qualidade das vistas produzidas sinteticamente para ambientes gráficos gerados por computador, a baixa quantidade de informação produzida pelo modelo (modelo é controlado por poucos parâmetros), uma necessidade de uma captura da cena muito mais esparsa (com menos câmaras) do que o método baseado em imagem e a elevada interactividade possibilitada na renderização da cena: dado que a estrutura 3D da cena é conhecida, podem alterar-se muitos parâmetros desta, como a posição das fontes de iluminação ou os ângulos das sombras. A grande desvantagem deste modelo é a sua elevada complexidade computacional, que é fortemente dependente da complexidade da cena. Para além deste aspecto, existe ainda o facto de as estimativas dos vários parâmetros (parâmetros referentes à forma dos objectos, geometria da câmara, ...) necessários para a formação do modelo 3D completo poderem ter erros, afectando a qualidade das imagens sintéticas geradas. Consequentemente, a estimativa destes parâmetros não pode ser feita de modo totalmente automática em cenas naturais, tendo de ser feita com assistência humana.

Renderização Baseada em Imagem

Codificação