Captura da Cena

Como referido, quando a cena é estática (não existem objectos em movimento), basta movimentar uma câmara ao longo de um caminho pré-determinado em redor da cena para capturar vários ângulos de vista desta. Para poder gerar novos pontos de vista, é necessário conhecer o modelo da câmara, ou seja, são necessários os seus parâmetros extrínsecos — posição tridimensional no cenário e orientação e parâmetros intrínsecos — resolução da câmara e distância focal do seu sistema de lentes. Para determinar estes parâmetros existem duas abordagens possíveis. Uma primeira consiste na movimentação da câmara fixado-a num sistema mecânico (por exemplo movimentando-a sobre carris, numa grua ou com um braço rotativo). Dada a rigidez do movimento da câmara com este método, é possível determinar em cada instante com precisão a sua posição e orientação. Os parâmetros intrínsecos podem ser determinados conhecendo as características da câmara. A segunda abordagem baseia-se num processo de calibração: o movimento da câmara é livre, mas é filmado um padrão de calibração na cena (um objecto) de coordenadas 3D conhecidas. A partir das imagens filmadas do padrão (projecções do padrão no plano da câmara), estimam-se os parâmetros da câmara.

Para cenas dinâmicas não basta uma única câmara (figura 3); costuma usar-se neste caso um conjunto denso de câmaras dispostas numa geometria planar (array), ou cilíndrica (dome) em torno da cena. Usualmente as câmaras são estáticas (não se movimentam durante a captura), pelo que a sua geometria (coordenadas e orientação) pode ser determinada a priori. Quando tal não acontece, a geometria tem de ser determinada em tempo real durante a captura. Para além da calibração geométrica, é ainda necessário efectuar uma calibração de cor entre as várias câmaras, para garantir uma coerência na cor dos objectos filmados dos vários ângulos (e consequentemente, coerência de cor nas novas vistas sintetizadas). É de referir, por último, que a sincronização entre as câmaras tem de ser garantida, para não se formarem artefactos nas vistas sintetizadas em objectos em movimento. A precisão absoluta deste sincronismo não é essencial, dado que o sistema visual humano é pouco sensível ao detalhe espacial em objectos em movimento. Uma maneira de obter o sincronismo é, por exemplo, para sistemas com poucas câmaras, a ligação das câmaras em cascata num sistema que transporte informação de sincronismo, como o IEEE 1394 / Firewire.

Fig. 3: Dispositivos para captura de uma cena num sistema FTV. Extraído de [1].

Para além da captura da cena em si, é necessária, dependendo do modelo de representação 3D que se use, a captura da informação de profundidade da cena, ou seja, é necessário saber para cada posição (pixel) das imagens capturadas, a distância a que se encontra o objecto capturado nessa posição. Um método possível para a captura desta informação é o método da triangulação: emite-se um feixe LASER em direcção a um ponto da cena de interesse e filma-se esse feixe numa câmara a uma certa distância conhecida do LASER. Sabendo essa distância e a posição do LASER na imagem filmada, pode obter-se a distância do local atingido pelo LASER à câmara (ou seja a profundidade desse local). Por varrimento, obtém-se um mapa de profundidades para todos os pontos filmados. Um segundo método é semelhante ao utilizado em radares de posição: emitindo (também com um LASER) um impulso luminoso em direcção ao ponto de interesse, mede-se o atraso entre a emissão do impulso e a recepção do seu eco, que será proporcional à distância ao ponto. Substituindo o impulso por um sinal periódico pode usar-se o mesmo princípio, tendo em conta nesse caso a desfazagem entre o sinal emitido e o reflectido.

Componentes de um sistema MVI

Representação 3D e Renderização