Recuperação de Vídeo

SISTEMA

O que se pretende é um sistema capaz de captar a essência do vídeo. A particularidade do vídeo está nas relações temporais. Reparando também na quantidade de imagens que um vídeo pode ter, é claro que alguma organização deve ser estabelecida para se poder simplificar a questão. A própria estrutura de produção dos vídeo permite por si uma segmentação lógica: cenas, shots e frames. O vídeo é um conjunto de cenas, sendo estas compostas por shots, a unidade básica da análise de vídeo. Estes podem ser vistos como uma sequência de frames em que um objecto move-se ou dá-se uma acção da câmara (zoom, pan, tilt, etc.). Por sua vez, uma cena é um conjunto de shots consecutivos com uma coesão semântica.

A dificuldade está em delimitar os diferentes elementos, principalmente nas transições entre shots que podem ocorrer de diferentes formas: corte, fade in, fade out, dissolução, etc. Alguns dos algoritmos de detecção de fronteiras ou correm em vídeo codificado, aproveitando as capacidades da codificação MPEG, ou, maioritariamente em vídeo descodificado. A detecção é feita pela diferença de frames consecutivas, por exemplo baseada no histograma da cor de cada frame entre outros.

Extrair os atributos de todas as frames do vídeo iria pesar na computação e tornar-se moroso. Portanto, faz sentido identificar as frames dentro de um shot que permitem captar significativamente o seu conteúdo, são as key-frames.

As key-frames tem a responsabilidade de representar os shots ou mesmo as cenas. O truque está em escolhe-las de forma a que capturem as características mais significativas do shot, tarefa que não é fácil. A extracção de atributos executa-se à custa das key-frames por isso a sua escolha condiciona e muito o desempenho de todo o sistema. São os atributos das key-frames que efectivamente são usados para o processo de procura e recuperação do vídeo.

O conteúdo de cada key-frame pode ser representado por:

Atributos de baixo nível – elementos básicos que compõem a imagem, são características visuais e em geral de natureza quantitativa como a cor, a textura, a forma, o movimento, etc
Atributos de alto nível – padrões de uma imagem com significado semântico para as pessoas, dificilmente é interpretado por máquinas e são principalmente de natureza qualitativa.

Como é evidente, a extracção automática dos atributos de baixo nível é uma tarefa relativamente fácil por comparação com os de alto nível. Mesmo assim é possível que a partir dos primeiros automaticamente se deduzam os segundos, valendo-se para isso de algoritmos sofisticados e bases de dados semânticas. Por exemplo a construção e análise de histogramas de cor, cores dominantes, distribuições de cor, correlogramas de cores, histogramas de bordas, características locais e regionais, sub-imagens, etc., indiciam os conceitos semânticos por trás do fluxo de bits. Repare-se que tudo isto é obtido à custa da atribuição de valores quantitativos aos atributos físicos da key-frame.

No caso de uma base de dados, o procedimento anterior deve ser feito para todos os conteúdos vídeo arquivados. Só assim a base de dados está em condições para que se efectuem pesquizas.

A pesquiza pode ser feita de diversas formas, por atributos, por palavras-chave, por composições, por padrões espaciais e temporais ou por exemplo de imagem ou vídeo. No último caso o procedimento realizado sobre os conteúdos da base de dados também tem de ser executado sobre o exemplo sugerido. As semelhanças são avaliadas e por fim os resultados são mostrados pela ordem de semelhança obtida.

Note-se que quanto melhor a representação do vídeo, mais precisos serão os resultados.

As simplificações introduzidas no sistema permitem uma selecção da informação útil ao mesmo tempo que reduzem a dimensão do problema. Beneficiou-se de menos complexidade do sistema, menor tempo de processamento, maior eficiência e, com certeza, satisfação do utilizador.

Reconhece-se que, apesar de não ser explorado neste artigo, uma análise conjunta do vídeo, áudio e texto aumenta a precisão do processo. Apesar de o vídeo carregar uma grande parte da informação multimédia, o áudio e texto podem fazer diferença.