Gravação Digital

A gravação digital regista o som da fonte sonora como um sinal contínuo no tempo, resultante de uma amostragem temporal. Nesta secção abordamos os mais importantes exemplos de gravação digital que são a gravação no CD e o método de armazenamento MPEG.  

4.2.1 – CD

Um CD guarda informação na forma digital. Por exemplo, no caso de música são feitas 44100 amostragens por segundo com 2 bytes por amostra. Então, um CD armazena:

44100 amostras/segundo * 16 bits/amostra * 2 canais (sistema estéreo) = 1411200 bits/seg                            

Um CD pode armazenar até 74 minutos de música. Fazendo as contas:

44100 amostras/seg * 2 bytes/amostra * 2 canais * 74 min * 60 seg/min = 783,216,000 bytes

Armazenar 783 MB de informação num disco com apenas 12cm requer que o tamanho de um simples bit seja muito pequeno. O CD é feito de policarboneto e tem 120mm de diâmetro. No centro tem um buraco de15mm. A parte mais interna do disco não contém data, esta só é armazenada entre os 46mm e 117mm. Os discos são escritos do centro para o exterior (isto permite mudanças no tamanho do disco).

Fig.15 – Perfil de um CD.

 O CD contém uma longa linha de sulcos escritos de uma forma helicoidal no disco. Os extremos dos sulcos correspondem aos '1's binários.

Fig.16 – Vista aérea do CD

Cada sulco tem aproximadamente 0.5microns de largura e 0.83microns de comprimento. (lembrar que o comprimento de onda da luz verde é aproximadamente 0.5microns). Cada pista está separada da outra por 1.6microns.

Uma secção ampliada de uma pista tem o seguinte aspecto:

Fig.17 – Secção ampliada de uma pista

Os sulcos são formados no disco de policarbonato por um processo de moldagem. Como tal eles representam um dos menores objectos mecânicos produzidos pelo Homem. A largura de um sulco é a mesma que o comprimento de onda da luz verde. As pistas estão separadas por aproximadamente 3 vezes o comprimento de onda da luz verde. Esta característica dá ao CD uma brilhante coloração.


Fig.18 – Comprimento de um sulco.

Uma fina camada (10-100nm) de metal (alumínio, ouro ou prata) cobre os sulcos. Uma camada adicional (10-30microns) de polímero cobre o metal. Finalmente, a etiqueta é gravada no topo. Como os sulcos estão muito mais próximos da etiqueta (20microns) do que estão do lado da leitura (~1.2 mm) é mais fácil danificar permanentemente um CD riscando o topo!


Fig.19 – Perfil de um sulco

Leitura dos Sulcos

 Do ponto de vista do raio laser que lê o disco, os sulcos são na verdade "lombas".

O policarbonato desempenha um papel importante na leitura dos sulcos. O índice de refracção do ar é 1.0 e o índice de refracção do policarbonato é 1.55. A luz do laser que incide na superfície do policarbonato é refractada provocando a focagem do feixe de luz. Assim, o feixe incidente de 800microns à superfície do policarbonato é focado para 1.7microns na superfície do metal. Este efeito minimiza o efeito da poeira e dos riscos na superfície.

Fig.20 – Refracção da luz no policarbonato.

Os sulcos são cuidadosamente fabricados para terem a altura de 1/4 do comprimento de onda. A luz que incide na superfície plana viaja mais 1/4 +1/4 = 1/2 de comprimento de onda, fica assim exactamente em oposição de fase em relação à luz que é reflectida no sulco. Estas duas ondas interferem destrutivamente não havendo assim onda reflectida.

Fig.21 – Reflexão da luz num sulco e numa superfície plana.

O espaçamento entre sulcos é também cuidadosamente seleccionado. A imagem de um feixe que passa através de uma abertura forma um padrão característico, os sulcos vizinhos estão exactamente nos pontos onde este padrão se anula. Isto minimiza a interferência entre sulcos vizinhos.

Fig.22 – Padrão luminoso e espaçamento entre sulcos.

Sistema de Leitura:

A luz do laser é primeiro convertida em três feixes, que são polarizados paralelamente à página. É então alinhada, novamente polarizada e focada para o disco. Se a luz incidir na superfície plana é então reflectida, se incidir numa lomba não há reflexão.

A luz reflectida segue então o caminho inverso e é assim polarizada perpendicularmente em relação à luz incidente (a polarização é agora vertical à página).

Esta luz reflectida incide assim no detector fotoeléctrico.

Fig.23 – Sistema óptico de leitura.

Focagem Automática:

Se a distância entre a lente da objectiva e a superfície do CD é menor que a distância focal da lente, a lente cilíndrica cria uma imagem elíptica na superfície do detector fotoeléctrico.

Fig.24 – Distância de leitura incorrecta.

 Se a distância entre a lente da objectiva e a superfície for maior que a distância focal, a lente cilíndrica cria uma novamente uma imagem elíptica no detector fotoeléctrico, mas agora esta imagem é perpendicular à anterior.

Fig.25 – Focagem incorrecta.

Se o disco estiver à distância correcta da lente, a lente cilíndrica não afecta a imagem e esta é perfeitamente circular.

Fig.26 – Efeitos da distância de leitura no detector fotoeléctrico.

Assim, se o disco está demasiado afastado, os quadrantes D e B terão mais luz que os quadrantes A e C. Analogamente, se o disco estiver demasiado próximo, os quadrantes A e C terão mais luz que os B e D. Um circuito simples gera um sinal para focagem automática baseado na saída do detector fotoeléctrico.

Fig.27 – Sinal para focagem automática e implementação.

Codificação:

Antes da gravação para o CD os dados são sujeitos a uma série de operações de codificação, são acrescentados bits de paridade para posterior detecção e correcção de erros. A ordem dos bits é trocada para evitar erros de rajada.

Estes são codificados (codificação EFM) de forma a eliminar a possibilidade de haver ‘1’s adjacentes (Isto é feito porque são as extremidades dos sulcos e não os sulcos em si que representam os ‘1’s). A ideia desta codificação é minimizar o número de transições 1-0 e 0-1 evitando sulcos muito pequenos.

Em teoria, as técnicas usadas na codificação permitem depois a detecção e correcção de erros de mais de 4000 bits seguidos equivalente a um defeito físico de 4.47mm.

A norma de codificação é a IEC 908 desenvolvida pela PHILIPS e SONY em 1980.

 

4.2.2 – MPEG-1 ÁUDIO 

Actualmente as técnicas de codificação utilizadas em áudio exigem grandes custos na computação de dados. A redução de dados em áudio é a chave tecnológica para qualquer aplicação ultrapassar a limitada capacidade de armazenamento e transmissão de dados. 

Os sons são variações de pressão propagando-se no ar. Quando captadas por um microfone e amplificadas por um amplificador tornam-se em variações de tensão. A tensão é então amostrada. Para obter, uma qualidade equivalente à de um CD é preciso adquirir 44100 amostras por segundo, cada amostra tem uma resolução de 16 bits, o que equivale em estéreo a cerca de 1.4 Mbits para representar apenas um segundo de música em estéreo, o que desde logo realça a necessidade de um algoritmo de compressão que reduza o débito binário. Usando o codificador de áudio MPEG é possível reduzir a quantidade de dados de um CD Áudio de um factor de aproximadamente 12 vezes, sem perda apreciável de qualidade. Esta redução enorme de dados baseia-se no aproveitar das características do sistema auditivo humano. Os nossos ouvidos não são de certeza aparelhos perfeitos para captar sons, por isso esta imperfeição pode ser muito bem aproveitada. Imagine-se uma orquestra que está a tocar uma peça onde os violinos, as trompetes, e a percussão estão a tocar simultaneamente. Os nossos ouvidos não são capazes de captar todos estes sons simultaneamente porque alguns dos sons estão escondidos pelos sons mais fortes. Isto também porque os nossos ouvidos são mais sensíveis aos sons mais graves do que aos sons mais agudos. Uma gravação em CD da peça desta orquestra irá conter todos sons dos instrumentos da orquestra. Mas se as partes que não somos capazes de ouvir forem removidas, conseguiremos ouvir na mesma com qualidade CD e conseguiríamos desfazer-nos de bastantes dados desnecessários. Isto é exactamente a maneira como o MPEG funciona. 

O MPEG1 providencia um esquema de compressão para fontes de áudio estéreo e mono com qualidade semelhante a CD Áudio. A parte do algoritmo correspondente ao áudio está dividida em três níveis (layers). 

·        Layer I é a mais simples, oferecendo a menor compressão. É usada nos sistemas de áudio de consumo. A sua vantagem principal é um baixo custo de implementação.

·        Layer II oferece maior compressão e encontramo-la em numerosas aplicações de consumo e profissionais.

·        Layer III pode ser encontrada sobre RDIS (Rede Digital Integrada de Serviços) e é aquela que oferece a maior compressão, tendo no entanto um maior custo de uma maior complexidade de codificação e descodificação. Tem geralmente a denominação de MP3. 

MPEG1 áudio destina-se a transformar sinais áudio PCM amostrados a uma frequência de amostragem de 32, 44.1 ou 48 KHz, e codificá-los a um débito binário de 32 a 192 Kbps por canal de áudio (dependendo da layer). 

Para se efectuar compressão de áudio basicamente existem duas alternativas. A primeira consiste em reduzir a frequência de amostragem e a segunda em reduzir a resolução da amostra para uma valor inferior. Se pretendermos qualidade não podemos fazer grandes alterações na frequência de amostragem, pois o sistema auditivo humano só houve sons entre 20Hz e os 20KHz. De acordo com o teorema de Nyquist, temos de fazer a amostragem a uma frequência de pelo menos duas vezes a maior frequência que queremos reproduzir. Tendo em conta que os filtros não são ideais, uma frequência de 44.1KHz é o mínimo razoável. Assim a melhor escolha é tentar reduzir a resolução da amostra.

 A razão da utilização dos 16 bits por amostra destina-se à obtenção de uma boa relação sinal ruído de quantificação proveniente do processo de digitalização do sinal. Por cada bit que se adiciona à resolução da amostra aumentamos a relação sinal/ruído de 6dB. Para o nosso ouvido 6dB correspondem a aumentar para o dobro o nível do sinal. Com o sistema CD Áudio consegue-se uma relação sinal ruído a rondar os 90dB, que está dentro da gama dinâmica do sistema auditivo humano. Isto é, não ouvimos nenhum ruído, nem do próprio sistema reprodutor. Se utilizarmos uma resolução de 8 bits por amostra vamos obter um ruído de fundo que se vai fazer notar. Este ruído pode ser facilmente ouvido em momentos de silêncio da música ou entre palavras. Mas quando o nível do som é elevado não ouvimos nenhum ruído. Isto é o chamado efeito de máscara e é a chave para o método de codificação utilizado no MPEG Áudio.

 

O Modelo Psico-Acústico

Primeiro começamos por apresentar alguns aspectos a ter em conta acerca do ouvido e da voz humana:

A "largura de Banda" do ouvido situa-se entre os 20Hz e os 20000Hz, sendo mais sensível dos 2 a 4KHz.

A gama dinâmica em termos de nível do som (desde os sons mais baixos até aos mais fortes) é de 96dB. A "largura de Banda" da voz está entre os 500Hz e os 2KHz. As baixas frequências são as vogais e os sons graves, e as altas-frequências são as consoantes e os sons agudos.

 O gráfico seguinte mostra a sensibilidade do ouvido humano. Coloca-se uma pessoa num quarto em silêncio e aumenta-se o nível de um Tom a 1KHz até que seja minimamente ouvido. Varia-se a frequência e obtemos o seguinte resultado:

Fig.28 – Sensibilidade do ouvido humano.

Vemos que o ouvido humano é mais sensível entre os 2 e os 4KHz.

 

Efeito de Máscara (Masking)

Se tivermos um sinal muito forte com uma frequência de 1000Hz e outro a 1100Hz com um nível de 18dB abaixo do primeiro, este último sinal não vai ser ouvido pois vai ser completamente mascarado pelo primeiro. De facto nenhum som mais fraco perto do som mais forte (à frequência de 1000Hz) será ouvido pois serão todos mascarados. Se introduzirmos outro sinal a 2000Hz, também 18dB abaixo do primeiro sinal (a 1000Hz) já o conseguiremos ouvir. Para que este possa ficar mascarado é necessário que esteja 45dB abaixo do primeiro. Assim quanto mais longe estivermos de um sinal menor será o efeito de máscara. O efeito de máscara permite aumentar o ruído de fundo à volta de um som forte porque o ruído será mascarado de qualquer forma. Aumentar o ruído de fundo, é o mesmo que reduzir o número de bits utilizados por amostra. Usar menos bits significa comprimir. A figura seguinte mostra um gráfico de uma experiência onde se pode verificar o Efeito de Máscara. Foi colocado um tom a uma frequência de 1KHz a um nível fixo de 60dB. E um outro tom a uma potência diferente a uma frequência de 1,1KHz, aumentou-se este segundo tom até que se conseguisse ouvir os dois.

Fig.29 – Efeito da máscara.

Pode-se verificar qual o efeito de máscara que o tom a 1 KHz provoca sobre todas as frequências que estejam dentro da sua banda de masking. Repetindo o processo anterior para diferentes tons de masking temos a figura seguinte:

Fig.30 – Efeito da máscara.

Verifica-se pela observação deste gráfico que à medida que aumenta a frequência do tom de masking, aumenta a largura da banda de masking.

A ideia base do SBC (Sub-Band Coding) consiste em eliminar a informação que diz respeito às frequências mascaradas. O resultado não é o mesmo que o sinal original, mas se a computação for bem feita, o ouvido humano não perceberá a diferença.

As figuras seguintes mostram a estrutura de um codificador SBC (Sub-Band Coding) e respectivo descodificador.

Fig.31 – Estrutura de um codificador SBC.

Fig.32 – Estrutura de um descodificador SBC.

O descodificador é bem menos complexo porque não necessita do modelo psico-acústico.

 

O MP3

MP3 é a extensão para os ficheiros comprimidos através do MPEG Áudio Layer III. Usando esta técnica de compressão podemos guardar num único CDROM o equivalente a 12 CD Áudio sem apreciável perda de qualidade.

 

Continuar a ler o trabalho: Conclusão