Instituto Superior Técnico

 

   Comunicação de

     Áudio e Vídeo

 

INTRODUÇÃO

Muitas vezes confundido com um dispositivo portátil para ouvir música, ou uma forma de ouvir música no computador,  MP3 é na verdade a abreviatura de MPEG-1 Audio Layer III.

Com este trabalho espera-se dar a conhecer uma das siglas mais usadas actualmente no mundo do áudio, pois revolucionou a forma como se ouve, armazena e comercializa a música.

 

O MP3 é uma forma de codificar o áudio digital, comprimindo o áudio com pouca ou quase nenhuma perda de qualidade em relação ao original.
A indústria da música teve de se adaptar a este formato que permite comprimir em cerca de dez vezes um CD de áudio tradicional. Foi esta capacidade de compressão quase sem perdas, aliada à globalização da Internet, que fez do MP3 a norma de eleição para codificação de áudio.

 

O MP3 que apareceu no inicio da década de 90 está hoje em dia por todo lado, fazendo um novo sector de industria nascer.

 

A partir de 1995 o MP3 começou a espalhar-se pela Internet, devido ao aparecimento de um programa de partilha de ficheiros, o Napster e mais tarde muitos outros programas  similares. Nesse momento tornou-se fácil e acessível a muitas pessoas descarregar e partilhar ficheiros de música, levando à industria musical tradicional a ter de evoluir. Rapidamente se pôs em causa a legalidade da partilha de ficheiros, sendo até hoje uma questão não completamente resolvida. Enquanto uns defendem a protecção incondicional, outros tentam explorar toda a visibilidade que o MP3 proporciona para divulgar o seu trabalho.

HISTÓRIA

1937: Alec Reeves, engenheiro britânico, desenvolveu a técnica PCM (Pulse-code modulation) para comunicação de voz, que permitiu a representação digital de um sinal analógico.

A principal diferença entre um sinal analógico e um sinal digital é que, o primeiro é algo contínuo no tempo, enquanto o segundo é discreto, ou seja, é uma sequência finita de valores. Na figura seguinte é perceptível a diferença, entre um sinal contínuo e um discreto.  

 

 

 

 

 

 

 

 

 

 

 

 

 

Para transformar um sinal analógico em digital primeiro é necessário amostrar o sinal, ou seja, transformar o sinal contínuo no tempo num sinal discreto, como mostra a figura. O Teorema da Amostragem de Nyquist garante que, se a frequência de amostragem for pelo menos duas vezes a frequência do sinal original, obtemos um sinal que permite recuperar o original sem perdas de informação.

Depois é  necessário atribuir símbolos às amostras que se obtêm da amostragem. Como não se dispõe de um número infinito de bits, para representar todos os valores possíveis que uma amostra pode ter, é necessário arrumá-los a patamares previamente definidos, que dependem do número de bits disponíveis. Por exemplo: se quisermos representar o sinal usando apenas 8 bits/amostra teremos uma gama de 28 (256) valores que as amostras podem tomar.

Tipicamente um sinal de áudio digitalizado em PCM, aquele que se encontra nos CD’s, utiliza 16 bits/amostra.

 

1979 – É desenvolvido o primeiro processador digital de sinal, com a capacidade de comprimir áudio.

A equipa formada em 1970 desenvolve este processador digital de sinal, com a capacidade de comprimir áudio. Nesse mesmo ano um aluno do Professor, Karlheinz Brandenburg, estuda a codificação de áudio tendo em conta as propriedades do ouvido humano e são desenvolvidos novos algoritmos de codificação.

 

1987 – A Erlangen-Nuremberg e o Fraunhofer Institut Integrierte Schaltungen, aliam-se na investigação do projecto europeu EUREKA EU147 com o objectivo de emitir áudio digital (D.A.B. Digital Áudio Broadcasting) e mais tarde veio a integrar-se na norma MPEG-1 Audio Layer 2 (MP2).


1989 – Karlheinz Brandenburg publica uma tese em Codificação Óptima no domínio da frequência e o Fraunhofer Institut Integrierte Schaltungen recebe uma patente alemã de tecnologia usada no MP3.

A tese de Karlheinz Brandenburg indica as principais características de um eventual codificador de MP3, como um filtro de alta-frequência, quantificação não uniforme e codificação de Huffman. Assim Karlheinz define a gama dinâmica do sistema auditivo humano (relação entre as amplitudes máxima e mínima), aproveitando a irrelevância.

 

1991 – Criação de dois algoritmos de codificação de áudio, o ASPEC e o MUSICAM.

Melhorias do algoritmo de Codificação Óptima no domínio da frequência, levado a cabo pela Universidade de Hannover, Thomson e a AT&T, criam o algoritmo chamado ASPEC (Adaptive Spectral Perceptual Entropy Coding).

 

Os algoritmos ASPEC e  MUSICAM, foram usados para a codificação de áudio no desenvolvimento das normas MPEG (Moving Picture Experts Group), para vídeo digital.

Depois de testes formais, as propostas ASPEC e MUSICAM foram utilizadas para criar uma família de 3 níveis hierárquicos na norma MPEG-1: Audio Layer 1, variante de baixa complexidade do MUSICAM; Audio Layer 2, versão optimizada do MUSICAM e Audio Layer 3 baseado no ASPEC.

Devido à sua baixa complexidade a norma Audio Layer 2 foi usada na emissão digital de áudio. Esta norma, apesar de menos complexa que a ASPEC, foi a chave para transmitir áudio de alta qualidade via linha telefónica ISDN (Integrated Services Digital Network).

Ainda assim, equipamento com a norma ASPEC foi vendido a alguns estúdios, estações de rádio e a utilizadores profissionais.

O MPEG-1 Audio Layer 3 (MP3), acabou por ser uma evolução do ASPEC que também utilizou conceitos Áudio Layer 2. Inicialmente pensou-se que o MP3 não seria usado por ser muito complexo, foi apenas concebido para preencher a camada de alta qualidade dos codificadores áudio MPEG-1. No entanto com a evolução do poder computacional tornou-se simples implementar e massificar o codificador.

 

1992 – A norma MPEG-1 é normalizada.

A ISO (International Organization of Standardization), cria a norma MPEG-1 para ser usada em vídeo CDs.

São especificados 3 codecs audio, Audio Layer-1, 2 e 3 (MP3).

1996A 26 de novembro é emitida uma patente Norte-Americana para o MP3. Nesta altura o formato já tinha muito sucesso.

 

1998– A era do MP3 portátil começa com a introdução do “Diamond Multimédia Rio” nos Estados Unidos e do “Saehan Information Systems's MPMAN”, na Coreia.

Os leitores usavam memória flash para armazenar ficheiros MP3, descarregados da Internet ou extraídos de um CD de música. Devido à popularidade do MP3, começaram a surgir muitas lojas de música on-line, e muitos outros leitores de MP3.

Foi também nesta altura, que a Fraunhofer começou a exercer os seus direitos de patente, obrigando todos os fabricantes de codificadores e descodificadores a pagar pelos direitos do uso da tecnologia. Isto fez com que começassem a surgir uma série de novos formatos, que não tinham obrigações com patentes.

ASPECTOS TÉCNICOS

Para compreender as técnicas usadas para obter o formato MP3 é fundamental identificar  os problemas que este formato visa responder. O MP3, bem como o MP1 e o MP2, faz parte de uma das normas mais importantes da codificação audiovisual, o MPEG1.

Uma das principais motivações que levou ao desenvolvimento da norma MPEG1 foi o aparecimento de suportes de gravação digital, com grande capacidade e elevadas velocidades de leitura, bem como a sua versatilidade. Nesta altura, década de 90, eram vários os possíveis: CD-ROM, CD-WORM, discos Winchester, DAT, … A escolha do CD-ROM verificou-se como a mais adequada por oferecer, em larga escala, sinais multimédia interactivos, sobretudo devido à sua elevada capacidade, baixo custo e possibilita o acesso aleatório.

 

Assim sendo, tendo como principal objectivo a gravação digital de vídeo em CD-ROM, a norma MPEG1 foi optimizada para débitos totais (áudio e vídeo) de, aproximadamente, 1.5 Mbit/s

 

A norma MPEG1 engloba,  uma norma para a codificação de vídeo e 3 normas para codificação de áudio, entre outras. Mas, este artigo, irá focar a codificação de áudio.

 

As três normas possíveis de áudio são como que 3 camadas, que representam diferentes compromissos débito/compressão/complexidade/atraso. Em que a primeira camada (MPEG1 Layer1)  é a norma com débitos, complexidade e compressão menores. Logo, a camada exterior, o MPEG1 Layer3, é aquela que tem maior complexidade, eficiência de compressão e atraso.

 

O MP3 consegue níveis de compressão na ordem aos 90% do sinal digital em PCM, com qualidade transparente. Para conseguir estes níveis de compressão o MP3 aproveita, além das técnicas habituais de compressão, o conhecimento das limitações na audição humana e assim eliminar aquilo que não é relevante ao ouvido humano. Esta distinção do limiar de relevância, tem como base um modelo matemático que retrata as principais propriedades e tolerâncias do sistema auditivo, o modelo psicoacústico, permitindo assim uma codificação perceptiva.

De forma muito resumida, pode definir-se um codificador perceptivo como uma cadeia de processos matemáticos, representado segundo o seguinte modelo:

 

 

 

 

 

 

 

 

É de salientar que qualquer uma das 3 camadas do MPEG1 Audio usa o modelo psicoacústico para melhores compressões áudio. No entanto, o MP3 distingue-se pela granularidade de acção, ou seja, à custa de maior complexidade o MP3 consegue analisar o áudio com mais pormenor.

 

MODELO PSICOACÚSTICO

Como já foi referido anteriormente, o modelo psicoacústico é um modelo matemático que representa as capacidades auditivas humanas, ou seja, a sensibilidade do ouvido humano, relacionado a intensidade sonora, à selectividade espectral e ao efeito de mascaramento.

Ter um modelo que identifica o que é que realmente captado pelo sistema auditivo é de uma extrema utilidade, pois permitir definir do sinal tudo o que é irrelevante, ao ouvido , permite injectar erro de codificação nessas zonas, o que obviamente resulta na diminuição do débito associado ao sinal codificado.

Primeiro o modelo define um limiar para sensibilidade auditiva, ou seja, começa por determinar a intensidade mínima dum som para este ser ouvido. Esta intensidade mínima varia ao longo da banda espectral dum sinal.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Mascaramento

O modelo psicoacústico define a curva de limiar de audição, mas esta pressupõe um contexto de silêncio absoluto, no entanto, a curva é alterada quando se está na presença de um determinado som. Por exemplo, o canto de um pássaro (um canário) ambiente silencioso, facilmente audível a uma grande distância, no entanto se for numa zona da cidade movimentada ou numa fabrica ruidosa, dificilmente se consegue distinguir o som do canto. Isto quer dizer que, a envolvente sonora pode abafar, total ou parcialmente, um determinado som. A isto chama-se mascaramento.

É importante de referir que o efeito de mascaramento é altamente não linear e os seus efeitos são muito variados.

Assim, pode dizer-se que, o mascaramento altera os limiares de audição,  podendo definir-se 2 tipos distintos:

                      - Mascaramento na frequência;

                      - Mascaramento no tempo;

 

Mascaramento na frequência

O efeito mascara na frequência é aquele que se vê na figura abaixo. Isto é, quando um som, numa determinada frequência, tem uma amplitude muito elevada, aqueles que lhe são adjacentes (espectralmente) são mascaradados. O exemplo do canto do pássaro é um bom exemplo de mascaramento na frequência.





 

 

 

 

 

 

 


 

A largura da mascara não é independente dá frequência do som que a provoca. De facto, a largura da mascara aumenta com a frequência.


 

 

 





 

 

 

Estas diferentes larguras de mascara são designadas de bandas críticas.

 

Mascaramento no tempo

Quando é exposto a sons de muito amplitude, mesmo que por pouco tempo, o ouvido humano fica “surdo”, sendo necessários alguns décimos de segundo a recuperar a sensibilidade auditiva. Durante este intervalo de tempo o ser humano fica miuto menos sensível a sinais de baixa amplitude, não sendo capaz de os detectar. A este fenómeno chama-se mascaramento no tempo.




 

 

 

 

 




Os sons existentes na área a verde escuro não conseguem ser detectados pelo ouvido humano devido ao mascaramento, logo não precisam ser codificados.

 

Como se pode verificar, é importantíssimo saber correctamente os sinais relevantes e irrelevantes ao ouvido humano, umas vez que enviar sinais irrelevantes representa desperdício de bits gastos na codificação e eliminar sinais relevantes leva a uma qualidade não transparente, isto é, torna-se audível ruído que não faz parte do sinal original.

A principal função do modelo psicoacústico, enquanto parte integrante da arquitectura de um codificador perceptivo, é controlar o erro que quantificação a introduzir em cada banda.

A boa utilização deste modelo é de extrema importância pois o objectivo principal deste codificação é compressão máxima.

 

Banco de filtros

A primeira etapa do processo de compressão de um sinal PCM é o banco de filtros. O sinal PCM representa amostras de áudio no domínio do tempo e para poder explorar a redundância e irrelevância de um sinal áudio, tem de se analisá-lo no domínio da frequência. O banco de filtros decompõe o sinal em sub-bandas de frequência, passando a descreve-lo no domínio tempo/frequência.

O banco de filtros utilizado no codificador MPEG1 Layer3 utiliza uma estrutura de codificação tempo/frequência híbrida, recorre a dois tipos de codificação na frequência, a saber, a

codificação por sub-bandas (também usado pelas Layer-1 e Layer-2) e MDCT.

O banco de filtros do codificador MP3 é formado por estas duas técnicas dispondo-as em cascata, ou seja, primeiro faz a codificação por subbandas e depois aplica a MDCT a cada uma das bandas resultantes, tal como está explícito na figura:


Este banco de filtros possibilita assim, uma maior resolução na frequência.

 

Codificação por subbandas

A codificação por subbandas consiste em decompor um bloco de amostras em vários subconjuntos de amostras, usando filtros passa-banda (32 neste caso), contínuos na frequência, de forma que o conjunto final das várias bandas possa ser recombinado aditivamente para sintetizar o sinal original.


Esta figura, além de exemplificar o funcionamento de um banco de 32 filtros passa-banda, mostra a evolução da Layer 1 para as Layers 2 e 3. O facto das Layers 2 e 3 usarem 36 amostras, em vez de 12, permite-lhes que explorar redundância entre
scale factors dos 3 grupos (3x12 amostras). Só o facto de se explorar a redundância, permite aos Layers 2 e 3 obter o dobro da compressão em relação ao Layer 1.

 

Codificação MDCT

A falhas do banco de filtros, característico das Layers 1 e 2, leva a que norma recorre à codificação por uma transformada para compensar algumas delas. Esta é grande diferença entre o Layer 3 e as outras duas Layers.  

 A transformada é um algoritmo matemático que converte um bloco de amostras estatisticamente dependentes, num bloco de coeficientes quase independentes onde a energia se encontra normalmente concentrada permitindo caracterizar um sinal no domínio da frequência. A DCT é a mais popular no mundo da codificação de imagem, sendo usada nas mais diversas normas. No entanto, a DCT não é a mais indicada para codificação de áudio, uma vez que, a audição humana é mais sensível ao “efeito bloco” do que a visão. Assim, na codificação de áudio, utiliza-se a DCT Modificada (MDCT), que alem de diminuir o “efeito bloco”,utilizando a sobreposição de janelas, permite evitar o efeito “pré-eco”, com a comutação de janelas.

É importante referir que a forma como a MDCT faz este processo quantificação não é normativo.

 

PRE-ÉCO


O efeito pré-eco nota-se quando, em vez de silêncio, se ouve um ruído antes de um som. Isto acontece, quando a “janela de amostras” que vem do banco de 32 filtros para o codificador de transformada engloba a transição, entre um tempo de silêncio e um som, uma vez que a transformada é aplicada à totalidade da amostra, alterando a parte do silêncio. Este efeito pode ser atenuado usando janelas de amostras com tamanhos variáveis consoante o sinal a codificar.

 

EFEITO BLOCO

O “efeito de bloco”, que tanto incomoda nos vídeos codificados, é ainda mais desagradável no áudio codificado. Este efeito é caracterizado por mudanças bruscas no sinal codificado, e tem como principal causa, o facto de as transformadas serem aplicadas a amostras independentes, sem ter em contas que estas são contínuas no tempo. Para suavizar este efeito, uma das soluções possíveis é aplicar a MDCT com 50% de sobreposição com as janelas contíguas, o que significa que a MDCT é aplicada a conjuntos de 12 ou 36 amostras das sub-bandas.


QUANTIFICADOR

O modelo do codificador perceptivo tem um quantificador, que recebe informação vinda do modelo psico-acustico e do banco de filtros. Resumidamente, pode dizer-se que o quantificador “molda”os coeficientes vindos da MDCT conforme o modelo auditivo humano.

Logo, a alocação de bits para quantificação dos coeficientes MDCT baseia-se nos limiares de audição dados pelo modelo psico-acustico, podendo introduzir erro nas frequências em que somos menos sensíveis e consequentemente gastar menos bits.

Isto é fundamental, pois é neste processo que quantificação, que são introduzidas “perdas” de informação irrecuperáveis, o que faz do MP3 um método de codificação “com perdas” ou lossy.

 

CODIFICAÇÃO ENTROPICA

A codificação entrópica é a elemento que atribui bits ao fluxo de símbolos saídos do codificador. Com objectivo de reduzir ao máximo o número de bits usados, a codificação entrópica tenta explorar a redundância estatística do sinal, atribuindo palavras mais curtas a símbolos mais prováveis e palavras mais compridas a símbolos menos prováveis. A maior parte dos codificadores (incluindo o MP3) utiliza o código de Huffman para codificação entrópica. Pode-se chegar a menos 20% dos bits, no conteúdo final codificado.

 

FORMAÇÃO DA TRAMA

A formação da trama é o fluxo de bits que vai para o canal, para ser descodificado por um qualquer descodificador, que esteja preparado pro efeito. Assim, é aqui que uma Norma ganha a sua importância, para que se garanta a interoperabilidade entre os vário descodificadores. Que neste caso a trama final do processo de codificação deve respeitar a norma MPEG1 Layer3.

 

NORMA

 Quando se implementa um sistema que vais interagir com outros sistemas é conveniente normalizar a linguagem de interacção, ou código. Isto, para evitar que cada fabricante faça uma norma diferente, não existindo interoperabilidade, "matando" o mercado desse modo. Logo, há a necessidade de impor regras para que a norma suporte um vasto número de aplicações e garanta uma interoperabilidade entre os vários dispositivos que a implementam. Seria muito difícil que determinado conceito ou produtos idênticos tivesse sucesso, se existissem vários grupos de utilizadores, cada um deles com uma forma diferente de linguagem, por exemplo, de fabricante para fabricante. Assim, para definir uma norma, é necessário especificar o problema que se pretende que ela resolva, para de seguida analisar propostas tecnológicas de empresas para a solução do problema, escolhendo-se depois a melhor hipótese e implementando-a com a colaboração das várias empresas intervenientes.

De qualquer forma, nem todo o conceito pode ser normativo, isto é, uma boa norma deve garantir a interoperabilidade, mas também deve dar à empresas intervenientes espaço para inovações, para existir concorrência no mercado alvo.

 

Norma MPEG-1 Audio Layer 3 (MP3)

A norma MPEG1 não normaliza os codificadores MP3, cada fabricante tem a liberdade de decidir como utiliza as “ferramentas” disponíveis na norma. O importante é que o bistream (aquilo que sai do codificador) seja normativo,  tenha uma sintaxe fixa, para que todos os descodificadores MP3 consigam utilizar o  bistream. Isto permite que a norma não fique estagnada, pois o codificador pode ser sempre melhorado, conseguindo sempre melhores resultados, sem nunca ser necessário modificar os descodificadores.

A norma MPEG-1 Audio Layer 3 utiliza as seguintes “ferramentas”:

·          Codificação blocos de 1152 amostras áudio (2 grupos de 576 amostras cada)

·          Estrutura híbrida de codificação tempo/frequência - Banco de filtros (sub-bandas) seguido de codificação de transformada (Modified DCT)

·          Comutação dinâmica de janela - Para aumentar a resolução na frequência, as 32 sub-bandas são subdivididas através da aplicação a cada uma delas de uma transformada com 6 ou 18 coeficientes o que dá um número máximo de componentes de frequência de 32×18 = 576 (ou 192). A janela mais pequena permite controlar a resolução no tempo e logo diminuir o efeito de pré-ecos

·         Sobreposição das janelas - A MDCT é aplicada com 50% de sobreposição para diminuir o efeito de bloco o que significa que a MDCT é aplicada a conjuntos de 12 ou 36 amostras das sub-bandas

·          Quantificação não-uniforme dos coeficientes MDCT (tipo exponencial) introduzindo maior erro nos coeficientes de maior amplitude (onde há menor sensibilidade ao erro); um mecanismo com 2 ciclos aninhados é tipicamente usado para a quantificação e codificação MP3

·          Codificação entrópica (Huffman) dos coeficientes MDCT quantificados e dos scale factors

·          Modelo Psicoacústico 2 sugerido na norma (mais complexo do que o modelo 1).

·         Mais vocacionado para codificação a débito variável (útil em certas aplicações).

·         Qualidade transparente em relação ao CD com 128 kbit/s ou seja um factor de compressão de 12.

 

Concretamente, o bistream dum ficheiro MP3 tem os seus dados segmentados em tramas, cada uma delas correspondendo a um instante no tempo da música. Cada trama é composta por um cabeçalho (32 bits) e por dados de áudio propriamente ditos, podendo a sua estrutura ser representada da seguinte forma:

 

 

 

 


 

 

 

 

 


Em que:

·   Frame Sync – Este campo permite ao descodificador, sincronizar-se com a primeira ocorrência válida de uma trama. É especialmente útil para saltar de um ponto da faixa de música para outro

·    MPEG audio version – Especifica se a trama foi codificada em MPEG-1 ou MPEG-2.

·   MPEG Layer  – Especifica se a trama é Audio Layer 1, 2, 3 ou não definida.

·     Protection  – Se este bit for 1, é inserido um checksum de 16-bit antes do início dos dados de áudio

·       Bit Rate index  – Define bit-rate da trama (de 32 a 320 kbit/s)

·   Sampling rate frequency  – Define a frequência de amostragem utilizada (32, 44.1 ou 48 kHz)

·   Padding bit  – Existe para garantir que cada trama satisfaz as exigências de bitrate com precisão. Por exemplo, para um dado bitstream podem existir tramas com 417 bytes e outras com 418 bytes, nesse caso as tramas de 417 bytes vão ter o bit de padding a (1) para compensar a discrepância

·   Private bit  – Pode ser usado por aplicações específicas para activar eventos

·    Channel mode  – Especifica o modo de codificação de áudio:

§         Mono

§         Dual Stereo – Canais codificados independentemente, como se fosse dois canais mono independentes

§     Stereo – Codificação independente mas partilha de campos comuns na trama codificada

§         Joint Stereo – A dependência entre canais é explorada através da técnica intensity stereo; acima de 2 kHz, envia-se o sinal L+R e factores de escala para os 2 canais (L e R) uma vez que a estas frequências já pode haver perda de sensação Stereo

§      Mono/Stereo (MS) – Os 2 canais são codificados como L+R (middle) e (side) L-R o que permite controlar melhor a localização espacial do ruído de quantização


·   Mode extension  – Usado apenas com Joint Stereo para informar o codificador se houve combinação de frequências nos canais

·     Copyright – Informa se existe Copyright.

·     Original  – Informa se se trata de uma cópia ou não

·     Emphasis  – Raramente utilizado, serve para informar se se respeitou a Emphasis na gravação original

Como já foi dito, embora haja liberdade para implementar as “ferramentas” disponíveis de diferentes formas, as tramas do bitstream têm de ter exactamente a sintaxe descrita anteriormente, caso contrário os descodificadores de MP3 não conseguirão descodificar correctamente os bits que recebem.

PATENTES, COPYRIGHT e PIRATARIA

ASPECTOS ECONÓMICOS

FORMATOS CONCORRENTES

BIBLIOGRAFIA

AUTORES

Como acontece com grande parte das normas existentes, os fabricantes de equipamentos segundo essa norma, tentam diferenciar-se dos fabricantes concorrentes, para proteger essas inovações diferenciadoras, chamada: propriedade intelectual, existem as patentes. Como é referido no ponto referente à história do MP3, existem várias patentes referentes à codificação MP3,  assim qualquer fabricante que pretenda implementar um codificador ou descodificador MP3, deverá certificar-se se a tecnologia que vai usar está patentiada por outro fabricante. Esta verificação não é fácil,  pois nem  todos os detentores de parentes tornam publico  o seu direito à propriedade intelectual, vindo reclamar o seu direito mais tarde, isto é chamado, patentes submarinas. Também é de salientar que as patentes têm um  tempo de vigencia determinado, normalmente perto de 20 anos, o que no caso do MP3, as principais patentes estão a poucos anos de caducarem, entre 3 a 5 anos, levado os seus detentores neste momento a pedirem remunerações menores pelo seu uso.

 

A crescente utilização do MP3 veio levantar uma série de questões legais, que até ao momento tinham sido desprezada.

 

Com o crescimento de utilizadores de internet, levou a que a utilização do  MP3  crescesse simultaneamente. Pois a reduzida a largura de banda  da internet , em meados dos anos 90, impossibilitava qualquer tentativa de transmissão sonora/musical em formatos tipo PCM, como Wave. O aparecimento do MP3 veio preencher essa lacuna, no entanto proporcionou o aparecimento de programas específicos para a troca de ficheiros de música, como é o caso do Napster e mais tarde o Kazzaa, facilitando a propagação de músicas por utilizadores no mundo inteiro. Se por um lado isto proporcionou uma maior notoriedade de alguns artistas, que de outra forma teriam dificuldades em divulgar a sua música, veio também trazer grandes prejuízo às empresas discográficas e também aos autores que viram os seus direitos de Copyright violados. Isto porque, legalmente, o proprietário de um CD apenas pode codificar o conteúdo para MP3 se for para seu próprio uso,mas nunca para distribuir, mesmo que gratuitamente. No entanto esta situação não se verificava. Havia cada vez mais utilizadores a partilhar músicas e com o aparecimento dos leitores de MP3 portáteis, a situação ainda se agravou mais. As vendas de CD desceram abruptamente e alguns artistas tiveram dificuldades em sobreviver sem conseguir comercializar a sua música.

 

Começaram então a surgir algumas ideias para travar o download de musicas ilegais. Foram aparecendo formatos de codificação concorrentes ao MP3, que possuíam características de protecção de conteúdos com Copyright, associados a leitores portáteis que protegiam o seu conteúdo, impedindo-o de ser exportado para um computador que não o original.

 

Esta protecção de conteúdos com Copyright, também conhecida por DRM (Digital Rights Management), é algo controversa. Por um lado argumenta-se que é necessária esta tecnologia, para evitar que haja replicação não autorizada de material com direitos de autor. Por outro lado os detentores dos direitos de autor poderão estar a limitar em excesso os direitos do consumidor. A ausência de DRM no formato MP3, dificulta a migração para outros formatos que têm esta tecnologia implementada, já que do ponto de vista do utilizador, a protecção DRM é uma desvantagem.

 

Outra ideia defendida pelos detentores de direitos de autor, é alterar uma especificação da norma MPEG1 que diz, "Um conteúdo codificado uma primeira vez deve ter a capacidade de descodificado e re-codificado até 5 vezes em média, dependendo dos conteúdos", para que possam realizar-se re-edições sobre o conteúdo codificado.  Os detentores de direitos pretendem que passe a ser só uma vez, impedindo assim que re-codificação do MP3, mas a MPEG acha que é uma má solução para o problema, pois limitaria muito a aplicação da mesma no contexto global e duvida-se que traria reais benefícios para os autores, pois seria provável que emergissem novos formatos, sem esta limitação.

 

 

Como se pode ver, a criação do MP3, veio trazer uma mobilidade e flexibilidade ao mundo da música nunca antes vista, levantando por um lado, uma série de questões legais e éticas, mas por outro, abrindo um vasto leque de oportunidades para os seus utilizadores.

Com o crescimento exponencial dos ficheiros de música em MP3, surgiu um novo modelo de negócio, o download pago de músicas através de lojas on-line, como o iTunes, mostrou ser um negócio muito rentável, só na primeira semana de vida, essa loja virtual, vendeu mais de 1 milhão de músicas e em 2007 já contava com mais de 3 mil milhões de músicas vendidas. O facto de se poder comprar músicas individualmente trás vantagens tanto para quem compra como para quem vende. Para o consumidor, para alem de ser mais cómodo e barato, permite uma liberdade de escolha praticamente infinita.

Uma outra oportunidade de negócio que surgiu foi a produção e comercialização de dispositivos portáteis de leitura de ficheiros MP3, o primeiro apareceu em 1998 e pouco tempo depois nasceram outros produtos com a mesma finalidade. Devido ás menores remunerações pelas patentes principais e avanços na microelectronica, temos visto, ultimamente uma explosão de mp3 players, só em 2006 foram vendidos cerca de 182 milhões unidades, no ano de 2007, as vendas dos leitores de MP3 resultaram numa receita bruta de 6.3 mil milhões de dolares, e a tendência destes valores é de aumentar.

Depois do MP3, surgiram novos formatos de áudio comprimido, entre eles estão o Vorbis, WMA Pro e o AAC, estes já não apresentam as limitações do MP3.

 É de notar que o formato Vorbis é grátis e sem patente o que apresenta uma grande vantagem aos outros codecs que têm porprietário.

No entanto o formato MP3 continua  a ser o mais difundido na Internet, pois é um formato já bastante conhecido em todo o mundo e a grande maioria do hardware descodifica sobretudo este tipo de formato.

 

http://www.img.lx.it.pt/~fp/cav/ano2007_2008/Slides/CAV_7_MPEG1_2008_Port_Web.pdf

 

    http://en.wikipedia.org/wiki/Comparison_of_audio_codecs

    http://en.wikipedia.org/wiki/MP3

    http://lena.cbnu.ac.kr/lecture/mpeg/MPEG_Chapter4_Audio compression.ppt

 

http://inventors.about.com/od/mstartinventions/a/MPThree.htm

 

http://www.digitalcraft.org/index.php?artikel_id=523

 

 

http://en.wikipedia.org/wiki/Digital_Rights_Management

 

http://www.mp3-converter.com/mp3codec/mp3_decoding.htm

 

 

http://wiki.hydrogenaudio.org/index.php?title=MPEG1_Layer_3

 

Mário Brito nº 49420

Ricardo Almeida nº 49491