O MP3 Por Dentro...

Esta página faz parte do site Qualidade em MP3.
Caso não esteja vendo o logo do site logo acima, você não está vendo o site na íntegra.
Para uma experiência completa, em ordem relativamente cronológica, clique aqui.

O MP3 por dentro

o link para esta imagem encontra-se quebrado — Para quem gosta de tudo nos mínimos detalhes...

"Um arquivo de música bem menor que a trilha do CD que o gerou mas com a mesma qualidade!?" "Mágica??"

Bem, eu diria que há mais "matemágica" do que qualquer outra coisa na fabulosa invenção do MP3.

E como a necessidade é a mãe de toda invenção, a necessidade na segunda metade dos anos 80 era diminuir o tamanho dos arquivos multimídia - áudio digital inclusive - com o intuito principal de encurtar o tempo de transmissão de dados desses arquivos. Naquela época, mais do que nunca, tempo era dinheiro!

Soa familiar? Apesar de não ser visionários os cientistas e técnicos pareciam já pressentir o que estava por vir...

Os pais do MP3

Algo tinha que ser feito. Afinal, os arquivos de áudio digital em sua forma original sempre foram vorazes consumidores de espaço de armazenamento e banda de transmissão de dados.

E esse desperdício de espaço em 1987 caminhava na contra-mão do desenvolvimento de aplicações da recém-criada multimídia e da transmissão digital de dados que daria embasamento à disseminação, na década seguinte, da Internet.

Nessa época o instituto de pesquisa científica Fraunhoffer deu continuidade, em parceria com a Universidade de Erlangen - cidade da Alemanha onde ficam ambas as instituiçõs - a trabalhos anteriormente iniciados tanto no AT&T-Bell Labs, nos EUA, como o Thomson-Brandt, na França, a um profundo estudo sobre percepção sonora.

Esse estudo era baseado principalmente na Psicoacústica, que trocando em miúdos, é a ciência que estuda como o sistema auditivo humano percebe os sons à sua volta.

Perceber ou não perceber...

Uma das características estudadas a fundo, foi o alcance do ouvido humano para os sons audíveis. Alcance compreendido entre as frequências baixas (graves) de 20Hz (20 oscilações de onda sonora por segundo) as altas (agudas) de até 20KHZ (isto é, 20.000 oscilações de onda sonora por segundo).

Na verdade toda forma de energia no universo pode ser medida pela quantidade de vibrações (ondas) que emite. O som sendo apenas uma estreita faixa desse amplo espectro de ondas de energia.
Nos comprimentos de onda menores que o som temos as ondas de infravermelho e microondas por exemplo.
Já nos comprimentos de onda maiores temos - mais ou menos em sequencia - as ondas eletromagnéticas (onde se incluem as ondas de rádio e também a luz visível), o ultra-som (isto é, som super agudo) até chegarmos à extremidade final do espectro onde temos em altíssimas frequências, a perigosa radiação da matéria - radioatividade - composta pelos raios x e gama.

Acima, temos a representação gráfica de duas ondas sonoras de frequências diferentes que para tal podem ser consideradas como emitidas no mesmo tom (volume).
A superior representa um som mais grave que a inferior devido à sua frequência, isto é, sua quantidade de ondas sonoras em certo momento ser menor - ou seja, 2,5 kHz ou 2.500 vibrações por segundo.
Não por acaso escolhi estes dois valores (2,5 kHz e 5 kHz), pois abrangem a estreita faixa de frequência à qual o ouvido humano é mais sensível, e portanto detecta com mais clareza, sons emitidos nessas frequências - e não por acaso essa é a faixa de frequência da voz humana. Vale lembrar que a faixa audível pelo ser humano - variando de pessoa a pessoa e de acordo com a idade - abrange frequências mais baixas e mais altas que estas, que vai de 20Hz (uma onda sonora que vibra apenas 20 vezes por segundo; ou seja som grave) a 20kHz (20 MIL vezes por segundo; som muito agudo e percebido, pela minoria dos seres humanos que o consegue ouvir, como um sibilar muito agudo, mais agudo que os sibilares emitidos pelo disco de freio de um automóvel.).

Há ainda outro parâmetro da Psicoacústica a ser levado em conta: a resolução sonora que o sistema auditivo é capaz de discernir.

Ou seja, se dois sons muito similares forem emitidos quase ao mesmo tempo, o cérebromuito provavelmente os filtrará como um só e provavelmente não distingüirá uma da outra e as reconhecerá como uma só!

Estudos cada vez mais aprofundados nessa área levaram os cientista a concluir algo como:

"Ei! Se elaborarmos um conjunto de fórmulas matemática (isto é, um algorítmo) que simule como o ouvido humano "ouve" estaremos criando uma espécie de ouvido artificial para que o computador escolha apenas o que será ouvido e descarte o restante que, de acordo com esse algorítmo, o ouvido humano não perceberia.

Teríamos então um algorítimo perceptivo!

Como descartar o restante significa jogar fora dados do áudio digital, reduzindo seu tamanho... epa, eis a solução para nosso problema!"

Algorítmo Perceptivo - a mágica por trás do MP3

O resultado foi a criação do poderoso algorítmo de compactação de áudio batizado de ISO-MPEG Audio Layer-3 (IS 11172-3 e IS 13818-3) o qual, à época da disseminação da Internet já era conhecido pela abreviação MP3.
Onde o "MP" vem das duas primeiras letras da sigla MPEG - Motion Picture Expert Groups (organização criada pelos grandes fabricantes, fornecedores e criadores de multimídia para controlar e padronizar novas tecnologias como o MP3). O "3" vem obviamente, de "Layer 3".

Junte-se a esse algorítimo outro já existente nos MPEG Layers 1 e 2 (os pouco difundidos MP1 e MP2) que basicamente compacta dados redundantes e temos pronto o CODEC para o MP3.
Sendo CODEC a junção das palavras enCOder e DECoder (codificador/decodificador).

São então duas compactações:

A Compactação Perceptiva e a Compactação Huffman.

A primeira - que é a mais importante - é aquela fundamentada nos conceitos da psicoacústica citados anteriormente, e que não existia até então.
Ela na verdade realiza a maior parte do trabalho deixando para a compactação Huffman apenas a tarefa de eliminar as redundâncias contidas no resultado obtido pelo processo anterior.

A grande diferença que há entre as duas compactações é que, se por um lado, a compactação Perceptiva é quem dá o resultado mais óbvio do MP3 - que é a incrível redução do tamanho - ela na verdade gera perdas (em inglês: lossy), isto é, o algoritmo faz um caminho sem volta:

Ele joga fora trechos do áudio original que considera supérfluos.

É típico alguns cometerem o seguinte engano:
-"Já que o WAV tem (teoricamente) qualidade melhor que o MP3, se eu decodificar um MP3 de volta para WAV esse WAV será igual ao WAV original e terá portanto qualidade melhor que o MP3, certo?"
Errado! Como o MP3 originado teve partes descartadas, "jogadas fora" o WAV obtido deste MP3 será - na melhor das hipóteses - igual ao MP3.

Já a compactação Huffman, muito mais rápida, não tem que "supor" nada e portanto não gera perdas (lossiless).
Ela apenas consulta uma referência interna que junta/resume todos os dados que se repetem dentro do arquivo e apenas diz onde se localizam as referidas partes na hora da descompressão.
Esse tipo de compactação é similar à usada nos arquivos ZIP, por exemplo.

Compactação Perceptiva

Durante esse processo o CODEC realiza milhares de cálculos comparando os resultados amostra-por-amostra com seus próprios parâmetros pré-estabelecidos que lhe orientam a proceder mais ou menos assim quando fazendo o MP3:

- "Essa frequência é inaudível, corte-a!�;
- "Essa outra não é, mantenha-a e disponibilize espaço (bytes) para armazená-la.�;
- "Epa! Estas duas notas são similares e muito próximas, considere apenas a mais alta.�
- "Ei! O canal esquerdo requer mais bytes que o direito;� ou - "ambos são muito iguais - junte-os!" (decidindo-se entre Joint e Stereo).

Tudo isso até que tenha sido lipo-aspirada toda e qualquer "gordurinha" extra do arquivo WAV original que for considerada supérflua, isto é, que seu ouvido - de acordo com a Psicoacústica - pode passar muito bem sem, e provavelmente jamais ouviria!

Não pense que a compactação perceptiva é exclusiva dos arquivos de áudio... algoritmos parecidos fazem o mesmo com imagem (JPG, GIF, ...) e vídeo (MPG, Divx, ...) analizando se certos bits de cores com diferenças ínfimas de tonalidade, se reduzidas a uma só, serão ou não percebidas pelo sistema ocular humano.

Para os (geralmente mal-informados) audiófilos das revistas especializadas em HI-FI ou mesmo informática, toda essa compressão é uma verdadeira heresia!
Normal portanto, que um ou outro defensor mais radical do purismo em áudio jamais aceite a idéia do MP3. Azar o deles: Provavelmente só ouviram até agora a MP3s de má qualidade feitos por um CODECzinho qualquer...

Felizmente para nós, mortais comuns, com audição normal, equipamentos de áudio normais e portanto exigências normais, dificilmente isso será algum problema.
Já que, graças ao MP3, dispomos, como nunca houve na história, do maior acervo musical jamais disponível em uma única mídia!

Note no entanto que absolutamente nenhuma mídia de gravação - analógica ou digital - jamais criada pelo homem, é capaz de registrar todas as nuances e subtons existentes no áudio ao vivo.
Do disco de cera de Thomas Edison, passando pelo vinil, cassete e chegando ao CD, MD, DVD ou qualquer outra mídia de armazenamento de som que venha a existir, nada supera a riqueza do áudio executado ao vivo!! E nem toda a tecnologia do mundo produzirá um equipamento que consiga reproduzir toda a qualidade desse som!
Quanto a isso os audiófilos estão cobertos de razão...

Portanto a verdadeira qualidade do CODEC, está em reconhecer e eliminar apenas o que realmente não será ouvido e minimizar ao máximo essas perdas que são proporcionais, assim como no JPG, à "taxa de compressão" - que nos arquivos de áudio ée; medida pela quantidade de milhares de bits disponíveis para armazenar cada segundo de áudio - Kilobits por segundo - Kbps.

Quanto maior a quantidade de bits reservada a cada segundo de áudio, mais detalhes serão preservados melhorando a qualidade final do MP3.

Dançando conforme a música

Entendeu o motivo deste site defender a bandeira da VBR (taxa de bits VARIÁVEL)?

Só com seu uso o CODEC pode contar, para cada frame do MP3, com a quantidade necessária de bits - nem mais, nem menos!

Em contraste, no arquivo WAV estéreo extraído digitalmente do CD de áudio, existem 176.400 BYTES, para cada segundo de áudio (note que estamos falando de BYTE e não BITS. E 1 byte = 8 bits) (176 KBytes por segundo) - já contados ambos os canais esquerdo e direito, pois o arquivo é estéreo.
Fazendo as contas: já que cada byte contém 8 bits, multiplicamos 176.400 bytes por 8 = 1.411 Kbps contra apenas algumas centenas de kilobits (até o máximo de 320 kbps) do MP3 para praticamente a mesma qualidade de áudio!!

Notou como há desperdício de bits no CD?

Com toda essa quantidade de informação dá para armazenar tudo que o ouvido humano capta e muito mais! O que em prática mostra que tanto na trilha de CD como no WAV, foram codificados sons que o ouvido humano jamais ouvirá. Puro desperdício!

Talvez seu cão ou gato (caso tenham o mesmo gosto musical que o seu) apreciem alguns sons (para você inaudíveis) daquele seu CD favorito - caso seu player reproduza-os, lógico!
Mas você!? esqueça-os!

Assim, para melhor esclarecimento, uma boa comparação do MP3 seria à uma película de filme cinematográfico:

O filme registra o movimento contínuo na película, onde temos os "fotogramas" - a menor divisão do filme - que ao serem exibidos em seq�ência proporcionam ao expectador a sensação de movimento contínuo.
Quanto maior a quantidade de fotogramas por segundo (fps), maior será a possibilidade de nosso cérebro ser "enganado" por essa sensação e assim não notamos nenhum "salto" ou "solavanco" no movimento registrado e aceitamos tal como movimento.

Nos primórdios do cinema, os filmes eram fotografados e exibidos em cerca de 24 fps.
Hoje quando exibidos em um projetor moderno, parecem-nos muito precários e acelerados:
é que a quantidade de fotogramas por segundo estabelecida como aceitável é, desde a década de 30 é de mais ou menos 30 fps - e os projetores atuais acabam "acelerando" a sensação de movimento daqueles filmes.

No MP3 podemos fazer uma alusão dos frames - que são a menor divisão do MP3 - aos fotogramas no filme: quanto maior a quantidade de frames (e também a quantidade de bits destinada a cada um desses frames) maior será a qualidade final do MP3.

Atenção todos os carros: MP3 mal-feitos à solta!

Então você me pergunta:

"Se você indica o LAME como CODEC ideal, o que aconteceu ao Fraunhoffer?"

Bem, o algorítmo criado pelo Fraunhoffer é patenteado - o que significa que todo desenvolvedor de software (e hoje em dia, hardware) tem que pagar pelo seu uso.
E como acontece a todo direito autoral de algo exclusivo, o Fraunhoffer não deve ter sido nada barato. Já que alguns desenvolvedores licenciaram uma espécie de amostra dele e ficaram no meio do caminho com um encoder medíocre.

Para piorar a situação, certas empresas, de posse do padrão tentaram desenvolver seus próprios CODECs e acabaram com Frankensteins como a Xing e seu CODEC homônimo, só pra se ter uma idéia...

Eis os dois principais motivos de haver tanto MP3 de má qualidade à solta!

É aí que entram os CODECs alternativos feitos por desenvolvedores - aficcionados ao mesmo tempo por múe;sica e programação - que basearam-se no padrão MP3 (o qual por ser um conjunto de regras e não um CODEC, não é patenteado) e desenvolveram CODECS desvinculados de qualquer parâmetro econômico (lembram-se do "sub"-Fraunhoffer?) e procurando atender primeiramente as exigências do áudio que nos demais CODECs geravam erros que traduziam-se em chiados, pseudo-sons, estalos e outras cacofonias.

Até hoje conheço apenas dois CODECs freeware para MP3. Em 2000, quando da criação deste site, indicava o CODEC Radium.

Posteriormente mudei para o LAME já que o primeiro, por razões por mim desconhecidas, não recebeu a atenção que o LAME recebeu por parte de seu enorme número de desenvolvedores trabalhando em conjunto em diversos países porém ligados pela Internet, e pelo imenso número dos apreciadores da boa música (seja ela qual for) que, como eu, ajudaram a disseminar um verdadeira comunidade que enfatiza qualidade em MP3.

Se por um lado, a palavra-chave por trás do MP3 é PRATICIDADE, com o LAME acrescentou-se a esse vocabulário o termo APERFEIÇOAMENTO!