Roque Sps2013

4
Extração de Centroide Espectral Através da Tranformada Wavelet Packet Thiago Rossi Roque , Rafael Santos Mendes (Orientador) DCA FEEC Universidade Estadual de Campinas (Unicamp) [email protected],[email protected] Resumo – Este trabalho tem como objetivo propor uma nova técnica de extração do descritor tempo-frequencial centroide (pré-AO 1990: centróide [4]) espectral a partir da transformada wavelet packet. Inicialmente é dada uma introdução ao MIR e aos descritores. Na segunda parte será feita uma breve explanação sobre o centroide espectral em sua forma convencional seguido por uma seção sobre a transformada wavelet e sua técnica de análise espectral. Na quarta seção é apresentada a técnica aqui proposta de cálculo do centroide espectral através da transformada wavelet packet sendo concluído com uma discussão sobre os resultados obtidos e idéias de aprofundamento na pesquisa. Palavras-chave: wavelet, MIR, momento espectral, descritores. 1. Introdução Devido ao intenso crescimento das capacidades de armazenamento de conteúdo de áudio digital nas duas últimas décadas, o interesse em análise e clas- sificação de áudio digital tem aumentado conside- ravelmente. Diversas técnicas de extração e análise de informação de conteúdo digital veem se desen- volvendo ao longo dos últimos anos para os mais diversos fins como, por exemplo, reconhecimento de voz, classificação de gênero musical e de instru- mentos musicais, transcrição automática de músi- cas, entre outros. O campo de pesquisa que lida com essas técnicas é denominado Music Information Retrieval (MIR) e se fundamenta na extração e análise de descritores. Descritores são conjuntos de informações que bus- cam quantificar aspectos qualitativos de um deter- minado sinal, ou seja, descrever o sinal de forma objetiva. Ao longo do tempo diversos descritores foram criados com o objetivo de concentrar as infor- mações pertinentes sobre uma determinada caracte- rística a ser analisada de forma mais objetiva e fácil de ser tratada. Dentre os diversos descritores existentes, um dos principais usados para análise de timbre, tanto de instrumentos musicais quanto de voz é o centroide espectral, pois nota-se uma forte correlação entre as medidas do centroide espectral com a sensação de brilho de um som [8]. Este trabalho tem como proposta um cálculo alternativo do centroide espec- tral baseado na estimativa espectral da transformada wavelet packet, aqui chamado de centroide espec- tral wavelet, em oposição às técnicas tradicionais baseadas na transformada de Fourier. 2. Centroide Espectral O centroide espectral é utilizado para caracterizar o espectro do sinal, seu cálculo se baseia na busca por uma frequência média do sinal ponderada pela amplitude de cada componente espectral. Este des- critor pode ser interpretado como o primeiro mo- mento estatístico da função densidade de probabi- lidade dada pelo espectro do sinal, onde cada fre- quência é a variável aleatória e sua probabilidade de observação é dada pela sua magnitude [7], portanto é conhecido como o primeiro momento espectral. Seu cálculo é expresso pela fórmula (1). Onde n representa a componente espectral e F (n) sua mag- nitude. Cs = N n=1 F (n) * n N n=1 F (n) (1) Pelo fato da grande maioria dos sinais de áudio ter um perfil passa-baixas, o centroide espectral se torna uma boa medida da presença de altos harmôni- cos significativos no sinal analisado, o que está di- retamente ligado à sensação de brilho em um som. Quanto mais intensa for a presença de harmônicos de alta ordem, maior será a medida do centroide es- pectral e gerará sensações mais "brilhantes" em um som quando ouvido [5]. 2.1. Análise Espectral É fundamental para o cálculo do centroide espec- tral um método eficiente e preciso para extração dos componentes espectrais. A principal técnica para este tipo de análise é indiscutivelmente a trans- formada discreta de Fourier (TDF). Atualmente to- dos os algoritmos de cálculo do centroide espectral

Transcript of Roque Sps2013

Page 1: Roque Sps2013

Extração de Centroide Espectral Através da Tranformada WaveletPacket

Thiago Rossi Roque , Rafael Santos Mendes (Orientador)

DCAFEEC

Universidade Estadual de Campinas (Unicamp)

[email protected],[email protected]

Resumo – Este trabalho tem como objetivo propor uma nova técnica de extração do descritor tempo-frequencialcentroide (pré-AO 1990: centróide [4]) espectral a partir da transformada wavelet packet. Inicialmente é dada umaintrodução ao MIR e aos descritores. Na segunda parte será feita uma breve explanação sobre o centroide espectralem sua forma convencional seguido por uma seção sobre a transformada wavelet e sua técnica de análise espectral.Na quarta seção é apresentada a técnica aqui proposta de cálculo do centroide espectral através da transformadawavelet packet sendo concluído com uma discussão sobre os resultados obtidos e idéias de aprofundamento napesquisa.Palavras-chave: wavelet, MIR, momento espectral, descritores.

1. IntroduçãoDevido ao intenso crescimento das capacidades dearmazenamento de conteúdo de áudio digital nasduas últimas décadas, o interesse em análise e clas-sificação de áudio digital tem aumentado conside-ravelmente. Diversas técnicas de extração e análisede informação de conteúdo digital veem se desen-volvendo ao longo dos últimos anos para os maisdiversos fins como, por exemplo, reconhecimentode voz, classificação de gênero musical e de instru-mentos musicais, transcrição automática de músi-cas, entre outros.

O campo de pesquisa que lida com essas técnicasé denominado Music Information Retrieval (MIR) ese fundamenta na extração e análise de descritores.Descritores são conjuntos de informações que bus-cam quantificar aspectos qualitativos de um deter-minado sinal, ou seja, descrever o sinal de formaobjetiva. Ao longo do tempo diversos descritoresforam criados com o objetivo de concentrar as infor-mações pertinentes sobre uma determinada caracte-rística a ser analisada de forma mais objetiva e fácilde ser tratada.

Dentre os diversos descritores existentes, um dosprincipais usados para análise de timbre, tanto deinstrumentos musicais quanto de voz é o centroideespectral, pois nota-se uma forte correlação entreas medidas do centroide espectral com a sensaçãode brilho de um som [8]. Este trabalho tem comoproposta um cálculo alternativo do centroide espec-tral baseado na estimativa espectral da transformadawavelet packet, aqui chamado de centroide espec-tral wavelet, em oposição às técnicas tradicionaisbaseadas na transformada de Fourier.

2. Centroide EspectralO centroide espectral é utilizado para caracterizaro espectro do sinal, seu cálculo se baseia na buscapor uma frequência média do sinal ponderada pelaamplitude de cada componente espectral. Este des-critor pode ser interpretado como o primeiro mo-mento estatístico da função densidade de probabi-lidade dada pelo espectro do sinal, onde cada fre-quência é a variável aleatória e sua probabilidade deobservação é dada pela sua magnitude [7], portantoé conhecido como o primeiro momento espectral.Seu cálculo é expresso pela fórmula (1). Onde nrepresenta a componente espectral e F (n) sua mag-nitude.

Cs =

∑Nn=1 F (n) ∗ n∑N

n=1 F (n)(1)

Pelo fato da grande maioria dos sinais de áudioter um perfil passa-baixas, o centroide espectral setorna uma boa medida da presença de altos harmôni-cos significativos no sinal analisado, o que está di-retamente ligado à sensação de brilho em um som.Quanto mais intensa for a presença de harmônicosde alta ordem, maior será a medida do centroide es-pectral e gerará sensações mais "brilhantes" em umsom quando ouvido [5].

2.1. Análise EspectralÉ fundamental para o cálculo do centroide espec-tral um método eficiente e preciso para extraçãodos componentes espectrais. A principal técnicapara este tipo de análise é indiscutivelmente a trans-formada discreta de Fourier (TDF). Atualmente to-dos os algoritmos de cálculo do centroide espectral

Page 2: Roque Sps2013

são baseados na TDF, porém pelo fato desta trans-formada ser estática no domínio temporal, análisesde variação do descritor envolvem a transformadade fourier janelada (STFT), causando uma provávelfalta de resolução temporal em certas aplicações.

3. WaveletsA transformada wavelet foi criada como uma al-ternativa a transformada de Fourier. Ao invés dedecompor um sinal a partir somente de funçõeslimitadas entre −∞ e ∞ (senos e cossenos). Atransformada wavelet utiliza uma função base ψ(t),chamada de wavalet mãe, que além de possuir e-nergia finita e não possuir nenhuma componente defrequência nula, é capaz de se dilatar, comprimir ese deslocar, gerando novas funções ψ, chamadas dewavelets filha, definidas na equação (2). A partir doproduto interno entre as wavelets filha e um sinala ser analisado, para diversos valores de desloca-mento (k) e compressão/dilatação (j) se obtém oscoeficientes da transformada wavelet como descritona fórmula (3) [2].

ψj,k(t) =1√2ψ(t− kj

) (2)

W (k, j) = < f(t), ψj,k(t) > (3)

=

∫ ∞−∞

f(t)ψj,k(t)dt

Pelo fato da transformada wavelet realizar umadecomposição tanto no universo frequencial quantotemporal, é possível se obter melhores taxas deresolução tempo-frequencial do que na STFT paramuitas aplicações. Outra vantagem da transfor-mada wavelet sobre a STFT está no fato de pos-sibilitar análises em diversos níveis de profundi-dade de resolução ao variar as possibilidades de di-latação e compressão das wavelets filha. Resoluçõesmais grosseiras fornecem informações que carac-terizam o contexto do objeto analisado enquantoníveis mais profundos de resolução fornecem deta-lhes mais sutis sobre o objeto. [2].

3.1. A Transformada Wavelet DiscretaQuando se tratando de sinais discretos, a transfor-mada wavelet assume características interessantesem nível computacional. Para cálculo da transfor-mada wavelet discreta (TWD) não é necessário lidar

diretamente com as funções wavelets, o processo deobtenção dos coeficientes da transformada pode serobservado como um processo de filtragem, onde oscoeficientes do filtro são extraídos da wavelet esco-lhida. Detalhes sobre essa aproximação podem serobtidos em [3].

A TWD pode ser inteiramente calculada atravésde um banco de filtros. O sinal a ser analisado éfiltrado tanto por um filtro passa-baixas quanto porum filtro passa-altas e em seguida decimado, o re-sultado da filtragem feita pelo passa-baixas é entãonovamente filtrado por ambos filtros e decimado,esse processo é então repetido quantas vezes fornecessário a fim de buscar o nível de detalhamentodesejado. Ambos os filtros são extraídos da waveletescolhida e estão relacionados com a função de es-cala da wavelet que determina sua dilatação e com-pressão. Um esquema em blocos representando atransformada wavelet discreta está apresentado nafigura (1) para uma transformada de 3 níveis deprofundidade. Onde h1(−n) é o filtro passa-altas,h0(−n) é o filtro passa-baixas e os coeficientes obti-dos c e d são conhecidos por aproximação e detalhe,respectivamente.

Figure 1. Transformada Wavelet Discreta detrês Níveis.

Como resultado, a TWD decompõe o sinal emdiversas bandas frequenciais de largura variada deforma a manter a relação ∆f

f constante. Essa re-lação é chamada de Q-constante e é muito interes-sante pois o sistema auditivo possui característicassimilares, dedicando maior largura de banda parafrequências mais altas.

3.2. Análise Espectral através daTransformada Wavelet

Outro formato da transformada wavelet é a trans-formada wavelet packet (WP). Baseada na TWD, AWP busca refinar a decomposição do sinal para to-das as faixas de frequência. Portanto durante o pro-cesso de filtragem, o resultado dos dois filtros sãosucessivamente filtrados e decimados, gerando as-

Page 3: Roque Sps2013

sim uma árvore binária conforme exemplificado nafigura (2).

Figure 2. Transformada Wavelet Packet de trêsNíveis.

A WP pode ser interpretada como a decom-posição do sinal em 2n bandas, onde n é o nívelde profundidade da transformada. Ao decompor-mos um sinal em um número suficiente de bandasé possível utilizarmos a WP para estimação espec-tral, porém para que isso seja feito é necessário quea WP obedeça ao teorema de Parseval, que garanteuma relação entre a amplitude do sinal e seus coe-ficientes WP, e tenha uma relação definida entre apotência espectral e a potência dos coeficientes deum nó terminal da árvore (folha) da WP. A validaçãodessas condições necessárias pode ser observada em[1], juntamente com uma comparação entre esta téc-nica e outras tradicionais, como o periodograma e ométodo de Welch.

Três fatores são fundamentais para uma boa es-timação espectral a partir da WP, o primeiro de-les envolve a wavelet adotada. Diferentes waveletsresultarão em diferentes filtros com diferentes res-postas em frequência. Após alguns testes notou-se uma melhor resolução frequencial a partir dawavelet "Meyer" em sua forma discreta, o que levoua adoção dessa wavelet para o futuro cálculo do cen-troide espectral através da WP.

O segundo fator necessário para estimação es-pectral se encontra no ordenamento dos coeficientesobtidos pela WP. Ao decimar o resultado de umafiltragem passa-altas, o espectro do sinal resultantesofre um espelhamento que, ao longo dos ramos daárvore da WP, induz um ordenamento não freqên-cial das folhas a priori. Porém pode observar que seas folhas forem reordenadas seguindo o código de

Gray convertido de binário para decimal (0, 1, 3, 2,6, etc...), obter-se-á um ordenamento freqêncial [6],facilitando assim a análise e o cálculo do centroideespectral.

O terceiro fator está no nível de profundidade daWP. WP com níveis mais profundos resultarão emmelhores resoluções frequenciais, pois apresentarãomaior número de folhas e consequentemente bandasmais estreitas em cada folha. Porém quanto maioro número de níveis da WP, maior será a complexi-dade de seu cálculo. Neste trabalho a WP foi uti-lizada com 7 níveis, resultando em 128 folhas que,para uma frequência de amostragem de 44100 Hz(como utilizada nos exemplos aqui tratados), pos-suem banda de aproximadamente 172 Hz.

O resultado obtido pelo ordenamento das folhasda WP pode ser interpretado como uma matriz ondeo eixo x representa a variação no tempo e o eixo ya variação na frequência, de forma análoga à um es-pectrograma. Um exemplo da estimação espectralatravés da WP pode ser visto na figura (3) onde foianalisado o som de um trompete entoando a nota Lá(A3) com intensidade mezzo-forte. O nível de cinzarepresenta a amplitude do coeficiente da transfor-mada, sendo preto os coeficientes mais negativos ebranco os coeficientes mais positivos, nota-se a pre-dominância da cor cinza demonstrando o alto índicede coeficientes nulos.

Figure 3. Estimação Espectral de um Trompete(A3 Mezzo-forte).

4. O Centroide Espectral WaveletA partir da estimação espectral obtida na seção3.2. foi possível o cálculo do centroide espectralwavelet a partir da fórmula (1) apresentada na seção(2.), após algumas considerações. O espectrogramaobtido pela STFT e usado como base para o cál-

Page 4: Roque Sps2013

culo do centroide espectral não possui valores ne-gativos, porém os coeficientes wavelet sim, por-tando é necessário utilizar valores absolutos dos co-eficientes.

O centroide foi então calculado entre os coefi-cientes de uma mesma posição (deslocamento) paracada folha. Onde sua folha representa a frequência(n na fórmmula (1)) e o valor de cada coeficientesua magnitude (F (n) na fórmula (1)).

Nas figuras 4 e 5 estão apresentados os re-sultados obtidos no cálculo do centroide espectralwavelet e no centroide espectral convencional, res-pectivamente, para o mesmo som apresentado nafigura (3).

Figure 4. Centroide Espectral Wavelet de umTrompete.

Figure 5. Centroide Espectral Convencional deum Trompete.

5. Conclusões e Próximos PassosNeste artigo foi apresentada toda a teoria que sus-tenta o novo conceito de cálculo do centroide es-pectral através da transformada wavelet packet. Apartir dos resultados obtidos nas figuras (4) e (5) ésugerida uma boa correlação entre as duas técnicasapresentadas, o que valida a idéia aqui apresentada.

Ainda são necessários mais estudos comparati-vos entre as duas técnicas, principalmente na análisede outros tipos de sinais, e a respeito da complexida-de do cálculo. Seriam interessantes também novosensaios para diferentes configurações da WP, comooutros valores de níveis de profundidade e outraswavelets.

A partir do centroide espectral wavelet novosdescritores podem ser criados seguindo o mesmoconceito, como o espalhamento espectral e qualqueroutro descritor baseado em momentos espectrais.

References[1] Dyonisius Donyand Ariananda, Madan Kumar

Lakshmanan, and Homayoun Nikookar. Aninvestigation of wavelet packet transform forspectrum estimation. In The 12th InternationalSymposium on Wireless Personal MultimediaCommunications (WPMC ’09), 2009.

[2] Maurício José Alves Bolzan. Transformada emondeleta: Uma necessidade. Revista Brasileirade Ensino de Física, 28:563 – 567, 2006.

[3] C. Sidney Burrus, Ramesh A. Gopinath, andHaitao Guo. Introduction to Wavelets andWavelet Transform: A Primer. Prentice Hall,1998.

[4] Editora Moderna. Guia do Acordo Ortográfico,2008.

[5] John M. Grey and John W. Gordon. Percep-tual effects of spectral modifications on musicaltimbres. The Journal of the Acoustical Societyof America, Volume 63, Issue 5, 05/1978.

[6] Arne Jensen and Anders la Cour-Harbo. Ripplesin Mathematics: The Discrete Wavelet Trans-form. Springer, 2001.

[7] Geoffroy Peeters. A large set of auio featuresfor sound description (similarity and classifica-tion) in the cuidado project. Technical report,IRCAM, 2004.

[8] Emery Schubert, Joe Wolfe, and Alex Tarnopol-sky. Spectral centroid and timbre in complex,multiple instrumental textures. In Proc.of the 8th International Conference on MusicPerception & Cognition (ICMPC), 2004.