UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXATAS E DA TERRA
PROGRAMA DE PÓS-GRADUAÇÃO EM QUÍMICA
Ana Carolina de Oliveira Neves
Espectroscopia no infravermelho próximo e métodos de calibração multivariada
aplicados à determinação simultânea de parâmetros bioquímicos em plasma sanguíneo
Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Química da Universidade Federal do Rio Grande do Norte, como parte dos requisitos necessários para obtenção do título de Mestre em Química.
Orientador: Prof. Dr. Kássio Michell Gomes de Lima
NATAL – RN
2013
Divisão de Serviços Técnicos
Catalogação da Publicação na Fonte. UFRN / Biblioteca Setorial do Instituto de Química
Neves, Ana Carolina de Oliveira.
Espectroscopia no infravermelho próximo e métodos de calibração multivariada aplicados à determinação simultânea de parâmetros bioquímicos em plasma sanguíneo / Ana Carolina de Oliveira Neves. Natal / RN, 2013.
106 f.
Orientador: Kássio Michell Gomes de Lima Dissertação (Mestrado em Química) - Universidade Federal do Rio Grande do
Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Química.
1. Análises clínicas - Dissertação. 2. Espectroscopia no infravermelho próximo -
Dissertação. 3. Calibração multivariada.- Dissertação. I. Lima, Kássio Michell Gomes de. III. Universidade Federal do Rio Grande do Norte. IV. Título.
RN/UFRN/BSE- I Química CDU 543 (043)
Com amor, dedico
A Deus, pela sua força, principalmente, nos
momentos em que a minha já não existia mais.
Por me iluminar e permitir a realização deste
trabalho.
Aos meus pais, Gladson e Maria da Conceição,
por todo amor e cuidado que sempre recebi.
Vocês são o que há de melhor em mim.
Ao meu irmão, Flávio, pelo lugar que ocupa em
meu coração.
Aos meus Avós, Walquíria (in memoriam) e
Nildo, e Consuelo e Benedito.
E, especialmente ao meu amado esposo, Fabrício
Gava Menezes. O nosso amor me torna uma
pessoa melhor e mais feliz a cada dia. Eu não
existo sem você.
AGRADECIMENTOS
Ao meu orientador, Prof. Dr. Kássio Michell Gomes de Lima, sempre tão presente
durante a realização deste trabalho. Por sua orientação segura, atenção, paciência e, sobretudo,
motivação. Também agradeço de coração, como amiga, por sua compreensão nos momentos
em que estive mais ausente do laboratório, em virtude da preparação do meu casamento.
A Prof.ª Aurigena Antunes, do Departamento de Biociências da UFRN, por
gentilmente colaborar com este trabalho não somente cedendo as amostras utilizadas, mas
também sempre acreditando que seria possível realizá-lo.
Ao meu esposo, Fabrício, por me apoiar a cada dia com sua imensa generosidade,
cumplicidade, carinho e paciência; além das (sempre bem vindas) ajudas em química
orgânica.
Aos meus pais que, antes de tudo, me educaram priorizando a importância dos estudos
tanto em minha formação profissional quanto pessoal e, ainda, por me estimularem em cada
nova etapa de minha vida.
Aos meus amigos do GPQA pela companhia, momentos de descontração, momentos
de tensão (quando “nada fazia muito sentido”) e por compartilharmos juntos nossos
aprendizados.
Ao Instituto de Química da UFRN e a CAPES, pela bolsa concedida.
“... a tarefa não é tanto ver aquilo que ninguém
viu, mas pensar o que ninguém ainda pensou
sobre aquilo que todo mundo vê.”
(Arthur Schopenhauer)
RESUMO
No presente trabalho, a análise quantitativa de glicose, triglicerídeos e colesterol (total
e HDL) em plasma sanguíneo de ratos e humanos foi realizada sem necessidade de pré-
tratamentos de amostras, através do uso da espectroscopia no infravermelho próximo (NIR),
aliada a métodos multivariados. Para tanto, foram comparadas diferentes técnicas e algoritmos
utilizados para pré-processamentos de dados, seleção de variáveis e regressões multivariadas,
tais como a regressão por mínimos quadrados parciais (PLSR), regressão não linear via redes
neurais artificiais (ANN), regressão por mínimos quadrados parciais por intervalos (iPLS),
algoritmo genético (GA), algoritmo das projeções sucessivas (SPA), entre outros. Para as
determinações em sangue de ratos, os algoritmos de seleção de variáveis apresentaram
resultados satisfatórios tanto em relação aos coeficientes de correlação (R²) quanto para os
valores de erro quadrático médio de previsão (RMSEP) para os três analitos, especialmente
para triglicerídeos e colesterol-HDL. Os valores de RMSEP para glicose, triglicerídeos e
colesterol-HDL através do melhor modelo PLS foram de 6,08, 16,07 e 2,03 mg dL-1
,
respectivamente. Para as determinações em sangue de humanos, as previsões através de
modelos PLS apresentaram resultados insatisfatórios, com comportamento não linear e
presença de bias. A regressão ANN foi investigada como uma alternativa ao PLS, por sua
habilidade de modelar sistemas não lineares. O erro quadrático médio de monitoramento
(RMSEM) para glicose, triglicerídeos e colesterol total, para os melhores modelos ANN,
foram de 13,20, 10,31 e 12,35 mg dL-1
, respectivamente. Testes estatísticos (F e t) sugerem
que a espectroscopia NIR aliada a métodos de regressão multivariados (PLS e ANN) possuem
capacidade de quantificar os analitos (glicose, triglicerídeos e colesterol) mesmo quando os
mesmos estão presentes em fluidos biológicos altamente complexos, como o plasma
sanguíneo.
Palavras-chave: Análises clínicas. Espectroscopia no infravermelho próximo. Calibração
multivariada.
ABSTRACT
In this work, the quantitative analysis of glucose, triglycerides and cholesterol (total
and HDL) in both rat and human blood plasma was performed without any kind of pre-
treatment of samples, by using near infrared spectroscopy (NIR) combined with multivariate
methods. For this purpose, different techniques and algorithms used to pre-process data, to
select variables and to build multivariate regression models were compared between each
other, such as partial least squares regression (PLS), non linear regression by artificial neural
networks, interval partial least squares regression (iPLS), genetic algorithm (GA), successive
projections algorithm (SPA), amongst others. Related to the determinations of rat blood
plasma samples, the variables selection algorithms showed satisfactory results both for the
correlation coefficients (R²) and for the values of root mean square error of prediction
(RMSEP) for the three analytes, especially for triglycerides and cholesterol-HDL. The
RMSEP values for glucose, triglycerides and cholesterol-HDL obtained through the best PLS
model were 6.08, 16.07 e 2.03 mg dL-1
, respectively. In the other case, for the determinations
in human blood plasma, the predictions obtained by the PLS models provided unsatisfactory
results with non linear tendency and presence of bias. Then, the ANN regression was applied
as an alternative to PLS, considering its ability of modeling data from non linear systems. The
root mean square error of monitoring (RMSEM) for glucose, triglycerides and total
cholesterol, for the best ANN models, were 13.20, 10.31 e 12.35 mg dL-1
, respectively.
Statistical tests (F and t) suggest that NIR spectroscopy combined with multivariate regression
methods (PLS and ANN) are capable to quantify the analytes (glucose, triglycerides and
cholesterol) even when they are present in highly complex biological fluids, such as blood
plasma.
Keywords: Clinical analysis. Near-infrared spectroscopy. Multivariate calibration.
LISTA DE FIGURAS
Figura 1- Formas estruturais da glicose no sangue e suas respectivas
proporções .......................................................................................
19
Figura 2- Estrutura genérica de um triglicerídeo e exemplos de ácido graxos 20
Figura 3- Estrutura química do colesterol ....................................................... 20
Figura 4- Representação esquemática de uma lipoproteína de baixa
densidade (LDL) ..............................................................................
21
Figura 5- Ilustração comparativa das estruturas do HDL e do LDL ................ 22
Figura 6- Proporção de mortes globais por doenças não transmissíveis, em
pessoas com idade inferior a 70 anos, no ano de 2008 ....................
24
Figura 7- Reações químicas envolvidas na determinação de glicose através
do método enzimático-colorimétrico ................................................
25
Figura 8- Reações químicas envolvidas na determinação de triglicerídeos
através do método enzimático-colorimétrico ...................................
26
Figura 9- Reações químicas envolvidas na determinação de colesterol
através do método enzimático-colorimétrico ...................................
27
Figura 10- Componentes básicos de um equipamento que opera na região do
infravermelho ...................................................................................
32
Figura 11- Tipos de movimentos vibracionais existentes em ligações
químicas: a) estiramentos; b) deformações ......................................
33
Figura 12- Modelos harmônico (A) e anarmônico (B) para espectroscopia
vibracional ........................................................................................
35
Figura 13- Comparação entre métodos univariado (b) e multivariado (c) para
análise de gordura a partir de espectros obtidos na região do NIR
(a) .....................................................................................................
39
Figura 14- Ilustração esquemática de construção de uma matriz de respostas
instrumentais ....................................................................................
40
Figura 15- Projeção de X no espaço d-dimensional .......................................... 42
Figura 16- Fatores influentes na escolha do número de componentes .............. 43
Figura 17- Exemplos de gráficos de valores de resíduos contra valores
estimados de um determinado parâmetro: a) apresentando
posicionamento aleatório em torno do zero; b) apresentando
comportamento tendencioso; c) apresentando curvatura ................. 48
Figura 18- Ilustração do funcionamento de uma rede neural artificial: a) passo
para frente; b) propagação para trás do erro .....................................
49
Figura 19- Seleção de variáveis, via iPLS, dentro de uma área espectral
ampla.................................................................................................
54
Figura 20- Ilustração esquemática do princípio de funcionamento do
algoritmo genético ............................................................................
56
Figura 21- Ilustração esquemática da etapa de mutação que acontece no
algoritmo genético ............................................................................
56
Figura 22- “Ciclo de evolução” básico do algoritmo genético .......................... 57
Figura 23- Detecção de amostras anômalas em modelos lineares: (a) anômala
em y; (b) anômala em x e y; (c) anômala em x ................................
58
Figura 24- Propriedades da distribuição normal: (i) aproximadamente 68%
dos valores caem em ± 1σ da média; (ii) aproximadamente 95%
dos valores caem em ± 2σ da média; (iii) aproximadamente 99,7%
dos valores caem em ± 3σ da média .................................................
62
Figura 25- Espectros NIR originais das 23 amostras de plasma sanguíneo de
ratos ..................................................................................................
72
Figura 26- Espectros NIR das 23 amostras de plasma sanguíneo de ratos, após
corte da região de 1900 a 2000 nm ...................................................
74
Figura 27- Espectro NIR das 23 amostras de plasma sanguíneo de ratos após
aplicação da suavização SG com janelas de três pontos ..................
75
Figura 28- Ampliação da banda de absorção na faixa de 1450 nm após
aplicação da suavização SG com polinômio do 1º grau; A) janelas
de 3 pontos; B) janelas de 11 pontos ...............................................
75
Figura 29- Espectros NIR das 23 amostras de plasma sanguíneo de ratos após
a aplicação da derivada SG; A) primeira ordem; B) segunda
ordem...............................................................................................
76
Figura 30- Concentrações preditas (PLS) contra medidas (método enzimático)
das amostras de calibração e validação, em plasma sanguíneo de
ratos, para glicose; (o) conjunto de calibração; (*) conjunto de
validação ..........................................................................................
78
Figura 31- Concentrações preditas (PLS) contra medidas (método enzimático)
das amostras de calibração e validação, em plasma sanguíneo de
ratos, para triglicerídeos; (o) conjunto de calibração; (*) conjunto
de validação ......................................................................................
82
Figura 32- Concentrações preditas (PLS) contra medidas (método enzimático)
das amostras de calibração e validação, em plasma sanguíneo de
ratos, para HDL; (o) conjunto de calibração; (*) conjunto de
validação ..........................................................................................
85
Figura 33- Espectros NIR originais das 34 amostras de plasma sanguíneo de
humanos ...........................................................................................
86
Figura 34- EJCR para a inclinação e intercepto da regressão dos valores
previstos (ANN) contra valores medidos (método enzimático),
para as amostras de monitoramento dos melhores modelos: (azul)
glicose; (vermelho) triglicerídeos; (verde) colesterol ......................
89
Figura 35- Concentrações preditas contra medidas (método enzimático) das
amostras de calibração e validação, em plasma sanguíneo de
humanos: lado esquerdo, modelos PLS; lado direito, modelos
ANN. (a) glicose; (b) triglicerídeos; (c) colesterol; (o) conjunto de
calibração; (*) conjunto de validação ...............................................
91
LISTA DE TABELAS
Tabela 1- Regiões espectrais no infravermelho .......................................................... 30
Tabela 2- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo dos
23 ratos Wistar .....................................................................................
68
Tabela 3- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo
humano de 34 pacientes de esquizofrenia ............................................
69
Tabela 4- Parâmetros de treinamento das redes neurais ............................................ 71
Tabela 5- Resultados para os conjuntos de calibração e validação externa para
glicose: RMSECV, RMSEP, coeficientes de correlação (R) e o número de
variáveis espectrais utilizadas (tamanho). O número de fatores nos modelos
PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses........
77
Tabela 6- Valores medidos (referência) e preditos (NIR) para as amostras de
previsão do melhor modelo, PLS (4)1, referentes à determinação de
glicose ..................................................................................................
79
Tabela 7- Resultados para os conjuntos de calibração e validação externa para
triglicerídeos: RMSECV, RMSEP, coeficientes de correlação (R) e o
número de variáveis espectrais utilizadas (tamanho). O número de fatores
nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre
parênteses .............................................................................................
80
Tabela 8- Valores medidos (referência) e preditos (NIR) para as amostras de
previsão do melhor modelo, PLS (4)1, referentes à determinação
triglicerídeos ........................................................................................
82
Tabela 9- Resultados para os conjuntos de calibração e validação externa para HDL:
RMSECV, RMSEP, coeficientes de correlação (R) e o número de variáveis
espectrais utilizadas (tamanho). O número de fatores nos modelos PLS,
iPLS, PLS-SPA e PLS-GA são representados entre parênteses ..............
83
Tabela 10- Valores medidos (referência) e preditos (NIR) para as amostras de
previsão do melhor modelo, PLS (4)1, referentes à determinação
HDL .....................................................................................................
85
Tabela 11- Resultados dos melhores modelos ANN para os conjuntos de
monitoramento de glicose, triglicerídeos e colesterol: RMSEM e
89
coeficientes de correlação (R) são apresentados ....................................
Tabela 12- Resultados de modelos PLS para os conjuntos de calibração e validação
externa de glicose, triglicerídeos e colesterol: RMSECV, RMSEP,
coeficientes de correlação (R) e variáveis latentes (VL) dos modelos PLS
são apresentados ...................................................................................
90
ÍNDICE DE ABREVIATURAS
ANN – redes neurais artificais (do inglês, artificial neural networks)
ASTM – Sociedade Americana para Testes e Materiais (do inglês, American Society for
Testing and Materials),
ATP – trifosfato de adenosina (do inglês, adenosine triphosphate)
CLAE – cromatografia líquida de alta eficiência
CM – centragem na média
CV – validação cruzada (do inglês, cross validation)
DNA – ácido desóxiribonuclêico (do inglês, desoxyribonucleic acid)
EJCR – região de confiança elíptica conjunta (do inglês, elliptical joint confidence region)
FIR – infravermelho distante (do inglês, far infrared)
GA – algoritmo genético (do inglês, genetic algorithm)
HDL – lipoproteína de alta densidade (do inglês, high-density lipoprotein)
Ip – injeções salinas intraperitoniais
iPLS – regressão pelo método do mínimos quadrados por intervalos (do inglês, interval
partial least squares),
IR – infravermelho (do inglês, infrared)
KS – algoritmo de seleção de amostras Kennard-Stone
LDL – lipoproteína de baixa densidade (do inglês, low-density lipoprotein)
MATLAB – software para cálculos numéricos (Matrix Laboratory)
MIR – infravermelho médio (do inglês, mid-infrared)
NIR – infravermelho próximo (do inglês, near infrared)
NCEP – programa nacional educacional sobre colesterol (do inglês, national cholesterol
education program)
N-PLS – regressão pelo método dos mínimos quadrados parciais não lineares (do inglês, non-
linear partial least squares)
PC – componente principal (do inglês, principal component)
PCA – análise por componentes principais (do inglês, principal component analysis)
PCR – regressão em componentes principais (do inglês, principal component regression)
PLS – mínimos quadrados parciais (do inglês, partial least squares)
RMSEC – raiz quadrada do erro médio de calibração (do inglês, root mean square error of
calibration)
R²mon – coeficiente de correlação para o grupo de monitoramento
RMSECV – raiz quadrada do erro médio de validação cruzada (do inglês, root mean square
error of cross validation)
RMSEP – raiz quadrada do erro médio de previsão (do inglês, root mean square error of
prediction)
RNA – ácido ribonuclêico (do inglês, ribonucleic acid)
rpm – rotações por minuto
SEC – erro padrão de calibração (do inglês, standard error of calibration)
SG – Savitzky-Golay
SEP – erro padrão de previsão (do inglês, standard error of prediction)
SPA – algoritmo das projeções sucessivas (do inglês, successive projections algorithm)
SVM – máquinas de vetores de suporte (do inglês, support vector machine)
UV – ultravioleta
VLDL – lipoproteína de muito baixa densidade (do inglês, very low-density lipoprotein)
WHO – organização mundial de saúde (do inglês, World Health Organization)
SUMÁRIO
1 INTRODUÇÃO ....................................................................................... 18
1.1 ANÁLISES CLÍNICAS E PARÂMETROS BIOLÓGICOS................. 18
1.1.1 Glicose ...................................................................................................... 18
1.1.2 Triglicerídeos ........................................................................................... 19
1.1.3 Colesterol ................................................................................................. 20
1.2 SÍNDROME METABÓLICA E DOENÇAS NÃO TRANSMISSÍVEIS 22
1.3 MÉTODOS TRADICIONAIS PARA DETERMINAÇÃO DE
GLICOSE, TRIGLICERÍDEOS E COLESTEROL ..............................
25
1.3.1 Determinação de glicose ......................................................................... 25
1.3.2 Determinação de triglicerídeos .............................................................. 26
1.3.3 Determinação de colesterol .................................................................... 27
1.4 INFRAVERMELHO: a descoberta ......................................................... 29
1.4.1 Espectroscopia no infravermelho próximo ........................................... 30
1.4.1.1 Principais características e aplicações ....................................................... 31
1.4.1.2 Instrumentação .......................................................................................... 32
1.4.2 Aspectos teóricos da espectroscopia NIR .............................................. 32
1.5 QUIMIOMETRIA E CALIBRAÇÃO MULTIVARIADA ................... 37
1.5.1 Análise por componentes principais – PCA ......................................... 41
1.5.2 Regressão por mínimos quadrados parciais – PLS ............................. 44
1.5.3 Redes neurais artificiais – ANN ............................................................ 47
1.5.4 Pré-processamento de dados .................................................................. 50
1.5.4.1 Centragem na média .................................................................................. 51
1.5.4.2 Suavização ou filtro digital ........................................................................ 51
1.5.4.3 Derivada .................................................................................................... 52
1.5.5 Seleção de amostras ................................................................................. 53
1.5.6 Seleção de variáveis ................................................................................. 53
1.5.6.1 Mínimos quadrados parciais por intervalos – iPLS .................................. 54
1.5.6.2 Algoritmo das projeções sucessivas – SPA .............................................. 55
1.5.6.3 Algoritmo genético – GA ......................................................................... 55
1.5.7 Detecção de amostras anômalas (outliers) ............................................ 57
1.5.8 Testes estatísticos ................................................................................... 60
1.6 ESPECTROSCOPIA NIR E CALIBRAÇÃO MULTIVARIADA
APLICADAS EM ANÁLISES CLÍNICAS ..........................................
63
2 JUSTIFICATIVAS E OBJETIVOS .................................................... 66
3 PARTE EXPERIMENTAL ................................................................. 67
3.1 EXPERIMENTO EM ANIMAIS ........................................................... 67
3.2 EXPERIMENTO EM HUMANOS ........................................................ 67
3.3 MÉTODOS DE REFERÊNCIA ............................................................. 68
3.3.1 Plasma de ratos ....................................................................................... 68
3.3.2 Plasma de humanos ................................................................................ 69
3.4 INSTRUMENTAÇÃO NIR .................................................................... 69
3.5 ANÁLISE DOS DADOS ........................................................................ 70
3.5.1 Plasma de ratos ........................................................................................ 70
3.5.2 Plasma de humanos ................................................................................. 70
4 RESULTADOS E DISCUSSÃO ........................................................... 72
4.1 ANÁLISES EM PLASMA SANGUÍNEO DE RATOS ........................ 72
4.1.1 Atribuição de bandas .............................................................................. 72
4.1.2 Pré-processamentos espectrais ............................................................... 74
4.1.3 Determinação de glicose .......................................................................... 76
4.1.4 Determinação de triglicerídeos ............................................................... 80
4.1.5 Determinação de HDL ............................................................................ 83
4.2 ANÁLISES EM PLASMA SANGUÍNEO DE HUMANOS ................. 86
4.2.1 Atribuição de bandas e pré-processamentos ......................................... 86
4.2.2 Regressão multivariada linear – emprego do PLS ............................... 87
4.2.3 Quantificações de glicose, triglicerídeos e colesterol total através de
regressão multivariada não linear – emprego do ANN ........................
89
4.2.4 Comparação PLS versus ANN: quantificações de glicose,
triglicerídeos e colesterol total ................................................................
90
5 CONCLUSÕES ........................................................................................ 93
5.1 DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E HDL EM
PLASMA SANGUÍNEO DE RATOS ....................................................
93
5.2 DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E
COLESTEROL TOTAL EM PLASMA SANGUÍNEO DE HUMANOS
93
6 PERSPECTIVAS .................................................................................. 95
REFERÊNCIAS .................................................................................... 96
APÊNDICES ......................................................................................... 104
18
1 INTRODUÇÃO
“Não existem métodos fáceis para resolver problemas difíceis.”
(René Descartes)
1.1 ANÁLISES CLÍNICAS E PARÂMETROS BIOLÓGICOS
A análise clínica lida diretamente com a coleta de dados referentes a parâmetros
biológicos e relaciona os mesmos à saúde de pacientes1.Uma vez que cerca de 60 a 70% das
decisões médicas, atualmente, são baseadas em resultados obtidos através de testes
diagnósticos in vitro, os mesmos desempenham um papel de extrema relevância na
identificação, tratamento e, inclusive, prevenção de diversas patologias2. Dessa forma, tais
análises devem produzir resultados confiáveis e precisos, uma vez que falsos diagnósticos
podem levar a decisões médicas inapropriadas e erros terapêuticos, e, consequentemente,
tratamentos inadequados e desnecessários, além de altos gastos com repetitivas realizações de
uma mesma análise, que poderiam ser evitados3.
A bioquímica clínica é responsável por analisar materiais orgânicos, tais como sangue,
urina e fezes, mais especificamente, as dosagens de glicose, colesterol, triglicerídeos, ácido
úrico, uréia, creatinina, ácido fólico,entre outros4. Sendo assim, tais investigações estão
presentes em todos os ramos da medicina e, fortemente, inseridas nas relações entre médicos e
pacientes.
1.1.1 Glicose
Os carboidratos são compostos orgânicos (em geral, poli-hidroxialdeídos ou poli-
hidroxicetonas), de maior abundância no mundo vegetal, atuando nas estruturas de
sustentação de plantas. Os animais (incluindo os seres humanos) obtêm carboidratos ao se
alimentarem de plantas, porém não armazenam muito do que comem. De fato, menos de 1%
do peso corporal dos animais é atribuído aos carboidratos, que compõem seus tecidos
conectivos e constituem as estruturas dos ácidos nucleicos, tais como o DNA e o RNA5.Com
relação ao metabolismo animal, o principal papel dos carboidratos é prover energia para as
funções do organismo, tendo na glicose o seu principal exemplo. A glicose coexiste em três
formas estruturais distintas no sangue, conforme apresentado na Figura 1.
19
Figura 1 - Formas estruturais da glicose no sangue e suas respectivas proporções.
Fonte: Autor.
Distúrbios no metabolismo endócrino relacionados à glicose são conhecidos como
diabetes.Aproximadamente 150 milhões de pessoas são diabéticas e estima-se que outros
milhões apresentem a doença ainda não diagnosticada6. A diabetes mellitus é caracterizada
pelos níveis insuficientes de insulina no sangue que, quando em nível muito baixo, fazem com
que os músculos e o fígado não absorvam glicose e assim ocorra a hiperglicemia, que
prejudica o metabolismo de gorduras e proteínas, e pode ocasionar diversas patologias tais
como cegueira, danos no sistema nervoso, insuficiência renal, danos na formação fetal,
aumento no risco de doenças cardíacas e amputações de membros, coma e, até mesmo, morte.
Daí a importância de controlar periodicamente os níveis de glicose presentes no sangue, como
forma de prevenir a ocorrência de diabetes, bem como, de suas complicações relacionadas7.
1.1.2 Triglicerídeos
Os lipídeos compõem uma grande família de substâncias com as mais variadas
funções químicas presentes em suas estruturas, cuja característica em comum é a alta
solubilidade em solventes orgânicos e baixa solubilidade em água (do grego lipo, gordura).
Lipídeos são de extrema importância para os organismos vivos devido às suas funções de
armazenamento de energia, proteção, componentes das membranas celulares, mensageiros
químicos e vitaminas. Os triglicerídeos (ou triacilgliceróis) são triésteres formados a partir do
glicerol e ácidos carboxílicos graxos (cadeias longas, entre 12 e 20 átomos de carbono,
saturadas ou insaturadas), conforme apresentado na Figura 2.
OHO
HO
OHOH
OH
OHO
HOOH
OH
OHO
H
OH
OH
OH
OH
HO
-D-glicopiranose D-glicose -D-glicopiranose
(~36%) (<1%) (~64%)
20
Figura 2 - Estrutura genérica de um triglicerídeo e exemplos de ácido graxos.
Fonte:Autor.
Os triglicerídeos são os componentes majoritários dos óleos e gorduras, que têm como
diferença o fato de os primeiros serem líquidos a temperatura ambiente e os segundos,
sólidos, em função do número e natureza (cis ou trans) das insaturações presentes nas cadeias
desses ésteres. As gorduras possuem importante papel nos organismos vivos, atuando como
fonte de energia, como isolante térmico e protegendo os mesmos contra choques mecânicos.
Todavia, altos níveis de triglicerídeos no plasma sanguíneo podem estar diretamente
relacionados à ocorrência de doenças cardiovasculares, em função, principalmente, do
entupimento das veias e artérias, e podendo ser consequência de outras patologias, como, por
exemplo, diabetes mellitus8-10
.
1.1.3 Colesterol
Nos animais, o colesterol é o lipídeo mais abundante e importante pertencente à classe
dos esteroides5,11
. Conforme visto na Figura 3, sua estrutura química é derivada do esqueleto
hidrocarbônico ciclopentilperidrofenantreno, contendo um grupamento álcool e uma
insaturação.
Figura 3 - Estrutura química do colesterol.
Fonte:Autor.
Ao contrário do que se noticia, o colesterol não é um vilão. Tal lipídeo é componente
do plasma sanguíneo e está presente em todas as células animais, como constituinte e
regulador das membranas celulares. Além disso, atua no metabolismo de vitaminas
O
O O
O
R3
O
R2
O
R1
triglicerídeo
HO
O ácido olêico (insaturado -9
O
HO
O
HO
ácido linolênico (poliinsaturado -3,6,9)
ácido esteárico (saturado)
HO
H
H H
21
lipossolúveis (A, D, E e K) e é precursor sintético de outros esteroides, tais como os
hormônios sexuais e adrenocorticóides, além de participar, também, na formação dos sais
biliares (agentes dispersantes de lipídeos no organismo), sendo fundamental para que o
organismo desempenhe de forma harmoniosa grande parte de suas funções.O colesterol é
sintetizado no fígado, a partir de gorduras, e está em uma situação dinâmica, circulando
constantemente pelo sangue. Todavia, por ser insolúvel no meio aquoso, o mesmo deve ser
transportado, e para tal função existem as chamadas lipoproteínas, dentre elas: a LDL
(lipoproteína de baixa densidade - do inglês low-density lipoprotein) e a HDL (lipoproteína de
alta densidade - do inglês high-density lipoprotein)5,9,12
.
A LDL, conforme representada na Figura 4, é originada através da remoção dos
triglicerídeos e proteínas (exceto a apoB-100) presentes em outra espécie de lipoproteína,
chamada VLDL (do inglês, very low-density lipoprotein), no momento em que a mesma
atinge o tecido de músculos ou gorduras.A lipoproteína resultante é composta, agora, de 25%
de proteínas e 50% de colesterol, além de outros lipídeos, incluindo alguns de caráter anfótero
com relação à solubilidade em água (possuem uma parte hidrofílica e uma parte
hidrofóbica)5,10
.
Figura 4- Representação das espécies constituintes de uma lipoproteína de baixa densidade (LDL).
Fonte:http://thehealthycow.blogspot.com.br/2012/09/everything-you-need-to-know-about.html
A LDL é popularmente conhecida como “colesterol ruim”, justamente por executar a
função de transporte do lipídeo até a superfície das células, mais precisamente, a receptores
Apoproteína B-100
Éster de colesterol
Éster de esterol
Fosfolipídeo
Colesterol livre(não esterificado)
22
específicos que permitem que a mesma seja introduzida e, por ação de enzimas, libere o
colesterol em sua forma livre5,7
. A característica aterogênica associada a esta lipoproteína
ocorrerá quando a mesma estiver em excesso, em função de altos níveis de colesterol
produzidos a partir de uma dieta rica em gorduras. Tal fato, induz à deposição do lipídeo nos
vasos sanguíneos, provocando, consequentemente, entupimento dos mesmos, podendo
originar patologias tais como diabetes mellitus e aterosclerose, responsáveis por ataques
cardíacos, derrames e disfunções renais5,7,9,10
.
Nem todo colesterol depositado nas veias e artérias lá o permanece,e essa função de
“limpeza” é executada pela HDL. Esta lipoproteína, de tamanho menor que a LDL, é
constituída de30% de proteínas e 30% de colesterol, além de outros lipídeos. Essa razão entre
as espécies é que determina que a mesma possua alta densidade. Uma vez que a densidade das
proteínas é maior que a do colesterol, a razão m/V aumenta quando em comparação à LDL.
Tal fato é observado através da Figura 5, onde claramente se verifica a diferença tanto entre a
proporção dos constituintes (proteínas e colesterol) quanto no tamanho das lipoproteínas LDL
e HDL.
Figura 5 -Ilustração comparativa das espécies constituintes das estruturas do HDL e do LDL.
Fonte: http://www.umm.edu/patiented/articles/hdl_ldl_000362.htm
A HDL absorve parte do colesterol em excesso nas veias e artérias e o transporta até as
células do fígado, onde o lipídeo irá atuar na síntese dos hormônios esteroidais e sais biliares.
Tal mecanismo, conhecido como “transporte reverso”, confere à HDL, popularmente, o título
de “bom colesterol”, uma vez que tal lipoproteína atua evitando a formação de placas de
ateromas e a ocorrência de diversas patologias a elas relacionadas7,9,10,13
.
ProteínasColesterol
23
1.2 SÍNDROME METABÓLICA E DOENÇAS NÃO TRANSMISSÍVEIS
Como já mencionado nos itens 1.1.1 até 1.1.3, níveis anormais de glicose,
triglicerídeos e colesterol presentes no sangue, frequentemente associados à obesidade, são
responsáveis pela ocorrência de diferentes patologias. Entretanto, na década de 80, foi
observado que havia, ainda, outro tipo de associação entre os fatores de risco para o
desenvolvimento doenças cardiovasculares e diabetes, especialmente chamado de resistência
insulínica. Dessa forma, surgiu a “síndrome metabólica” que, de acordo com a Sociedade
Brasileira de Endocrinologia e Metabologia, é definida como um conjunto de doenças cuja
base é a resistência insulínica, uma vez que além de retirar a glicose do sangue e levá-la até as
células, a insulina também exerce diversas outras atividades no organismo, inclusive, durante
o metabolismo de gorduras7,14-16
. Os dois critérios mais aceitos para definição desta síndrome,
são o da Organização Mundial de Saúde (WHO, do inglês, World Health Organization) e do
National Cholesterol Education Program (NCEP) – americano. Entretanto, o Brasil já dispõe
do seu Consenso Brasileiro sobre Síndrome Metabólica, que caracteriza que tal síndrome está
presente quando no mínimo três dos critérios abaixo são positivos14,16
:
i) Obesidade central - circunferência da cintura igual ou superior a 88 cm na mulher
e 102 cm no homem;
ii) Hipertensão arterial - pressão arterial sistólica≥ 130 e/ou pressão arterial diatólica
≥ 85 mmHg;
iii) Glicemia alterada (glicemia em jejum > 100 mg dL-1
) ou diagnóstico de diabetes;
iv) Triglicerídeos ≥ 150 mg dL-1
;
v) HDL colesterol < 40 mg dL-1
em homens, e HDL colesterol<50 mg dL-1
em
mulheres.
Novamente, de acordo com a Sociedade Brasileira de Endocrinologia e Metabologia, o
número de mortes causadas por doenças cardiovasculares, em pessoas que sofrem desta
síndrome, é três vezes maior. Ainda, outra questão importante é que para a maioria dos
portadores, a síndrome apresenta-se de forma assintomática, fazendo com que muitas pessoas
24
estejam nas faixas de risco para desenvolvimento de doenças graves, como as
cardiovasculares e diabetes, e sequer tenham conhecimento disto7,14
.
Das 57 milhões de mortes que ocorreram em todo o mundo, no ano de 2008, 36
milhões (aproximadamente 63%) foram causadas por doenças não transmissíveis,
representadas proporcionalmente em seus diversos tipos através da Figura 6, segundo dados
da Organização Mundial de Saúde17
.
Figura 6 - Proporção de mortes globais por doenças não transmissíveis, em pessoas com idade inferior a 70
anos, no ano de 2008.
Fonte: adaptado da referência17
Em pessoas com idade abaixo de 70 anos, as doenças cardiovasculares foram
responsáveis por 39% dos 36 milhões de mortes calculadas e, por sua vez, a diabetes
representou um total de 4%, que é bastante inferior quando comparado às doenças
cardiovasculares, porém, sem dúvidas, bastante significativo17
.
Tais números elevados de mortes relacionadas a doenças não transmissíveis estão
diretamente associados ao hábito de vida da população, especialmente no século 21, e fatores
econômicos, que podem levar a um precário serviço de saúde pública. Sendo assim, melhorias
nos setores de saúde, proporcionando detecção precoce e tratamento realizado de forma
oportuna no momento em que a doença é diagnosticada, atuam como fatores indispensáveis
para diminuição do impacto causado pela epidemia das doenças não transmissíveis, uma vez
que as intervenções médicas realizadas nos tratamentos dessas patologias são de alto custo,
principalmente quando a mesma atingiu estágios elevados, por falta de
diagnósticoadequado17
. Portanto, a Organização Mundial de Saúde tem incentivado que os
países adotem políticas a níveis nacionais e globais com o objetivo, principalmente, de
Câncer
Doenças cardiovasculares
Doenças respiratórias crônicas
Diabetes
Doenças do aparelho digestivo
Outras doenças não comunicadas
25
integrar a prevenção e controle dessas doenças. Neste sentido, os laboratórios de análises
clínicas desempenham um papel de relevância na implementação destas metas, uma vez que
contribuem diretamente para diagnósticos e tratamentos feitos com mais segurança, sendo,
então, parte essencial dos processos de cuidados com os pacientes13
.
1.3 MÉTODOS TRADICIONAIS PARA DETERMINAÇÃO DE GLICOSE,
TRIGLICERÍDEOS E COLESTEROL
Diversos são os métodos e técnicas relatados na literatura envolvendo análises de
parâmetros bioquímicos3,13,18-20
. Atualmente, o principal método aplicado em determinações
rotineiras dos níveis de glicose, triglicerídeos e colesterol em fluidos sanguíneos, é chamado
de enzimático colorimétrico, cujos protocolos oficiais são, inclusive, disponibilizados pela
organização mundial de saúde12,21
.O método é baseado em reações mediadas por enzimas, que
levam à formação de substâncias coloridas, possíveis de serem analisadas por espectroscopia
na região do visível.
1.3.1 Determinação de glicose
A glicose é um açúcar redutor, e pode ser oxidada ao derivado ácido glucônico, via
reação com oxigênio molecular, na presença da enzima glicose oxidase. O subproduto da
reação, peróxido de hidrogênio, reage com 4-aminofenazona (4-aminoantipirina), em
presença de fenol e da enzima peroxidase, levando à formação do derivado cromógeno
quinoneimina, cuja absorção máxima é em 505 nm. O método é ilustrado na Figura 7.
Figura 7 - Reações químicas envolvidas na determinação de glicose através do
método enzimático-colorimétrico.
Fonte: Autor.
26
Ao se realizar uma determinação de um parâmetro biológico, deve-se levar em
consideração as substâncias que podem interferir nos resultados da análise2,7
. Com relação à
glicose, os principais interferentes são: ácido ascórbico (acima de 10 mg dL-1
), bilirrubina
(acima de 20 mg dL-1
), triglicerídeos (acima de 250 mg dL-1
) e hemoglobina (acima de 160
mg dL-1
)
1.3.2 Determinação de triglicerídeos
Na Figura 8 é apresentado o método enzimático colorimétrico para dosagem dos
triglicerídeos. Toda reação de hidrólise de triglicerídeos, aqui mediada pela enzima lipase
lipoprotéica, leva à formação de glicerol (juntamente com os ácidos graxos ou seus
respectivos sais), que é fosforilado, em presença de ATP, Mg2+
e glicerolquinase, ao glicerol-
3-fosfato. Este, por sua vez, é seguidamente oxidado a dihidroxiacetona pela ação de oxigênio
em conjunto com a enzima glicerol-3-fasfato oxidase. O peróxido de hidrogênio formado
nessa etapa de oxidação, em presença da enzima peroxidase (de forma similar ao
procedimento envolvendo glicose) propicia a formação da quinoneimina (absorção máxima
em 505 nm), através da reação entre 4-aminoantipirina e 4-clorofenol.
Figura 8 - Reações químicas envolvidas na determinação de triglicerídeos através do
método enzimático-colorimétrico.
Fonte:Autor.
NN
ONH2
+
OH
NN
ON
Cl
peroxidase
4-aminoantipirina 4-clorofenol quinonimina (max = 505nm)
O
O
O
O
R2
O
R1
O
R3
triglicerídeos
lipase lipoprotéicaHO
OH
OH
glicerol
(+ R1CO2H + R2CO2H + R3CO2H)
ácidos graxos
ATP, Mg2+,
glicerol quinase
HO
OH
OPO32-
O2,glycerol -3-phospate
oxidaseHO
O
OH
1,3-diidroxiacetona
+
Cl
O
glicerol-3-fosfato
H2O2
peróxido dehidrogênio
27
Nas análises de triglicerídeos, os principais interferentes são: ácido ascórbico (mesmo
em baixas concentrações), bilirrubina (acima de 5mg dL-1
), álcool, contraceptivos orais e
estrógeno, além de luz direta.
1.3.3 Determinação de colesterol
Para análise do colesterol total, o mesmo é obtido a partir da hidrólise dos seus
respectivos ésteres, mediada pela enzima colesterol esterase. O colesterol livre é oxidado via
reação com oxigênio molecular em presença de colesterol oxidase, formando a colest-5-en-3-
ona juntamente de peróxido de hidrogênio. Esse último, de forma idêntica à análise de
glicose, leva a formação do cromógeno quinoneimina, com absorção máxima em 505 nm. O
método é apresentado na Figura 9.
Figura 9 - Reações químicas envolvidas na determinação de colesterol através do
método enzimático-colorimétrico.
Fonte: Autor.
Para dosagens individuais dos níveis de HDL e LDL, é realizada uma precipitação de
todos os tipos de colesterol, através da reação com fosfotungstato e magnésio, exceto o HDL,
que fica como sobrenadante, e é quantificado de forma similar ao método descrito na Figura
9. A concentração de LDL é determinada a partir da equação de Friedewald: LDL = colesterol
total – (HDL + VLDL); sendo VLDL = triglicerídeos / 5.
O2,colesterol oxidase
NN
ONH2
+
OH
NN
ON
O
peroxidase
ésteres de colesterol
colest-5-en-3-ona
4-aminoantipirina fenol quinonimina (max = 500nm)
O
H
H H
OR
colesterol esterase
colesterol
HO
H
H H
+
O
H
H H
H2O2
peródixo dehidrogênio
28
Nas análises de colesterol, os principais interferentes são: ácido ascórbico (acima de
10 mg dL-1
), hemoglobina (acima de 180 mg dL-1
), bilirrubina (acima de 5mg dL-1
) e lipemia
(triglicerídeos acima de 2600 mg dL-1
).
Os métodos enzimáticos colorimétricos empregados para determinação de glicose,
triglicerídeos e colesterol, discutidos nos itens 1.3.1 até 1.3.3, ainda são considerados os mais
importantes e utilizados nas análises clínicas rotineiras em laboratórios20
, por serem bem
estabelecidos e contemplarem características consideradas essenciais para o tipo de análise em
questão: resposta rápida, exatidão/precisão, sensibilidade, estabilidade, além de medições com
ampla abrangência dentro das faixas de concentrações dos analitos. Entretanto, tais métodos
possuem desvantagens inerentes às suas aplicações. Das mais relevantes, podem ser citadas2,7
:
i) Tempo de análise: em média, 25 minutos para determinação de cada analito,
em uma única amostra;
ii) Influência de fontes de variação, especialmente, biológica e analítica:
reagentes, interferentes, diferentes respostas metabólicas dos indivíduos;
iii) Necessidade de reagentes/equipamentos específicos (enzimas): essa questão
naturalmente implica altos gastos para realização das análises. Por exemplo, na
França, em 2007, determinações de glicose foram o terceiro tipo de ensaio
clínico mais realizado nos laboratórios médicos, somando um total de
aproximadamente 21 milhões de análises que representaram um custo de 42
milhões de euros para o sistema de saúde francês3.
iv) Geração de resíduos químicos provenientes das diversas etapas durante as
reações químicas mediadas por enzimas e outros reagentes22
;
v) Controle de temperatura: uma vez que tais reações enzimáticas devem ocorrer
em temperatura de 36°C, simulando a temperatura corporal.
Dessa maneira, buscam-se novos métodos analíticos que possam vir a minimizar as
desvantagens encontradas através das metodologias de referência para ensaios clínicos,
levando em consideração, principalmente, sua importância indiscutível no que diz respeito à
prevenção, diagnóstico e tratamento de diversas doenças, sendo, assim, parte indispensável
nos procedimentos médicos.
29
1.4 INFRAVERMELHO: a descoberta
A radiação no infravermelho (IR, do inglês,infrared) foi descoberta pelo astrônomo e
músico inglês, Frederik William Herschel, em 1800. Entre suas tentativas de descoberta do
planeta Urânio, Herschel alcançou um resultado de relevância em um experimento que visava
encontrar a contribuição individual das cores, provenientes da decomposição da luz solar, no
aumento da temperatura de objetos expostos a tal radiação. Ao contrário do que se esperava,
Herschel observou que, surpreendentemente, mesmo depois do fim da região visível de cor
vermelha da luz dispersada, a temperatura do termômetro por trás dos objetos continuava
subindo. Na realização do experimento, o cientista utilizou termômetros de bulbo negro e
prismas de vidro transparentes à radiação IR, e publicou sua descoberta se referindo a tal
região como “raios caloríficos”. Posteriormente, a mesma foi nomeada como infravermelho,
usando o prefixo grego “infra” que significa “abaixo”. Dessa forma, então, foi determinada a
primeira parte não visível do espectro eletromagnético23,24
.
Em 1881, Abney e Festing foram os responsáveis pela obtenção do primeiro espectro
no infravermelho próximo (NIR, do inglês, near infrared), utilizando líquidos orgânicos, na
faixa de 1 até 1,2 μm. Este trabalho foi de grande significância, não só por ser a primeira
medição NIR, mas também devido ao reconhecimento de grupos atômicos e da importância
da ligação de hidrogênio,nos espectros NIR24
. Entretanto, apesar de só ter sido descoberta
depois, a região do infravermelho médio (MIR, do inglês, mid-infrared) ganhou rapidamente
muito mais aceitação, logo após os trabalhos desenvolvidos por Coblentz, em 1900, que
verificou a utilidade da região MIR para identificação de grupos funcionais orgânicos.
Durante a primeira metade do século 20, a maioria dos pesquisadores se dedicou a ampliar a
base de dados de compostos orgânicos e atribuir características espectrais à presença de
grupos funcionais específicos, em diversas moléculas23
. A pesquisa na região do
infravermelho próximo teve o comportamento oposto ao observado no MIR, devido ao fato de
que muitos pesquisadores consideravam os espectros NIR muito confusos de interpretação,
uma vez que os sinais registrados eram picos de fraca intensidade e muito sobrepostos entre
si, resultados de vários sobretons e bandas de combinação.
Entretanto, a década de 1980 representa um marco para a utilização da técnica NIR,
que até então, só constava de aproximadamente 255 trabalhos publicados. Tal fato foi
claramente evidenciado na publicação de Wetzel, em 1983, que tinha o título sugestivo “Near
Infrared Reflectance Analysis - sleeper among spectroscopic techniques”, onde o autor
destacava as vantagens e potencial da técnica, embora ainda tão pouco utilizada. Durante a
30
década de 80, o microprocessador passou a ser integrado no desenvolvimento de instrumentos
eletrônicos, de forma que a aquisição, manipulação e interpretação de dados complexos,
passou a ser feita de forma muito mais sofisticada, através de diversos programas
computacionais. O resultado desse avanço tecnológico levou a um grande aumento no número
de trabalhos realizados envolvendo a espectroscopia NIR. Na década de 90, listava-se mais de
1000 publicações, cujos títulos buscavam se adaptar à nova realidade vivenciada pela técnica,
que, na época, passou a ser chamada de “estrela d‘alva da espectroscopia”24
.
1.4.1 Espectroscopia no infravermelho próximo
A região do espectro eletromagnético correspondente ao infravermelho se estende na
faixa de radiação, em número de onda, de aproximadamente 12800 a 10 cm-1
. Esta, conforme
apresentado na Tabela 1, é subdividida em três regiões distintas: infravermelho próximo
(NIR), médio (MIR) e distante (FIR, do inglês, far infrared).
Tabela 1 - Regiões espectrais no infravermelho.
Região
Intervalo de
número de
onda (cm-1
)
Região em
comprimento de
onda (nm)
Região de frequência
(Hz)
Próximo (NIR) 12800 – 4000 780 – 2500 3,8 x 1014
– 1,2 x 1014
Médio (MIR) 4000 – 200 2500 – 5000 1,2 x 1014
– 6,0 x 1012
Distante (FIR) 200 – 10 5000 - 100000 6,0 x 1012
– 3,0 x 1011
Fonte: referência25
.
A espectroscopia no infravermelho próximo tem caráter vibracional, uma vez que
utiliza fótons de energia, na faixa de 780 a 2500 nm, que são energéticos o suficiente para
promoverem moléculas a seus estados vibracionais excitados, porém, incapazes de provocar
transições eletrônicas nas mesmas24,25
. Ao submeter uma determinada amostra à radiação NIR
é possível se obter diversas informações qualitativas, bem como, quantitativas sobre a mesma,
levando em consideração as interações entre a energia, em forma de radiação, e os
constituintes da amostra, uma vez que haja alterações nos momentos de dipolo das moléculas
em questão.
31
1.4.1.1 Principais características e aplicações
Métodos analíticos que se baseiam no uso da espectroscopia NIR se utilizam de suas
mais relevantes características, tais como:
Rapidez na obtenção de espectros (1 minuto ou menos, por amostra);
Natureza não destrutiva;
Natureza não invasiva, mas com alta penetração do feixe de luz (cerca de 1 a 3
mm);
Quase universalidade em termos de aplicações (considerando que pode ser
aplicada a quaisquer moléculas contendo as ligações C-H, N-H, O-H ou S-H);
Mínima ou nenhuma preparação das amostras;
Possibilidade de aplicações em linha (analisadores de processo);
Determinações simultâneas (através de calibração multivariada);
Todavia, como toda técnica analítica, a espectroscopia NIR também possui
limitações/desvantagens, das quais podem ser citadas, principalmente:
A técnica não é muito sensível (limite de detecção 1%);
Baixa seletividade;
Em muitos casos, as bandas de combinação e sobretom da água podem ser
mais intensas que os sinais referentes à ligação C-H em compostos orgânicos,
o que prejudica a análise dessas substâncias em presença de água.
Espectros de interpretação complexa, em função da natureza dos sinais
observados (sobreposições e bandas de combinação).
Atualmente, muitas são as áreas que tem se utilizado da espectroscopia NIR como
base de diferentes métodos analíticos. Pode-se citar agricultura26
, alimentos27
, biodiesel28
,
petróleo29
, clínica30
, farmacêutica31
, entre outras.Apesar de sua grande aplicabilidade, a
espectroscopia NIR não é normalmente utilizada como uma técnica de análise direta. Em
virtude da complexidade inerente de seus dados, é preciso que primeiramente seja construído
um modelo de calibração que será baseado nos espectros NIR juntamente a uma determinada
técnica de referência. Uma vez construído tal modelo pode ser aplicado à novas amostras
(previsão), objetivando a determinação de uma propriedade de interesse (por exemplo,
concentração) das mesmas. Para tanto, são utilizados métodos multivariados, provenientes da
32
quimiometria, que lidam de forma muito satisfatória com a alta complexidade dos espectros
NIR e ampliam, ainda mais, a gama de aplicabilidade da técnica24,32
.
1.4.1.2 Instrumentação
Um espectrofotômetro NIR consiste principalmente da fonte de luz, do seletor de
comprimentos de onda, do suporte para a amostra e do detector óptico, conforme ilustrado na
Figura 10.
Figura 10 -. Componentes básicos de um equipamento que opera na região do infravermelho.
Fonte: Autor.
Cada um desses componentes pode ter propriedades e origens diferentes, de modo que
se torna possível classificar os espectrofotômetros NIR de acordo com as características de
seus constituintes33
. Em relação à seleção de comprimentos de onda, os espectrofotômetros
NIR de espectro contínuo incluindo um interferômetro e transformada de Fourier são, sem
dúvidas, aqueles que contêm a combinação das melhores características em termos de
precisão e exatidão na recuperação dos comprimentos de onda, alta relação sinal/ruído e
rapidez nas varreduras, possibilitando a obtenção de espectros em um minuto, ou menos24
.
1.4.2 Aspectos Teóricos da Espectroscopia NIR
Naturalmente, os átomos envolvidos em ligações químicas não estão localizados sobre
posições fixas, uma vez que estão continuamente desenvolvendo movimentos vibracionais e
rotacionais em torno de um eixo, ou átomo central. Basicamente, conforme visto na Figura
11, tais movimentos podem ser classificados como estiramentos ou deformações angulares,
podendo, ambos, serem simétricos ou assimétricos.
Os estiramentos são vibrações que ocorrem ao longo do eixo da ligação química, e sua
consequência é o alongamento ou encurtamento da ligação. Esse movimento é simétrico
quando os átomos vibrantes se afastam e se aproximam do átomo central ao mesmo tempo, ou
assimétrico, quando à medida que um átomo vibrante se afasta, o outro se aproxima do átomo
33
central. Por outro lado, as vibrações por deformação angular consistem em movimentos que
um átomo realiza e alteram o ângulo de ligação entre três átomos.
Figura 11-Tipos de movimentos vibracionais existentes em ligações químicas:
a) estiramentos; b) deformações.
Fonte: Autor.
As vibrações por deformação angular podem ocorrer tanto no plano quanto fora do
plano e, ainda, serem simétricas ou assimétricas, dependendo do sentido em que cada átomo
esteja se movimentando26
. Tais movimentos vibracionais (e também os rotacionais) podem
acarretar em mudanças nos momentos dipolares das moléculas, de forma que, só assim, uma
determinada radiação incidente, neste caso, a radiação NIR, poderá interagir com as mesmas e
provocar mudanças nas amplitudes de suas vibrações e rotações. O tal momento dipolar é
dependente da magnitude da diferença de carga entre os átomos (calculada através da
eletronegatividade dos mesmos) e pela distância entre estes centros de carga. O campo
elétrico produzido pelas vibrações ou rotações de átomos unidos por ligações químicas pode
interagir com o campo elétrico da radiação incidente e, se as frequências de ambos forem as
mesmas, então ocorrerá a absorção da radiação pela molécula.
simétrica assimétrica
a) vibrações de estiramento
balanço no plano recorte no plano
desvio fora do plano torção fora do plano
b) vibrações de deformação
34
A frequência desses movimentos é definida pela força da ligação e massas individuais
dos átomos ligantes. Já as amplitudes são de poucos nanômetros e poderão aumentar se
alguma energia for transferida à molécula. Essa transferência pode ocorrer através de um
fóton de um dado comprimento de onda (λ), onde a energia (Ep) pode ser expressa como:
Ep = hν = hc / λ
Onde h é a constante de Planck e c, a velocidade da luz.
Considerando uma molécula diatômica como duas massas esféricas (m1 e m2) unidas
por uma mola com constante de força (k), através do modelo do oscilador harmônico simples
e da Lei de Hooke, a energia (E) do sistema é dada por:
Onde μ é a massa reduzida: μ = m1m2 / m1 + m2
Considerando o clássico modelo do oscilador harmônico, a energia potencial (V) de
uma vibração será função do afastamento dos átomos, sendo expressa por:
Apesar de útil para o entendimento do conceito de energia vibracional, tal abordagem
é falha quando são considerados sistemas microscópicos, como no caso das moléculas, pelo
fato de que tais sistemas não assumem perfis contínuos de energia, como seria previsto por
esse modelo clássico. De acordo com a mecânica quântica, tais sistemas moleculares só
podem assumir níveis discretos de energia (Eυ), definidos como:
Onde υ é o número quântico vibracional, Eυ é a energia associada com esse
determinado nível quântico, ν é a frequência vibracional fundamental que, de acordo com o
modelo clássico, é dada por:
(1)
(2)
(3)
(4)
35
De acordo com esse modelo quântico/harmônico, as transições entre os diferentes
níveis vibracionais adjacentes só podem acontecer quando Δυ = ± 1. Ainda, essa diferença de
energia entre os níveis é sempre a mesma. E, para que uma molécula absorva energia e,
consequentemente, seja promovida até um nível vibracional excitado, a radiação incidente
deve corresponder exatamente à diferença entre os dois níveis energéticos adjacentes.
Portanto, a energia do fóton deve ser:
ΔE = Eυ2 – Eυ1 = h
Embora possa explicar a espectroscopia vibracional, o modelo harmônico,
representado na Figura 12-A, apresenta certas limitações em relação ao entendimento dos
sinais observados experimentalmente, através da espectroscopia NIR, uma vez que não são
permitidas transições com Δυ maior que 1.
Figura 12-Modelos harmônico (A) e anarmônico (B) para espectroscopia vibracional.
Fonte: adaptado da referência
24.
Transições com Δυ ± 2 ou maior são proibidas pelo modelo harmônico/quântico e,
portanto, muitos dos fenômenos observados (bandas de sobretons) na região NIR não
existiram. Outro fator importante do modelo harmônico, é que todas as vibrações são
independentes entre si, logo, as bandas de combinação NIR também não deveriam ser
Potencial harmônico Potencial anarmônico
Distância interatômica
En
erg
ia p
ote
nci
al (U
)
(5)
(6)
36
observadas. Todavia, tanto as bandas de combinação quanto os sobretons existem e são
experimentalmente visualizados, na região NIR25
.Para contornar tais restrições, um modelo
mais realístico foi proposto, onde uma molécula diatômica ainda é tratada com a aproximação
de duas “bolas” unidas por uma “mola”, entretanto, o novo modelo considera, agora, alguns
comportamentos não ideais do oscilador, tais como: as forças de repulsão entre as nuvens
eletrônicas à medida que os átomos se aproximam e a energia de dissociação, que prevê que
quando os átomos estão a uma distância muito grande a ligação química passa a não existir
mais.
Esse comportamento anarmônico é aproximado através da equação de Morse24
, que
descreve a energia potencial da molécula diatômica, como:
Onde a é uma constante molecular, De é a energia de dissociação, reé a distância
interatômica de equilíbrio e r é a distância interatômica a um dado instante.
Aplicando a mecânica quântica à função de Morse, a equação resultante descreve os níveis
vibracionais, como:
Em que xm é a constante de anarmonicidade da vibração.
Dessa forma, o modelo anarmônico/quântico, ilustrado na Figura 12-B, explica a
ocorrência de transições com Δυ ± 2 ou maior (sobretons) e bandas de combinação entre
vibrações, que são, ambos, os tipos de bandas com maior predominância na região espectral
NIR. Outra contribuição importante é que o modelo prevê que a separação entre dois níveis
vibracionais adjacentes diminui com o aumento do número quântico vibracional, υ, não sendo
mais igualmente espaçadas, como previa o modelo harmônico.
Dessa forma, a energia total vibracional (Eυ) é resultante da interação entre diferentes níveis e
pode ser calculada como:
(7)
(8)
(9)
37
A anarmonicidade também pode estar presente nas propriedades elétricas das
moléculas. Especificamente, isso irá afetar no momento de dipolo, que em um modelo
anarmônico, não tem dependência linear com a distância interatômica. Esse tipo de
anarmonicidade pode fornecer caminhos para ocorrência de sobretons e bandas de
combinação, mesmo se nenhum desvio mecânico do modelo harmônico for observado no
sistema em questão, tornando os espectros NIR ainda mais complexos25
.
1.5 QUIMIOMETRIA E CALIBRAÇÃO MULTIVARIADA
A quimiometria pode ser definida como a utilização de conceitos matemáticos e
estatísticos, visando planejar e selecionar procedimentos experimentais otimizados, bem como
obter o máximo de informações químicas, a partir de um conjunto de dados. O seu
desenvolvimento e utilização é fortemente relacionado ao uso de computadores em
laboratórios químicos. Na década de 1970, muitos pesquisadores já utilizavam matemática e
estatística em seus experimentos, entretanto, a quimiometria só se firmou à medida que os
sistemas computacionais passaram a ser aprimorados, de forma que a aquisição e manipulação
dos mesmos passou a ser mais simples e comum, tornando-os mais acessíveis a pesquisadores
de diversas áreas, especialmente, na química analítica34,35
. Essa maior disponibilidade em
relação aos computadores, bem observada a partir dos anos 1980, proporciona uma nova era
para a aquisição, processamento e interpretação de dados químicos, através de métodos
estatísticos e matemáticos aliados a programas computacionais, uma vez que essa união
possibilita aos pesquisadores trabalharem com informações de natureza complexa e também a
busca pelo desenvolvimento de novos métodos34
. Em virtude de sua vasta aplicabilidade, a
quimiometria foi dividida em diversas áreas, das quais podem ser citadas:
Processamento de sinais analíticos;
Planejamento e otimização de experimentos;
Reconhecimento de padrões e classificação de dados;
Calibração multivariada;
Métodos de inteligência artificial.
Tratamento de imagens hiperespectrais.
38
A calibração multivariada provavelmente é uma das áreas da quimiometria que tem
atraído mais atenção36,37
. Calibração pode ser definida como operações que visam estabelecer
uma relação entre respostas e fatores, ou, por exemplo, entre medidas instrumentais e uma
propriedade de interesse34,37
. A clássica calibração univariada é muito bem estabelecida na
química analítica e, para um modelo linear, trata-sede uma função matemática que relaciona
os grupos das variáveis dependentes (Y) e independentes (X) da seguinte forma:
Y = b0 + b1X
Em que “b” representa os coeficientes da equação e X trata-se de medidas
instrumentais realizadas em um determinado comprimento de onda,λ, como, por exemplo, um
valor de absorbância, A.
Entretanto, é preciso certificar-se de que as medidas realizadas sobre um dado
comprimento de onda não sejam afetadas por sinais de outras fontes (interferentes), além
daquela de interesse (analito), para que os resultados fornecidos pelo modelo univariado
sejam exatos e confiáveis. Para medidas analíticas que não apresentam alta seletividade em
seus sinais, a calibração univariada deve apresentar resultados muito desviados do valor
real36
. A espectroscopia NIR é uma das técnicas analíticas que apresenta baixa seletividade
em seus sinais, devido à complexidade inerente dos mesmos, por serem oriundos de sobretons
e bandas de combinação de vários tipos de ligações químicas envolvidas nas diversas
moléculas presentes na amostra. Dessa forma, normalmente não é possível se utilizar apenas
um comprimento de onda para a determinação da concentração, por exemplo, de um
parâmetro de interesse. Esse problema pode ser ilustrado através da Figura 13, onde a
concentração de gorduras em 103 amostras de carne bovina e suína foi determinada,
individualmente, pelos métodos univariado (Fig. 13-b) e multivariado (Fig. 13-c), através dos
espectros NIR (Fig. 13-a), obtidos na faixa de 850 a 1050 nm, resultando num total de 100
variáveis:
(10)
39
Figura 13 -Comparação entre métodos univariado (b) e multivariado (c) para análise de gordura a partir de
espectros obtidos na região do NIR (a).
Fonte: adaptado da referência
36.
A calibração univariada utilizou apenas as medidas instrumentais a 940 nm, que
corresponde ao terceiro sobretom do grupo CH2. A melhor correlação obtida por este método
foi de 0,23, sendo um valor bastante insatisfatório. Por outro lado, quando foi aplicada a
calibração multivariada neste conjunto de dados, utilizando todas as 100 variáveis espectrais,
o valor do coeficiente de correlação aumentou significativamente para 0,97, evidenciando
que, em muitos casos, a combinação de informações provenientes de muitas ou até mesmo
todas as variáveis espectrais é muito mais vantajosa36
. Além do aproveitamento da informação
química útil fornecida por cada uma das variáveis espectrais, a calibração multivariada
também apresenta outras vantagens de grande importância para métodos analíticos, tais como
a possibilidade de construir modelos mesmo na presença de interferentes, desde que os
Comprimento de onda (nm)Referência de gordura (% de peso)
Pre
diç
ão
de g
ord
ura
(%
de p
eso
)
Referência de gordura (% de peso)
Pre
diç
ão
de
go
rdu
ra (
% d
e p
eso
)
40
mesmos encontrem-se também na fase de calibração e não somente na previsão de novas
amostras, além da possibilidade de determinações simultâneas em uma única análise38
.
Um modelo linear multivariado pode ser representado como uma função matemática
que representa a relação entre X e Y, da seguinte maneira36
:
Onde K representa o número de variáveis presentes na equação e f, os resíduos.
Neste tipo de calibração as medidas (respostas) instrumentais X são representadas em
forma de matriz, enquanto a propriedade de interesse Y, que é determinada por uma
metodologia padrão, é representada por um vetor39
. A Figura 14mostra um exemplo da
construção de uma matriz de respostas instrumentais.
Figura 14- Ilustração esquemática de construção de uma matriz de respostas instrumentais.
Fonte: Autor.
Diversos são os métodos de regressão atualmente empregados na calibração
multivariada. Dentre os mais utilizados para modelagem linear estão as regressões em
componentes principais (PCR, do inglês, principal component regression) e por mínimos
quadrados parciais (PLS, do inglês, partial least squares). Por sua vez, as redes neurais
artificiais (ANN, do inglês, artificial neural network), os mínimos quadrados parciais não
lineares (N-PLS) e as máquinas de vetores de suporte (SVM, do inglês, support vector
(11)
41
machine) tem aplicação de destaque como métodos multivariados de regressão não linear
[35].
Outra área da quimiometria que apresenta grande destaque, além da calibração
multivariada, é o reconhecimento de padrões que pode ser aplicado com diversas finalidades,
especialmente na análise exploratória de dados e classificação de objetos. Uma vez que as
respostas instrumentais carregam informações químicas e físicas das amostras, a análise
exploratória é usada para detecção de padrões de associação nos conjuntos de dados e, a partir
destes padrões, é possível se estabelecer relações entre as amostras e variáveis, descobrir
amostras anômalas (outliers) ou agrupa-las conforme determinadas características35,40
. Para
tanto, um dos métodos mais utilizados é a análise por componentes principais (PCA, do
inglês, principal component analysis) que tem como maiores objetivos reduzir a
dimensionalidade do conjunto de dados e colinearidade existente entre as diversas variáveis
instrumentais, preservando, ao mesmo tempo, o máximo de informação útil à análise36,37
. O
conjunto de dados resultante da PCA é muitas vezes utilizado como base para construção de
diversos modelos multivariados e fornecem resultados mais satisfatórios quando comparados
àqueles obtidos através do conjunto de dados originais. Dessa forma, a fundamentação
envolvida nos cálculos da PCA é inerente a muitos métodos multivariados, sejam eles de
regressão ou classificação36
.
1.5.1 Análise por componentes principais – PCA
O princípio geral da PCA é realizar uma aproximação da matriz original das respostas
instrumentais (X) como um produto de duas outras matrizes, de menores dimensões, os scores
e loadings. Essa transformação é realizada da seguinte maneira34,41
:
Onde:
X é a matriz de dados originais,
T é a matriz dos scores;
P é a matriz dos loadings;
E é a matriz residual;
T é a matriz transposta.
(12)
42
Na projeção de X no subespaço d-dimensional,conforme mostrado na Figura 15, os
scores representam as coordenadas das amostras no sistema definido pelas componentes
principais (PC, do inglês, principal component). Os loadings são os cossenos dos ângulos dos
vetores de direção da variabilidade das amostras (componentes principais). Por sua vez, a
matriz residual representa a quantidade de informação espectral que não foi descrita através
das componentes principais41
.
Figura 15 - Projeção de X no espaço d-dimensional.
Fonte: referência
33.
A matriz obtida pela PCA, descrita pelas componentes principais, contém novas
variáveis que não são correlacionadas entre si. Cada PC carrega informações diferentes sobre
as amostras e variáveis originais, e são calculadas através de um processo iterativo, em que a
equação (12) é usada para extrair o primeiro termo T1P1T (PC1)da matriz X. A matriz residual
E é submetida ao mesmo cálculo para a obtenção de T2P2T (PC2), dando origem a uma nova
matriz residual que, por sua vez, contém menos informação. Esse processo se repete até que a
matriz residual contenha uma quantidade de informação comparável ao nível de ruído
instrumental41
. Desse modo, a maior parte da variabilidade presente no conjunto de dados
estará contida na primeira PC; a segunda PC terá mais informação que a terceira, e assim por
diante34
.
Um aspecto importante para qualquer método de compressão de dados, como a PCA, é
a escolha do número ótimo de variáveis ou componentes que deve ser usado. Se muitas
componentes são selecionadas, muita redundância das variáveis de X será incorporada no
modelo, ocasionando o sobreajuste do mesmo (overfitting). Por outro lado, se for usada uma
quantidade insuficiente de componentes o modelo não terá capacidade de explicar toda a
variabilidade necessária presente em X (underfitting)36
.
43
Figura 16 - Fatores influentes na escolha do número de componentes.
Fonte: adaptado da referência
36.
Conforme é visto através da Figura 16, dois fatores devem ser considerados para que
seja feita a escolha certa do número de componentes a se utilizar: o erro do modelo e a
estimativa de erro (“simulação de erro para novas amostras”). À medida que o número de
componentes aumenta, o erro do modelo diminui, uma vez que uma maior variabilidade de X
é contemplada. Ao contrário, a estimativa de erro cresce em função do aumento de parâmetros
a serem estimados. Portanto, o número ideal de componentes a ser utilizado deve encontrado
no ponto médio entre os valores máximos do erro e estimativa de erro do modelo
multivariado36
.Um dos métodos mais utilizados para seleção do número correto de
componentes (ou fatores) a ser selecionado é chamado de validação cruzada (CV, do inglês,
cross validation). Esta técnica consiste em calcular uma estimativa de erro que o modelo
multivariado apresentaria frente a novas amostras desconhecidas para previsão de um
parâmetro de interesse. Para tanto, são utilizadas as próprias amostras de calibração, e suas
respectivas respostas instrumentais, que foram usadas na construção do modelo. O método de
validação cruzada leave-one-out realiza esse cálculo deletando uma amostra por vez, e
calculando o modelo na sua ausência.A habilidade de previsão deste modelo é, então, testada
utilizando a amostra que foi mantida fora da construção do mesmo. Este procedimento é
repetido até que todas as amostras de calibração disponíveis tenham sido excluídas uma vez e
reincorporadas no modelo, individualmente. A estimativa de erro é dada pela raiz quadrada do
erro médio de validação cruzada (RMSECV, do inglês, root mean square error of cross
validation), que é definido como:
Número de componentes
Err
o d
e p
red
içã
o
Underfitting Overfitting
(13)
44
Em que ŷcv,i é a estimativa para yi baseada na equação da calibração (construção do
modelo) com a amostra i excluída, e N é o número de amostras do conjunto de calibração36
.
Os valores de RMSECV são calculados para todas as componentes (ou fatores) do
modelo e plotados em um gráfico como função das mesmas. Através desse gráfico é possível
observar um ponto em que o erro se torne mínimo (conforme ilustrado na Figura 16) e esse,
então, deve ser o número ideal de componentes a ser selecionado.
1.5.2 Regressão por mínimos quadrados parciais – PLS
O método dos mínimos quadrados parciais é um tipo de regressão multivariada
amplamente utilizado em análises quantitativas, uma vez que o mesmo correlaciona dados
espectroscópicos (matriz X) com uma ou mais propriedade(s) química(s) ou física(s) de
interesse (matriz Y). O PLS é baseado em variáveis latentes (ou componentes PLS)uma vez
que a decomposição da matriz X durante a regressão é guiada pela variação em Y, ou seja, a
covariância entre X e Y é maximizada. Para tanto, ocorrem pequenas distorções nas direções
dos loadings, de modo que estes perdem sua ortogonalidade, sendo essa uma diferença
importante comparada à PCA, onde tais vetores ainda são ortogonais entre si37,39
. Esta
diferença leva a componentes PLS que são mais diretamente relacionadas à variabilidade em
Y do que são as componentes principais (PC)34,36,42
. As matrizes X e Y são relacionadas
através de operações lineares algébricas entre seus scores, T. Estes são obtidos pela
decomposição de X e Y em matrizes menores, de acordo com o seguinte esquema:
(14)
(15)
45
Em que:
X é a matriz das respostas instrumentais;
Y é a matriz das respostas da propriedade de interesse;
T são os scores de X e Y;
P e q são os loadings de X e Y, respectivamente;
E e f correspondem às matrizes residuais de X e Y, respectivamente;
A é o número de variáveis latentes utilizadas para o desenvolvimento do modelo.
As estimativas (previsões) da propriedade de interesse (ŷ) para um dado conjunto de
amostras são obtidas pela multiplicação da matriz original das respostas instrumentais (X)
pelo vetor de regressão apropriado (b), conforme a equação abaixo:
Em que W é a matriz loadings weights, determinada durante os cálculos do algoritmo
PLS36,43
.
Alguns parâmetros relativos ao erro devem ser considerados para a avaliação da
eficiência de um modelo multivariado tanto na fase em que o mesmo está sendo construído,
ou seja, na calibração, quanto na utilização do modelo para novas amostras desconhecidas
(previsão). O erro padrão de previsão (SEP, do inglês, standard error of prediction) pode ser
definido como um desvio padrão dos resíduos de previsão, conforme a equação 17, abaixo36
:
Em que em que ŷi é o valor estimado calculado pelo modelo para uma dada amostra i,
yi é o valor medido pelo método padrão, e Np é o número de amostras de previsão.O BIAS
pode ser definido como o somatório do erro sistemático presente no modelo44
e é calculado
como mostrado na equação 18, a seguir:
(16)
(17)
46
Outro tipo de medidor de erro também amplamente utilizado na calibração
multivariada é o RMSEP, raiz quadrada do erro médio de previsão (do inglês, root mean
square error of prediction). Este é calculado por:
A relação entre o SEP e RMSEP é simples36
:
Em que a igualdade não é utilizada, pois o denominador do SEP é (Np-1) enquanto o
do RMSEP é apenas (Np).
Preferencialmente, o RMSEP é muito mais utilizado quando comparado ao SEP. A
justificativa para isso é que o SEP é uma medida da precisão do modelo, ou seja, a diferença
calculada entre repetidas medições. Já o RMSEP refere-se à exatidão e precisão do método
multivariado, uma vez que mede a diferença entre o valor real e o estimado pelo modelo.
É importante mencionar que todos esses erros também são aplicados à calibração do
modelo, onde recebem a letra C ao final das suas siglas, tornando-se RMSEC e SEC, sendo
calculados de maneira similar ao apresentado anteriormente, para a previsão.
Em que A representa o número de variáveis latentes ou componentes do modelo
multivariado.
(18)
(19)
(20)
(21)
47
1.5.3 Redes neurais artificiais – ANN
Na química analítica nem sempre uma abordagem linear pode proporcionar os
melhores e mais adequados resultados para determinada análise. Muitas causas de não
linearidade podem ser observadas em dados espectroscópicos, como, por exemplo, no caso da
lei de Beer que relaciona linearmente a absorbância de espécies em uma mistura às suas
concentrações, desde que se trate de um sistema diluído ou não saturado. Outros tipos de
desvio da linearidade podem ocorrer se a amostra for altamente absorvente ou não
homogênea, se os tamanhos das partículas não forem constantes para todas as amostras (no
caso de espécies cristalinas), se alguns sinais forem significativamente sobrepostos, se
houverem alterações na temperatura durante a análise, imperfeições na ótica do equipamento
utilizado, interações intermoleculares entre os constituintes das amostras, presença de
umidade induzindo à formação de ligações de hidrogênio, entre outros fatores36,45
. Na
presença de um ou mais destes fatores, a relação entre X e Y não será perfeitamente linear,
havendo moderada ou forte não linearidade que levará a altos erros se uma abordagem linear
for empregada. Na calibração multivariada, o PLS, apesar de amplamente utilizado por
apresentar resultados satisfatórios em diversos tipos de análises, tenderia a altos valores de
erros em suas determinações, por se tratar de um método de regressão linear36
. Em algumas
situações, a presença de não linearidade pode ser corrigida através de pré-processamentos
espectrais (suavizações, derivadas, correções de espalhamento de luz, etc) ou mesmo pela
incorporação de um número maior de componentes (ou fatores) aos modelos multivariados
lineares. Uma regra geral para detecção da presença de não linearidade em um conjunto de
dados é feita através da observação dos resíduos de um modelo linear36,45
. Os resíduos são a
medida do erro entre o valor real e o valor predito pelo modelo, (y – ŷ). O gráfico plotando os
valores de resíduo contra os valores estimados do parâmetro pode evidenciar facilmente não
linearidade quando os pontos apresentarem comportamentos tendenciosos (Figura 17-b) ou
curvaturas (Figura 17-c), uma vez que deveriam posicionar-se aleatoriamente, em torno do
zero (Figura 17-a).
48
Figura 17-Exemplos de gráficos de valores de resíduos contra valores estimados de um determinado parâmetro:
a) apresentando posicionamento aleatório em torno do zero; b) apresentando comportamento
tendencioso; c) apresentando curvatura.
Fonte: referência
44.
Entretanto, quando as aproximações lineares não funcionam bem, métodos de
regressão mais complexos devem ser utilizados, visando a obtenção de resultados cada vez
mais próximos aos valores reais. As redes neurais artificiais (ANN, do inglês, artificial neural
network)apresentam-se como um dos métodos de regressão multivariada não linear bastante
utilizado para modelagem de dados de natureza mais complexa, como os não lineares36,45
.
As redes neurais vêm do campo da inteligência artificial e foram desenvolvidas com a
motivação inicial de “imitar” algumas características únicas do cérebro humano, como a
habilidade de aprender mecanismos gerais a partir de um número limitado de exemplos45
. Na
calibração multivariada, as redes neurais permitem estimar relações entre variáveis
independentes (X) e respostas ou variáveis dependentes (Y). A informação fornecida a uma
rede é distribuída entre diversas células (nodos ou neurônios) e suas conexões, chamadas
“pesos” (do inglês, weights)45
. Um exemplo simples de uma rede neural multicamadas do tipo
back-propagation é mostrado a seguir, através da Figura 18.
49
Figura 18 -Ilustração do funcionamento de uma rede neural artificial: a) passo para frente;
b) propagação para trás do erro.
Fonte: adaptado da referência
38.
A rede mostrada possui apenas 4 variáveis espectrais, x1a x4, e uma única resposta y. A
informação é inicialmente armazenada na camada de entrada (input layer) e então pesada
através das conexões w’ij entre as camadas de entrada e escondida (hidden layer). Por sua vez,
a camada escondida recebe essa informação já processada e realiza duas funções:
i) Um somatório das informações pesadas seguido por uma projeção em uma
função de transferência fh(hiperbólica)para produzir uma ativação;
ii) As ativações da camada escondida são novamente pesadas pelas conexões w’’j
e enviadas aos nodos da camada de saída (output layer).
Da mesma forma, na camada de saída é realizado um novo somatório e a informação
resultante é encaminhada à função de transferência fo(linear). Assim, o valor predito (resposta
estimada) contido no único nodo da camada de saída é calculado da seguinte maneira45
:
Em que nd e nh são o número de variáveis de entrada e nodos na camada escondida.
As conexões w’ij e w’’j e os biases θ’ e θ’’ são parâmetros ajustáveis pelo algoritmo no
momento em que os cálculos estão sendo realizados. Esses parâmetros são determinados
Camada de
entrada
Camada
escondida
Camada de
saída
“passo para frente”
Camada de
entrada
Camada
escondida
Camada de saída
Propagação para trás do erro
(22)
50
através de um procedimento iterativo chamado training ou learning. Inicialmente, são
atribuídos valores aleatórios a todos os parâmetros passíveis de ajuste e, então, o treinamento
é iniciado, passando por duas etapas principais:
1. A primeira parte consiste no forward pass (ou “passo para frente”). Essa etapa é
realizada pela rede utilizando um conjunto de amostras de treinamento (training set)
onde os valores experimentais de y (obtidos por metodologia padrão) são conhecidos.
Ao fim desse passo, a magnitude do erro entre o valor real e o estimado é calculada;
2. Com os valores de erro calculados ao fim do passo 1, inicia-se a segunda etapa,
chamada de back-propagation pass (ou “passo de propagação para trás”). Nesse
momento, o erro calculado é propagado por todas as conexões da rede, seguido pelo
ajuste das mesmas no sentido de diminuir a diferença entre o valor real e o calculado
pelo modelo.
Esses dois passos constituem uma iteração ou época. No momento em que as conexões
são ajustadas, uma nova época é iniciada até que nenhuma melhora significativa do erro seja
alcançada. Neste momento, a arquitetura da rede está otimizada45
.
É importante enfatizar uma característica marcante das redes neurais: sua flexibilidade.
As redes podem ser aplicadas a dados que apresentem comportamento não linear mesmo
quando a fonte da não linearidade não é bem determinada, o que em acontece em diversos
casos45
. Graças a sua habilidade de conseguir ajustar uma relação entre X e Y a partir de um
conjunto de amostras de treinamento, as redes podem evitar gasto de tempo desnecessário
devido à tentativa da construção de um modelo multivariado por outros métodos. Em
compensação, a desvantagem dessa grande flexibilidade pode ser o sobreajuste dos dados de
calibração, levando a uma baixa habilidade de generalização, ou seja, a capacidade do modelo
produzir respostas corretas quando novas amostras forem fornecidas à rede (previsão). Os
cálculos dos erros nas redes neurais são realizados da mesma maneira conforme apresentado
no item 1.5.2para o PLS45
.
1.5.4 Pré-processamento de dados
A área de pré-processamento de sinais apresenta-se como uma das subdivisões
fundamentais dentro da quimiometria. O princípio comum a todos os diversos métodos de
51
pré-processamento é que os dados contenham o mínimo possível de informações irrelevantes
para que possam,então, ser usados na construção de modelos multivariados.Dessa forma, a
aplicação de um simples pré-processamento pode causar uma grande melhoria na qualidade
do modelo final por maximizar a razão sinal/ruído e a quantidade de informação química
referente aos analitos, ignorando a presença de efeitos físicos que causam variações aleatórias
e sistemáticas às medidas instrumentais34,36
. Atualmente, diversos são os métodos de pré-
processamento existentes. Dentre eles, o filtro digital ou suavização (do inglês, smoothing), o
cálculo da derivada, a correção do espalhamento de luz (para o modo de reflectância) e a
centragem na média (do inglês, mean centering) tem um papel de destaque em dados
espectroscópicos complexos, como os espectros NIR.
1.5.4.1 Centragem na média
É um dos pré-tratamentos mais simples. Primeiramente, calcula-se a média de cada
variável, conforme a equação abaixo:
Onde Xcj é a matriz dos dados Xij contido em uma coluna (variáveis). Em seguida,
subtrai-se os dados originais pela média calculada:
Esse pré-tratamento é utilizado com o objetivo de diminuir a flutuação do sinal
analítico (offset) que pode ocorrer devido a efeitos físicos ou erros sistemáticos. Após essa
correção, as flutuações no sistema são causadas devido à composição química das amostras40
.
1.5.4.2 Suavização ou filtro digital
Esse tipo de pré-tratamento visa aumentar a relação sinal/ruído o máximo possível,
uma vez que quanto maior for esse valor, maior será a intensidade do sinal em comparação ao
padrão ou “branco” (background). Os melhores métodos de suavização são aqueles que
(23)
(24)
52
pesam os dados originais diferentemente através de operações polinomiais e não por funções
lineares, pois estas tendem a diminuir a intensidade no ponto central do pico, levando a perda
de informação37
. A suavização Savitzky-Golay46
é um tipo de filtro polinomial dos mais
utilizados em dados espectrais e consiste em aplicar regressões polinomiais através de uma
janela de k pontos, movendo-se um ponto por vez. Os coeficientes da função calculam o valor
do ponto central da janela, que será o valor suavizado, conforme a equação abaixo34
:
Onde NORM é o fator de normalização obtido a partir do somatório dos coeficientes
cj.
Ao se utilizar filtros digitais é importante determinar a melhor largura da janela de
pontos para cada conjunto de dados em particular. Quando a suavização é feita em excesso os
picos dos sinais são prejudicados tanto em intensidade quanto em resolução. Se, por outro
lado, a suavização aplicada não for suficiente, mesmo após a sua utilização o ruído ainda
permanecerá37
.
1.5.4.3 Derivada
O cálculo das derivadas é comumente empregado em dados espectroscópicos para
remover deslocamentos de linha de base e espalhamentos ou flutuações do sinal analítico, e
também para melhorar a resolução espectral36
. Um dos métodos mais utilizados e de
abordagem sofisticada foi desenvolvido por Savitzky-Golay46
que, da mesma forma que na
suavização, aplica regressões polinomiais para o cálculo de derivadas de primeira ou segunda
ordem. Também é necessário selecionar uma janela de pontos (medidas instrumentais) nos
quais será aplicada a derivada. A derivada de primeira ordem iguala a zero o ponto central de
um pico, sendo esse um bom modo de localizar precisamente a posição de picos largos.
Entretanto, a diferenciação pode trazer algumas desvantagens como a diminuição da razão
sinal/ruído, uma vez que tal cálculo tende a amplificar o ruído, especialmente em dados muito
ruidosos. Para evitar tal efeito, é indicado que junto à aplicação da derivada seja realizada
uma suavização nos dados37
.
(25)
53
1.5.5 Seleção de amostras
Quanto maior o número de amostras disponível para construção do modelo,
provavelmente,melhor será a eficiência do mesmo. Mas não é este o único fator importante
relacionado às amostras utilizadas. Uma escolha correta das amostras de calibração e previsão
também desempenha um papel fundamental na habilidade de previsão e eficiência de um
modelo multivariado, evitando, ainda, situações de extrapolações. As amostras de calibração
devem ser escolhidas de modo que as de validação (previsão) sejam bem representadas pelas
primeiras36
. Quanto mais representativo for o modelo na calibração, menor é a chance de erro
frente a amostras desconhecidas. Uma ótima e muito utilizada forma de seleção de amostras é
através do algoritmo Kennard-Stone47
.O algoritmo calcula a distância Euclidiana entre os
vetores x para cada par de amostras (p,q), dada por:
Em que xp (j) e xq(j) são respostas instrumentais nos j-ésimos comprimentos de onda
para as amostras p e q, respectivamente. J representa o número de comprimentos de onda de
um espectro, por exemplo48
.
De acordo com Dantas Filho49
, a seleção inicia-se escolhendo o par (p1,p2) de
amostras para as quais a distância dx (p1,p2) seja maior. Em cada interação subsequente, o
algoritmo seleciona a amostra que apresentar maior distância em relação a alguma amostra já
selecionada48
.Esse procedimento é repetido até que o número desejado de amostras para cada
conjunto seja alcançado. Dessa forma, garante-se que as amostras de calibração sejam aquelas
com maior variabilidade, ou seja, que carregam o máximo de informações químicas e físicas
relacionadas às propriedades das amostras, e que as amostras desconhecidas sejam
devidamente bem contempladas36
.
1.5.6 Seleção de variáveis
Na calibração multivariada, selecionar variáveis a partir de um conjunto de dados
espectrais significa escolher uma ou mais partes das respostas instrumentais para utilização na
construção de modelos. É, portanto, uma alternativa à utilização de toda faixa espectral,
(26)
54
podendo tornar os modelos mais simples, robustos e de fácil interpretação, além de contribuir
para facilitar a aquisição dos dados espectrais36
. Ainda, tal ferramenta pode também melhorar
sobremaneira os resultados de um dado modelo multivariado, seja ele linear ou não linear,
tornando-o mais exato em suas determinações, uma vez que serão consideradas somente as
regiões que contenham informações úteis à análise, e eliminadas aquelas que contribuem
apenas como fontes de incertezas e adição de ruídos50
. Neste trabalho, foram empregados os
algoritmos iPLS (do inglês, interval partial least squares), SPA (do inglês, successive
projections algorithm) e o GA (do inglês, genetic algorithm) como métodos de seleção de
variáveis.
1.5.6.1 Mínimos quadrados parciais por intervalos – iPLS
É um dos métodos mais simples para seleção de variáveis, considerando que o mesmo
seleciona faixas espectrais e não variáveis isoladas. O iPLS é uma extensão do PLS, onde são
construídos diversos modelos independentes por mínimos quadrados parciais utilizando
subdivisões equidistantes, dentro de toda a faixa espectral51
, conforme ilustrado na Figura 19.
Figura 19 - Seleção de variáveis, via iPLS, dentro de uma área espectral ampla.
Fonte: Autor.
As faixas espectrais que supostamente apresentam ruídos e informações prejudiciais à
análise são ignoradas e, então, um novo modelo PLS é feito utilizando somente a(s) faixa(s)
espectral que apresentou os melhores resultados. A identificação das melhores sub-regiões é
feita através da comparação dos valores de RMSECV para cada modelo iPLS comparados ao
55
modelo global (com toda a faixa espectral). O subintervalo que apresentar o menor erro será a
faixa correspondente às variáveis selecionadas pelo método50
.
1.5.6.2 Algoritmo das projeções sucessivas – SPA
É um tipo de algoritmo de seleção de variáveis que, através de diversas projeções
vetoriais, seleciona as variáveis espectrais mais relevantes, com o mínimo de colinearidade e
redundância, para construção de modelos multivariados52
. Seu procedimento inicia
selecionando uma única variável (comprimento de onda) e continua incorporando novas
variáveis à medida que são realizadas as iterações, até que um número N de comprimentos de
onda seja alcançado53
. Devido ao modo como as projeções vetoriais são realizadas, o SPA
tem um número máximo de variáveis que podem ser selecionadas; este número é sempre
menor ou igual à quantidade total de amostras de calibração53
.
1.5.6.3 Algoritmo genético – GA
O algoritmo genético é um método de seleção variáveis que tenta “copiar” condições
evolucionárias, onde variações aleatórias na composição genética combinadas com a seleção
dos indivíduos mais adaptados leva a progressivas melhorias em seus descendentes36
.
Baseado em inteligência artificial, as variáveis são representadas por genes em um
cromossomo, e são selecionadas através dos cromossomos que apresentam maior aptidão ou
capacidade de adaptação, ou seja, as variáveis que apresentam os menores somatórios dos
erros quadráticos de previsão ou de validação cruzada36
. As variáveis são representadas por
códigos binários, onde aquelas que forem selecionadas recebem o código 1, enquanto as
excluídas, 0. Os operadores genéticos básicos que envolvem o procedimento são a seleção, o
cruzamento e a mutação. O processo de seleção copia cromossomos “parentes” na tentativa de
gerar uma nova população.
56
Figura 20 -Ilustração esquemática do princípio de funcionamento do algoritmo genético.
Fonte: adaptado da referência
36.
O cruzamento consiste em compartilhar informação útil entre dois indivíduos bem
adaptados, conforme visto na Figura 20. As variáveis que serão cruzadas são escolhidas
aleatoriamente, dando origem a novos descendentes que carregam genes de ambos os
parentes. Por último, acontece a mutação (Figura 21)que inverte aleatoriamente os genes
escolhidos em um cromossomo, a uma dada probabilidade de mutação54,55
.
Figura 21- Ilustração esquemática da etapa de mutação que acontece no algoritmo genético.
Fonte: adaptado da referência
36.
Todo esse processo se repete, onde os cromossomos já modificados terão maiores
chances de serem escolhidos nas próximas seleções. O ciclo de evolução, conforme
esquematizado na Figura 22, é repetido até que um critério de parada desejado seja
alcançado46
.
Mutação
Antes: 0 1 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 Depois: 0 1 0 0 1 0 1 0 0 1 0 1 1 0 1 0 0 0
57
Figura 22 - “Ciclo de evolução” básico do algoritmo genético.
Fonte: adaptado da referência46
.
Esse critério pode ser ajustado através do número de ciclos de evolução, pelas
probabilidades de mutação e cruzamento ou por um valor pré-definido de aptidão dos
cromossomos55
.
1.5.7 Detecção de amostras anômalas (outliers)
Existem diversas razões para que uma amostra seja considerada como anômala. Uma
delas é se uma dada amostra pertencer a uma população diferente das demais (“normais”) de
modo que a relação entre as variáveis (X) dessa amostra será significativamente diferente da
outras. Outro ponto importante é quando o instrumento utilizado para obtenção das medidas
não está funcionando corretamente, o que pode levar a um sinal errôneo ou enganoso de uma
só amostra, ou até mesmo, de uma grande quantidade delas. Ainda existem os erros causados
durante as metodologias de referência, que fornecerão valores Y (de um parâmetro) com
grandes fontes de incerteza.É importante mencionar que outliers não são necessariamente
observações errôneas, mas, simplesmente, observações diferentes da maioria e podem,
provavelmente, ter grande influência sobre os resultados36,43
.
É muito importante determinar a presença de amostras anômalas nas fases de
calibração e previsão de um modelo multivariado. Especialmente, as amostras de calibração
são utilizadas para a construção do modelo e se contiverem outliers presentes e estas forem
População P(t)
Seleção
Cruzamento
Mutação
População P(t+1)
Reprodução
Avaliação de aptidão
Decodificar cadeia
58
incorporadas, poderão prejudicar a equação final, o que trará consequências para amostras
futuras36
. Também é muito útil distinguir qual o tipo de outlier em questão para tomar a
decisão de excluí-la ou não da construção de um modelo. As amostras anômalas podem ser
consideradas em duas diferentes classes:
Anômalas em x: são aquelas que, de algum modo, o vetor com suas medidas
instrumentais (X) está posicionado anormalmente em relação à maioria do
conjunto de dados;
Anômalas em y: são observações que apresentam uma relação diferente entre
X e Y;
As outliers em x são relevantes tanto quando são amostras de calibração quanto de
previsão, uma vez que ambos os tipos têm um vetor de medidas instrumentais (x). Através da
Figura 23, é possível observar o efeito que uma amostra anômala (um tipo de outlier em cada
gráfico) pode causar nas regressões dos modelos.
Figura 23 - Detecção de amostras anômalas em modelos lineares: (a) anômala em y; (b) anômala em x e y; (c)
anômala em x.
Fonte: adaptado da referência
36.
xm x
y(a)
xm x
y(b)
xm x
y(c)
59
Na Figura 23(a), a amostra anômala é do tipo outlier em y uma vez que está próxima à
média de x, e influencia suavemente a equação de regressão. No segundo caso, Figura 23(b), a
outlier é anômala tanto em x quanto na relação entre x e y, tendo uma influência muito forte
sobre a regressão. No último caso, Figura 23(c), a amostra é anômala em x, mas está
posicionada bem próxima à linha reta do ajuste da regressão, tendo, assim, pouco efeito sobre
a equação de regressão. Desse modo, é sempre indicado avaliar o conjunto de dados em
busca, principalmente, das amostras anômalas que exerçam forte influência sobre o ajuste da
regressão36
.
Neste trabalho a detecção de outliers na construção de modelos PLS foi feita seguindo
as recomendações da norma E1655-00 da ASTM (do inglês, American Society for Testing and
Materials), conforme descrito nas referências 39 e 40. Deste modo, a análise das amostras é
feita baseando-se no leverage extremo, nos resíduos não modelados nos dados espectrais e
nos resíduos não modelados na variável dependente.
O leverage representa o quanto uma amostra está posicionada distante em relação ao
centro dos dados, e pode ser definido como:
Em que T representa os scores de todas as amostras de calibração ou previsão, ti é o
vetor dos scores é de uma amostra em particular e A é o número de variáveis latentes do
modelo.
As amostras que apresentarem o valor de hi calculado superior ao valor do limite (hlim)
deverão ser removidas do conjunto de dados, para posterior construção do modelo. O valor
limite para o leverage é calculado da seguinte maneira:
Tendo I como o número de amostras de calibração (ou previsão).
A análise de outliers baseada nos resíduos espectrais não modelados é realizada por
meio da comparação do desvio padrão residual total (s(e)) com o desvio padrão residual de
uma amostra (s(ei)). As equações abaixo são utilizadas para o cálculo dos resíduos total (29) e
individual de uma amostra (30).
(27)
(28)
60
Em que J é o número de variáveis espectrais, xij é o valor de absorbância da amostra i
no comprimento de onda j, e xeij é o seu valor estimado usando A variáveis latentes.
Se uma amostra apresentar s(ei) >ns(e), em que n é uma constante que pode variar de 2
ou 3, a amostra deve ser removida do conjunto de dados. Neste trabalho, o valor atribuído
para a constante foi igual a 2, que fornece bons resultados, sendo capaz de perceber amostras
com resíduos significativamente maiores que as demais.
A identificação de amostras anômalas através dos resíduos não modelados nas
variáveis dependentes é feita por comparação do valor do RMSEC (do inglês, root mean
square error of calibration) com o valor do erro absoluto de uma amostra em particular.
Se uma amostra apresenta uma diferença entre o seu valor de referência (y) e o seu
valor estimado (ŷ) maior que o valor da constante (que pode variar de duas a três vezes do
RMSEC) é dita como anômala.
Todos os testes discutidos anteriormente podem ser aplicados à amostras de calibração
ou validação. É importante lembrar que em alguns casos pode acontecer o chamado “efeito
bola de neve” (do inglês, snowball), ou seja, quando amostras anômalas são encontradas em
um modelo, depois de excluídas, o modelo é refeito e novamente são detectadas novas
outliers. A norma da ASTM recomenda que amostras anômalas só devem ser excluídas até o
segundo modelo, onde será construído, ainda, um terceiro modelo, e este deve ser o final.
1.5.8 Testes estatísticos
É muito importante que os métodos analíticos sejam livres de erros sistemáticos, uma
vez que os mesmos influenciam diretamente na exatidão ou acurácia dos resultados. Os testes
(29)
(30)
(31)
61
de significância são utilizados de modo a se avaliar se a diferença entre um valor obtido e um
valor esperado (real) é causada apenas pela ocorrência dos erros aleatórios (e não
sistemáticos). Se a diferença calculada entre os valores das medidas for significativa a uma
determinada probabilidade, é atribuída a presença de erros sistemáticos ao método em
questão44
.
Um dos testes mais utilizados para comparação de dois métodos analíticos é o teste t
(ou t pareado). Ao se avaliar a diferença entre as medidas fornecidas por dois métodos
analíticos distintos é preciso considerar a provável presença de erros aleatórios nas análises, a
variação entre as amostras (por exemplo, amostras com diferentes valores de concentração do
analito) e, ainda, a variação entre os próprios métodos analíticos em questão. Neste último
quesito é que está o objetivo do teste t: avaliar se os métodos produzem resultados
significativamente diferentes. A grande vantagem do teste t pareado, calculado conforme
equação 32, para esta aplicação é que o mesmo é capaz de separar a diferença entre os
métodos da diferença entre as amostras, por meio do cálculo de d, que representa a diferença
entre cada par de medidas (resultados dos dois métodos), para uma única amostra.
Em que dm e sd são a média e o desvio padrão, respectivamente, de d, a diferença entre
valores pareados; e n representa o número de amostras.
A hipótese nula avaliada é se dm difere significativamente de 0 (zero). O valor de t
calculado é comparado com um valor de t crítico (ou limite, tcrit) que é tabelado e selecionado
de acordo com os graus de liberdade de t (n – 1). Se t > tcrit, então, existe diferença
significativa entre os dois métodos analíticos, ao nível de confiança utilizado.
A probabilidade de que a hipótese nula seja aceita (ou seja, que não haja diferença
entre os dois métodos, ou que a diferença seja causada por erros aleatórios ou acaso) é
chamada de nível de confiança e usualmente vale 95%. Isso quer dizer que existe em média1
a cada 20chances (nível de significância 5%) de que a hipótese nula seja rejeitada mesmo
quando ela, de fato, for verdadeira. Existem outros níveis de confiança que também podem
ser utilizados, e quanto maior for o nível de confiança, maiores serão as chances de que
hipótese nula seja aceita (ou verdadeira), logo, menos rigoroso será o teste. É possível
observar esse comportamento, facilmente, através da Figura 24.
(32)
62
Figura 24 - Propriedades da distribuição normal: (i) aproximadamente 68% dos valores caem em ± 1σ da média;
(ii) aproximadamente 95% dos valores caem em ± 2σ da média; (iii) aproximadamente 99,7% dos valores caem
em ± 3σ da média.
Fonte: referência44
.
Para uma distribuição normal com média μ e desvio padrão σ, a probabilidade de que
os valores caiam entre ± σ da média é de 68%. Aumentando a probabilidade para 95%, os
valores podem variar em ± 2σ da média. No último caso, a uma probabilidade de 99,7%, os
valores podem em até ± 3σ da média.
Outro tipo de teste de significância é o teste F, utilizado quando se deseja comparar a
precisão entre dois métodos, dessa forma, é feita a análise dos erros aleatórios das medidas,
utilizando as suas variâncias (ou quadrados dos desvios padrão). Por definição, o teste F é
expresso da seguinte maneira:
(33)
63
Em que a hipótese nula é s12 = s2
2, ou seja, não existe diferença significativa (a um
nível de confiança) entre as variâncias dos dois métodos. O valor calculado de F é comparado
com os valores críticos deste critério para os graus de liberdade n1 – 1 e n2 – 1, para o
numerador e denominador, respectivamente.
Neste trabalho, foi realizada uma aproximação do teste F, descrito acima, onde foram
utilizados os valores de RMSEP de diferentes modelos PLS, como forma de obter estimativas
de suas precisões.
O EJCR (do inglês, elliptical joint confidence region) é também um tipo de teste de
significância muito utilizado na calibração multivariada. O objetivo do mesmo, de forma
similar ao teste t, é detectar a presença de erros sistemáticos em um método analítico,
avaliando, assim, a exatidão do mesmo, comparada a de um método padrão (referência). Os
cálculos envolvem comparar as inclinações e interceptos das regressões lineares entre ambos
os métodos alternativo e de referência. A equação 34, abaixo, é utilizada para o cálculo da
elipse de confiança.
Em que â e þ são a inclinação e intercepto estimados; a e b são a inclinação e
intercepto do método padrão; Ndat é o número de amostras; cact são os valores reais (referência)
do parâmetro (ex. concentração); s2
é a variância do método analisado e Fα,2,Ndat-2 é o valor de
F crítico com 2 e (Ndat -2) graus de liberdade, a um nível de confiança (usualmente, 95%).
Se o ponto crítico (1,0) correspondente à inclinação e intercepto, estiver contido na
elipse de confiança calculada, então a hipótese nula é aceita, afirmando que as diferenças
observadas entre os dois métodos analíticos são provenientes de erros aleatórios e não
sistemáticos56
.
1.6 ESPECTROSCOPIA NIR E CALIBRAÇÃO MULTIVARIADA APLICADAS EM
ANÁLISES CLÍNICAS
A espectroscopia NIR é uma técnica promissora e tem sido bastante utilizada nos ramo
de análises clínicas, uma vez que não necessita de reagentes específicos, os equipamentos são
de fácil utilização, a obtenção dos espectros pode ser realizada de forma bastante rápida e,
(34)
64
ainda, oferece a possibilidade de análises simultâneas mesmo em matrizes extremamente
complexas, como as biológicas (sangue, plasma ou soro sanguíneo, urina). Entretanto, é bem
estabelecido que os dados NIR são bastante complexos e, especialmente para amostras
biológicas, a maior dificuldade para análises de constituintes do sangue é que os mesmos
apresentam sinais muito fracos na região NIR, quando comparados àqueles provenientes da
água presente nas amostras. De forma a superar tais dificuldades, o emprego da
espectroscopia NIR vem aliado à aplicação da quimiometria (análise multivariada).Isso é o
que permite utilizar tais dados complexos, aproveitando somente a informação significativa e,
inclusive, ignorando a presença dos vários interferentes contidos nas amostras57-60
. Em
análises clínicas, tal combinação (quimiometria e espectroscopia NIR) tem sido
constantemente relatada na literatura, fornecendo resultados bastante relevantes.
Hazen e colaboradores determinaram os níveis de proteínas totais, albumina,
globulina, triglicerídeos, colesterol, ureia, glicose e lactato em plasma sanguíneo, usando
espectroscopia NIR e calibração multivariada. Modelos PLS forneceram valores de RMSEP
de 3,23 mg dL-1
para glicose61
. Kang e colaboradores empregaram espectroscopia NIR e
ferramentas multivariadas para a quantificação de colesterol, glicose e ureia, em amostras de
soro sanguíneo bovino. Os melhores resultados para a previsão de colesterol, glicose e ureia
apresentaram valores de RMSEP de 6,68, 10,35 e 1,28 mg dL-1
, respectivamente57
.
Kassemran e colaboradores desenvolveram modelos PLS, usando a espectroscopia NIR, para
a determinação de glicose em soro sanguíneo bovino. Os autores obtiveram modelos
mostrando valores de RMSEP de 25,31 mg dL-1
e coeficiente de correlação de 0,9962
. Em
outro experimento, Petter e colaboradores propuseram determinar as quantidades de HDL e
LDL em soro sanguíneo humano, através da espectroscopia NIR e técnicas de calibração
multivariada (PCR, do inglês, principal component regression, e PLS). Os autores usaram
como adsorvente o TiO2, para imobilizar seletivamente o LDL e HDL e, posteriormente,
analisaram as amostras via espectroscopia NIR com reflectância difusa. Neste trabalho, as
amostras de soro pré-tratadas foram previstas através de um modelo PLS, onde o desvio
padrão do método de referência em relação aos valores previstos pelo NIR, para seis amostras
numa faixa de concentração de 500 a 2500 ppm, foi menor que 10%63
. Filho e Poppi
avaliaram o uso da espectroscopia NIR e métodos de calibração multivariada para medir os
níveis de triglicerídeos, em plasma sanguíneo humano. Os autores compararam o desempenho
de técnicas de regressão como PLS e MLR (do inglês, multiple linear regression) como
também do algoritmo genético como método de seleção de variáveis. Para as medições dos
65
níveis de triglicerídeos, a metodologia mostrou erros de aproximadamente 9%, que é um erro
relativo aceitável para este parâmetro64
.
66
2 OBJETIVOS E JUSTIFICATIVAS
“A imaginação é mais importante que a ciência, porque a ciência
é limitada, ao passo que a imaginação abrange o mundo inteiro.”
(Albert Einstein)
É fundamental que os métodos utilizados nas análises de materiais biológicos
contemplem as seguintes características: resposta rápida, precisão, sensibilidade, abrangência,
robustez e seletividade 59,65
. Dentre os métodos que satisfazem tais requisitos, a cromatografia
líquida de alta eficiência (CLAE) utilizando-se de detectores de ultravioleta, fluorescência
e/ou espectrometria de massas tem sido comumente empregadas para determinar
concentrações de princípios ativos de medicamentos e seus metabólitos em fluidos
biológicos60
. Entretanto, fatores como a necessidade de pessoal especializado, para
preparação de reagentes e manipulação das amostras em cada análise, bem como o uso de
equipamentos sofisticados e reagentes específicos, apresentam-se como as principais
limitações destes métodos. Tais fatos têm levado ao crescente desenvolvimento de técnicas
que simplifiquem esses procedimentos, contemplando as características indispensáveis para
esses tipos de análises.
Baseado nas justificativas apresentadas acima, os objetivos do presente trabalho são
enunciados a seguir:
- Realizar uma análise quantitativa de glicose, triglicerídeos e HDL em plasma sanguíneo de
ratos, simultaneamente, a partir dos espectros NIR das amostras, sem o uso de qualquer pré-
tratamento de amostras. Comparar diferentes técnicas de calibração multivariada utilizadas
para seleção de variáveis, tais como iPLS, SPA e GA, em modelos lineares do tipo PLS.
Ainda, avaliar o desempenho destes modelos multivariados antes e após a detecção de
outliers.
- Realizar uma análise quantitativa de glicose, triglicerídeos e colesterol total em plasma
sanguíneo de humanos, simultaneamente, a partir dos espectros NIR das amostras, sem o uso
de qualquer pré-tratamento de amostras. Comparar o desempenho de modelos lineares tipo
PLS e não lineares, tipo ANN, utilizando, ainda, diferentes pré-tratamentos espectrais e
algoritmo genético para seleção de variáveis.
67
3 PARTE EXPERIMENTAL
“A simplicidade é o último grau da sofisticação.”
(Leonardo da Vinci)
3.1EXPERIMENTO EM ANIMAIS
Vinte e três ratos machos e adultos, da raça Wistar, pesando em média 300g, foram
disponibilizados pelo Departamento de Biofísica e Farmacologia Animal da UFRN. Todos os
animais foram expostos às mesmas condições ambientais: controle de luz com ciclos
luz/escuro de 12/12 horas, temperatura e alimentação e água ad libitum. Os animais eram
induzidos a jejum de 12 horas antes de coleta do sangue, que culminava no sacrifício dos
mesmos. O trabalho utilizou dois grupos de ratos, classificados como controle e experimental,
com quatro subgrupos em cada um. O grupo de controle recebeu injeções salinas
intraperitoniais (ip), enquanto o grupo experimental recebeu o antibiótico tobramicina ip, em
dose única (4mg Kg-1
). Os dados utilizados no presente estudo foram obtidos a partir de um
estudo experimental pré-clínico em ratos com o objetivo de avaliar os parâmetros bioquímicos
(glicose, HDL e triglicerídeos) durante o uso de tobramicina por um período de 4 semanas,
uma vez que tal medicamento pode levar a toxicidade renal em função do acúmulo e retenção
do fármaco nas células renais tubulares proximais66,67
. O estudo tentou simular as condições
de dosagem quantitativa e duração do tratamento de infecções graves potencialmente
causadas por Pseudomonas aeruginosa, em humanos68,69
. A cada semana, um subgrupo, de
cada grupo, foi eutanasiado via injeção de tiopental sódico (50 mg Kg-1
) de acordo com o
protocolo aprovado pelo comitê de ética e pesquisa da UFRN, parecer número 177 -
2007,para uso de animais. As amostras de sangue foram submetidas às análises bioquímicas
dos níveis de glicose, triglicerídeos e HDL.
3.2 EXPERIMENTO EM HUMANOS
As amostras de sangue foram coletadas de pacientes portadores de esquizofrenia CID-
10, maiores de 18 anos, de ambos os sexos (masculino e feminino), fazendo uso dos
antipsicóticos risperidona ou olanzapina por pelo menos 6 meses, e que estivessem
cadastrados no Hospital Colônia Dr. João Machado, localizado na cidade de Natal, Rio
Grande do Norte (RN/Brasil). A amostragem contou com 34 indivíduos que consentiram a
68
coleta de sangue domiciliar. Os pacientes foram divididos inicialmente quanto ao tipo de
antipsicótico atípico usado: 15 usuários de olanzapina e 16 usuários de risperidona. Entretanto
outros três pacientes utilizavam olanzapina, mas durante o tratamento tiveram que mudar para
risperidona devido à interrupção do fornecimento da olanzapina, pelo Governo do Estado do
RN.Todos os 34 pacientes, foram divididos em subgrupos em relação ao sexo (masculino ou
feminino): 10 pacientes do sexo masculino e 5 do sexo feminino utilizaram (somente)
olanzapina. Para a risperidona (somente) foram 8 pacientes do sexo masculino e 8 do sexo
feminino. Os três pacientes que trocaram de medicação durante o tratamento eram dois do
sexo masculino e apenas 1 do sexo feminino. Quanto às dosagens bioquímicas, os pacientes
foram previamente orientados a permanecerem em jejum por um período de 8 a 12 horas,
obtendo-se assim as amostras a serem analisadas no Laboratório de Farmacologia da UFRN.
O estudo foi aprovado pelo comitê de ética e pesquisa da UFRN, parecer número 207 – 2009.
3.3 MÉTODOS DE REFERÊNCIA
3.3.1 Plasma de ratos
As amostras de sangue dos ratos sacrificados foram coletadas em tubos Falcon cônicos
de 15 mL (16.5mm x 120mm) e mantidas a temperatura ambiente (25 oC) para coagular. O
soro foi obtido por centrifugação a 3000 rpm durante 10 minutos. Os níveis de glicose, HDL e
triglicerídeos foram determinados pelos métodos glicose oxidase,colesterol oxidase e glicerol
quinase70
, respectivamente, utilizando kits fornecidos pela Bioclin Brasil, e seguindo as
instruções fornecidas. As absorbâncias foram medidas utilizando um BioPlus 2000. As faixas
de variação da concentração, média e desvio padrão dos valores calculados pelos métodos de
referência para glicose, colesterol – HDL e triglicerídeos são apresentados na Tabela 2, a
seguir.
Tabela 2- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo dos 23 ratos Wistar.
Parâmetro Concentração Média Desvio padrão
(mg dL-1
) (mg dL-1
) (mg dL-1
)
Glicose 73 – 130 106,2 15,05
Colesterol – HDL 25,4 –52,7 37,02 7,9
Triglicerídeos 22 – 135 70,6 31,5
Fonte: Autor.
69
3.3.2 Plasma de humanos
As coletas, preparação e dosagens dos níveis de glicose, triglicerídeos e colesterol para
o método de referência foram realizadas de forma idêntica ao descrito no item 3.3.1. A Tabela
3, abaixo, mostra as faixas de variação da concentração, média e desvio padrão dos valores
calculados pelos métodos de referência para glicose, colesterol total e triglicerídeos. Para
esses três parâmetros, o erro máximo aceitável pelo método de referência é de 5% (kits
Bioclin).
Tabela 3- Variabilidade dos parâmetros bioquímicos no plasma sanguíneo humano
de 34 pacientes de esquizofrenia.
Parâmetro Concentração Média Desvio padrão
(mg dL-1
) (mg dL-1
) (mg dL-1
)
Glicose 76 – 260 101,5 31,6
Colesteroltotal 78 – 265 162,5 43,2
Triglicerídeos 30 – 468 124,9 91,8
Fonte: Autor.
3.4 INSTRUMENTAÇÃO NIR
A aquisição dos espectros NIR para as determinações de glicose, triglicerídeos e
colesterol em plasma sanguíneo de ratos e de humanos foi realizada de forma análoga. As
medidas espectrais foram realizadas em um espectrofotômetro MB 160 Bomem FT-NIR
(ABB Bomem, Quebec, Canadá). Os espectros NIR foram obtidos entre 1100 e 2500 nm com
uma resolução de 8 cm-1
. O tempo de medida foi de 41 s (50 varreduras) por espectro. Os
espectros de absorbância foram obtidos utilizando uma cubeta de quartzo de 1mm (NSG
precision cells, Inc., model 21UV1). As amostras foram introduzidas na cubeta utilizando
uma seringa descartável de 1mL. Após cada medida, as células eram limpas utilizando a
sequência: ácido acético glacial, água ultra pura e acetona, e seguidamente secas. A
temperatura foi mantida em 25 oC durante todo o experimento.
70
3.5 ANÁLISE DOS DADOS
3.5.1 Plasma de ratos
As análises dos dados foram realizadas através do software MATLAB versão 6.5 (The
Math-Works, Nastick, USA), utilizando o PLS-toolbox (Engenvector Research, Inc.,
Wenatchee, WA, USA, versão 6.01). Diferentes métodos de pré-processamento foram
utilizados, incluindo cálculo de derivada e suavização Savitzky-Golay (SG), variando o
número de janelas de pontos (3, 5 e 7). As amostras foram divididas em conjuntos de
calibração (17 amostras) e previsão (6 amostras), aplicando o clássico algoritmo de seleção de
amostras Kennard-Stone (KS) aos espectros NIR. Os menores erros quadráticos médios de
previsão (RMSEP) foram obtidos na utilização do número ótimo de fatores PLS, os quais
foram encontrados através da variância das matrizes de resposta instrumental (matriz X) e dos
erros quadráticos médios de validação cruzada, RMSECV. O conjunto de previsão foi
utilizado para testar a habilidade preditiva dos modelos PLS. Os resultados de previsão para
os modelos de calibração construídos através do PLS a partir das regiões espectrais
selecionadas pelo iPLS, GA e SPA foram comparados àqueles encontrados pelo PLS usando
toda a região espectral. Finalmente, os resultados dos melhores modelos para cada parâmetro
foram comparados antes e após a utilização da detecção de outliers.
3.5.2 Plasmas de humanos
As análises dos dados foram realizadas utilizando os mesmos programas
computacionais, conforme descrito no item 3.5.1. Diferentes métodos de pré-processamento
foram utilizados, incluindo cálculo de derivada e suavização SG, variando o número de
janelas de pontos (3, 5 e 7). Inicialmente, as 34 amostras foram divididas entre calibração (24)
e validação (10) para as análises através da regressão linear PLS. Por outro lado, para a
aplicação das redes neurais na construção dos modelos não lineares bem como para
construção de modelos PLS comparativos, as amostras foram divididas em conjuntos de
treinamento (30) e monitoramento (4), através do algoritmo KS. Todos os modelos PLS
foram construídos por validação cruzada, utilizando o método leave-one-out. Os números
ótimos de componentes no PLS foram aqueles que apresentaram os menores erros
quadráticos, entre o valor de referência e o parâmetro medido pelo modelo, RMSECV. Os
modelos ANN foram construídos a partir de um número reduzido de variáveis, utilizando os
71
scores de um PCA do espectro original, suavizado e derivado, como dados de entrada, sob
uma faixa de comprimento de onda de 1100-2500 nm. A arquitetura específica utilizada na
rede foi do tipo back-propagation. Os parâmetros usados no treinamento dos modelos ANN
estão apresentados na Tabela 4.
A rede otimizada, aquela com menor erro de monitoramento obtido (RMSEM, do
inglês, root mean square error of monitoring) e máximo coeficiente de correlação (R²) entre
os valores experimentais e estimados, foi selecionada para cada um dos três analitos. Os
modelos ANN foram construídos a partir do ANN toolbox do MATLAB (versão 7, Math
Work Inc.).
Tabela 4 - Parâmetros de treinamento das redes neurais.
Algoritmo Levenberg-Marquardt
Função de minimização de erro Erro quadrático médio
Aprendizado Supervisionado
Função de transferência Camada de entrada a
Camada escondida Hiperbólica tangente
Camada de saída Linear
Número de interações no
treinamento
10
Número máximo de épocas 500
Número de neurônios de entrada
(componentes principais)
1 – 10
Número de neurônios escondidos 1 – 5
a Nenhuma função de transferência.
Fonte: Autor.
72
4 RESULTADOS E DISCUSSÃO
“Os problemas significativos que enfrentamos não podem ser
resolvidos no mesmo nível de pensamento em que estávamos
quando os criamos.”
(Albert Einstein)
4.1 ANÁLISES EM PLASMA SANGUÍNEO DE RATOS
4.1.1 Atribuição de bandas
Na Figura 25, são observados os 23 espectros NIR de absorbância das amostras de
plasma sanguíneo de ratos. Como cada grupo de átomos envolvidos nas ligações químicas
apresenta sinal específico na região NIR, mesmo apesar de não serem bem definidos, é
possível ser feita uma atribuição dessas bandas observadas nos espectros em função das
estruturas químicas dos parâmetros em análise (glicose, colesterol e triglicerídeos). Na região
por volta de 1150 – 1165 nm são encontrados os sinais provenientes do segundo sobretom de
estiramento assimétrico do grupo CH3 (presente na estrutura química do colesterol e
triglicerídeos). Um pouco mais a frente, na faixa de 1185 – 1195 nm, está presente o segundo
sobretom do grupo CH. Seguindo na região de 1200 a 1210 nm, encontra-se o segundo
sobretom de estiramento simétrico do grupo CH2, bem presente nas estruturas químicas dos
três parâmetros.
Figura 25 -Espectros NIR originais das 23 amostras de plasma sanguíneo de ratos.
Fonte: Autor.
73
Nas faixas de 1395 – 1425 nm e 1500 – 1595 nm estão contidos sinais relativos aos
primeiros sobretons do grupo OH de alcoóis, na forma livre e realizando ligação de
hidrogênio, respectivamente. A forte banda de absorção próxima a 1450 nm foi assinalada
como o primeiro sobretom da ligação OH, na água. O grupo CONH (amida secundária)
quando envolvido em ligação de hidrogênio apresenta sinal na região de 1460 a 1510 nm,
relativo ao primeiro sobretom. Quando livre, o grupamento apresenta primeiro sobretom na
faixa de 1530 a 1670 nm e combinações de estiramentos em 2110 – 2170 nm. Essas bandas
referentes à amida são bastante importantes na determinação de HDL, uma vez que tal
lipoproteína é composta por uma boa quantidade de proteínas, que são formadas através de
aminoácidos unidos por ligações peptídicas. O grupo C=C (alceno), encontrado nas
composições químicas do colesterol e triglicerídeos, possui sinal na faixa de 1675 – 1695 nm,
referente ao primeiro sobretom, e também na faixa de 2135 – 2340 nm, proveniente de
combinações de estiramentos e deformações angulares. O grupo aldeído (presente na estrutura
química da glicose) possui banda de combinação na região de 2190 – 2210 nm. O grupo
COOR (éster), encontrado nas moléculas de triglicerídeos, apresenta segundo sobretom
localizado em aproximadamente 1850 a 1920.
Uma questão importante para esse conjunto de dados é a saturação da banda na faixa
de 1940, referente às combinações de estiramentos e deformações angulares do grupo OH da
água. Para as análises clínicas, a presença de água é altamente prejudicial uma vez que a
mesma apresenta fortes absorções nas mesmas regiões que diversas moléculas biologicamente
importantes, tais como glicose, triglicerídeos e colesterol, e ainda constitui grande parte da
composição química das amostras (cerca de 90% do plasma sanguíneo é composto de água
[6]). Devido a isso, é necessário realizar pré-processamentos nos dados visando diminuir ou
até mesmo remover os efeitos de absorção de água. Dessa forma, conforme visto na Figura
26, a região entre 1900 e 2000 nm foi eliminada antecipadamente ao desenvolvimento de
modelos de calibração para os três parâmetros.
74
Figura 26 - Espectros NIR das 23 amostras de plasma sanguíneo de ratos,
após corte da região de 1900 a 2000 nm.
Fonte: Autor.
A região eliminada leva também informações referentes a outros grupos presentes nas
moléculas como, por exemplo, a banda do segundo sobretom da amida secundária (1910 –
1930 nm). Todavia, como já comentado, as bandas oriundas de combinações e sobretons de
estiramentos e deformações angulares das ligações C-H, OH, N-H e outras, são encontradas
nas regiões entre 1100 – 1900 e 2000 – 2500 nm, tornando-as adequadas para a aquisição de
informações importantes relacionadas aos três analitos e, consequentemente, para seleção de
variáveis e construção de modelos PLS71
. Portanto, neste trabalho, a matriz original será
tratada como aquela obtida após a exclusão da região do sinal saturado (1900 a 2000 nm),
compreendendo exatamente as faixas de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm.
4.1.2 Pré-processamentos espectrais
Alguns pré-processamentos espectrais foram aplicados à matriz original antes da
construção dos modelos multivariados, visando que mais informação útil às análises pudesse
ser considerada para determinação dos coeficientes das regressões multivariadas. A Figura 27,
abaixo, mostra o espectro NIR resultante da aplicação da suavização SG (ou filtro digital)
com janelas de três pontos e polinômio do 1º grau.
75
Figura 27 - Espectro NIR das 23 amostras de plasma sanguíneo de ratos após aplicação da suavização SG
com janelas de três pontos.
Fonte: Autor.
A suavização foi aplicada objetivando aumentar a razão sinal/ruído na matriz das
respostas instrumentais (X). Diferentes janelas de pontos foram testadas e através da Figura
28 é possível perceber o efeito do aumento da largura das janelas polinomiais.
Figura 28 - Ampliação da banda de absorção na faixa de 1450 nm após aplicação da suavização SG
com polinômio do 1º grau; A) janelas de 3 pontos; B) janelas de 11 pontos.
Fonte: Autor.
É possível notar que à medida que a largura da janela de pontos é aumentada, ocorre
um maior efeito de alisamento nas bandas espectrais. Entretanto, esse efeito deve ser
ponderado, uma vez que sendo muito pronunciado, pode acarretar em distorções nas formas
dos picos/sinais, levando a perda de informação química.
76
A Figura 29 mostra as matrizes X após o cálculo da derivada SG de primeira (Figura
29-a) e segunda ordem (Figura 29-b).
Figura 29 - Espectros NIR das 23 amostras de plasma sanguíneo de ratos após a aplicação da derivada SG:
A) primeira ordem; B) segunda ordem.
Fonte: Autor.
O cálculo da derivada é muito utilizado para corrigir flutuações na linha de base e
aumentar a resolução espectral. É muito utilizado em dados espectroscópicos, mas deve-se
considerar que seus efeitos podem ocasionar diminuição da relação sinal/ruído. Sendo assim,
neste trabalho o cálculo da derivada foi realizado sempre conjuntamente à aplicação da
suavização.
4.1.3 Determinação de glicose
A Tabela 5 apresenta os resultados obtidos através dos modelos de calibração, na
região do NIR,descrita no item 4.1.1, para as análises de glicose em plasma sanguíneo de
ratos.Além dos modelos PLS, são visualizados também os resultados dos modelos construídos
após seleção de variáveis, PLS-SPA, PLS-GA e iPLS.Em relação aos pré-processamentos
utilizados, apenas alguns dos resultados são mostrados. Foi observado que os modelos
construídos com dados derivados apresentaram valores de RMSEP mais elevados do que
aqueles construídos utilizando dados originais ou suavizados. Algumas informações
espectrais importantes podem ter sido perdidas quando o cálculo da derivada foi empregado.
77
Tabela 5 - Resultados para os conjuntos de calibração e previsão para glicose: RMSECV, RMSEP, coeficientes
de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos modelos
PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R² RMSECV R² RMSEP Tamanho
(mg dL-1
) (mg dL-1
)
PLS (4) 0,87 13,1 0,85 8,01 1223
PLS (4) S 3 pts 0,84 13,4 0,93 6,32 1221
PLS (4) S 5 pts 0,79 14,8 0,96 5,49 1219
PLS (4) 1D 3 pts 0,92 20,4 0,17 19,47 1221
PLS (4) 1D 5 pts 0,87 21,4 0,37 14,2 1219
PLS (3) 1D 7 pts 0,79 15,7 0,21 14,8 1217
PLS (3) 2D 5 pts 0,88 26,0 0,83 12,1 1219
iPLS (3) 0,99 13,8 0,24 12,5 122
iPLS (3) 0,82 14,1 0,29 16,3 400
iPLS (4) 0,87 13,3 0,47 16,1 600
PLS-SPA (3) 0,79 13,4 0,12 12,0 17
PLS-GA (4) 0,90 9,7 0,84 10,8 321
PLS (4)1 0,89 12,1 0,97 6,08 1221
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers.
Fonte: Autor.
Como forma de comparar a precisão entre os 13 modelos, testes F foram realizados,
utilizando os respectivos conjuntos de previsão. Os resultados mostraram que não existe
diferença significativa (ao nível de confiança de 95%) entre o melhor modelo PLS, o PLS
(4)1(em destaque na Tabela 5), e os outros modelos, exceto PLS (4) primeira derivada (3 pts),
PLS (3) primeira derivada (7 pts), PLS (3) segunda derivada (5 pts), iPLS (3) usando 400
variáveis espectrais e o iPLS (4) usando 600 variáveis espectrais.
Os valores de RMSEP para todos os modelos foram menores que o valor do desvio
padrão encontrado,através do método de referência, por Dantas e colaboradores [68] exceto
para o PLS (4) primeira derivada (3 pts). Os coeficientes de correlação para as amostras de
previsão variaram de 0,17 a 0,97 para todos os modelos. O número de variáveis latentes
utilizadas para os modelos PLS, iPLS, SPA e GA utilizando os espectros NIR foi de 3 ou 4.
Com os modelos PLS, a região espectral (1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm) foi
78
suficiente para prever o parâmetro glicose. A estratégia baseada no uso do GA-PLS teve a
vantagem de utilizar poucas variáveis (321) na construção dos modelos.
O melhor modelo PLS para glicose foi construído utilizando a matriz espectral pré-
processada com suavização SG (janelas de 3 pontos). Duas amostras anômalas foram
excluídas do conjunto de calibração, baseado nos resíduos não modelados na variável
dependente (Y) resultando no modelo PLS(4)1. Na segunda detecção de outliers, nenhuma
amostra anômala foi identificada. Para este modelo, o menor valor de RMSECV e RMSEP
foram 12,10 mg dL-1
e 6,08 mg dL-1
, respectivamente. O coeficiente de correlação na previsão
foi de 0,97, obtido ao se utilizar 4 variáveis latentes.
A Figura 30 mostra a correlação entre os valores medidos e previstos para glicose, em
plasma de ratos, a partir de espectros NIR, com erro (RMSEP) comparável àquele aceitável
pelo método de referência (17,4 mg dL-1
)70
.
Figura 30 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e
validação, em plasma sanguíneo de ratos, para glicose; (o) conjunto de calibração; (*) conjunto de validação.
Fonte: Autor.
Os valores de concentração, para as 6 amostras de previsão, são apresentados na
Tabela 6, a seguir, juntamente aos erros relativos de cada amostra e o erro relativo total do
modelo.
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
R = 0,98
RMSEP = 6,09
79
Tabela 6 - Valores medidos (referência) e preditos (NIR)para as amostras de previsão do melhor modelo, PLS
(4)1, referentes à determinação de glicose.
Amostra Concentração Concentração Erro relativo (%)
Referência (mg dL-1
) NIR/PLS (mg dL-1
)
1 102 102,39 0,39
2 106 102,59 3,21
3 114 109,69 3,77
4 126,5 117,31 7,26
5 122 111,83 8,33
6 99,5 101,53 2,04
4,16
Fonte: Autor.
O cálculo do erro relativo é bastante utilizado quando se deseja avaliar o desempenho
de métodos analíticos, uma vez que permite considerar a incerteza do método em forma de
porcentagem. O erro relativo (em porcentagem) de uma amostra i é calculado através da
seguinte equação:
Em que Vref e Vpred são os valores de concentração obtidos através do método padrão e
alternativo, respectivamente.
Dessa forma, o erro relativo total (em porcentagem) para um número nde amostras é
calculado como segue:
Conforme visto na Tabela 6, o erro relativo encontrado para o melhor modelo PLS foi
de 4,16%. Ainda, de acordo com o teste-t não existe diferença significativa entre o método
padrão e o alternativo, ao nível de confiança de 95%.
Na literatura não são encontrados trabalhos que utilizam espectroscopia NIR e
calibração multivariada para determinação de glicose em amostras reais de sangue de ratos.
(36)
(35)
80
Dessa forma, os resultados aqui obtidos reforçam a aplicabilidade e demonstram a
originalidade do emprego de tal técnica para este tipo de análise bioquímica.
4.1.4 Determinação de triglicerídeos
A Tabela 7 apresenta os resultados obtidos para a determinação de triglicerídeos em
plasma sanguíneo de ratos. De modo geral, modelos que utilizaram dados espectrais pré-
processados por suavização, apresentaram melhores valores de RMSEP do que aqueles com
espectros originais ou pré-processados de forma diferente.
Tabela 7 - Resultados para os conjuntos de calibração e validação externa para triglicerídeos: RMSECV,
RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de
fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R² RMSECV R² RMSEP Tamanho
(mg dL-1
) (mg dL-)1
PLS (3) 0,77 26,2 0,94 21,6 1223
PLS (3) S 3 pts 0,80 25,7 0,97 16,1 1221
PLS (3) S 5 pts 0,78 24,5 0,95 16,8 1219
PLS (3) 1D 3 pts 0,89 34,2 0,41 35,8 1221
PLS (3) 1D 5 pts 0,79 38,8 0,79 21,3 1219
PLS (1) 1D 7 pts 0,57 28,4 0,75 30,8 1217
PLS (2) 2D 5 pts 0,62 32,1 0,41 37,3 1219
iPLS (3) 0,75 27,0 0,97 21,2 122
iPLS (3) 0,76 25,9 0,93 26,0 400
iPLS (4) 0,75 25,7 0,94 24,8 600
PLS-SPA (3) 0,81 28,8 0,92 20,6 17
PLS-GA (3) 0,73 25,6 0,90 20,6 357
PLS (3)1 0,81 24,2 0,92 20,9 1221
PLS (3)2 0,83 23,1 0,94 15,8 1221
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers; 2 duas aplicações de detecção de outliers.
Fonte: Autor.
81
Para a região espectral NIR de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm, os
valores de RMSEP obtidos para todos os modelos foram similares, exceto para os modelos
PLS (3) primeira derivada (3 pontos), PLS (1) primeira derivada (7 pontos) e PLS (2) segunda
derivada (5 pontos). De forma análoga à determinação de glicose (item 4.1.3), um teste F foi
realizado para cada um dos modelos PLS, usando os valores de previsão. Os resultados
mostraram que não há diferença significativa, a um nível de confiança de 95%, entre o melhor
modelo, PLS (3) suavização (3 pontos), e os demais, com exceção dos três modelos já
mencionados que apresentaram os maiores valores de RMSEP (30,80 a 37,30 mg dL-1
).
Para este parâmetro, a seleção de variáveis utilizando os algoritmos iPLS, SPA e GA
produziram bons resultados. Por exemplo, de acordo com a Tabela 7, para o modelo PLS-
SPA (3), o coeficiente de correlação de 0,92 foi obtido para o conjunto de previsão utilizando
apenas 17 varáveis espectrais, e o RMSEP obtido foi abaixo do valor de desvio padrão (24,7
mg dL-1
) obtido através método de referência, por Dantas e colaboradores [70].O iPLS
também apresentou resultado bastante satisfatório. Quando 122 variáveis espectrais foram
utilizadas para construir o modelo iPLS (3), o coeficiente de correlação na previsão foi de
0,97; sendo esse valor idêntico àquele obtido para o melhor modelo. Entretanto, esse modelo
apresenta um maior valor de RMSEP, todavia, ainda menor que o valor do desvio padrão
(24,7 mg dL-1
) pelo método de referência70
.
Três amostras anômalas foram identificadas no conjunto de calibração do melhor
modelo, PLS (3) suavização (3 pontos). Duas foram selecionadas através dos resíduos não
modelados na variável dependente (Y), enquanto a outra foi escolhida através dos resíduos
espectrais não modelados. Estas três outliers foram excluídas e o modelo reconstruído,
resultando no PLS(3)1. Este, por sua vez, não apresentou melhora nos resultados após a
seleção das amostras anômalas. Ainda assim, o PLS(3)1 foi submetido à segunda detecção de
outliers, onde foram apontadas duas novas amostras anômalas (uma na calibração e outra na
previsão) baseado nos resíduos não modelados na variável dependente (Y). Finalmente, estas
novas outliers foram excluídas e o novo modelo PLS(3)2 construído. Os resultados alcançados
foram comparáveis ao PLS (3) suavização (3 pontos), entretanto, este último manteve as 17
amostras de calibração 6 de previsão.
A Figura 31 mostra a correlação entre os valores medidos pela referência e preditos
pelo melhor modelo multivariado, para triglicerídeos, em plasma sanguíneo de ratos, PLS (3)
suavização (3 pontos).
82
Figura 31 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e
validação, em plasma sanguíneo de ratos, para triglicerídeos;(o) conjunto de calibração; (*) conjunto de
validação.
Fonte: Autor.
Esse modelo forneceu um valor de RMSEP bastante inferior ao desvio padrão
alcançado por Dantas e colaboradores, através do método enzimático colorimétrico, (24,7 mg
dL-1
)70
. Os valores medidos e previstos para as amostras de previsão são apresentados na
Tabela 8.
Tabela 8 - Valores medidos (referência) e preditos (NIR) para as amostras de previsão do melhor modelo, PLS
(3)suavização (3 pontos), referentes à determinação triglicerídeos.
Amostra Concentração Concentração Erro relativo (%)
Referência (mg dL-1
) NIR/PLS (mg dL-1
)
1 47 38,7 17,5
2 79 67,6 14,2
3 72,5 65,0 10,3
4 64 63,5 0,78
5 132 98,9 25,0
6 114 99,6 12,6
13,4
Fonte: Autor.
Através do teste-t foi verificada diferença significativa, a um nível de 95% de
confiança, entre este modelo e o método de referência. Uma vez que esse resultado não se
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
R = 0,97
RMSEP = 16,07
83
mostrou satisfatório, um novo teste-t foi aplicado, ao nível de 96% de confiança, mostrando
que não há diferença significativa entre o melhor modelo e o método de referência. De forma
similar à determinação de glicose, item 4.1.3, não são encontrados na literatura trabalhos
utilizando amostras reais de sangue de ratos, que pudessem ser comparados com os resultados
aqui alcançados, em relação à determinação dos triglicerídeos.
4.1.5 Determinação de HDL
A Tabela 9 apresenta os resultados obtidos para os modelos relativos à determinação
de colesterol-HDL.
Tabela 9 - Resultados para os conjuntos de calibração e validação externa para HDL: RMSECV, RMSEP,
coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos
modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R² RMSECV R² RMSEP Tamanho
(mg dL-1
) (mg dL-1
)
PLS (4) 0,89 6,22 0,06 8,24 1223
PLS (4) S 3 pts 0,88 5,91 0,03 8,60 1221
PLS (3) S 5 pts 0,87 5,77 0,03 8,77 1219
PLS (4) 1D 3 pts 0,88 10,5 0,66 4,57 1221
PLS (2) 1D 5 pts 0,77 8,05 -0,35 7,64 1219
PLS (3) 1D 7 pts 0,81 9,62 -0,01 7,39 1217
PLS (2) 2D 5 pts 0,64 8,93 0,64 4,63 1219
iPLS (3) 0,88 5,76 -0,62 8,00 122
iPLS (3) 0,75 7,51 0,06 7,43 400
iPLS (4) 0,72 7,92 0,23 6,83 600
PLS-SPA (4) 0,78 13,80 0,51 6,30 17
PLS-GA (4) 0,99 3,49 0,82 3,31 334
PLS (4)1 0,99 3,75 0,95 1,66 334
PLS (4)2 0,99 4,60 0,98 2,03 334
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers; 2 duas aplicações de detecção de outliers.
Fonte: Autor.
84
De modo geral, os melhores valores de RMSEP foram obtidos utilizando dados
submetidos ao cálculo de derivada (3 pontos), ao invés dos dados originais brutos ou
suavizados, nas regiões de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm do espectro NIR.
Para os 14 modelos apresentados, os valores de RMSEP encontrados foram menores
do que o valor de desvio padrão (11,4 mg dL-1
) obtido por Dantas e colaboradores, utilizando
o método de referência70
. Todavia, os coeficientes de correlação para o conjunto de previsão
variaram de -0,62 a 0,98, indicando que alguns modelos não foram satisfatórios. Para a
mesma região do espectro NIR os valores de RMSEP foram similares entre diversos modelos:
PLS (4) primeira derivada (3 pontos), PLS (2) segunda derivada (5 pontos), iPLS (4)
utilizando 600 variáveis espectrais, PLS-GA (4), PLS (4)1 após uma aplicação de detecção de
outliers e PLS (4)2 após duas aplicações de detecção de outliers. Um teste F foi realizado sob
cada um dos modelos, utilizando seus conjuntos de previsão, e os resultados mostraram
ausência de diferença significativa (a um nível de confiança de 95%) entre eles.
Outra importante questão para esse parâmetro é a seleção de variáveis. Utilizando o
GA para escolher as principais variáveis espectrais para utilização na construção dos modelos,
o coeficiente de correlação obtido na previsão foi de 0,81, e o RMSEP foi de 3,31 mg dL-1
(334 variáveis espectrais). Este modelo foi submetido a detecção de outliers, onde duas
amostras de calibração e uma amostra de previsão foram selecionadas, considerando-se os
resíduos não modelados na variável dependente (Y) e nas variáveis espectrais (X). Após a
exclusão das amostras anômalas, o modelo foi reconstruído resultando no novo modelo PLS
(4)1. Foi realizada a segunda seleção de amostras anômalas, em que duas na calibração e uma
na previsão foram excluídas, devido aos altos valores dos resíduos não modelados na variável
dependente (Y), somente. Assim, o modelo PLS (4)2
foi construído utilizando 13 e 4 amostras
de calibração e previsão, respectivamente, e foi escolhido como o melhor obtido para
determinação deste parâmetro. Para esse modelo, os menores valores de RMSECV e RMSEP
foram 4,60 mg dL-1
e 2,03 mg dL-1
, respectivamente. O coeficiente de correlação para o
conjunto de validação externa, obtido utilizando 4 variáveis latentes, foi 0,98.
A Figura 32 apresenta a correlação entre os valores de HDL medidos em plasma
sanguíneo de ratos pelo método enzimático-colorimétrico, contra os previstos, através de
espectroscopia NIR, pelo modelo PLS (4)2.
85
Figura 32 -Concentrações preditas (PLS) contra medidas (método enzimático) das amostras de calibração e
validação, em plasma sanguíneo de ratos, para HDL:
(o) conjunto de calibração; (*) conjunto de validação.
Fonte: Autor.
O valor de RMSEP (2,03 mg dL-1
) obtido apresentou-se bastante inferior ao desvio
padrão calculado (11,4 mg dL-1
) por Dantas e colaboradores70
em seu trabalho utilizando o
método enzimático colorimétrico para determinação de HDL em plasma sanguíneo de ratos.A
Tabela 10 mostra os valores medidos e previstos para as 4 amostras de previsão, juntamente
aos seus respectivos erros relativos.
Tabela 10 - Valores medidos (referência) e preditos (NIR) para as amostras de previsão do melhor modelo, PLS
(4)1, referentes à determinação HDL.
Amostra Concentração Concentração Erro relativo (%)
Referência (mg dL-1
) NIR/PLS (mg dL-1
)
1 39,5 41,9 6,11
2 40 41,8 4,47
3 28,7 28,6 0,16
4 31,4 34,1 8,77
4,9
Fonte: Autor.
Através do teste t foi verificado que não existe diferença significativa entre o método
NIR e o enzimático colorimétrico, a um nível de confiança de 95%.
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
R = 0,98
RMSEP = 2,03
86
De forma análoga ao que foi comentado nos itens 4.1.3 e 4.1.4, para as determinações
de glicose e triglicerídeos, não são encontrados trabalhos na literatura que realizam a
determinação de colesterol HDL em plasma sanguíneo de ratos, por meio de espectroscopia
NIR e calibração multivariada. Assim, tais técnicas aliadas evidenciaram suas importâncias e
relevâncias aplicadas a este tipo de análise bioquímica, em amostras reais.
4.2 ANÁLISES EM PLASMA SANGUÍNEO DE HUMANOS
4.2.1 Atribuição de bandas e pré-processamentos
A Figura 33 representa os 34 espectros NIR originais das amostras de plasma
sanguíneo de humanos, obtidos na região de 1100 a 2500 nm.Observa-se um comportamento
praticamente idêntico àqueles apresentados na Figura 25, tendo, inclusive, sido aplicada a
mesma metodologia de atribuição de bandas e exclusão do sinal relativo á presença de água
(entre 1900 e 2000 nm), conforme discutido no item 4.1.1.
Figura 33-Espectros NIR originais das 34 amostras de plasma sanguíneo de humanos.
Fonte: Autor.
Sendo assim, as faixas consideradas para construção dos modelos de regressão PLS e
ANN foram de 1105,05 a 1892,3 nm e 1997,27 a 2461,97 nm do espectro NIR, seguindo o
que já foi otimizado no estudo prévio, em ratos. Similarmente, os métodos de pré-
processamento utilizados neste conjunto de dados foram realizados da mesma maneira,como
descreve o item 4.1.2 deste trabalho.
1000 1500 2000 2500
3
2
1
0
Comprimento de onda (nm)
Abs
orbâ
ncia
87
4.2.2 Regressão multivariada linear – emprego do PLS
Considerando-se a grande aplicabilidade da regressão linear PLS em amostras de
natureza biológica, discutida neste trabalho, as determinações de glicose, triglicerídeos e
colesterol total foram realizadas, inicialmente, através deste algoritmo. Para tanto, foram
utilizados diferentes pré-processamentos espectrais, métodos de seleção de variáveis e
detecção de outliers, seguindo a proposta realizada nas análises prévias em plasma sanguíneo
de ratos (item 4.1). Os resultados obtidos são mostrados detalhadamente através das Tabelas
apresentadas nos Apêndices A-C.
Através destes resultados é possível observar que as correlações, principalmente na
validação externa, foram muito baixas, até mesmo negativas, especialmente no caso de
glicose e triglicerídeos. Além disso, os valores de RMSECV e RMSEP foram bastante
elevados, tornando estes modelos insatisfatórios para tais análises. Outra questão importante é
que, especialmente no caso dos triglicerídeos e colesterol, um grande número de variáveis
latentes foi necessário nas etapas de calibração dos modelos levando a um notável sobreajuste
dos mesmos e, consequentemente, prejudicando as suas habilidades de previsão. Tais fatos,
provavelmente, podem ocorrer em virtude de fatores inerentes às amostras, tais como:
i) Sangue de pessoas sem qualquer relação entre si;
ii) Pessoas com hábitos de vida completamente diferentes;
iii) Portadores de diversas patologias (por exemplo, diabetes, hipertensão,
transtornos mentais/psicológicos, entre outras);
Tendo em vista que os resultados obtidos através da modelagem linear (PLS) não
foram satisfatórios, apesar das diversas ferramentas e estratégias utilizadas, lançou-se mão de
uma metodologia de regressão não linear, via ANN, como forma de obter resultados
superiores àqueles anteriormente observados.
88
4.2.3Quantificações de glicose, triglicerídeos e colesterol total através de regressão
multivariada não linear – emprego do ANN
Na seção anterior, os modelos PLS determinaram e previram, de forma não tão
satisfatória, os três analitos, no plasma sanguíneo humano. Para a construção de modelos não
lineares ANN, as calibrações dos mesmos foram realizadas usando tanto os scores de um
PCA das matrizes espectrais após suavização SG (3 pontos) para glicose e triglicerídeos,
quanto de uma matriz original, sem pré-processamento, para o colesterol. Os scores das
componentes principais foram utilizados como dados de entrada, como forma de diminuir o
número de variáveis espectrais, simplificando, assim, a arquitetura das redes neurais. Para
glicose e colesterol, scores das primeiras 8 e 6 componentes principais, respectivamente,
foram usados. Por sua vez, para modelagem dos triglicerídeos, somente as três componentes
mais sensíveis (2, 3 e 7) foram selecionadas.
O número ótimo de neurônios nas camadas escondidas para glicose, triglicerídeos e
colesterol foi 5, 4 e 4, respectivamente. Estes, por sua vez, foram otimizados em função do
erro quadrático médio de monitoramento, RMSEM, e dos coeficientes de correlação das
respectivas saídas das redes. Os melhores resultados de RMSEM e R²mon (coeficiente de
correlação para o grupo de monitoramento) de cada um dos três parâmetros foram obtidos
através das redes mostradas na Tabela 11.
Como pode ser visto o valor do RMSEM para glicose foi menor do que grande parte
daqueles alcançados através dos modelos PLS discutidos no item 4.2.2. Esse RMSEM (13,2
mg dL-1
ou 0,73 mmol L-1
) pode ser comparado ao SEP (4,3 mmol L-1
) observado por
Pezzaniti e colaboradores59
, enfatizando que eles utilizaram urina como amostras biológicas.
Em relação aos triglicerídeos, através da utilização do ANN, foi possível obter um valor de
RMSEM (10,3 mg dL-1
) muito menor em comparação às regressões PLS (Apêndice B). Esse
melhoramento foi alcançado quando somente os scores das componentes mais sensíveis
foram usados na modelagem. Esse resultado pode ser positivamente considerado quando
comparado com o valor de RMSEP (22 mg dL-1
) obtido por Filho e colaboradores64
. Da
mesma forma, no caso do colesterol total, o valor de RMSEM obtido (12,3 mg dL-1
) foi
melhorado através da modelagem via ANN, quando comparado àqueles discutidos no item
4.2.2. Este resultado é próximo ao obtido por Bittner e colaboradores71
. Os erros relativos
para os melhores modelos ANN para glicose, triglicerídeos e colesterol foram 13,4%, 9,5% e
7,5%, respectivamente.
89
Tabela 11 -Resultados dos melhores modelos ANN para os conjuntos de monitoramento de glicose,
triglicerídeos e colesterol: RMSEM e coeficientes de correlação (R) são apresentados.
Parâmetros
Melhor método de pré-
processamento
Estrutura da
rede neurala
R²mon
RMSEM
(mg dL-1
)
Glicose S3-CM 851 0,84 13,2
Triglicerídeos S3-CM 341 0,98 10,3
Colesterol b 641 0,98 12,3
a Estrutura da rede neural é dada por CP-NN-1, onde CP é o número de componentes principais (neurônios de
entrada) e NN é o número de neurônios escondidos; b Nenhum pré-processamento.
Fonte: Autor.
Um teste EJCR foi realizado para as inclinações e interceptos de cada uma das
correlações entre os valores preditos versus os valores medidos, para cada parâmetro
analisado, a um nível de confiança de 95%, como forma de se observar a possível existência
de bias nas determinações usando modelos ANN (Figura 34).
Figura 34 - EJCR para a inclinação e intercepto da regressão dos valores previstos (ANN) contra valores
medidos (método enzimático), para as amostras de monitoramento dos melhores modelos:
(azul) glicose; (vermelho) triglicerídeos; (verde) colesterol.
Fonte: Autor.
Conforme visualizado, as elipses contêm o valor teórico esperado (1,0), para os três
analitos. Além disso, os três modelos não foram significativamente diferentes quando
comparados com o método de referência, de acordo com o teste t, ao nível de confiança de
95%.
inclinação
inte
rcepto
90
4.2.4 Comparação PLS versus ANN: quantificações de glicose, triglicerídeos e colesterol
total
Os modelos PLS discutidos no item 4.2.2 foram construídos com base em conjuntos
de calibração e validação que continham, respectivamente, 24 e 10 amostras, cada. Por outro
lado, para construção dos modelos não lineares, a escolha do número de amostras nos grupos
de treinamento e monitoramento foi otimizada em 30 e 4, respectivamente, visando que o
máximo de variabilidade possível do conjunto de dados estivesse presente no treinamento dos
modelos, em virtude da grande complexidade das amostras envolvidas. Sendo assim, para fins
de uma melhor comparação do desempenho dos dois métodos de regressão utilizados, foram
construídos modelos PLS com ambos os conjuntos de treinamento e monitoramento utilizados
nos modelos ANN. O procedimento de validação cruzada foi utilizado para auxiliar na
seleção do número de variáveis latentes dos modelos PLS. De maneira similar, os dados
espectrais utilizados foram pré-processados com suavização SG (3 pontos) para glicose e
triglicerídeos e nenhum pré-processamento para a modelagem do colesterol. Os valores de
RMSECV, RMSEP e coeficientes de correlação na calibração e previsão, para os três modelos
PLS comparativos, são mostrados na Tabela 12.
Tabela 12 - Resultados de modelos PLS para os conjuntos de calibração e validação externa de glicose,
triglicerídeos e colesterol: RMSECV, RMSEP, coeficientes de correlação (R) e variáveis latentes (VL) dos
modelos PLS são apresentados.
Parâmetros
Melhor método de pré-
processamentoa
VL
Rcal
Rprev
RMSECV
RMSEP
Glicose S3-CM 5 0,37 -0,77 34,7 18,2
Triglicerídeo
s
S3-CM 4 0,84 0,83 81,8 70,9
Colesterol b 2 0,35 0,41 47,1 32,8
a S3, suavização com janelas de 3 pontos; CM, centragem na média;
b nenhum pré-processamento aplicado;
Fonte: Autor.
A Figura 35 mostra as correlações dos valores medidos, para glicose, triglicerídeos e
colesterol, contra os valores previstos pelos modelos ANN e PLS comparativos, em plasma
sanguíneo humano.
Através das regressões mostradas, é possível notar um aumento significativo nos
coeficientes de correlação para todos os compostos, especialmente glicose (valor negativo
91
com PLS) e colesterol (aumento de mais de 100%), nos modelos ANN. Ainda, melhoras
significativas nos erros de validação (monitoramento) foram alcançadas, principalmente para
os triglicerídeos (diminuição de aproximadamente 85%). Deste modo, considera-se que os
presentes resultados fortalecem a vantagem e utilidade de uma abordagem não linear, via
redes neurais, em problemas de determinação e previsão de glicose, triglicerídeos e colesterol
em fluidos biológicos.
Figura 35 -Concentrações preditas contra medidas (método enzimático) das amostras de calibração e validação,
em plasma sanguíneo de humanos: lado esquerdo, modelos PLS; lado direito, modelos ANN:
(a) glicose; (b) triglicerídeos; (c) colesterol; (o) conjunto de calibração; (*) conjunto de validação.
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEP = 18,2
Rpred = 0,77
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEM = 13,2
Rmon = 0,84
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEP = 70,9
Rpred = 0,84
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEM = 10,3
Rmon = 0,98
92
Fonte: Autor.
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEP = 32,8
Rpred = 0,41
Método enzimático (mg dL-1)
NIR
(m
gd
L-1
)
RMSEPM= 12,3
Rmon = 0,98
93
5 CONCLUSÕES
"Eu descrevi uma ligação, uma ligação química simples; eu
forneci vários detalhes de seu caráter (e poderia der dado muitos
mais). Às vezes me parecia que uma ligação entre dois átomos
tinha se tornado tão real, tão tangível, tão amigável, que eu
quase poderia vê-la. E então eu despertava com um pequeno
choque: pois uma ligação química não é uma coisa real; ela não
existe; ninguém jamais a viu, nem jamais verá. É uma ficção da
minha própria imaginação".
(Charles A. Coulson)
5.1DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E HDL EM PLASMA
SANGUÍNEO DE RATOS
Foram obtidos resultados promissores relativos às quantificações de glicose,
triglicerídeos e HDL, considerando as faixas de concentração utilizadas, através do uso da
espectroscopia NIR aliada a métodos de calibração multivariada. Os melhores valores de
RMSEP obtidos foram de 6,08, 16,07 e 2,03 mg dL-1
, respectivamente. As combinações de
regiões selecionadas a partir do iPLS, GA e SPA melhoraram significativamente os valores
preditos para as determinações dos triglicerídeos. Para glicose e colesterol - HDL, os modelos
construídos utilizando GA mostraram melhores resultados que aqueles obtidos usando iPLS
ou SPA. Os erros relativos encontrados, para glicose, triglicerídeos e HDL foram,
respectivamente, 4,1%, 13,4% e 4,9%. De modo geral, o método alternativo praticamente não
utilizou reagentes e proporcionou diminuição no tempo de análise e geração de resíduos.
Ainda, foi considerado equivalente ao método enzimático colorimétrico, de acordo com o
teste t pareado.
5.2DETERMINAÇÕES DE GLICOSE, TRIGLICERÍDEOS E COLESTEROL TOTAL EM
PLASMA SANGUÍNEO DE HUMANOS
Ao comparar os dois métodos de calibração multivariada - PLS e ANN - aplicados à
espectroscopia NIR para análises de glicose, triglicerídeos e colesterol total em plasma
sanguíneo de humanos, verificou-se que o uso do ANN melhorou sobremaneira os resultados
obtidos. Os valores de RMSEP (PLS) obtidos foram de 18,2, 70,9 e 32,8 mg dL-1
enquanto os
94
de RMSEM (ANN) foram de 13,2, 10,3 e 12,3 mg dL-1
, respectivamente, para os três
parâmetros analisados. Os erros relativos para os melhores modelos ANN foram 13,4%, 9,5%
e 7,5%, respectivamente, para glicose, triglicerídeos e colesterol total. Por fim, bons
indicadores estatísticos (EJCR e teste t) foram obtidos através do uso do ANN.
95
6 PERSPECTIVAS
“Tudo aquilo que o homem ignora, não existe para ele. Por isso
o universo de cada um se resume no tamanho do seu saber.”
(Albert Einstein)
Com o desenvolvimento do trabalho, algumas perspectivas são projetadas para
avançar no que diz respeito ao aprimoramento dos métodos de análises de parâmetros
bioquímicos:
Identificar a origem das anomalias das amostras selecionadas através da
detecção de amostras anômalas;
Introduzir um maior número de amostras e fazer a validação dos métodos;
Aplicar o algoritmo não linear SVM às amostras de plasma de humanos e
comparar os resultados àqueles obtidos pela utilização do ANN;
Desenvolver métodos não invasivos para análise de parâmetros bioquímicos e,
inclusive, equipamentos portáteis para tal.
96
REFERÊNCIAS
1. ANÁLISES clínicas. Disponível em: http://analisesclinicas.info.Acesso em: 05 jan. 2013.
2. LIMA-OLIVEIRA, G. Gestão da Qualidade Laboratorial: é preciso entender as variáveis
para controlar o processo e garantir a segurança do paciente. Análises clínicas, n. 1, p. 1-
12, set. 2011.Disponível em:
http://www.cff.org.br/sistemas/geral/revista/pdf/132/encarte_analises_clinicas.pdf.Acesso
em: 05 jan. 2013.
3. DELATOUR, V.; LARERE, B.; SAINT-ALBIN, K.; PEIGNAUX, M.; HATTCHOUEL,
J.; DUMONT, G.; GRAEVE, J. D.; VASLIN-REIMANN, S.; GILLERY, P. Continuous
improvement of medical tests reliability using reference methods and matrix-corrected
target values in proficiency testing schemes: applications to glucose assay. Clinica
Chimica Acta, França, v. 413, n. 20, p. 1872-1878, nov. 2012. Disponível em:
http://www.ncbi.nlm.nih.gov/pubmed/22885373. Acesso em: 5 jan. 2013.
4. EXAMES clínicos. Disponível em: http://www.hemoanalises.com.br/Exames-Clinicos.
Acesso em: 05 jan 2013.
5. BETTELHEIM, F.; BROWN, W. H.; CAMPBELL, M. C.; FARRELL, S. O. Introdução
à Química Geral, Orgânica e Bioquímica.9. ed. trad. São Paulo: Cengage Learning,
2012.
6. LI, N. L.; LI, Q. B.; ZHANG, G. J. A weak signal extraction method for human blood
glucose noninvasive measurement using near infrared spectroscopy. Infrared Milli
Terahz Waves, China, v. 30, p. 1191-1204, jun. 2012. Disponível
em:http://link.springer.com/content/pdf/10.1007%2Fs10762-009-9544-0.pdf. Acesso em:
05 jan. 2013.
7. ARNESON, W.; BRICKELL, J. Clinical Chemistry – a laboratory perspective. 1. ed.
Philadelphia: F.A. Davis Company, 2007.
8. MILLER, M.; SEIDLER, A.; MOALEMI, A.; PEARSON, T. A. Normal triglycerides
levels and coronary artery disease events: the Baltimore coronary observational long-term
study. Journal of the American College of Cardiology, Baltimore,v. 31, n. 6, p. 1252-
1257, maio. 1998. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/9581716. Acesso
em: 5 jan. 2013.
9. SCHIAVO, M.; LUNARDELLI, A.; de OLIVEIRA, J. R. Influência da dieta na
concentração sérica de triglicerídeos. Jornal Brasileiro de Patologia e Medicina
Laboratorial, Rio de Janeiro, v. 39, n. 4, p. 283-288, mar. 2003.Disponível em:
http://www.scielo.br/pdf/jbpml/v39n4/18540.pdf. Acesso em: 5 jan. 2013.
10. BOULLART, A. C. J.; de GRAAF, J.; STALENHOEF, A. F. Serum triglycerides and
risk of cardiovascular diseases. Biochimica et Biophysica Acta, Holanda,v. 1821 , n. 4, p.
867-875, maio, 2012. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/22015388.
Acesso em: 5 jan. 2013.
97
11. UIEARA, M. Química Orgânica Biológica. 1. ed. Florianópolis: Editora UFSC, 2001.
12. BLOOD safety and clinical technology. Guidelines on Standard Operating Procedures for
clinical chemistry: cholesterol oxidase method. Disponível em:
http://www.searo.who.int/en/section10/section17/section53/section481_1756.htm.
Acesso em: 05 jan 2013.
13. SECCHIERO, S.; SCIACOVELLI, L.; PLEBANI, M. Appropriateness of cholesterol and
triglycerides reporting checked by external quality assessment programs. Clinica Chimica
Acta, Itália, v. 333, n. 2, p. 221-230, jul. 2003. Disponível em:
http://www.sciencedirect.com/science/article/pii/S000989810300189X. Acesso em: 05 jan.
2013.
14. SÍNDROME metabólica. Disponível em: http://www.endocrino.org.br/sindrome-
metabolica. Acesso em: 05 jan. 2013.
15. CARVALHO, M. H. C. I Diretriz brasileira de diagnóstico e tratamento de síndrome
metabólica. Arquivos Brasileiros de Cardiologia, Brasil, v. 84, n. 1, p. 2-28, abr. 2005.
Disponível em: http://publicacoes.cardiol.br/consenso/2005/dir_resumida.pdf. Acesso
em: 5 jan. 2013.
16. PENALVA, D. Q. F. Síndrome metabólica: diagnóstico e tratamento. Revista
Médica,São Paulo, v. 87, n. 4, p. 245-250, out.-dez. 2008. Disponível em:
http://www.fm.usp.br/gdc/docs/revistadc_166_10-sindrome-metabol.pdf. Acesso em: 5
jan. 2013.
17. GLOBAL status report on noncommunicable diseases. Disponível em:
http://www.who.int. Acesso em: 05 jan. 2013.
18. BERGENSTAL, R. M. Evaluating the accuracy of modern glucose meters. Insulin.
Minnesota, v. 3, n. 1, p. 5-14, jan. 2008. Disponível em:
http://www.sciencedirect.com/science/article/pii/S1557084308800048. Acesso em: 5 jan.
2013.
19. SHARMA, A.; ARTISS, J. D.; ZAK, B. A. Method for sequential colorimetric
determination of serum triglycerides and cholesterol. Clinical Biochemistry, Michigan,
v. 20, n. 3, p. 167-172, jun. 1987.Disponível em:
http://www.researchgate.net/publication/19510371_A_method_for_the_sequential_colori
metric_determination_of_serum_triglycerides_and_cholesterol. Acesso em: 5 jan. 2013.
20. ZHU, M.; HUANG, X.; SHEN, H. Microbial enzymatic assay of glucose in serum.
Analytica Chimica Acta, China, v. 349, n. 1, p. 165-170, ago. 1997. Disponível em:
http://www.sciencedirect.com/science/article/pii/S0003267097002213. Acesso em: 5 jan.
2013.
21. BLOOD safety and clinical technology. Guidelines on Standard Operating Procedures for
clinical chemistry: glucose oxidase method. Disponível em:
http://www.searo.who.int/en/section10/section17/section53/section481_1753.htm.
Acesso em: 05 jan 2013.
98
22. LENARDÃO, E.J.; FREITAG, R.A.; DABDOUB, M.J.; BATISTA, A.C.F; SILVEIRA,
C.C. Green chemistry” – Os 12 princípios da química verde e sua inserção nas atividades
de ensino e pesquisa. Química Nova, São Paulo, v. 26, n. 1, p. 123-129, jan.-fev. 2003.
Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-
40422003000100020. Acesso em: 5 jan. 2013.
23. BURNS, D.A.; CIURCZAK, E.W. Handbook of Near-infreared analysis. 3. ed. New
York: CRC Press, 2008.
24. PASQUINI, C. Near infrared spectroscopy: Fundamentals, pratical aspects and analytical
applications. Journal of Brazilian Chemical Society, São Paulo, v. 14, n. 2, p. 198-219,
mar.-abr. 2003.Disponível em:
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-50532003000200006.
Acesso em: 5 jan. 2013.
25. SKOOG, D.A.; HOLLER, F.J.; CROUCH, S.R. Principles of instrumental analysis.5.
ed. Philadelphia: Saunders College Publishing, 1992.
26. SALGUERO-CHAPARRO, L.; GAITÁN-JURADO, A.J.; ORTIZ-SOMOVILLA, V.;
PEÑA-RODRÍGUEZ, F. Feasibility of using NIR spectroscopy to detect herbicide
residues in intact olives. Food Control, Espanha, v. 30, n. 2. p. 504-509, abr.
2013.Disponível em:
http://www.sciencedirect.com/science/article/pii/S0956713512004410. Acessp em: 5 jan.
2013.
27. PIERNA, J.A.F.; VERMEULEN, V.; TOSSENS, O.A.; DARDENNE, P.; BAETEN, V.
NIR hyperspectral imaging spectroscopy and chemometrics for the detection of
undesirable substances in food and feed. Chemometrics and Intelligent Laboratory
System, Bélgica, v. 117, n.1, p. 233-239, ago. 2012.Disponível em:
http://www.sciencedirect.com/science/article/pii/S016974391200038X. Acesso em: 5 jan.
2013.
28. ZHANG, W. Review on analysis of biodiesel with infrared spectroscopy. Renewable
Sustainable Energy Reviews, China, v. 16, n.8, p. 6048-6058, out. 2012.Disponível em:
http://www.sciencedirect.com/science/article/pii/S1364032112004443. Acesso em: 5 jan.
2013.
29. KHANMOHAMMADI, M.; GARMARUDI, A.B.; de la GUARDIA, M.
Characterization of petroleum-based products by infrared spectroscopy and
chemometrics. Trends in Analytical Chemistry, Irã, v. 35, p. 135-149, maio 2012.
Disponível em: http://www.sciencedirect.com/science/article/pii/S0165993612000581.
Acesso em: 5 jan. 2013.
30. SAKUDO, A.; KURATSUNE, Y.H.; KATO, Y.H.; IKUTA. K. Non-invasive prediction
of hematocrit levels by portable visible and near-infrared spectrophotometer.Clinica
Chimica Acta, Japão, v. 408, n. 1-2, p. 123-127, ago. 2009. Disponível em:
http://www.sciencedirect.com/science/article/pii/S0009898109004379. Acesso em: 5 jan.
2013.
99
31. PALOU, A.; CRUZ, J.; BLANCO, M.; TOMÀS, J.; de los RÍOS, J.; ALCALÀ, R.
Determination of drug, excipients and coating distribution in pharmaceutical tablets using
NIR-CI.Journal of Pharmaceutical Analysis, Barcelona, v. 2, n. 2, p. 90-97, abr.
2012.Disponível em:
http://www.sciencedirect.com/science/article/pii/S2095177911000657. Acesso em: 5 jan.
2013.
32. LUYPAERT, J.; MASSART, D.L.; HEYDEN, V. Near-infrared spectroscopy
applications in pharmaceutical analysis.Talanta, Bélgica, v. 73. n. 3, p. 865-883, maio
2007. Disponível em:
http://www.sciencedirect.com/science/article/pii/S003991400600823X. Acesso em: 5 jan.
2013.
33. BERZAGHI, P.; RIOVANTO, R. Near infrared spectroscopy in animal science
production: principles and applications.Italian Journal of Animal Science, Itália, v.8, n.
3, p. 39-62, jan. 2009.Disponível em:
http://www.aspajournal.it/index.php/ijas/article/view/ijas.2009.s3.39. Acesso em: 5 jan.
2013.
34. MATTHIAS, O. Chemometrics, Statistics and Computer Application in Analytical
Chemistry,2. ed. Weinheim: WILEY-VCH Verlag GmbH & Co. KGaA, 2007.
35. NETO, B.B.; SCARMÍNIO, I.S.; BRUNS, R.E.25 Anos de quimiometria no Brasil.
Química Nova, São Paulo, v. 29, n.6, p. 1401-1406, nov.dez. 2006.
36. MARTEN, H.; NAES, T. Multivariate Calibration and Classification, 1. ed.
Chichester-UK: NIR Publications, 2002.
37. BRERETON, R.G. Chemometrics: data analysis for the laboratory and chemical
plant, 1. ed. Chichester: John Wiley and Sons, 2003.
38. BRO, R. Multivariate calibration: what is in chemometrics for the analytical
chemistry?,Analytica Chimica Acta, Dinamarca, v. 500, n. 1-2, p. 185-194, dez. 2003.
39. VALDERRAMA, P. Avaliação de figuras de mérito em calibração multivariada na
determinação de parâmetros de controle de qulidade em indústria alcooleira por
espectroscopia no infravermelho próximo. 2005. 135 f. Dissertação (Mestrado em
Química). 2005. 135 f. Programa de Pós-Graduação em Química, Universidade Estadual
de Campinas, São Paulo, SP, Brasil, 2005.
40. MATOS, G.D.; PEREIRA-FILHO, E.R.; POPPI, R.J.; ARRUDA, M.A.Z. Análise
exploratória em química analítica com emprego de quimiometria: PCA e PCA de
imagens.Revista Analytica,Campinas, v. 6, n.3 , p. 38-48, ago.-set. 2003.
41. CHAMINADE, P.; BAILLET, A.; FERRIER, D.Data treatment in near infrared
spectroscopy.Analusis Magazine, v. 26, p. 33-38, 1998.
42. SHETTY, N.; GISLUM, R. Quantification of fructan concentration in grasses using NIR
spectroscopy and PLSR.Field Crops Research, Dinamarca, v. 120, n. 14, p. 31-37, jan.
2011. Disponível em:
100
http://www.sciencedirect.com/science/article/pii/S0378429010002212. Acesso em: 5 jan.
2013.
43. VALDERRAMA, P.; BRAGA, J.W.B.; POPPI, R.J. Variable Selection, Outlier
Detection, and Figures of Merit Estimation in a Partial Least-Squares Regression
Multivariate Calibration Model. A Case Study for the Determination of Quality
Parameters in the Alcohol Industry by Near-Infrared Spectroscopy.Journal of
Agricultural and Food Chemistry, Campinas, v. 55, n. 21, p. 8331-8338, out. 2007.
44. MILLER, J.N.; MILLER, J.C. Statistics and chemometrics for analytical chemistry. 5.
ed. Londres: Pearson Prentice Hall, 2005.
45. DESPAGNE, F.; MASSART, D.Luc. Neural networks in multivariate
calibration.Analyst, Bélgica, v. 123, p. 157-178, ago. 1998. Disponível em:
http://pubs.rsc.org/en/Content/ArticleLanding/1998/AN/a805562i. Acesso em: 5 jan.
2013.
46. SAVITZKY, A.; GOLAY, M.J.E. Smoothing and Differentiation of data by simplified
least squares procedures.Analytical Chemistry, Norwalk, v. 36, n. 8, p. 1627-1638, jul.
1964. Disponível em: http://pubs.acs.org/doi/abs/10.1021/ac60214a047. Acesso em: 5
jan. 2013.
47. KENNARD, R.W.; STONE, L.A. Computer aided design of
experiments.Technometrics, v. 11, n. 1. Fev. 1969. Disponível em:
http://www.jstor.org/discover/10.2307/1266770?uid=2&uid=4&sid=21102308457987.
Acesso em: 5 jan. 2013.
48. SOUSA, L.C. Espectroscopia na região do infravermelho próximo para predição de
características da madeira para produção de celulose. 2008. 109 f. Tese (Doutorado
em Ciência Florestal). 2005. 109 f. Programa de Pós-Graduação em Ciência Florestal,
Universidade Federal de Viçosa, MG, Brasil, 2008.
49. FILHO, H.A.D. Desenvolvimento de técnicas quimiométricas de compressão de
dados e de redução de ruído instrumental aplicadas a óleo diesel e madeira de
eucalipto usando espectroscopia NIR. 2007. 158 f. Tese (Doutorado em Química).
2007. 158 f. Programa de Pós-Graduação em Química, Universidade Estadual de
Campinas, Campinas, SP, Brasil, 2007.
50. KULIGOWSKI, J.; QUINTÁS, G.; GARRIGUES, S.; de La GUARDIA, M. Direct
determination of polymerized triglycerides in deep-frying olive oil by attenuated total
reflectance-Fourier transform infrared spectroscopy using partial least squares
regression.Analytical and Bioanalytical Chemistry, Espanha, v. 397, n. 2, p. 861-869,
maio 2010.
51. NORGAARD, L.; SAUDLAND, A.; WAGNER, J.; NIELSEN, J.P.; MUNCK, L.;
ENGELSEN, S.B. Interval partial least-squares regression (iPLS): a comparative
chemometric study with an example from near-infrared spectroscopy.Applied
Spectroscopy, Dinamarca, v. 54, n. 3, p. 413-418, set. 2000.
101
52. LIU, F.; HE, Y.; SUN, G. Determination of protein content of Auricalia auricalia using
near infrared spectroscopy combined with linear and nonlinear calibrations.Journal of
Agricultural and Food Chemistry, v. 57, n. 11, p. 4520-4527, jun. 2009.
53. ARAÚJO, M.C.U.; SALDANHA, T.C.B.; GALVÃO, R.K.H.; YONEYAMA, T.;
CHAME, H.C.; VISANI, V. The successiveprojectionsalgorithm for variable selection in
spectroscopic multicomponent analysis.Chemometrics and Intelligent Laboratory
Systems, João Pessoa, v. 57, n. 2, p. 65-73, jul. 2001.Disponível em:
http://www.sciencedirect.com/science/article/pii/S0169743901001198. Acesso em: 5 jan.
2013.
54. LEE, Z.J. An integrated algorithm for gene selection and classification applied to
microarray data of ovarian cancer.Artificial Intelligence in Medicine, v. 42, n. 1, p. 81-
93, jan. 2008. Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/18006289. Acesso
em: 5 jan. 2013.
55. FEI, Q.; LI, M.; WANG, B.; HUANG, Y.; FENG, G.; REN, Y. , Analysis of cefalexin
with NIR spectrometry coupled to artificial neural networks with modified genetic
algorithm for wavelength selection.Chemometrics and Intelligent Laboratory
Systems, China, v. 97, n. 2, p. 127-131, jul. 2009.
56. GOIGOECHEA, H.C.; OLIVIERI, A.C. Sustained prediction ability os net analyte
preprocessing methods using reduced calibration sets. Theoretical an experimental study
involving the spectrophotometric analysis of multicomponent mixtures.Analyst,
Argentina, v. 126, p. 1105-1112, abr. 2001.
57. KANG, N.; KASEMSUMRAN, S.; WOO, Y.; KIM, H.; OZAKI, Y. Optimization of
informative spectral regions for the quantification of cholesterol, glucose and urea in
control serum solutions using searching combination moving window partial least
squares regression method with near infrared spectroscopy.Chemometrics and
Intelligent laboratory Systems, Japão, v. 82, n. 1-2, p. 90-96, maio 2006.
58. KASEMSUMRAN, S.; DU, Y.P.; MURAYAMA, K,; HUEHNE, M.; OZAKI, Y. Near-
infrared spectroscopy determination of human serum albumin, γ-globulin, and glucose in
a control serum solution with searching combination moving window partial least
squares.Analytica Chimica Acta, Japão, v. 512, n. 2, p. 223-230, jun. 2004.
59. PEZZANITI, J.L.; JENG.T.; MCDOWELL, L.; OOSTA, G.M. Preliminary investigation
of near-infrared spectroscopic measurements of urea, creatinine, glucose, protein, and
ketone in urine.Clinical Biochemistry, USA, v. 34, n. 3,p. 239-246, maio 2001.
Disponível em: http://www.sciencedirect.com/science/article/pii/S0009912001001989.
Acesso em: 5 jan. 2013.
60. ESCANDAR, G.M.; DAMIANI, P.C.; GOICOECHEA, H.C.; OLIVIERI, A.C. A review
of multivariate calibration methods applied to biomedical analysis.Microchemical
Journal, Argentina, v. 82, n. 1, p. 29-42, jan. 2006. Disponível em:
http://www.sciencedirect.com/science/article/pii/S0026265X05000846. Acesso em: 5 jan.
2013.
102
61. HAZEN, K.H.; ARNOLD, M.A.; SMALL, G.W. Measurement of glucose and other
analytes in undiluted human serum with near-infrared transmission
spectroscopy.Analytica Chimica Acta, USA, v. 371, p. 255-267, abr. 1998. Disponível
em:
http://ostc.physics.uiowa.edu/~arg/(1998)%20Measurement%20of%20glucose%20and%
20other%20analytes%20in%20undiluted%20human%20serum%20with%20near-
infrared%20transmission%20spectroscopy.pdf. Acesso em: 5 jan. 2013.
62. KASEMSUMRAN, S.; DU, Y.P.; MAURO, K.; OZAKI, Y. Improvement of partial least
squares models for in vitro and in vivo glucose quantifications by using near-infrared
spectroscopy and searching combination moving window partial least squares.
Chemometrics and Intelligent Laboratory Sistems, v. 82, n. 1-2, p. 97-103, maio,
2006.
63. PETTER, C.H.; HEIGL, N.; BONN, G.K.; RITSCH, A.; HUCK, C.W. Quantification of
Low-Density andHigh-Density Lipoproteins in Human Serum by Material Enhanced
Infrared Spectroscopy(MEIRS).Current Medicinal Chemistry, v. 16, p. 4601-4608,
2009.
64. FILHO, PA.C.; POPPI, R.J. Determination of triglycerides in human plasma using near-
infreared spectroscopy and multivariate calibration methods.Analytica Chimica Acta,
Campinas, v. 446, n. 1-2, p. 39-47, out. 2001. Disponível em:
http://www.sciencedirect.com/science/article/pii/S0003267001009564. Acesso em: 5 jan.
2013.
65. WILKINS, E.; ATANASOV, P. Glucose monitoring: state of the art and future
possibilities.Medical Engineering & Physics, USA, v. 18, n. 4, p. 273-288, jun. 1996.
Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/8782186. Acesso em: 5 jan. 2013.
66. FILLASTRE, J.P.; HERMET, J.; TULKENS, P.; MORIN, J.P.; VIOTTE, G.; OLIER, B.;
DOGIN, M. Comparative nephrotoxicity of four aminoglycosides: biochemical and ultra-
structural modifications of lysosomes.Advances in Nephrology from the Necker
Hospital, v. 12, p. 253-275, 1983.
67. LERNER, A.M.; REYES, M.P.; CONE, L.A.; BLAIR, D.C.; JANSEN, W.; WRIGHT,
G.E.; LOBER, R. Randomised, Controlled trial of the comparative efficacy, auditory
toxicity, and nephrotoxicity of tobramycin and netilmicin.Lancet, v. 21, n. 1, p. 1123-
1126, maio 1983.
68. ARICH, C.; GOUBY, A.; BENGLER, C; ARDILOUZE, J.L.; DUBOIS, A.; JOUBERT,
P.; HANSEL, S.; JANBON, C.; FABRE, S. Comparison of the efficacy of cefotaxime
alone and the combination cefazolin-tobramycin in the treatment of enterobacterial
septicemia.Pathologie-biologie,v.35, n. 5, p. 613-615, maio 1987.
69. JOSHI, M.; BERNSTEIN, J.; SOLOMKIN, J.; WESTER, B.A.; KUYE, O.
Piperacilin/tazobactam plus tobramycin versus ceftazidime plus tomabrycin for the
treatment of patients with nosocomial lower respiratory tract infection.
Piperacilin/tazobactam Nosocomial Pneumonia Study Group.Journal of Antimicrobial
Chemotherapy, v. 43, p. 389-397, 1999.
103
70. DANTAS, J.A.; AMBIEL, C.R.; CUMAN, R.K.N.; BARONI, S.; AMADO, C.A.B.
Valores de referência de alguns parâmetros fisiológicos de ratos do Biotério Central da
Universidade Estadual de Maringá, Estado do Paraná.Acta Scientiarum: Health
Science, v. 28. n. 2, p. 165-170, 2006.
71. BITTNER, A.; MARBACH, R.; HEISE, H.M. Multivariate calibration for protein,
cholesterol and triglycerides in human plasma using short-wave near-infrared
spectrometry.Journal of Molecular Structure, v. 349, p. 341-344, abr. 1995.
104
APÊNDICES
“O que sabemos é uma gota; o que ignoramos é um oceano.”
(Isaac Newton)
Apêndice A - Resultados para os conjuntos de calibração e validação externa para glicose: RMSECV, RMSEP,
coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de fatores nos
modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R RMSECV R RMSEP Tamanho
PLS (4) 0,68 46,4 -0,21 16,2 1223
PLS (2) S 3 pts 0,37 39,9 0,54 13,8 1221
PLS (2) S 5 pts 0,31 39,3 0,58 13,4 1219
PLS (2) 1D 3
pts
0,74 46,7 -0,35 24,1 1221
PLS (4) 1D 5
pts
0,86 51,5 -0,44 24,4 1219
PLS (3) 1D 7
pts
0,97 51,1 -0,05 24,9 1217
PLS (2) 2D 3
pts
0,61 44,5 0,012 15,3 1221
iPLS (2) 0,25 37,6 0,55 12,3 600
PLS-SPA (3) 0,50 44,7 0,64 14,1 24
PLS-GA (4) 0,63 44,2 0,26 23,3 329
PLS (5)1 0,82 21,9 0,25 14,9 24
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers; 2 duas aplicações de detecção de outliers.
105
Apêndice B - Resultados para os conjuntos de calibração e validação externa para triglicerídeos: RMSECV,
RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de
fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R RMSECV R RMSEP Tamanho
PLS (3) 0,79 88,1 0,43 59,7 1223
PLS (2) S 3 pts 0,77 88,6 0,68 56,9 1221
PLS (6) S 5 pts 0,91 81,2 0,75 83,9 1219
PLS (4) 1D 3
pts
0,89 132,9 0,26 75,9 1221
PLS (4) 1D 5
pts
0,88 118,7 0,08 78,3 1219
PLS (7) 1D 7
pts
0,97 107,3 -0,08 101,5 1217
PLS (2) 2D 3
pts
0,84 121,6 -0,03 82,6 1221
iPLS (3) 0,72 88,5 0,76 42,7 400
PLS-SPA (2) 0,60 99,8 0,31 83,3 24
PLS-GA (10) 0,99 51,6 0,62 113,0 302
PLS (5)1 0,75 63,8 0,67 41,0 400
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers; 2 duas aplicações de detecção de outliers.
106
Apêndice C - Resultados para os conjuntos de calibração e validação externa para colesterol total: RMSECV,
RMSEP, coeficientes de correlação (R) e o número de variáveis espectrais utilizadas (tamanho). O número de
fatores nos modelos PLS, iPLS, PLS-SPA e PLS-GA são representados entre parênteses.
Modelosa Calibração Previsão
R RMSECV R RMSEP Tamanho
PLS (3) 0,73 53,3 0,79 26,2 1223
PLS (4) S 3 pts 0,74 49,0 0,62 39,2 1221
PLS (4) S 5 pts 0,70 48,2 0,27 38,9 1219
PLS (7) 1D 3
pts
0,98 41,2 0,70 41,0 1221
PLS (7) 1D 5
pts
0,98 43,3 0,62 39,1 1219
PLS (9) 1D 7
pts
0,99 43,9 0,41 46,7 1217
PLS (3) 2D 3
pts
0,86 56,6 0,50 34,7 1221
iPLS (3) 0,78 39,9 0,61 29,9 122
PLS-SPA (7) 0,92 48,3 0,30 45,9 24
PLS-GA (9) 0,99 10,2 0,83 29,7 337
PLS (5)1 0,99 35,9 0,53 37,9 1223
a Pts, pontos; S, suavização; 1D, primeira derivada; 2D, segunda derivada;
1 uma aplicação de detecção de
outliers; 2 duas aplicações de detecção de outliers.
107
Top Related