TRANSFORMAÇÃO DE DADOSAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
TRANSFORMAÇÃO DE DADOS
• Quando tiramos uma foto muitas vezes o resultado não é o esperado
• As cores podem estar muito escuras ou muito claras
• O foco pode estar errado
• Objetos podem estar muito pequenos
• Nestes casos, utilizamos ferramentas para aplicar filtros e transformar a foto em algo mais próximo do que desejamos
• Muitas vezes o mesmo ocorrer com os dados
TRANSFORMAÇÃO DE DADOS
• Muitas vezes obtemos um conjunto de dados que quando visualizado apresenta imperfeições ou objetivos difíceis de ver
• Além disso, se você pretende analisar estatisticamente seus dados provavelmente precisar considerar a forma como os dados estão distribuídos
• Transformações são utilizadas para tratar destes dois problemas
TRANSFORMAÇÃO DE DADOS
• Transformações são conjuntos de procedimentos de manipulação que podem revelar fatos não observáveis em sua forma original.
• Podemos, por exemplo, ajustar a distribuição dos dados para torná-los mais fáceis de exibir e adequadas para certos testes estatísticos
ALERTA
• Jamais realize operações de transformação em seus dados originais!
• Você deve criar uma nova coluna para armazenar os novos valores para as variáveis sendo transformadas ou criar uma cópia inteira do seu conjunto de dados!
DISTRIBUIÇÃO NORMAL• Uma das suposições mais frequentemente utilizadas nos testes
estatísticos é que os dados são normalmente distribuídos
• Os dados se distribuem de foram simétrica ao redor de um valor central
• “Curva do sino”
• Alguns dados que são geralmente geralmente distribuídos de forma normal são medições humanas como altura, peso, expectativa de vida e resultados em testes de QI
DISTRIBUIÇÃO NORMAL
DISTRIBUIÇÃO NORMAL
OBLIQUIDADE
• Dados oblíquos, diferentemente de dados normais, não se distribuem de forma simétrica em relação a um valor central.
• Estes conjuntos tendem a ter mais observações à direita ou à esquerda deste valor
• Se você observar que seus dados apresentam esta característica talvez seja necessário realizar algum tipo de transformação
OBLIQUIDADE À ESQUERDA
OBLIQUIDADE À DIREITA
EXEMPLO
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
4
8
12
16
População (milhões de habitantes)
Até 5 6 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45
POPULAÇÃO POR ÁREA URBANIZADA
Popu
lação
(milh
ões d
e ha
bita
ntes
)
0
12.5
25
37.5
50
Área urbanizada (centenas de Km2)
0 12.5 25 37.5 50
TRANSFORMAÇÃO LOGARÍTMICA
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
3.5
7
10.5
14
Log da população (milhões de habitantes)
Até 6.0 De 6.1 a 6.5 De 6.6 a 7.0 De 7.1 a 7.5 De 7.6 a 8
POPULAÇÃO POR ÁREA URBANIZADA
Log
da P
opula
ção
(milh
ões d
e ha
bita
ntes
)
1
2.75
4.5
6.25
8
Log da Área urbanizada (Km2)
1 1.75 2.5 3.25 4
TRANSFORMAÇÃO PELA RAÍZ QUADRADA
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
3
6
9
12
Raiz quadrada da população (milhões de habitantes)
Até 1000 1001 a 2000 2001 a 3000 3001 a 4000 4001 a 5000 Acima de 5000
POPULAÇÃO POR ÁREA URBANIZADA
Raiz
Qua
drad
a da
Pop
ulaçã
o (m
ilhõe
s de
habi
tant
es)
1
1750.75
3500.5
5250.25
7000
Raiz Quadrada da Área urbanizada (Km2)
1 20.75 40.5 60.25 80
ESCOLHENDO A TRANSFORMAÇÃO CORRETA
• A medida que você começa a entender melhor os efeitos de diferentes transformações começará a se perguntar como escolher a transformação adequada
• Não é simples responder esta pergunta!
• Apesar de existirem métodos estatísticos para essa escolha, a resposta geralmente envolve tentativa e erro
• Uma estratégia geral é aplicar algumas das transformações mais utilizadas, observar os resultados e escolher a mais adequada
TRANSFORMAÇÕES COMUNSMétodo Operação
MatemáticaIndicações Contra-
indicações
Log ln(x) log(x)
Obliquidade à direita
Valores nulos Valores negativos
Raiz Quadrada x Obliquidade à direita Valores negativos
Quadrado x Obliquidade à esquerda Valores negativos
Raíz Cúbica xObliquidade à
direita Valores Negativos
Menos efetiva que o log na
normalização
Recíproco 1/xDiminuir valores
grandes e aumentar valores
pequenos
Valores nulos Valores negativos
ARMADILHAS• Uma vez que os métodos de transformação envolvem a
aplicação de uma função matemática aos dados, você precisa tomar cuidado na hora de interpretar e apresentar os resultados por conta da mudança na unidade
• Por exemplo, ao apresentar a transformação logarítmica nos exemplos passamos a tratar do log da população e não mais da população.
• Isso precisa ficar bem claro nos gráficos
Top Related