Download - MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Transcript

MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA

Matriz de Confusão

• A matriz de confusão de uma hipótese h oferece uma medida efetiva do modelo de classificação, ao mostrar o número de classificações corretas versus as classificações preditas para cada classe, sobre um conjunto de exemplos T

• O número de acertos, para cada classe, se localiza na diagonal principal M(Ci,Ci) da matriz

• Os demais elementos M(Ci,Cj), para i ≠ j, representam erros na classificação

• A matriz de confusão de um classificador ideal possui todos esses elementos iguais a zero uma vez que ele não comete erros

Page 3: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Page 4: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Medidas de Desemepenho

• Acurácia: porcentagem de amostras positivas e negativas classificadas corretamente sobre a soma de amostras positivas e negativas

FNFPTNTP

TNTPAccuracy

Page 5: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Estimação da taxa de erro (ou de acerto = Acuracia)• Holdout - 2/3 treinamento, 1/3 teste• Validação cruzada (k-fold)

• K conjuntos exclusivos e exaustivos• O algoritmo é executado k vezes

• Bootstrap• Com reposição de amostras

Page 6: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Desbalanceamento de Classes• Suponha um conjunto de amostras com a seguinte

distribuição de classes • dist(C1, C2, C3) = (99.00%, 0.25%, 0.75%)

• Um classificador simples que classifique sempre novos exemplos como pertencentes à classe majoritária C1 teria uma precisão de 99,00%

• Isto pode ser indesejável quando as classes minoritárias são aquelas que possuem informação importante. Por exemplo:• C1: paciente normal, • C2: paciente com doença A • C3: paciente com doença B

Page 7: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Desbalanceamento de Classes

Exemplo :

C1 = pacientes com câncer (4 pacientes)

C2 = pacientes saudáveis (500 pacientes)

acc(M) = 90%• Classificou corretamente 454 pacientes que não tem câncer• Não acertou nenhum dos que tem câncer

Pode ser considerado um “bom classificador”?

Page 8: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Desbalanceamento de Classes• Quando se trabalha com classes desbalanceadas é

desejável utilizar uma medida de desempenho diferente da precisão

• A maioria dos sistemas de aprendizado é projetada para otimizar a precisão. Estes classificadores apresentam um desempenho ruim se o conjunto de treinamento encontra-se fortemente desbalanceado,

• Algumas técnicas foram desenvolvidas para lidar com esse problema, tais como a introdução de custos de classificação incorreta, a remoção de amostras redundantes ou prejudiciais ou ainda a detecção de exemplos de borda e com ruído

Page 9: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Medidas de Desemepenho• Sensitividade (Recall): porcentagem de amostras positivas

classificadas corretamente sobre o total de amostras positivas

• Precisão: porcentagem de amostras positivas classificadas corretamente sobre o total de amostras classificadas como positivas

• Especificidade: porcentagem de amostras negativas identificadas corretamente sobre o total de amostras negativas

FPTP

TPPrecision

Page 10: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Medidas de Desempenho• F-measure também chamada F-score. É uma média

ponderada de precisão e recall

Recall)(Precision

Recall)(Precision2F

Page 11: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Curva ROC• ROC = Receiver Operating Characteristic Curve • Enfoque gráfico que mostra um trade-off entre as taxas de TP

(TPR) e FP (FPR) de um classificador.

• TPR = TP/(TP + FN) ( = recall) = Porcentagem de amostras corretamente classificadas como positivas dentre todas as

positivas reais

• FPR = FP/(TN + FP)Porcentagem de amostras erroneamente classificadas como positivas dentre todas as negativas reais

• Ideal : TPR = 1 e FPR = 0

Page 12: MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA.

Exemplo

Test Result

Pts Pts with with diseasdiseasee

Pts Pts without without the the diseasedisease