1
Fundamentos de la Minería de Datos
CONVOCATORIA 2018
Fundamentos de la Minería de Datos
1
Fundamentos de la Minería de Datos
2
Fundamentos de la Minería de Datos
I. Introducción
II. Métodos para el tratamiento y análisis de datos
III. Proceso de análisis supervisado
IV. Proceso de análisis no supervisado
V. Métodos estimadores de error
VI. Métodos para análisis del índice de acierto.
PROGRAMA DE LA U.A.
3
• Al término del curso el estudiante conocerá yaplicara las metodologías para la predicciónde datos que permitan pronosticar salidas dedatos y revelar sus relaciones a partir dealgoritmos empleados en la minería de datos:supervisados y no supervisados.
OBJETIVO DE LA UNIDAD DE APRENDIZAJE
Fundamentos de la Minería de Datos
4
• Esta presentación esta desarrollada con base a la unidad deaprendizaje (UA) de Minería de Datos (MD) del programa deestudios de la Maestría en Ciencias de la Computación (MACSCO) como un apoyo para abordar los contenidosdel curso teórico-práctico e ir desarrollando los temas duranteel transcurso del semestre.
• Se aborda el 100% del contenido del temario de la UA a manera introductoria, sin embargo el curso se complementará y profundizará con la práctica mediante el desarrollo e implementación de los algoritmos de MD en el Software Licenciado Matlab, así como en el Software Libre WEKA.
Descripción del Material
Fundamentos de la Minería de Datos
5
UNIDAD I: INTRODUCCIÓN
Fundamentos de la Minería de Datos
6
Introducción Día a día generamos información y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar información, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.
Fundamentos de la Minería de Datos
7
¿Qué es Minería de Datos?
- La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos. (1)
- La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión(2)
Fundamentos de la Minería de Datos
8
Proceso de Minería de Datos 1/2
Los pasos a seguir para la realización de un proyecto de minería de datos son:
1. La Determinación de los Objetivos. Trata sobre ladelimitación de los objetivos que se requieran
2. Pre procesamiento de los Datos. Se refiere a la selección, lalimpieza, el enriquecimiento, la reducción y transformación de las bases de datos.
Fundamentos de la Minería de Datos
9
3. Determinación del Modelo. Se comienza realizando unosanálisis estadísticos de los datos y después se lleva a cabouna visualización gráfica de los mismos para tener unaprimera aproximación. Según los objetivos planteados y latarea que debe llevarse a cabo son los algoritmos autilizarse.
4. Análisis de los Resultados. Verifica si los resultadosobtenidos son coherentes con los obtenidos por el análisis y la visualización gráfica. Y el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones.
9
Proceso de Minería de Datos 2/2
Fundamentos de la Minería de Datos
10
Características de MD ü Explorarlosdatosqueseencuentranenlasprofundidadesdelas
bases de datos, o almacenes de datos, que algunas vecesconBeneninformaciónalmacenadadurantevariosaños.
ü Elentornode lamineríadedatos suele tenerunaarquitecturacliente-servidor.
ü Las herramientas de la minería de datos ayudan a extraer elmineralde la informaciónenterradoenarchivoscorporaBvosoenregistrospúblicosarchivados.
ü Lasherramientasdelamineríadedatossecombinanfácilmenteypuedenanalizarseyprocesarserápidamente.
ü LamineríadedatosproducecincoBposdeinformación:• Asociaciones.• Secuencias.• Clasificaciones.• Agrupamientos.• PronósBcos. Fundamentos de la Minería de Datos
11
Aplicaciones de Minería de Datos
Fundamentos de la Minería de Datos
12
UNIDAD II: Métodos para el Tratamiento y
Análisis de Datos.
Fundamentos de la Minería de Datos
13
Introducción 1/2
La disponibilidad de grandes volúmenes deinformación y el uso generalizado deherramientas informáBcas ha transformado elaná l i s i s de datos or ientándolo hac iadeterminadas técn icas espec ia l i zadasenglobadasbajoelnombredemineríadedatoso DataMining.
Fundamentos de la Minería de Datos
14
Los métodos Benen como objeBvo descubrirpatrones, perfiles y tendencias a través delanálisis de los datos uBlizando tecnologías dereconocimiento de patrones, redes neuronales,lógica difusa, algoritmos genéBcos y otrastécnicasavanzadasdeanálisisdedatos.
Introducción 2/2
Fundamentos de la Minería de Datos
15
• DATO:Un dato es un conjuntodiscreto de factores sobe unhecho real. Dentro de uncontexto empresarial, elconcepto de dato esdefinido como, un registrode transacciones.
Conceptos Básicos 1/2
Fundamentos de la Minería de Datos
16
• INFORMACIÓN:A diferencia de los datos la información tienesignificado (relevancia y propósito). No solopueden formar potencialmente al que la recibe, sino que esta organizada para algún propósito.
Conceptos Básicos 2/2
Fundamentos de la Minería de Datos
17
KDDExtraccióndeinformación
KDDtratade interpretargrandescanBdadesdedatosparaencontrarrelacionesopatrones.
Fundamentos de la Minería de Datos
18
¿Cómofunciona?
1. SeiniciaconlaidenBficacióndelosdatos• Quédatossenecesitan• Dondeencontrarlos• Comoconseguirlos
2. SeleccionarlosdatosúBles.
3. Seleccionarlasherramientasytécnicasadecuadas.
Fundamentos de la Minería de Datos
19
Fases de la Minería de Datos 1/3
Fundamentos de la Minería de Datos
20
Selección• Recopilareintegrarlasfuentesdedatosexistentes.• IdenBficaryseleccionarlasvariablesrelevantesenlosdatos.
• Aplicarlastécnicasdemuestreoadecuadas.
Exploración• UBlizarlastécnicasdeanálisisexploratoriodedatos.• Deducirladistribucióndelosdatos,simetríaynormalidad.
• Analizarlascorrelacionesexistentesenlainformación.
Fases de la Minería de Datos 2/3
Fundamentos de la Minería de Datos
21
Limpieza• Detectarytratarlapresenciadevaloresinconsistentes.
• Imputarlainformaciónfaltanteovaloresperdidos.• Eliminardatoserróneoseirrelevantes.
Transformación• UBlizartécnicasdereducciónyaumentodeladimensión.
• Aplicartécnicasdenumerización.
Fases de la Minería de Datos 3/3
Fundamentos de la Minería de Datos
22
RedesneuronalesarAficiales:
Modelos predecible no-lineales que
aprenden a través del entrenamiento y
semejan la estructura de una red neuronal
biológica.
TÉCNICAS DE MINERÍA DE DATOS 1/6
Fundamentos de la Minería de Datos
23
ArbolesdeDecisión:
Estructuras de forma de árbol que
representan conjuntos de decisiones. Estas
decis iones generan reglas para la
clasificacióndeunconjuntodedatos.
TÉCNICAS DE MINERÍA DE DATOS 2/6
Fundamentos de la Minería de Datos
24
AlgoritmosgenéAcos:
TécnicasdeopBmizaciónqueusanprocesos
tales como combinaciones genéBcas,
mutacionesyselecciónnaturalenundiseño
basadoenlosconceptosdeevolución.
TÉCNICAS DE MINERÍA DE DATOS 3/6
Fundamentos de la Minería de Datos
25
MétododelVecinoMásCercano:
Técnica que clasifica cada registro en un
conjunto de datos basado en una
combinación de las clases de los registros
similaresaél.
25
TÉCNICAS DE MINERÍA DE DATOS 4/6
Fundamentos de la Minería de Datos
26
RegladeInducción:
Extracción de reglas de datos basados en
significadoestadísBco,parapoderextraero
determinarlainformaciónimportanteenun
volumenampliodedatos.
TÉCNICAS DE MINERÍA DE DATOS 5/6
Fundamentos de la Minería de Datos
27
Clustering(agrupamiento):Procesodedividirunconjuntodedatosengruposmutuamenteexcluyentesde talmaneraquecadamiembro de un grupo esté lo "más cercano"posible a otro, y grupos diferentes estén lo "máslejos"posibleunodelotro,dondeladistanciaestámedida con respecto a todas las variablesdisponibles.
TÉCNICAS DE MINERÍA DE DATOS 6/6
Fundamentos de la Minería de Datos
28
UNIDAD III: Proceso de Análisis
Supervisado.
Fundamentos de la Minería de Datos
29
• Lastécnicasdelamineríadedatosprovienendelainteligencia arBficial y de la estadísBca. Dichastécnicas,nosonmásquealgoritmos,másomenossofisBcados que se aplican sobre un conjunto dedatos para obtener unos resultados. De entre lasvariadas técnicas, existen las llamadas reglas deasociación.
• Reglas de asociación: Se uBlizan para descubrirhechos que ocurren en común dentro de undeterminadoconjuntodedatos.SegúnelobjeBvodelanálisisdelosdatos,losalgoritmosuBlizadosseclasificanensupervisadosynosupervisados(WeissyIndurkhya,1998).
Introducción 1/2
Fundamentos de la Minería de Datos
30
• Algoritmossupervisados(opredicBvos):predicenundato(ounconjuntodeellos)desconocidoapriori,aparBrdeotrosconocidos.
• Algoritmosnosupervisados(odeldescubrimientodelconocimiento):sedescubrenpatronesytendenciasenlosdatos.
Introducción 2/2
Fundamentos de la Minería de Datos
31
AprendizajeSupervisado1/2• DependiendodesiseesBmaunafunciónounacorrespondencia:– Categorización:SeesBmaunacorrespondencia(lasclasespuedensolapar).
• Ejemplo:determinardeunconjuntodetemasdequétemastrataunadeterminadapáginaweb(cadapáginapuedetratardevariostemas).
– Clasificación:SeesBmaunafunción(lasclasessondisjuntas).
• Ejemplo:determinarelgruposanguíneoaparBrdelosgrupossanguíneosdelospadres.
• Ejemplo:Determinarsiuncompuestoquímicoescancerígeno.
Fundamentos de la Minería de Datos
32
• Técnicas:– k-NN(NearestNeighbor).– k-means(compeBBvelearning).– PerceptronLearning.– MulBlayerANNmethods(e.g.backpropagaBon).– RadialBasisFuncBons.– SupportVectorMachines– DecisionTreeLearning(e.g.ID3,C4.5,CART).– BayesClassifiers.– CenterSplihngMethods.– Rules(CN2)– Pseudo-relaBonal:Supercharging,Pick-and-Mix.– RelaBonal:ILP,IFLP,SCIL.
AprendizajeSupervisado2/2
Fundamentos de la Minería de Datos
33
k-NN(NearestNeighbour):
• 1.Semiranloskcasosmáscercanos.• 2.Sitodossondelamismaclase,elnuevocasoseclasificaenesaclase.
• 3.Sino,secalculaladistanciamediaporclaseoseasignaalaclaseconmáselementos.
Fundamentos de la Minería de Datos
34
Radial-BasisFuncAon
• PRIMERPASO:AlgoritmoClustering:1. Dividiraleatoriamentelosejemplosenkconjuntosycalcularlamedia(elpuntomedio)decadaconjunto.2. Reasignarcadaejemploalconjuntoconpuntomediomáscercano.3. Calcularlospuntosmediosdeloskconjuntos.4. RepeBrlospasos2y3hastaquelosconjuntosnovaríen.
• SEGUNDOPASO:Recodificarlosejemploscomodistanciasaloscentrosynormalizar.
Fundamentos de la Minería de Datos
35
Radial-BasisFuncAon• TERCERPASO:Conunperceptrondekelementosdeentradayunasalida,aplicarelalgoritmovistoantes.
• SeconvierteenunaparBciónlineal(hiperplano)enunespaciode4dimensionesconlosejemplossiendolasdistanciasaloscentros.
Fundamentos de la Minería de Datos
36
MáquinasdeVectoresSoporte1/2
• Sebasanenunclasificadorlinealmuysencillo,precedidodeunatransformacióndeespacio(atravésdeunnúcleo)paradarlepotenciaexpresiva.
Fundamentos de la Minería de Datos
37
MáquinasdeVectoresSoporte2/2
• Elclasificadorlinealqueseusasimplementesacalalínea(enmásdimensiones,elhiperplano)quedividalimpiamentelasdosclasesyademásquelostresejemplosmáspróximosalafronteraesténlomásdistantesposibles.
Fundamentos de la Minería de Datos
38
ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)1/4
AlgoritmoDivideyVencerás:1. Secreaunnodoraízcontodoslosejemplos.2. SitodosloselementosdeSsondelamisma
clase,elsubárbolsecierra.Soluciónencontrada.
3. SeeligeunacondicióndeparBciónsiguiendouncriteriodeparBción(splitcriterion).
4. Elproblemaquedasubdividoendossubárboles(losquecumplenlacondiciónylosqueno)ysevuelvea2paracadaunodelosdossubárboles.
Fundamentos de la Minería de Datos
39
• AlgoritmoDivideyVencerás:
ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)2/4
Fundamentos de la Minería de Datos
40
ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)3/4
Fundamentos de la Minería de Datos
41
ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)4/4
Fundamentos de la Minería de Datos
42
CenterSpli`ng1/2
Algoritmo:1. Inicializarelprimercentroenlamediade
losejemplos.2. Asignartodoslosejemplosasucentromás
cercano.3. SihayalgúncentroqueBeneejemplosde
diferenteclase,borrarelcentroycreartantosnuevoscentrosdisBntoscomoclaseshaya,cadaunosiendolamediadelosejemplosdelaclase.Ira2.
Fundamentos de la Minería de Datos
43
CenterSpli`ng2/2
Fundamentos de la Minería de Datos
44
UNIDAD IV: Proceso de Análisis No
Supervisado.
Fundamentos de la Minería de Datos
45
Los métodos no supervisados o también
conocidos como el descubrimiento del
conocimiento Bene como objeBvo principal
descubrir patrones, tendencias en los datos
actuales y determinar que elementos ya sean
genesomuestraspresentanunpatrónsimilar.
Introducción 1/2
Fundamentos de la Minería de Datos
46
Laaplicacióndelosmétodosnosupervisadoses
descubrir los patrones de expresión que
posteriormente podrán usarse en análisis
supervisados.
Introducción 2/2
Fundamentos de la Minería de Datos
47
Técnicas de los Métodos No Supervisados
TenemoslasSiguientes:
• Deteccióndedesviaciones
• Segmentación
• Agrupamiento(“Clustering”)
• Reglasdeasociación
• Patronessecuenciales
• RedesneuronalesnosupervisadasFundamentos de la Minería de Datos
48
Detección de Desviación
Frecuentemente estos objetos son conocidos comoOutlier, la detección de anomalías también esconocida como detección de desviaciones , porqueobjetosanómalosBenenvaloresdeatributosconunadesviación significaBva respecto a los valores mpicosesperados.
Son tratados como ruido o error en muchasoperaciones.
Fundamentos de la Minería de Datos
49
Agrupamiento o Clustering
El agrupamiento se puede considerar como laaproximación mas uBlizada en aprendizaje nosupervisado.
Su objeBvo general es encontrar algún Bpo deestructuraenunacoleccióndedatossineBquetarosinclasificar,yaqueen lamayoríade loscasosnosedisponedeesteBpodeinformación.
Fundamentos de la Minería de Datos
50
Redes Neuronales No Supervisadas
Estas redes son capaces de modificar susparámetros internamente sin necesidad desupervisión.
Las redes neuronales no supervisadas por logeneral Benen una arquitectura sencilla y secaracterizan por ser mas similares a los modelosbiológicosquelasredesneuronalessupervisadas.
Fundamentos de la Minería de Datos
51
Reglas de Asociación
Las reglasdeasociaciónen lamineríadedatos
se uBlizan para encontrar hechos que ocurren
en común dentro de un conjunto de datos.
Dicho de otramanera que debe ocurrir ciertas
condiciones para que se produzca cierta
condición.
Fundamentos de la Minería de Datos
52
Patrones Secuenciales
Laminería de patrones secuenciales es laminería
de patrones que ocurren frecuentemente
relacionadosalBempouaotrassecuencias.
Aplicacionesdelamineríadepatronessecuenciales
Patrones de llamadas telefónicas, flujos de
navegaciónenlaweb.
EstructurasdeADNygenes.
Fundamentos de la Minería de Datos
53
Proceso de un Aprendizaje No Supervisado
Fundamentos de la Minería de Datos
54
Fases del Proceso No Supervisado 1/2
• Las primeras fases son la obtención de datos y supreproceso(selecciónyextraccióndecaracterísBcas).
• En la fase selección y extracción de caracterísBcas elaprendizaje no es la misma, al no disponer deinformaciónacercadelasalida.
• En la fase de entrenamiento no se puede reajustar elmodelo en base al error. Pero sigue siendo necesariosepararlosdatosdeentrenamientoydatosdevalidaciónparadecidirsielmétodoesbuenoono.
Fundamentos de la Minería de Datos
55
• LafasedeseleccióndelalgoritmoyelentrenamientotambiénsemanBenen,enestecasolaposibilidaddevalidarsilosresultadossoncorrectosnoesfrecuente,puestoquenosedisponedeinformacióndesalida.
• La manera de decidir cuando se ha aprendido esviendo si el sistema converge o estableciendo uncriterio de parada como puede ser un numero deiteracionesdefuncionamientomáximo.
Fases del Proceso No Supervisado 2/2
Fundamentos de la Minería de Datos
56
UNIDAD V: Métodos Estimadores de Error.
Fundamentos de la Minería de Datos
57
Tareas de la Minería de Datos 1/2
El proceso de minería involucra ajustar
modelos o determinar patrones a parBr de
datos. Este ajuste normalmente es de Bpo
estadísBco, en el senBdo que se permite un
ciertoruidooerrordentrodelmodelo.
Fundamentos de la Minería de Datos
58
A la hora de evaluar la capacidad predicBva deuna herramienta de DM, el parámetro másimportante suele ser la precisión de laspredicciones que realiza. Para los sistemas deaprendizaje no supervisado, como análisis deconglomerados o generación de reglas deasociación.
Tareas de la Minería de Datos 2/2
Fundamentos de la Minería de Datos
59
La tasa de error es el complemento de la
precisión, mide el porcentaje de las
predicciones que son erróneas. Se suele
uBlizar cuando los niveles de precisión son
muy altos, pues resulta más fácil apreciar la
mejora.
Tasa de Error 1/2
Fundamentos de la Minería de Datos
60
Por ejemplo, la mejora de la precisión del
99,0% al 99,5% puede parecer menos
importantequelamejoradel50%al75%,sin
embargo,enamboscasos latasadeerrorse
reducealamitad(unamejoraespectacular).
Tasa de Error 2/2
Fundamentos de la Minería de Datos
61
A menudo, al realizar la predicción, el
algoritmo de DM proporciona tanto la
predicción como la confianza de que dicha
predicciónseacorrecta.
Tasa de Error en Rechazo 1/3
Fundamentos de la Minería de Datos
62
Por ejemplo, el algoritmo del vecino más
cercano puede proporcionar la misma
predicciónpara todos los vecinos o para una
mayoría.Lapredicciónpuedeserlamismaen
ambos casos, peroenel casodeunanimidad
laconfianzaenlapredicciónesmásalta.
Tasa de Error en Rechazo 2/3
Fundamentos de la Minería de Datos
63
Las prediccionespuedenordenarse según su
confianza y las que menos confianza
"inspiran"puedenrechazarse.Deestaforma,
sepuededuplicarlaprecisiónrechazandoun
80%depredicciones.
Tasa de Error en Rechazo 3/3
Fundamentos de la Minería de Datos
64
Para las variables conBnuas, el grado de mal
emparejamiento entre la predicción y el valor
realpuedencalcularserestandolosdosvaloresy
elevando el resultado al cuadrado. Este "error
cuadrado" puede promediarse sobre todas las
predicciones para esBmar la distancia entre los
valoresrealesylaspredicciones.
Error Cuadrático Medio 1/2
Fundamentos de la Minería de Datos
65
LaelevaciónalcuadradoBenedosventajas:
1. Porunlado,daunmayorpesoaloserrores
graves.
2. Por otro lado, asegura que todos los
erroressonposiBvosysesumana lahora
decalcularlamedia.
Error Cuadrático Medio 1/2
Fundamentos de la Minería de Datos
66
Que consiste en dividir el conjunto de
entrenamiento en n subconjuntos n-1 de los
cuálesserviránrealmenteparaelentrenamiento
del sistemay1para la esBmacióndel error. Sin
embargo,elproblemaesquelaconstruccióndel
clasificadorsellevaacaboconmenosejemplos.
Reduced-Error Pruning
Fundamentos de la Minería de Datos
67
UNIDAD VI: Métodos para Análisis del
Índice de Acierto.
Fundamentos de la Minería de Datos
68
FormasdeAnálisis
• Asumirdistribucionesapriori.
• Criterio de simplicidad, de descripción o
transmisiónmínimas.
• Separar:TrainingSetyTestSet.– Cross-validaBon.
• Basadasenrefuerzo.
Fundamentos de la Minería de Datos
69
EvaluaciónporTécnicasBayesianas1/2
• Lamejorhipótesiseslamásprobable.
• BasadasenelteoremadeBayes.DespejanP(h|D).
• La distribución de hipótesis a priori P(h) y la
probabilidad de unas observaciones respecto a cada
hipótesisP(D|h)debenserconocidas.
• Son sólo técnicas evaluadoras aunque si el conjunto
de hipótesis H es reducido se pueden uBlizar en
algoritmosdeaprendizaje.Fundamentos de la Minería de Datos
70
• Permiten acomodar hipótesis probabilísBcas tales
como “este paciente de neumonía Bene un 93% de
posibilidadesderecuperarse”.
• Muchas veces no se conoce P(h) o incluso P(D|h).
Sehacensuposiciones:distribuciónuniforme,normal
o universal.
EvaluaciónporTécnicasBayesianas2/2
Fundamentos de la Minería de Datos
71
TeoremadeBayesTeoremadeBayes,yMaximumLikelihood(ProbabilidadMáxima):• P(h|D):probabilidaddeunahipótesisdadounconjuntodedatos.
• P(h):probabilidadaprioridelashipótesis.• P(D|h):probabilidaddeDdadalahipótesis.• P(D):probabilidadaprioridelosdatos(sinotrainformación).
Fundamentos de la Minería de Datos
72
MAP(MaximumaPosteriori)
ElMáximoaPosterioriserepresentaconlasiguienteexpresión:
Fundamentos de la Minería de Datos
73
MaximumLikelihood
ElMáximodeLikelihoodserepresentaconlasiguienteexpresión:
Fundamentos de la Minería de Datos
74
ElPrincipioMDL(MinimumDescripBonLength)
Asumimos P(h) como la distribución universal (Occam’s Razor):
FORMALIZACIÓNDELANAVAJADEOCCAM:
“Lashipótesisconmínimadescripciónmáspequeñasonmásprobables”.
donde K(·) es la complejidad descriptiva (Kolmogorov) de H.
Fundamentos de la Minería de Datos
75
ParBcióndelaMuestra
• EvaluarunahipótesissobrelosmismosdatosquehanservidoparagenerarladasiempreresultadosmuyopBmistas.Solución:PARTIREN:TrainingSetyTestSet.
• Silosdatosdisponiblessongrandes(oilimitados):– TrainingSet:conjuntoconelqueelalgoritmoaprendeunao máshipótesis.
– TestSet:conjuntoconelqueseseleccionalamejordelasanterioresyseesBmasuvalidez.
• Paraproblemasconclasediscreta,secalculala“accuracy”,quesemidecomoelporcentajedeaciertossobreeltestset.
• Paraproblemasconclasecon@nua,seuBlizalamediadelerrorcuadráBcouotrasmedidassobreeltestset.
Fundamentos de la Minería de Datos
76
Accuracy• SuponiendolamuestraSdenejemplos,lahipótesishes
discretaysonindependientes.• Sin>=30,nospermiteaproximarladistribuciónbinomial
conlanormal.• Calculadoelerrors(h)sobrelamuestracomonºerrores/n
Podemosobtenerunintervalodeconfianzaaunnivelc:
Algunos valores de la tabla normal: Niveldeconfianzac: 50 68 80 90 95 98 99
ConstanteZc: 0.67 1.00 1.28 1.64 1.96 2.33 2.58
Fundamentos de la Minería de Datos
Fundamentos de la Minería de Datos 77
EjemploPrácBco
𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)± 𝑍↓𝑖 √𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)(1− 𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ))/𝑛 =0.3±1.96√0.3(1−0.3)/40 =0.3±0.14
Porlotanto,paraconseguirunniveldeconfianzadel95%,esnecesarioque:
𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)=0.3±0.14
𝑐𝑜𝑚𝑜 0.3+0.14=0.44 𝑦 0.3−0.14=0.16, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠,
𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜 𝑒𝑠𝑡á 𝑒𝑛𝑡𝑟𝑒 17.6 𝑦 6.4
Considerando que una hipótesis da 12 errores sobre 40 ejemplos, por tanto, que con confianza 95% (Zc = 1.96):
𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)= 12/40
𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)=0.3
78
BIBLIOGRAFÍA
Fundamentos de la Minería de Datos
Fundamentos de la Minería de Datos 79
• SumathiS.,SivanandamS.N.(2006).IntroducBontodatamininganditsapplicaBons.Springer.
• VermaB.,BlumensteinM.(2008).PawernRecogniBonTechnologiesandApplicaBons:RecentAdvances.IGIGlobal.
• Eldén L. (2007). Matrix Methods in Data Mining and PawernRecogniBon(FundamentalsofAlgorithms).SocietyforIndustrialandAppliedMathemaBcs.
• SkillicornD. (2007).UnderstandingComplexDatasets:DataMiningwithMatrixDecomposiBons.Chapman&Hall/CRCPress.
• WuX.,KumarV.(2009).Thetoptenalgorithmsindatamining.CRCPress.
• TanP.,SteinbachM.,KumarV.(2006).IntroducBontoDataMining.PearsonAddisonWesley.
BIBLIOGRAFÍA
80
REFERENCIAS WEB
• http://www.it.uc3m.es/jvillena/irc/practicas/03-04/20.pres.pdf
• http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-1.ppt
• http://exa.unne.edu.ar/informatica/SO/IM_2006.pdf
• http://inacap.serveftp.com/tic2/2_Prueba/02102014/mineria%20de
%20datos.ppt
• http://adimen.si.ehu.es~rigauteachingEHUABDCurs%202005-
2006EntregesBD%20emergetsPresentacion%20Data%20Mining.ppt
* De las cuales se tomaron imágenes para ilustrar este material.
Fundamentos de la Minería de Datos
81
® Derechos Reservados: Universidad Autónoma del Estado de México
2018
Fundamentos de la Minería de Datos
Top Related