ANÁLISIS MULTIVARIANTE Trabajo Fin de Grado APLICADO EN EL ...
Transcript of ANÁLISIS MULTIVARIANTE Trabajo Fin de Grado APLICADO EN EL ...
Trabajo Fin de Grado
Trabajo Fin de Grado
Facultad d
e C
iencia
s S
ocia
les y
Jurí
dic
as
Gra
do
en
Est
adís
tica
y E
mp
resa
ANÁLISIS
MULTIVARIANTE
APLICADO
EN EL SECTOR
COMPUTACIONAL
Alumno: Francisco Javier Trigo Benítez
Mayo, 2019
RESUMEN
Este estudio está orientado al sector de la computación en el que trataremos de ver las
semejanzas de los distintos portátiles que se han recogido de las marcas más competentes
del mercado, para ello se aplicarán diversas técnicas estadísticas orientadas para este
objetivo, como son las Distancias Estadísticas y un MDS para tener una idea más clara
visualmente.
Acto seguido, se realizará un Estudio Descriptivo de sus diferentes variables o
características mediante dos técnicas distintas, un Análisis de Componentes Principales y
un Análisis de Correspondencia Múltiple a fin de agrupar dichos portátiles de la mejor
manera posible y ver como se componen dichos grupos en función de sus atributos.
Finalmente llevaremos a cabo un Análisis Conjunto para determinar cuáles son las
características que determinan la decisión de compra final de un portátil u otro en los
consumidores.
ABSTRACT
This study is oriented to the computer sector in which we will try to see the similarities
of the different laptops that have been collected from the most competent brands in the
market, for this purpose various statistical techniques aimed at this objective will be
applied, such as Statistical Distances and an MDS to have a clearer idea visually.
Next, a Descriptive Study of its different variables or characteristics will be done by
means of two different techniques, a Principal Component Analysis and a Multiple
Correspondence Analysis in order to group these laptops in the best possible way and see
how these groups are composed in function of its attributes.
Finally, we will do a Joint Analysis to determine which are the characteristics that
determine the final purchase decision of a laptop or another in the consumers.
Palabras clave: Portátil, Distancias Estadísticas, Escalamiento Multidimensional,
Análisis de Componentes Principales, Análisis de Correspondencia Múltiple y Análisis
Conjunto.
2
ÍNDICE
1. INTROUDCCION……………………………………………………………...4
1.1.HISTORIA DE LA COMPUTACIÓN……………………………………...4
1.2. UNA MIRADA HACIA EL FUTURO…………………………………….7
2. RECOGIDA DE DATOS………………………………………………………8
2.1. VARIABLES DE ESTUDIO……………………………………………….9
3. DISTANCIAS ESTADÍSTICAS……………………………………………..10
3.1.DISTANCIA DE GOWER MEDIANTE R………………………………..13
4. ESCALAMIENTO MULTIDIMENSIONAL……………………………….16
4.1. VENTAJAS Y CAMPOS DE USO……………………………………….16
4.2. PASOS A SEGUIR………………………………………………………..17
4.3. RESULTADOS……………………………………………………………19
5. ANÁLISIS DE COMPONENTES PRINCIPALES………………………...23
5.1.RESULTADOS DEL ACP…………………………………………………25
6. ANALISIS DE CORRESPONDENCIA MULTIPLE………………………33
6.1.RESULTADOS DEL ACM EN SPSS……………………………………..34
7. ANALISIS CONJUNTO……………………………………………………...41
7.1.LIMITACIONES DEL ANALISIS CONJUNTO Y
PROCEDIMIENTO…........................................................................................42
7.2.RESULTADOS DEL ANALISIS CONJUNTO EN SPSS ……………….46
8. CONCLUSIONES…………………………………………………………....52
9. BIBLIOGRAFIA……………………………………………………………..54
ANEXOS………………………………………………………………………….56
3
1. INTRODUCCIÓN.
1.1. HISTORIA DE LA COMPUTACIÓN.
La computadora es una de las herramientas más usadas en la actualidad tanto que
forma parte en nuestras vidas día a día, de hecho nosotros no seríamos los que somos
ahora, y no haríamos todo lo que podemos hacer ahora de no ser por la existencia de
ordenadores trabajando detrás de nosotros, una tecnología que supuso un gran cambio
en el mundo desde el primer día de su existencia.
Si quisiéramos hacer un repaso evolutivo desde su origen, debemos dar un salto hacia
atrás en el tiempo, siendo más exactos hasta la época de las antiguas civilizaciones
griega y romana, porque en cierto modo fue ahí donde comenzó todo con el invento
del ábaco, considerado como el invento más antiguo de cálculo, ese cuadro de madera
con barras paralelas en las que se usaban bolas movibles para realizar las operaciones
aritméticas más sencillas del mundo (suma, resta, multiplicación y división), aunque
también se podían calcular otras más complejas como raíces.
Podríamos decir que la primera máquina, precursora del ordenador digital de hoy en
día, fue creada en el siglo XVII por el gran matemático francés Blaise Pascal en 1642,
la famosa Pascalina, un dispositivo compuesto de ruedas con diez dientes los cuales
representaban cada uno un dígito del 0 al 9, y a través de una perfecta unión de estas
se logra hacer sumas. Poco después el matemático y filósofo alemán Gottfried
Wilhelm von Leibniz la perfeccionó, en 1672 dando lugar así a una máquina capaz de
calcular las cuatro operaciones matemáticas incluida la raíz cuadrada, había nacido la
primera calculadora universal. Pero no fue hasta dos siglos después, entre 1833 y 1842
cuando apareció la primera máquina analítica o primera computadora creada por el
profesor matemático e ingeniero inglés Charles Babbage. La idea que tenía Babbage
era la de fabricar una máquina que fuese capaz llevar a cabo cualquier tipo de cálculo
automáticamente y programable, para ello se basó en un diseño que desarrolló un
matemático francés llamado Joseph Marie Jacquard quien usaba tarjetas perforadas
para realizar diseños en el tejido. La máquina de Babbage fue la primera computadora
que existió en la historia ya que disponía dispositivos tanto de entrada como de salida,
las tarjetas perforadas tomadas de Jacquard, junto con un procesador aritmético para
calcular números, una unidad de control y una memoria para almacenar los números
4
hasta procesarlos; pero por desgracia a raíz de diversos problemas la máquina nunca
llegó a terminarse, aun así, se considera a Charles Babbage (1791 – 1871) como «El
Padre de la Computación».
Conforme pasaron los años, nuevos inventos y teorías fueron surgiendo; en 1848
George Boole inventa el álgebra Booleana, la cual digamos que abrió al desarrollo de
los ordenadores unos 100 años después; en 1878 Ramón Verea inventa una
calculadora con una tabla de multiplicación interna facilitando así el giro de los
engranajes; en 1890 Herman Hollerith fundó la Tabulating Machine Company,
transformado más tarde en la que hoy conocemos como IBM, etc.; hasta que llegamos
finalmente al siglo XX, pues es aquí donde surgieron los primeros ordenadores
analógicos (con dispositivos electrónicos o mecánicos). En 1920 aparecieron las
primeras calculadoras electrónicas, proyecto conocido con el nombre de “aritmómetro
electromagnético” llevado a cabo por Leonardo Torres y Quevedo, dispositivo digital
que trajo grandes avances digitales en la computación, considerado este como uno de
los eventos más importantes en la historia de la computación, como por ejemplo
George Stibitz en 1937 creó las primeras computadoras binarias del mundo
Las Dos Guerras Mundiales, además de aterradoras también fueron de gran
importancia para la humanidad pues afectó a Europa, Asia y América. En la segunda
se produjo un increíble desarrollo tecnológico avanzado cambiando consigo el curso
de la guerra, fueron años claves, incluso hay quienes afirman que el año 1936 fue el
más significativo en la historia de los ordenadores, pues en ese año un ingeniero
alemán llamado Konrad Zuse creó el Z1, primer ordenador totalmente programable
con su propio lenguaje de programación “el Plankalkül” (primer lenguaje oficial de
programación); otros dicen que fue el Colossus, uno de los primeros dispositivos de
cálculo electrónicos muy utilizado por los británicos para leer las comunicaciones
cifradas de los alemanes… .
Finalizadas las guerras fueron surgiendo ordenadores cada vez más potentes, en 1944
la Universidad de Harvard construyó el Mark I; en 1947 la Universidad de
Pennsylvania creó la ENIAC (Electronic Numerical Integrator And Calculator)
la primera computadora electrónica funcionando con tubos al vacío, que era unas
1500 veces más potente que el Mark I ya que realizaba 500 multiplicaciones o 5000
5
sumas en un solo segundo, mientras el Mark I (con 800 kilómetros de cable)
necesitaba de 6 segundos para realizar una multiplicación y 12 para realizar una
división; en 1949 surgió el EDVAC (Electronic Discrete Variable Automatic
Computer), construida en la Universidad de Manchester, con 7850 kg y una superficie
de 150 metros cuadrados, está considerado como otro de los grandes ordenadores de
la época (primer ordenador con capacidad de almacenamiento basado en conceptos
del matemático húngaro Von Neumann, de hecho fue a partir de este ordenador de
donde fueron surgiendo ya las arquitecturas más completas.
A finales de la década de 1950 el uso del transistor en los ordenadores marcó la
llegada de elementos mucho más versátiles, rápidos y de menor tamaño que los de las
máquinas de válvulas, ya que el transistor tenía una vida útil mucho más duradera y
consumía una cantidad de energía menor trajo consigo la llamada segunda generación
de ordenadores, cuyos componentes eran más pequeños y la fabricación más barata.
Diez años después, a finales de los 60 apareció el circuito integrado dando la
oportunidad de fabricar varios transistores en solo una unidad de sustrato de silicio
donde los cables de conexión irían soldados, lo que provocó una reducción tanto de
tamaño como de precio y porcentajes de error; hasta que finalmente surgió la unidad
de control con la que trabajarían todos los ordenadores desde mediados de los años
70 hasta nuestras fechas, el microprocesador, que trajo consigo la introducción del
VLSI (Very Large Scale Integrated) o “circuito de integración a mayor escala “
formado por varios miles de transistores.
En medio de estos avances fue cuando surgió el primer ordenador portátil en la década
de los 80, que al igual que los ordenadores de sobremesa tiene un origen incierto, no
se sabe con exactitud cuál fue el primero, aunque todo apunta a que fue el Osborne 1
creado por Adam Osborne en 1981, dando así inicio a la era del portátil pues su éxito
comercial fue rotundo.
Como vemos la historia de la computación está compuesta principalmente de un
proceso evolutivo, a raíz de muchas ideas e inventos que han ido desarrollándose a lo
largo de los siglos.
6
1.2.UNA MIRADA HACIA EL FUTURO.
La tendencia actual que existe, en lo referente al desarrollo de ordenadores, es la
microminiaturización, es decir hacer los elementos cada vez más pequeños en un chip
cada vez más pequeño a la vez, de ahí que hayamos conseguido llegar al término
conocido como nanotecnología (manipulación de la materia a escala nanométrica),
pero la computación, dentro de unos años experimentará otro gran cambio en su
evolución, de hecho algunas universidades ya lo han incorporado logrando cambios
increíbles en la informática aunque afectará de igual forma a otros áreas del
conocimiento, podríamos decir que se aproxima una “revolución digital”, estamos
hablando ni más ni menos que de la “Computación Cuántica”.
Se trata de un nuevo ejemplo totalmente distinto de computación al de la computación
clásica de nuestra época ya que se basa en la utilización de qbits en lugar de bits, lo
que abre nuevas puertas para la tecnología. Explicado de forma sencilla, un ordenador
clásico trabaja como hemos dicho con bits, la unidad básica de información; nuestro
ordenador solo sabe leer el bit que como sabemos puede tener dos estados posibles:
cero (encendido) y uno (apagado); mediante estos bits podemos realizar una serie de
operaciones lógicas (AND, NOT, OR) no solo con un bit sino hasta con 2𝑛. Un
ordenador procesa toda esa información mediante los transistores, que vienen a ser
como pequeñas cajas que pueden almacenar la energía o liberarla cuando haga falta,
por ejemplo, para un único bit se utilizan seis transistores (cajas), la operación OR
comprueba si hay electricidad en dos cajas, y si la hay pues guarda electricidad en
otra caja. Como vemos el funcionamiento de un ordenador es bastante mecánico, por
lo que su velocidad de procesamiento solo ve limitada por su “armamento técnico” o
su hardware.
Bien, un ordenador cuántico no trabaja con chips, placas bases, transistores, etc., sino
con átomos, y es justo aquí donde radica su gran ventaja, lo que hace especial a la
tecnología cuántica, pues entran las leyes de la física cuántica, siendo las dos
principales: el principio de superposición, que permite trabajar al ordenador en ambos
estados (apagado y encendido) a la vez pues el proceso ya no se lleva a cabo
mecánicamente como hemos descrito, lo que permite resolver los problemas a toda
velocidad, con muchos resultados y paralelamente; el segundo principio es
7
el entrelazamiento lo que hace es mantener fijas las relaciones existentes entre los qbits,
por lo que una operación en uno de ellos afectará obligatoriamente a los demás,
reduciendo así la cantidad de 2𝑛 estados necesarios para llevar a cabo las operaciones
lógicas; dicho en otra palabras los ordenadores cuánticos proporcionarán infinidad cosas
que no podríamos hacer ahora: ayudar a diseñar materiales nuevos, promete unos
incrementos a nivel exponencial en la capacidad de procesamiento (el código con mayor
encriptación del mundo será resuelto en cuestión de segundos), desafiará gran parte de lo
que creemos conocer sobre el mundo, desarrollo de nuevos algoritmos (Algoritmo de
Shor, Algoritmo de Grover, Algoritmo de Deutsch – Jozsa, entre los que ya existen), la
química (simulación), la medicina (desarrollo de nuevos medicamentos), la logística
incluso la inteligencia artificial se verán beneficiadas gracias a estos avances, entrando
así en una nueva era.
2. RECOGIDA DE DATOS.
La recogida de datos ha sido una de las partes más duras y largas para poder llevar a
cabo este estudio ya que no existe una página específica o una base de datos con las
especificaciones técnicas de cada ordenador, por lo que ha sido necesario acceder a
cada una de sus webs. La recopilación se ha hecho conforma a las marcas de más
prestigio, más famosas o competentes que existen en el mercado, incluyendo las del
extranjero como algunas españolas, siendo más exactos: Lenovo, Asus, Dell, HP,
Acer, Apple, MSI, Vant, Slimbook, Mountain, Microsoft y Toshiba; tomando un total
de cien portátiles.
En un principio se pretendía coger también los de las marcas Samsung y Sony, pero
ambas compañías lanzaron un comunicado en 2014 en las que anunciaban su
abandono del mundo de los ordenadores, en otras palabras, Samsung dejó de vender
ordenadores en Europa ya que según ellos no les salía rentable estar en este sector;
mientras que Sony vendió su división VAIO a Japan Industrial Partners (JIP) tras años
de problemas técnicos.
Además de las webs oficiales de cada una, se ha utilizado un buscador especial en la
recogida de información, usado por algunas de estas marcas a modo de “corroboración
técnica o índice de satisfacción”, para sus portátiles, llamada Notebookcheck cuya
función en aportar información seria sobre laptops.
8
2.1.VARIABLES DE ESTUDIO.
Tabla 1: Lista de variables
9
3. DISTANCIAS ESTADÍSTICAS.
“Una distancia δ sobre un conjunto Ω es una aplicación de Ω x Ω en R, tal que a
cada par (i,j) hace corresponder un número real δ (i,j) = δ_ij” (Fuente: M. Cuadras,
Carles.)
Algunas propiedades que han de cumplirse son:
Propiedad 1 𝛿𝑖𝑗 ≥ 0
Propiedad 2 𝛿𝑖𝑖 = 0
Propiedad 3 𝛿𝑖𝑗 = 𝛿𝑗𝑖
Propiedad 4 𝛿𝑖𝑗 ≤ 𝛿𝑖𝑘 + 𝛿𝑗𝑘
Propiedad 5 𝛿𝑖𝑗 = 0 siempre que i = j
Propiedad 6 𝛿𝑖𝑗 ≤ max 𝛿𝑖𝑘 , 𝛿𝑗𝑘 (desigualdad ultramétrica)
10
Propiedad 7 𝛿𝑖𝑗 + 𝛿𝑘𝑙 ≤ max 𝛿𝑖𝑘 + 𝛿𝑗𝑙 , 𝛿𝑖𝑙 + 𝛿𝑗𝑘 (desigualdad aditiva)
Propiedad 8 𝛿𝑖𝑗 (euclídea)
Propiedad 9 𝛿𝑖𝑗 (riemanniana)
Propiedad 10 𝛿𝑖𝑗 (divergencia)
Cuando una distancia cumple las tres primeras, recibe el nombre de disimilaridad:
𝛿𝑖𝑗 ≥ 0
𝛿𝑖𝑗 = 0
𝛿𝑖𝑗 = 𝛿𝑗𝑖
Sin embargo, cuando cumple las siguientes tres, pasa a llamarse similaridad:
0 ≤ 𝛿𝑖𝑗 ≤ 1
𝛿𝑖𝑗 = 1
𝛿𝑖𝑗 = 𝛿𝑗𝑖
¿Pero cómo se calculan dichas medidas?
Según Catell (1952), existen dos tipos diferentes de análisis basados en diferentes
medidas de asociación, a la hora de estudiar una matriz de datos: en primer lugar, el
Análisis R (Coeficientes de dependencia), que es una medida de dependencia entre dos
variables aleatorias; y en segundo lugar, el Análisis Q, un estudio de matriz de datos
basado en la relación entre muestras.
Los coeficientes de distancia son las funciones que toman sus valores máximos (a menudo
1) para dos objetos que son completamente diferentes, y un valor de cero para dos objetos
que tienen variables (descriptores) idénticas. Las distancias, como las semejanzas, son
utilizadas para medir la asociación entre objetos. Los coeficientes de distancia se pueden
subdividir en dos grupos. El primer grupo consiste en las métricas que comparten las
siguientes cuatro propiedades:
1. Mínimo 0: 𝛿𝑖𝑗 = 0
2. Positividad: 𝛿𝑖𝑗 ≥ 0
11
3. Simetría: 𝛿𝑖𝑗 = 𝛿𝑗𝑖
4. Desigualdad triangular: 𝛿𝑖𝑗< 𝛿𝑖𝑡 + 𝛿𝑡𝑗. En este caso la suma de ambos lados de un
triángulo en el espacio euclidiano es necesariamente igual o mayor que el tercer lado.
Existen diversas técnicas o distancias estadísticas con las que se puede comprobar la
similitud o disimilitud en un conjunto de datos, pero en nuestro primer estudio vamos a
usar una de las más conocidas, llamada Distancia de Gower.
En 1971, J.C. Gower propuso su coeficiente el cuál permitía la combinación o
manipulación de diferentes tipos de variables una vez procesadas, siendo esta su principal
ventaja, y poder así hallar ciertas semejanzas entre dichas variables: cuantitativas,
binarias, ordinales, categóricas, etc. Su interpretación es sencilla, si los valores obtenidos
en la matriz resultante son cercanos a cero indica que los objetos de estudio son
parecidos; por el contrario, si están próximos a 1 es señal de que existe heterogeneidad
entre ellos, es decir no hay gran similaridad.
Este coeficiente además permite dar un peso mayor a unas de las variables en el caso de
que se quiera que tenga una posición más discriminante en la ordenación, en otras
palabras, se pueden ponderar las variables de estudio.
Una vez que se obtiene la similaridad entre los dos elementos i y j entorno a una variable
k mediante la función 𝑆𝑖𝑗 , el siguiente paso sería transformar el Coeficiente de
similaridad en distancia.
La función 𝑠𝑖𝑗 se obtiene de la siguiente forma:
𝑠𝑖𝑗 =
∑ (1 −|𝑥𝑖𝑘 − 𝑥𝑗𝑘|
𝑅𝑘) + 𝑎 + 𝛼 𝑛1
𝑘=1
𝑛1 + ( 𝑛2 − d) + 𝑛3
donde 𝑛1 se refiere al número de variables continuas, 𝑛2 a las variables binarias o
dicotómicas, 𝑛3 a las variables multinomiales, a y d son el número de coincidencias
presentes y no presentes ( 1 y 0) conforme a las variables que se estén estudiando, 𝛼 es
el número de coincidencias en las variables multinomiales o cualitativas y por último 𝑅𝑘
12
es el rango de la k-ésima variable cuantitativa 𝑥𝑘.
La razón por la que lleva a cabo la operación 1 −|𝑥𝑖𝑘−𝑥𝑗𝑘|
𝑅𝑘 es porque
Por lo que Distancia de Gower que nosotros vamos a usar es:
𝑑𝑖𝑗2 = 1 − 𝑠𝑖𝑗
Hay que añadir que el coeficiente de Gower, según Legendre y Legendre (1983) tiene lo
que ellos llaman un “elemento de flexibilidad” y es que, si en algunas de las variables
que se estén analizando, ya sea en la muestra i o en la j carece de información, la
comparación no se lleva a cabo. Para compensar esa deficiencia utilizan la llamada delta
de Kronecker (𝑊𝑖) la cual toma valor 0 en el caso de que no se presencie información y
1 si hay en las dos muestras. Todo esto hace que el coeficiente de Gower adquiera la
forma siguiente:
𝑆𝑖𝑗 =∑ 𝑠𝑖𝑗𝑘𝑝𝑘=1
∑ 𝑊𝑖𝑗𝑘𝑝𝑘=1
Esta es otras de las ventajas de que dispone el Coeficiente de Gower, ya que la delta de
Kronecker evita que se deba eliminar toda la muestra en el caso de que falte información.
3.1.DISTANCIA DE GOWER MEDIANTE R
Existen diversas formas para calcular la distancia de Gower en R a través de una serie de
comandos; la más común, en el caso de calcular esta distancia, es una función llamada
Daisy y que usaremos a modo de comprobación, porque inicialmente la haremos con otra
en este caso con la función vegdist, que se obtiene mediante la instalación del paquete
“vegan”. Esta función es muy usada entre los ecólogos, pero con la correcta codificación
de nuestros datos podemos usarla para nuestro estudio y lo más destacable de ella es que,
aunque todos los datos deben ser cuantitativos, también acepta datos de binarios.
vegdist(x, method="bray, canberra, gower, jaccard…", binary=FALSE, diag=FALSE,
upper=FALSE, na.rm = FALSE, ...)
13
x: es la matriz de datos.
method: que será la distancia estadística que se desea aplicar
binary: realizar la estandarización de presencia / ausencia
diag: calculo o no de la diagonal (TRUE o FALSE).
upper: devuelve o no la diagonal superior (TRUE o FALSE).
na.rm: eliminación por pares de observaciones faltantes cuando se calculan las
diferencias (TRUE o FALSE).
daisy(x, metric = c("euclidean", "manhattan", "gower"), stand = FALSE, type = list(),
weights = rep.int(1, p)
x: es nuestra matriz numérica de datos con dimensiones n x p. Las disimilaridades
se calculan mediante las distancias en las filas de x.
metric: es la cadena de caracteres que determina la métrica que va a usarse para
el cálculo. Las opciones disponibles son “euclidean”, “manhattan” y la nuestra
“gower”.
stand: indicador lógico cuyo valor TRUE implica la estandarización de las
mediciones x antes de calcular las diferencias.
type: es la lista en que se especifican los tipos de variables en las columnas de x.
Las opciones disponibles son:
1. ordratio: variables de razón escaladas que deben ser tratadas como
variables ordinales.
2. logratio: variables escaladas de razón que deben transformarse
logarítmicamente.
3. asymm: binario asimétrico.
4. symm: binario simétrico.
weights: vector numérico opcional de longitud p(= ncol(x)), en el que se
especifica un peso en cada variable en lugar de 1.
Como dijimos al principio, realizamos la Distancia de Gower con dos funciones distintas,
primero lo hicimos con vegdist y a la vista de los resultados obtenidos, tal y como se
muestran en las (Tablas 2 y 3), podemos decir que los portátiles más cercanos a 1, o dicho
en otras palabras, aquellos que presentan mayor dismilitud o son más diferentes son los
correspondientes a los de las marcas de MSI y ACER, siendo más exactos, el GT75 Titan
14
8SF y Acer Switch One 10 con un valor de 0.69295811 (amarillo) o incluso el GT75 Titan
8SF con el mismo miniMOOVE de la marca VANT que presenta un valor de 0.683482274;
mientras que los que están más cerca de 0, es decir aquellos que son más parecidos o
tienen mayor similitud, son los correspondientes a los de las marcas de HP, los HP
Chromebook x360 11 G1 EE y HP Chromebook 11 G6 EE (azul), con un valor de
0,005983984, aunque también podríamos mencionar los de la marca Apple, Apple
MacBook Air MRE92Y/A y Apple MacBook Air MREE2Y/A ya que presentan también un
valor muy pequeño 0,008569754.
Tabla 2: Matriz de Gower de la función Vegdist
Fuente: Realizado mediante R – Commander y software Excel
Tabla 3: Matriz de Gower de la función Daisy
Fuente: Realizado mediante R – Commander y software Excel
Luego utilizamos la función Daisy que resulta ser la más indicada para calcular la
Distancia de Gower gracias a las múltiples ventajas que mencionamos con
anterioridad, y gracias a ella podemos corroborar lo dicho en las tablas anteriores,
15
pues las conclusiones no solo son las mismas sino que además coinciden en resultados
numéricos; por un lado los portátiles más parecidos son los HP Chromebook x360 11
G1 EE y HP Chromebook 11 G6 EE (azul), con un valor de 0,005983984; que los
más diferentes son GT75 Titan 8SF y Acer Switch One 10 con un valor de 0.69295811.
4. ESCALAMIENTO MULTIDIMENSIONAL
Podemos definir el escalamiento multidimensional como el conjunto de técnicas que
buscan representar datos, cuando se conoce por supuesto cierta información sobre
proximidades entre objetos, mediante la construcción de una configuración de puntos.
La historia del MDS comienza en 1952 con cierto trabajo que realizó Torgerson y el cual
usó para lanzar las primeras ideas, aunque más adelante Shepard, en el año 1962, hizo
una formulación más precisa sobre el MDS al demostrar, que si se conocía una ordenación
de las distancias entre puntos se podía encontrar una configuración de puntos dentro de
un espacio euclidiano de baja dimensión y aquellas interdistancias euclidianas reproducen
dicha ordenación original. Años después, esas mismas ideas que tuvo Shepard fueron
refinadas por Kruskal y autores como Guttman y Lingoes las desarrollaron. Todas esas
técnicas dieron lugar a lo que se le conoce con el nombre de MDS no métrico o clásico,
incluso el mismo Gower, en 1966 propuso el método de Análisis de Coordenadas
Principales, que se considera un MDS métrico el cual evita resolver los procesos iterativos
de las técnicas no métricas.
4.1.VENTAJAS Y CAMPOS DE USO
Rabinowitz (1975) y Guerrero y Ramírez (2002) analizan las ventajas del MDS:
1. Gracias una dimensionalidad suficientemente baja se puede llevar un examen
visual de la estructura en si lo que facilita en gran medida su interpretación
(Schiffman, Reynolds y Young, 1981).
2. Se permite el uso de aquellas matrices que no pueden ser analizadas durante un
análisis factorial.
3. En un análisis factorial los datos deben estar medidos en escala de razón o de
intervalo, pero en un MDS se puede llevar a cabo una suposición ordinal acerca
de los datos, ya que estos pueden estar medidos en cualquier escala.
4. En un MDS las variables no han de ser especificadas durante la comparación de
objetos, como sucede en un análisis cluster o en un análisis factorial, por lo que
16
5. la influencia del investigador en el análisis no se ve limitada, hecho que ha
convertido al MDS en una herramienta o técnica muy famosa en diversos
estudios.
El escalamiento multidimensional es muy usado en distintos o estudios por ejemplo
en marketing se usa para averiguar las preferencias o preferencias de los encuestados
a la hora de evaluar o de comparar productos; en biología molecular para reconstruir
la estructura de las moléculas; incluso se están publicando estudios llevados a cabo
en revistas de investigación, por ejemplo:
“POSIBLIDADES DEL ESCALAMIENTO MULTIDIMENSIONAL EN
LA MODELIZACION DE DESAJUSTES ASOCIADOS A LA REFORMA
DE PLANES DE ESTUDIO UNIVERSITARIOS” (Revista de
Investigación Educativa, 2004, Vol. 22, n.ª2, págs.. 377 – 391).
Navarro, C., Zamora, A. y Cano, R. (2015). Análisis de Escalamiento
Multidimensional del turismo de los países que conforman la APEC.
Revista Turismo y Sociedad, XVI, pp. 17-30 DOI.
4.2.PASOS A SEGUIR
1. Arreglar las coordenadas de n objetos (𝑥1, 𝑥2, … , 𝑥𝑝) en el espacio de p
dimensiones para una configuración inicial.
2. Calcular las distancias euclidianas, 𝑑𝑖𝑗 distancias entre el objeto i y el objeto j,
para cada uno de los objetos en dicha configuración.
3. Hacer una regresión de 𝑑𝑖𝑗 sobre 𝛿𝑖𝑗, la cual puede ser lineal, polinomial o
monótona. Por ejemplo, si fuera lineal se obtiene el modelo
𝑑𝑖𝑗 = 𝑎 + 𝑏𝛿𝑖𝑗 + 휀
y si usamos el método de los mínimos cuadrados podemos obtener las estimaciones tanto
de los coeficientes a y b, consiguiendo lo que se conoce como una “disparidad”
𝑑𝑖 = + 𝛿𝑖𝑗
En una regresión monótona, la relación entre 𝑑𝑖𝑗 y 𝛿𝑖𝑗 no se termina de ajustar
exactamente, simplemente si 𝛿𝑖𝑗 crece, entonces 𝑑𝑖𝑗 o bien se mantiene constante o crece
también.
4. Mediante un estadístico propio se mide la bondad de ajuste entre las distancias
de la configuración y las disparidades.
17
El más utilizado en este caso es el llamado índice de esfuerzo.
𝑆𝑇𝑅𝐸𝑆𝑆1 = √∑∑(𝑑𝑖𝑗 − 𝑑𝑖) 2
∑∑𝑑𝑖𝑗2
junto con
𝑆𝑆𝑇𝑅𝐸𝑆𝑆1 = √∑∑(𝑑𝑖𝑗
2 − 𝑑𝑖) 2
∑∑𝑑𝑖𝑗4
El STRESS1 es la fórmula introducida por Kruskal quien ofreció la siguiente guía para
su interpretación (Tabla 4):
Tabla 4: Interpretacion de Stress1 según Kruskal
TAMAÑO DEL STRESS1 INTERPRETACION
0.2 Pobre
0.1 Regular
0.05 Bueno
0.025 Excelente
0.00 Perfecto
Fuente: Realizado en Word
5. Las coordenadas de cada objeto (𝑥1, 𝑥2, … , 𝑥𝑝) de cada objeto cambian para que
la medida de ajuste se reduzca.
Habría que repetir los pasos 2 y 5 tantas veces necesarias hasta que la medida de ajuste
no pueda reducirse, y como resultado final se obtendrían las coordenadas de los objetos
en las dimensiones para poder construir el gráfico. Lo ideal suele ser menos de tres
dimensiones.
Para realizar el MDS aplicaremos unos de los algoritmos más utilizados para este
propósito y que fue desarrollado por Young en 1975, pudiendo utilizar como entrada
matrices asimétricas, el algoritmo ALSCAL (Alternating Least Squared Scaling).
18
4.3.RESULTADOS
Para realizar esta parte usaremos el algoritmo ALSCAL en el programa SPSS, donde
destacaremos que realice el procedimiento de 2 a 4 dimensiones en caso de poder
mejorarlo y los resultados obtenidos son los siguientes (Tabla 5):
Tabla 5: Índice de esfuerzo y Coeficiente de Correlación
Stress RSQ
0.16784 0.86456
0.10909 0.92496
0.08448 0.94784
Fuente: Elaborado con Word a partir de los resultados obtenidos en SPSS
Antes de todo, debemos recordar otra medida que se suele utilizar durante la
implementación de un escalamiento multidimensional, que es el coeficiente de
correlación al cuadrado (RSQ), que lo hace es informarnos de la proporción de
variabilidad existente en los datos. Al ser un coeficiente al cuadrado sus valores
oscilarán entre 0 y 1 cuya interpretación es bastante sencilla, aquellos que estén más
cercanos a 1 indican que el modelo es bueno, por el contrario los que estén cerca de
0 significarían que el modelo es malo o que puede mejorase.
En nuestro caso al principio, tenemos que con dos dimensiones obtenemos un índice
de Stress de 0.16784 junto con un coeficiente de correlación RSQ del 0.86456. Como
bien sospechábamos nuestro primer modelo no resulta del todo satisfactorio ya que
con un índice de esfuerzo del 0.16784, en base a nuestra tabla anterior, podemos
deducir que no es bueno, más bien tiende a ser pobre, de hecho sería un poco
complicado la interpretación de la (Gráfico 1) de abajo.
19
Gráfico 1: Configuración de estímulo derivado
Fuente: Extraído de SPSS
Podríamos decir que a simple vista en el primer cuadrante están situados todos los
portátiles de la marca Apple (verde), junto algunos otros de las marcas más
competentes del mercado como son Lenovo (azul), Microsoft (amarillo) y Asus
(rojo), no todos ya que en el tercero, justo abajo vemos como habría también una
pequeña concentración de esas mismas que tienden a ir hacia arriba; pero si
tuviéramos que clasificarlos de alguna forma, serian todos aquellos portátiles que
poseen un precio bastante alto o que tienden a ser caros (de entre 1500 € y 3500 €),
y no solo eso sino que además cuentan con un diseño (dimensiones) bueno, a decir
verdad no es de extrañar ya que los Apple destacan sobre todo por esto último.
Y en el segundo cuadrante podemos ver también como se concentran o están ahí más
aquellos portátiles con mucho poder gráfico, es decir, aquellos que poseen una tarjeta
gráfica de alta calidad, pues estos son sobre los de la marca MSI especializada en
hardware para ese propósito, y por consecuencia se tratan de portátiles con
componentes de mucha potencia.
Si nos fijamos también en el RSQ, con un valor de 0.86456, podemos deducir que la
bondad de ajuste del modelo es buena, o en otras palabras que el modelo sería bueno
ya que está próximo a uno, de hecho se llega a presenciar como en la (Gráfico 2) las
20
distancias y las disparidades intentan seguir una tendencia lineal.
Gráfico 2: Diagrama de dispersión o ajuste lineal
Fuente: Extraído de SPSS
Para mejorar un poco más el modelo probamos a realizarlo con tres y hasta con cuatro
dimensiones para que tanto el índice de esfuerzo como el coeficiente de correlación
al cuadrado coincidan, y como podemos ver en la Tabla (5), con tres el Stress baja a
un 0.10909 con un RSQ de 0.92496, mientras que finalmente con cuatro dimensiones
el modelo obtenemos un Stress de 0.08448 y un RSQ de 0.94784 lo cual resulta
perfecto como podemos ver en el (Gráfico 3).
21
Gráfico 3: Diagrama de dispersión o ajuste lineal
Fuente: Extraído de SPSS
De todas formas, SPSS nos aporta también un último gráfico para corroborar que el
algoritmo está bien aplicado, y es el (Gráfico 4), donde vemos con mayor claridad
que efectivamente tanto las observaciones como las disparidades se ajustan a una
línea recta, que sería en este caso lo ideal.
22
Gráfico 4: Diagrama de dispersión o ajuste lineal
Fuente: Extraído de SPSS
5. ANÁLISIS DE COMPONENTES PRINCIPALES
El análisis de componentes principales (ACP o PCA) es un análisis estadístico
multivariante que tiene como objetivo transformar un conjunto de variables, a las que se
les llamará originales, en otro conjunto de variables a las que se le conocen con el nombre
de componentes principales, las cuales se caracterizan por estar incorrelacionadas entre
sí y, además, se pueden ordenar en base a la información que llevan consigo y poder
explicar la variabilidad de los datos.
Este análisis puede presentar algunos problemas como por ejemplo:
Al recoger información, o para ser más exactos, el número de variables
23
que tengamos, ya que si son 20 variables, habrá que considerar (202) que
equivale a 180 coeficientes de correlación, número que puede aumentar
en gran cantidad, haciendo muy difícil la interpretación.
Otra es la fuerte correlación que en ocasiones presentan las variables entre
sí, ya que si tenemos muchas pueden estar relacionadas o que midan lo
mismo bajo distintos puntos de vista.
Para llevar a cabo un ACO hay que seguir una serie de pautas:
Tomamos una serie de variables (𝑥1, 𝑥2, 𝑥3… 𝑥𝑝), que como hemos dicho antes son las
originales, y vamos a calcular un nuevo de conjunto de variables (𝑦1, 𝑦2, 𝑦3,…, 𝑦𝑝), las
cuales están incorreladas entre sí.
Cada 𝑦𝑗 es combinación lineal de las originales:
𝑦𝑗 = 𝑎𝑗1𝑥1+ 𝑎𝑗2𝑥2 +⋯+ 𝑎𝑗𝑝𝑥𝑝 = 𝑎𝑗·𝑥
donde 𝑎𝑗·= (𝑎1𝑗 , 𝑎2𝑗 , … , 𝑎𝑝𝑗) es un vector de constantes, y x = (𝑥1
𝑥𝑝)
El objetivo será maximizar siempre la varianza, por lo que a la hora de obtener el primer
componente se calcula eligiendo 𝑎1 para que 𝑦1 tenga la mayor varianza posible, sujeta a
la restricción 𝑎𝑗·𝑎𝑗 = 1,
Var(𝑦1)= Var(𝑎1· x) = 𝑎1
· ∑ 𝑎1
el segundo componente principal se calcula obteniendo 𝑎2 de modo que la variable que
se obtiene 𝑦2 esté incorrelada con 𝑦1, es decir, Cov (𝑦2, 𝑦1) = 0, y así sucesivamente con
todos los demás.
Hay que obtener también la matriz de covarianzas ∆ que deber ser de orden p y que
contendrá a los p autovalores (λ, 1…..p)
Todos los componentes que se obtienen pueden expresarse como una matriz formada por
los autovectores, multiplicada por el vector x compuesto por las variables originales:
y= Ax
y=
(
𝑦1𝑦2...𝑦𝑝)
A=
(
𝑎11 𝑎12 … 𝑎1𝑝𝑎21 𝑎22 … 𝑎2𝑝… … … … 𝑎𝑝1 𝑎𝑝2 … 𝑎𝑝𝑝
)
x=
(
𝑥1𝑥2...𝑥𝑝)
siendo
𝑉𝑎𝑟 (𝑦1) = 𝜆1𝑉𝑎𝑟 (𝑦2) = 𝜆2
.
.
.𝑉𝑎𝑟 (𝑦𝑝) = 𝜆𝑝
24
La matriz de covarianzas de y es: ∆ =
(
𝜆1 0 … 00 𝜆2 … 0… … … … 0 0 … 𝜆𝑝
)
Se concluye que ∆ = Var (Y) = A´Var (X)A = A´∑𝐴 o bien ∑ = 𝐴∆ A´, pues A es una
matriz ortogonal ya que sus vectores lo son (𝑎𝑖· 𝑖 = 1), por lo que AA´= I (matriz
identidad).
Por otro lado se calculan también los porcentajes de variabilidad, en los que cada
autovalor corresponde con la varianza del componente 𝑦𝑖, definida mediante el autevector
𝑎𝑖 , o dicho de otra forma, Var (𝑦𝑖) = 𝜆𝑖.
La varianza total se adquiere con la suma de todos los autovalores:
∑𝑉𝑎𝑟(
𝑝
𝑖=1
𝑦𝑖) =∑𝜆𝑖 = 𝑡𝑟𝑎𝑧𝑎 (∆)
𝑝
𝑖=1
𝑦𝑎 𝑞𝑢𝑒 ∆ es una matriz diagonal.
Y una vez hecho esto, podemos hablar del tanto por ciento de la varianza total que
contiene cada componente principal:
𝜆𝑖
∑ 𝜆𝑖𝑝𝑖=1
= 𝜆𝑖
∑ 𝑉𝑎𝑟(𝑥𝑖)𝑝𝑖=1
Por lo general, se suelen coger unos tres componentes para poder representarlos
correctamente en los gráficos oportunos, siempre y cuando que recojan un amplio
porcentaje de la varianza total.
Identificados los componentes principales finalmente quedaría interpretarlos, es decir,
averiguar cuál es la información que recogen de la muestra, acto que en muchas ocasiones
resulta un tanto subjetivo, lo que dificulta la identificación de los respectivos grupos.
5.1.RESULTDOS DEL ACP
En los apartados anteriores vimos en cierta medida cuanto se parecen o se diferencian los
portátiles entre sí, pero ahora trataremos poner de relieve, utilizando el programa R –
Commander, cuales son aquellas variables o factores que hacen que se diferencien tanto
un portátil de otro. Además, nos ayudaremos también de un paquete específico de R, muy
usado en lo que concierne al análisis de datos exploratorio multivariado, llamado
FactorMineR, desarrollado por François Husson, Sébastien Lê y J. Mazet.
25
Para poder aplicar el análisis de componentes principales debemos descartar primero
algunas variables para llevar a cabo el estudio, siendo más exactos: Sistema Operativo
(SO), Procesador, Lector de Tarjetas, Unidad Optica y Gráfica; ya que no son variables
continuas y serán utilizadas en el siguiente análisis, por lo que nos quedaremos con un
total de doce variables. No olvidemos indicar a R que debe estandarizarlas ya que nuestros
datos presentan diferentes medidas y escalas.
Dicho esto, pasemos a la interpretación de los resultados. Al principio R nos da una tabla
denominada “Component Loadings” también conocidos como autovectores, estos son los
coeficientes de ecuación que hay en cada uno de los componentes principales (Tabla 6).
Tabla 6: Component Loadings
Fuente: Realizado con R – Commander y Excel
Por ejemplo, la ecuación del componente principal 1 (CP1) sería:
CP1 = 0.08902557 * Z1 + 0.38266431 * Z2 + 0.29835429 * Z3 + 0.20018437 * Z4 +
0.23438339 * Z5 + 0.38228080 * Z6 + 0.23255467 * Z7 + 0.39021684 * Z8 +
0.38684374 * Z9 + 0.22679725 * Z10 + 0.07876526 * Z11 + 0.31912275 * Z12
siendo Z1 – Z12 son las variables originales una vez estandarizadas.
También nos da el siguiente cuadro llamado “Component Variances” (Tabla 7):
Tabla 7: Component Variances
Fuente: Realizado con R – Commander y Excel
26
En este caso estamos tratando con los autovalores, donde cada valor es el cuadrado de su
desviación estándar, las cuales aparecen también en el cuadro de abajo “Importance of
components” (Tabla 8):
Tabla 8: Importance of components
Fuente: Realizado con R – Commander y Excel
Standard deviation: son las desviaciones estándar de cada componente principal.
Proportion of Variance: cuya suma en igual 1, se refiere a la proporción de la
varianza que explica cada una de las componentes principales, además esta es la
fila que nos interesa para nuestros resultados.
Cumulative proportion: proporción acumulada y se calcula sumándolas todas
progresivamente.
Bien, obtenido estos resultados podemos observar en la tercera fila (cumulative
proportion) como las tres primeras componentes principales logran explicar el 71,9% de
la variación, o dicho de otra forma, hay 28,1% de la variación que no se explica.
La verdadera pregunta es ¿con cuántos componentes principales debemos quedarnos?
Para responder a esta pregunta nos basamos en la regla tradicional que consiste en elegir
a aquellos componentes principales que agrupen más del 70% de la variación total y si
además los datos se encuentran estandarizados, como es nuestro caso, que sus autovalores
sean superiores a uno.
Para hacerlo aún más sencillo le diremos a R que nos muestre el gráfico de sedimentación
para poder visualizar los autovalores de cada uno de los componentes principales (Gráfico
5).
27
Gráfico 5: Gráfico de sedimentación
Fuente: Realizado y extraído de R - Commander
En base al gráfico de sedimentación y a la (Tabla 8) vemos que son los tres primeros
componentes principales los que acumulan o agrupan el 71,9% de la variación y también
son los que poseen sus autovalores por encima de 1, luego nos quedaremos con esos tres
primeros componentes, (Tabla 9).
Tabla 9: Tabla con los 3 componentes principales
Fuente: Realizado por R – Commander y Excel
28
¿Qué significa? Observamos los valores absolutos de la (Tabla 8) :
Recordemos que el componente 1 agrupaba un 45,2 % de la variación y sus
valores absolutos más altos corresponden con las variables “Ancho, Peso,
Profundidad y Pulgadas”. Todas estas corresponden con las características
externas de nuestras computadoras, de hecho en el componente 4, aunque no se
haya agregado, se observaría que la variable “Altura” también posee un valor
absoluto elevado; pero el caso es que esas variables esas variables parecen estar
relacionadas y son unas de las causantes de que los portátiles de las distintas
marcas presentadas, se diferencien entre sí.
Luego en el componente 2, que agrupa un 17,1 % de la variación, por el contrario
sus valores absolutos más elevados corresponden con “Precio de venta de cada
portátil” y “Resolución” que tiene cada una de las pantallas, la cual influye mucho
en la visualización pues estas son las que limitan o determinan la calidad de la
imagen o videos.
El tercer componente se corresponde únicamente con la “Capacidad”, es decir, a
la cantidad de almacenamiento que puede soportar (Disco Duro).
Gráfico 6: Representación gráfica de los 2 primeros componentes con los laptops
Fuente: Realizado con R – Commander
29
En el (Gráfico 6) se muestra la representación gráfica de los dos primeros componentes,
el componente 1 situado en el eje de abscisas y el componente 2 en el de ordenadas. En
cuanto a las flechas rojas representan los coeficientes de cada una de las variables junto
con los portátiles (estos han sido numerados para tener una mejor visión y facilidad).
Vemos claramente como en el componente 1, las flechas más largas que hay corresponden
con las variables que mencionamos antes “Ancho, Profundidad, Peso y Pulgadas”; y en
el componente 2 “Precio y Resolución”.
Tabla 10: Valores absolutos más representativos
Fuente: Realizado con R – Commander y Excel
El valor absoluto más alto entre los coeficientes del componente 1 corresponde
con la variable “Profundidad”.
En el componente 2 corresponde con la “Resolución” de la pantalla.
Y en el componente se corresponde con la “Capacidad”.
Para lograr hacer una pequeña clasificación o destacar algunos grupos de portátiles
en función de las variables vamos a utilizar otros dos gráficos factoriales.
En el (Gráfico 7) muestra como las dos primeras dimensiones resumen el 62,31 % de
la inercia total (la inercia es la varianza total del conjunto de datos, es decir, la traza
de la matriz de correlación).
En el eje 1 se presentan todas las correlaciones positivas en referencia a las variables
responsables de la calidad o rendimiento de cualquier portátil (ghz, ram, batería,
resolución) de ahí que efectivamente el precio esté relacionado con ellas, como por
30
ejemplo el número 61 (el GT75 Titan 8SF de 2900 €), uno de los mejores que tenemos
y que ya destacó en el MDS; por lo tanto podríamos decir que este corresponde con
el eje “potencial” del ordenador.
En cuanto al eje 2, salvo algunas de las variables cuyas correlaciones no son
demasiados grades, podemos distinguir claramente que las restantes son las
relacionadas al aspecto físico (peso, profundidad, ancho, pulgadas), junto con otras
más dedicadas a la funcionalidad (número de puertos y capacidad de
almacenamiento).
En base a este gráfico, podríamos distinguir dos clases de portátiles, aquellos que
estén situados en la parte alta del plano son los que están más destinados al ocio,
entretenimiento, ya sean videojuegos, reproducciones a 4K, realizar cálculos
complejos u operaciones muy duras, etc., mientras que los están abajo están más
dedicados a la funcionalidad, es decir, a algo mucho más normal, algo rutinario; pero
Gráfico 7: Representación gráfica de las variables
Variables factor map (PCA)
Fuente: Realizado con R – Commander
31
Gráfico 8: Representación gráfica de los laptops en un plano factorial
Fuente: Realizado con R – Commander
gracias al (Gráfico 8) podemos ir más allá.
Según nuestro plano factorial encontramos cuatro partes grupos definitivos: por un lado
tenemos aquellos superportátiles dedicados al gran esfuerzo, es decir, aquellos con gran
potencial gráfico y de trabajo, estos son especialmente utilizados por los Youtubers, en
eventos Gaming, incluso para los negocios como el ThinkPad X1 Extreme (nº. 1), GT75
Titan 8SF (nº. 61), MSI WT75 8SK-004ES (nº. 67), etc.; luego tendríamos aquellos que
son todo lo contrario, más baratos y menos potentes, en esta categoría podríamos decir
que están los famosos Netbooks. Estos portátiles, en pocas palabras, están especialmente
diseñados para navegar en Internet en cualquier lugar como el ASUS Laptop E402WA
de la marca Asus con 264 € de precio; a continuación están los que son conocidos como
Ultraportátiles, eran los elegidos antes de que surgieran los netbooks principalmente por
su movilidad, son delgados y además tienen un buen rendimiento, como ejemplo uno de
la Microsoft, el Surface Pro 6 (nº.82); y por último tenemos los portátiles clásicos , o sea
los de toda la vida, los que nos acompaña para realizar tareas de uso cotidiano, incluso
podrían sustituir al típico ordenador de sobremesa, suelen tener más de 17 pulgadas en
sus pantallas con hardware potente, es el caso del Inspiron 17 5000 (nº. 24) que tiene 17,3
pulgadas de pantalla, junto con 1000 Gb de capacidad, dimensiones y peso considerables.
32
6. ANALISIS DE CORRESPONDENCIA MULTIPLE.
El análisis de correspondencia múltiple es una técnica de análisis de datos que trabaja con
datos categóricos multivariados, utilizado principalmente para representar estructuras
subyacentes en un conjunto de datos. En 1975 la llamada Escuela Francesa (fundada por
Jean-Paul Benzécri, desarrollador de múltiples técnicas estadísticas como el famoso
Análisis de Correspondencias y profesor durante los años 1960 – 1990) fue la que
estableció en un principio la expresión ACM, desde un enfoque geométrico con la
intención de construir mapas factoriales, de hecho varios de los alumnos de Benzécri
fueron refinando la técnica, llegando a conocerse en un tiempo como Análisis Geométrico
de Datos.
Con el paso de los años muchos fueron los autores que han trabajado con esta técnica
dándoles nombres o enfoques distintos, por ejemplo Gifi (1990) implementó su llamado
Sistema Gifi en SPSS, que se trata nada más de una serie de métodos desarrollados en
relación con el algoritmo ALS (Alternating Least Squares), entre los cuales está el
llamado Análisis de Homogeneidad y su solución se llama HOMALS (Homogeneity
Analisys by ALS); aunque hubo otros tantos entre los que se encuentran Greenacre
(1984), Tenenhaus y Young (1985), Gifi (1990), Escofier y Pagès (1990), etc.
El ACM tiene una serie de etapas que vamos a explicar a continuación.
1. Objetivos del ACM: el objetivo que persigue es mostrar gráficamente las
relaciones existentes entre variables nominales o datos categóricos en un
espacio con poca dimensionalidad, es decir los denominados Mapas
Perceptuales.
2. Diseño de la investigación: en un ACM el diseño tiende a ser interdependiente
y por supuesto es descriptivo, donde el número de variables no afecta para a
los resultados finales.
3. Supuestos en un ACM: en nuestro análisis los datos pueden encontrarse en
cualquier escala, pero lo más importante es que existan relaciones lineales o
no entre las variables.
4. Obtención de los resultados y valoración del ajuste.
33
Procedimiento: se basa en convertir unas variables categóricas o
nominales en dimensiones numéricas, las cuales lo que hacen es
recoger esa relación entre las variables, desde lo común hasta lo más
específico. Para ello deben obtenerse primero dichas dimensiones o
factores de forma jerárquica, el primero es más importante que el
segundo, el segundo lo es más que el tercero y así con todas 𝐹1> 𝐹2>
𝐹3… .
Además, hay que sacar ciertos valores numéricos para los caso u
objetos y una cuantificación de categorías, mediante un
procedimiento denominado cuantificación óptima que arroja los
puntajes objetos.
Valoración del ajuste: aquí únicamente de lo que se trata de dar
respuesta a la pregunta más común de este análisis ¿serán suficientes
las dos primeras dimensiones a la hora de explicar esa asociación
entre las variables?. Para responder a esa pregunta se lleva a cabo un
análisis digital en el que se usa ciertas medidas como son:
1. FIT (Ajuste Global del Modelo -> FIT = 𝐶𝑎𝑡𝑒𝑔𝑜𝑟í𝑎𝑠
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 ).
2. Eigenvalue (Valor Propio -> proporción de información
explicada en cada dimensión).
3. Medidas de Discriminación -> variación de la variable
cuantificada.
4. Puntaje Objeto.
Y finalmente la interpretación de los datos que se hace con todas estas medidas descritas.
6.1. RESULTADOS DEL ACM EN SPSS
En la (Tabla 11) tenemos la cantidad de casos válidos, indicándonos un total de 100.
34
Tabla 11: Resumen de casos
Fuente: Extraído de SPSS
Tabla 12: Historial de iteraciones
Fuente: Extraído de SPSS
A continuación, (Tabla 12), se nos muestra el historial de iteraciones, es decir el número
de pasos necesarios para poder llegar hasta a la última solución. Podemos ver como al
llegar a la iteración 30 se detiene, esto es debido a que el incremento de la varianza
explicada deja de ser significativo y por lo tanto no se recomienda continuar más.
En la tabla de abajo, (Tabla 13), se crearon dos dimensiones con los siguientes
autovalores: 1º Dimensión (1.775) e inercia (0,355); 2º Dimensión (1,711) e inercia
(0,342); además la primera cuenta con un 35,50 % de la varianza explicada mientras que
la segunda tiene un 34,22 %.
En base a estos datos se podría decir que existe cierta relación entre las variables, pero si
nos fijamos en el alfa de Cronbach vemos que no llega a superar el valor de 0,7 en ambas
dimensiones por lo que sería un poco difícil afirmar con exactitud dicha relación, más
bien es “pobre” sin olvidar que este coeficiente no siempre funciona bien cuando se tratan
de escalas con valores “si” y “no”, y en nuestro caso no olvidemos que tenemos tres
variables con esa escala.
35
Tabla 13: Resumen del modelo
Fuente: Extraído de SPSS
En la siguiente tabla (Tabla 14) se nos da las coordenadas que tiene cada categoría en las
dos dimensiones, que a la vez nos ayudará a ver como se relacionan entre sí. En este caso
con la variable Sistema Operativo observamos que la categoría “Chrome” está
fuertemente relacionado con la dimensión 1 junto la mayoría de las restantes y “Endless
OS” con la 2.
Tabla 14: Coordenadas la variable Sistema Operativo
Fuente: Extraído de SPSS
Luego tenemos el Gráfico conjunto de puntos de categoría o mapa de correspondencias.
36
Para poder interpretarlo lo que podemos hacer es buscar patrones, analizar en que
cuadrante se hayan las categorías. Debemos tener en cuenta que la interpretación
dependerá de la inercia que dispone cada dimensión, y en nuestro caso puede resultar algo
complicado con algunas de las variables pues no poseen suficiente capacidad de
interpretación. Para empezar diríamos que los Sistemas Operativos menos competentes
del mercado se encuentran o estructuran el eje Y (Chrome, Ubuntu Linux, Elementary
OS), a la vez vemos que los que verdaderamente dominan el mercado actual se encuentran
más concentrados (Windows, mac OS/Sierra/High Sierra y OS X Yosemite); esto
representa claramente la situación en la que se encuentra el sector ya que existe, desde
hace años, esta “interminable batalla” entre Windows y mac OS en lo referente al uso de
uno u otro, pero la realidad es que Windows 10 domina el mercado con un 85% de la
cuota, y el resto pertenece a mac OS que aunque ha ido recuperando algo de terreno, la
mayoría de los sectores existentes Windows es el más funcional u operativo de todos.
Gráfico 9: Gráfico conjunto de puntos de categoría
Fuente: Extraído de SPSS
37
Lo mismo ocurre con los procesadores (Gráfico 10); vemos que los más cercanos son
Intel Core y AMD. Intel y AMD son las dos compañías más grandes que existen en el
mundo en lo que se refiere al desarrollo del “mejor procesador”, y ambas se han visto
inmiscuidas en una batalla desde el comienzo de su existencia, aunque está claro que el
vencedor en este caso en Intel ya que sus procesadores como lo son también (Atom,
Pentium y Celeron entres sus diferentes líneas de fabricación), lo que convierte a Intel
Corporation en el mayor fabricante de circuitos integrados a nivel mundial; así que para
empezar la agrupación podríamos decir que los portátiles más comunes o los que más se
suelen encontrar a la hora de comprar son aquellos que poseen un microprocesador de la
marca Intel y que lleven instalados por defecto el sistema operativo Windows 10, pero
también pueden encontrarse otros muchos con AMD Ryzen, de hecho este primer
trimestre de año AMD ha obtenido un 20% de cuota de mercado, creciendo en todos los
sectores estratégicos; estos podrían ser los que se encuentran en el centro del gráfico (que
serían la mayoría de ellos). Luego podemos presenciar también los pertenecientes a Apple
que destacan por no tener gran capacidad gráfica ni unidad ótpica, por ejemplo si nos
fuéramos al sector de los videojuegos Apple no destaca por tener tarjetas gráficas de
mucha potencia ya que esa posición la ostenta una vez más Windows (la plataforma
preferida por muchos desarrolladores a la hora de lanzar títulos) por lo que no sería de
extrañar que muchos ordenadores dedicados al entretenimiento (Youtubers, Streaming,
etc.) posean tarjetas de la casa “Nvidia” (Líder en visualización computación e
Inteligencia Artifical), todo esto dicho desde una perspeciva subjetiva pues un ordenador
siempre puede encontrarse en base a los gustos del consumidor o incluso modificarse si
lo desea (cambiando sus componentes).
En cuanto al resto de variables diríamos que no existe un patrón repetitivo específico para
determinar grupos, podríamos decir que todo se debe a una evolución natural de la
tecnología, por ejemplo las unidades ópticas están muy cerca de la extinción, desde el año
2016 Toshiba dejó de fabricar unidades por la sencilla razón de que cada vez son menos
necesarias; ya ha llovido mucho desde los años 90 o incluso en la década de los 80 donde
los disquetes eran la forma estándar de almacenamiento masivo externo, algo muy
parecido con los VHS, al llegar el CD-ROM supuso un increíble salto para la industria
del almacenamiento dejando al disquete en estado obsoleto. Conforme pasaron los años
el CD ha experimentado diversos cambios: CD grabable / regrabable, CD Audio y el
DVD; siendo utilizado en muchos sectores también: cine, música, entretenimiento, etc.;
38
pero en la actualidad lo cierto es que cada vez se usa menos, todo lo que consumíamos en
formato DVD está desapareciendo, estamos en la era de Internet donde no es necesario
comprar el contenido de forma física, siendo realistas todo el contenido consumido en el
2017 fue por Internet: Netflix, HBO u otras plataformas vía streaming para películas y
series; compra de música por iTunes; compra y uso de videojuegos mediante plataformas
como Steam, Ubisoft, Origin; otros por AMAZON, etc.
Y con el lector de tarjetas ocurre lo mismo, es cuestión de necesidad, desde el lanzamiento
de la primera tarjeta SD en 1999, esta ha evolucionado a un ritmo increíble llegando a la
descomunal capacidad de 2TB (equivalente a unas 4000 imágenes guardadas), y donde
más la apreciamos es en el móvil, pues es otro de los dispositivos por no decir que es el
que más usamos no solo para realizar multitud de tareas sino también incluso para
almacenar muchos datos, a los que en un debido momento debamos acceder y para ello
se necesita un lector para poder leerlos, dicho en otras palabras no dejan de ser otros
dispositivo de almacenamiento que usamos día a día y puede que debamos manipular su
contenido.
Gráfico 10: Puntos de la variable Procesador
Fuente: Extraído de SPSS
39
En base a la (Tabla 15) y al (Gráfico 11) diríamos que la dimensión 1 está constituida
principalmente por las variables Procesador y Lector de Tarjetas, mientras que la
dimensión 2 se encuentra explicada principalmente por Sistema Operativo.
Tabla 15: Medidas discriminantes
Fuente: Extraído de SPSS
Gráfico 11: Representación de medidas discriminantes
Fuente: Extraído de SPSS
Si quisiéramos dar una interpretación final de todo, desde una perspectiva subjetiva,
40
diríamos que dependiendo del tipo de portátil deseado por el cliente, se encontrarían
aquellos que son un poco más antiguos con sistemas operativos, procesadores y capacidad
gráfica menos potentes y con unidad óptica pero sin lector de tarjetas; y luego estarían
aquellos que se encontrarían más a menudo en la actualidad, muchos más potentes
incluyendo la tecnología SD y sin unidad óptica.
7.ANÁLISIS CONJUNTO
El Análisis Conjunto es una de las principales técnicas, que tuvo su origen en la psicología
matemática, utilizadas en las ciencias sociales, marketing, investigación de operaciones,
etc., para estudiar las preferencias de los individuos, pues se basa en la suposición de que
estos toman la decisión de compra teniendo en cuenta todas las características del
producto. Los consumidores son conscientes de que un producto no puede tener todas y
cada una de sus características perfectas, así que lo que hacen es buscar un punto
intermedio en lo referente a la calidad – precio.
Desde su origen en los años 70 por los trabajos de Wilkie y Pessemier, el Analisis
Conjunto ha tenido una gran aceptación en diferentes industrias algunas de las cuales
utilizaron esta fantástica técnica aumentando por diez veces sus tasas de servicio durante
los años 80; y acontecimientos como este fueron los precursores de que se llevara a cabo
el desarrollo de programas informáticos incluido en SPSS.
APLICACIONES DE ANALISIS CONJUNTO
Como hemos dicho anteriormente el Analisis Conjunto tuvo una gran aceptación,
alcanzando gran popularidad a la hora de estimar las preferencias de los consumidores.
Entre los múltiples trabajos llevados a cabo podemos destacar los siguientes: Carmone
(1978), recogió más de 200 aplicaciones de este análisis en distintas situaciones; Wittink
y Cattin (1989) más de 698 aplicaciones desde 1971 hasta el año 1980, y 1062 desde 1981
hasta 1985 en Estados Unidos; después Wittink recogió unas 1000 aplicaciones en Europa
durante 1986 hasta 1991; y en 2003 un autor llamado Gustafsson llegó a registrar un total
de 1531 aplicaciones en un periodo de cinco años.
Uno de los últimos años es:
“Análisis conjunto y espacios naturales: una aplicación al Paraje
Natural del Desert de les Palmes” de A. Bengochea, A.M. Fuentes y
S. Del Saz. Universitat Jaume I (Castellón, España). Universidad de
València (Valencia, España). En este trabajo se pretendía analizar
41
cuáles eran las preferencias sobre un espacio natural y conseguir
estimar la disposición del pago para reducir el riesgo de incendio en
zonas de bosque.
En España existen también multitud de trabajos en los que se implementó este análisis,
tanto en situaciones y sectores variados: Martín (1987), Vázquez (1990), Ramos (1999);
en el sector turístico Picón y Varela (2000), preferencias sobre periódicos Varela (2001),
lista de espera quirúrgica Rivera (2004), docencia y calidad de servicio Ramírez (2004 -
2005).
7.1.LIMITACIONES DEL ANALISIS CONJUNTO Y PROCEDIMIENTO
Aunque el Análisis Conjunto resulta una técnica estupenda para medir las preferencias
del consumidor no siempre resulta perfecta, pues presenta también ciertas dificultades a
la hora de aplicarlo en determinados sectores o productos:
En productos de compra escasa o por hábito, ya que al no haber una
meditación profunda de sus características no se “visualiza” la
compensación que tiene el resto de productos.
En productos low cost o de bajo costo, dado que no existe un gran
riesgo económico para el comprador la necesidad de comparación
entre los productos se ve perturbada.
En aquellos productos que dispongan únicamente de dos atributos y
que los consumidores se sientan atraídos por ellos, ignorando a los
demás.
En aquellos productos donde la manipulación de sus atributos
principales no es sensible, es decir, manipulación de precio y servicios
puede tener ciertas limitaciones legales (electricidad, agua, gasolina,
etc.).
Para poder aplicar un análisis conjunto se deben llevar a cabo los pasos siguientes:
1. Selección o identificación de los atributos más relevantes.
42
Lo primero que se debe hacer para implementar un análisis conjunto es definir todos
los atributos que formarán parte del estudio.
Para ello se llevó a cabo una pequeña investigación cuya finalidad es la de destacar
aquellas características que hay que tener en cuenta a la hora de comprar un portátil.
Existen multitud de webs dedicadas al mundo de la computación, incluso hay
artículos periodísticos publicados que te aconsejan que aspectos debes tener en
cuenta; nosotros utilizaremos precisamente uno que publicó EL PAÍS y una página
dedicada completamente al sector tecnológico llamada ComputerHoy.com.
Teniendo en cuenta estas dos fuentes cogeremos un total de 5 atributos ya que son
las que tienen en común y de ser más el análisis se volvería aún más complejo:
Procesador, Pulgadas de la pantalla, Memoria Ram, el Número de Puertos de USB y
finalmente el Precio.
2. Selección de los niveles en cada atributo.
El siguiente paso consiste en definir los diferentes niveles que poseerá cada uno de
los atributos. Esta selección teniendo en cuenta los diferentes usos que le puede dar
al ordenador lo cual repercute significativamente en las características, y por
supuesto es posible de encontrar en el mercado.
Nos queda de la siguiente forma:
1. Procesador:
Intel Core
AMD Ryzen
2. Pulgadas:
Menos de 15
Menos de 17
3. Ram (Gb):
8
16
32
43
4. Nº de USBs:
3
4
5. Precio:
Menos de 1000
Menos de 1500
Menos de 2000
3. Hallar la combinación de los atributos.
El siguiente paso es construir un conjunto de combinaciones, llamadas tarjetas, que
serán las que tendrán que evaluar las personas. Utilizando el diseño factorial que nos
otorga el programa SPSS (ORTHOPLAN) hemos conseguido reducir el número de
tarjetas hasta 16, de lo contrario, de mantener las 72 combinaciones originales
(2x2x3x2x3 = 72) habría resultado imposible para los encuestados (Tabla 16)
Tabla 16: Lista de Tarjetas
Fuente: Extraído de SPSS
44
4. Método de recolección de datos.
En este paso se ha llevado a cabo una pequeña encuesta en la que tratamos de recoger
la opinión de los entrevistados; además de una serie de preguntas, le pedimos que
ordenaran las 16 tarjetas de mayor a menor preferencia según las características que
presentan cada uno de los portátiles.
De esa manera obtuvimos la (Tabla 17) donde se hallan las respuestas de los
individuos (ID) junto las columnas con nombre PREF que representan la posición en
la que colocaron cada portátil del 1 al 16.
Tabla 17: Preferencias de los consumidores
Fuente: Realizado con Excel
5. Determinar el procedimiento computacional para llevar a cabo el análisis.
Aquí vamos a utilizar una ventana de sintaxis, especial para este análisis que dispone
el SPSS, donde ejecutaremos la orden CONJOINT mediante un pequeño comando.
Hay que destacar que todos nuestros factores se consideran como discretos
(DISCRETE), es decir no realizaremos suposición alguna entre factores y
puntuaciones; excepto en la variable Precio, esta última será tomada como
“LINEAR” ya que, como es lógico, se trata de uno de los factores que más influyen
en la compra, por lo que se espera que los datos deben estar relacionados de forma
lineal con el factor, donde unos niveles más bajos en dicho factor serán los más
45
preferidos por los entrevistados, y para ello debemos clasificar Precio de esta forma,
como “LINEAR LESS”.
6. Evaluación de los resultados.
El software SPSS nos dará unos valores de utilidad que nos ayudarán a interpretar de
la mejor forma posible las contribuciones que tienen los niveles de cada atributo; son
en otras palabras unas medidas de preferencia.
7. Validación del modelo.
Finalmente mediante los estadísticos Tau de Kendall y R de Pearson podremos
concluir si el modelo es fiable o no.
7.2. RESULTADOS DEL ANALISIS CONJUNTO EN SPSS
Nuestra primera tabla (Tabla 18) nos muestra cómo queda finalmente el modelo que
como hemos descrito anteriormente, consideramos todos los factores como discretos
salvo el Coste, considerado como Lineal (menos).
Tabla 18: Descripción del modelo
Fuente: Extraído de SPSS
Luego el software SPSS nos proporciona esos valores de utilidad o utilidades (Tabla 19)
que mencionamos en el paso 6, donde una mayor utilidad supondrá mayor preferencia;
en nuestro caso podemos observar como algunas de las variables poseen la misma
46
contribución parcial; en otras palabras, los factores Motor, Pantalla y Conectividad, que
representan a las variables tipo de Procesador, el número de pulgadas (relacionad con la
resolución) y el número de puertos USB del portátil.
También, como sospechábamos, existe una relación inversa la utilidad y el Precio donde
los valores más grandes negativos que la utilidad es menor, ocurriendo todo lo contrario
en la Memoria Ram con 32 Gigabytes de potencia ya que es la que presenta mayor utilidad
en todo el modelo.
Al estar todas las utilidades en la misma unidad podemos sumarlas para obtener la
Utilidad Total en cualquiera de las combinaciones posibles.
Por ejemplo en el caso de un portátil cuyo procesador pertenezca a la casa Intel Core, con
un monitor que tuviera menos de 17 pulgadas o incluso las 17, 32 Gigabytes de memoria
ram, 3 puertos USB y por menos de 1000 € su utilidad total sería:
Utilidad Total = 0,838 (Intel Core) + 0,300 (menos de 17”) + 1,451 (32 Gb) – 1,209
(menos de 1000 €) + 10,915 (constante) = 12,295
Esta combinación sería perfecta para ciertos consumidores, como por ejemplo a aquellos
que utilicen más su equipo orientado hacia el entretenimiento, es decir los famosos
Youtubers. Existe un pequeño negocio en la red (YouTube) en el que estos individuos
ganan su sustento subiendo videos de diferentes casos como son el caso de los “Let´s
Plays”, videos en los que los Youtubers se graban a sí mismos mientras van jugando a
algún videojuego y posteriormente los suben a la red para que el público los vea; el caso
es que para hacer todo esto y conseguir que el video se vea en perfectas condiciones se
precisa de un gran equipo informático para lograrlo, no solo un buen procesador sino gran
capacidad de memoria ram, buen monitor a veces de hasta más de 17 pulgadas y por
supuesto encontrar equipo de este nivel a un precio considerable es difícil, no imposible
pero difícil.
47
Tabla 19: Utilidades
Fuente: Extraído de SPSS
Gráfico 13: Representación gráfica de Utilidades y Procesador
Fuente: Extraído de SPSS
En los (Gráficos 13 y 14) vemos claramente como la utilidad que presenta el tipo de
48
procesador está repartida pero como dijimos en páginas anteriores el que domina
claramente el mercado actual en desarrollo o fabricación de circuitos integrados a nivel
mundial es por supuesto Intel y por lo tanto no es de extrañar que sea el mejor valorado.
Con la Memoria Ram vemos que efectivamente la mejor tarjeta de memoria es la de 32
Gb, luego está la de 16 pero siendo menos significativa y la peor valorada la de 8. La
Memoria Ram es uno de los compontes básicos que debe tener cualquier equipo
informático, si nos centráramos exclusivamente en su mayor o menor capacidad de
trabajo podríamos hacer incluso otra pequeña clasificación de la misma:
Aquellos equipos que dispongan de unos 2 Gb de RAM suelen ser lo que usan
más para navegar por Internet, llevar a cabo trabajos en Word, etc.
Los que se dedican además de la navegación web con múltiples pestañas abiertas,
trabajar con documentos más complejos y una multitarea normal con 4 Gb de
RAM deberían tener suficiente.
Los 8 Gb de RAM estarían más reservados para los contenidos multimedia
(música, películas, etc.) una multitarea más elevada y a trabajar con documentos
de toda clase.
Y para finalizar los equipos de que dispongan de 16, 32 o hasta 64 Gb de RAM
suelen ser para los que realizan una multitarea muy elevada, videojuegos con altas
exigencias de funcionamiento, aquellas personas que trabajan con aplicaciones
muy intensas (por ejemplo la Edición tanto de fotos como de videos), programas
potentes….
49
Gráfico 14: Representación gráfica de Utilidades y Memoria RAM
Fuente: Extraído de SPSS
Con el Precio, (Gráfica15) observamos claramente la relación lineal que existe con la
utilidad, los portátiles con precios menores a 1000 €, como era de esperar han sido los
mejor valorados, seguidos de aquellos que no llegan a los 1500€ y por supuesto en último
lugar los que cuestan casi 2000€. También nos da el valor del coeficiente de regresión
lineal de aquellos factores que especificamos como LINEAR (Precio en este caso), siendo
-1,2091.
A continuación, en el (Gráfico16) podemos ver el orden que siguen los factores de nuestro
modelo según los valores de importancia representados, en primer lugar se encuentra la
Memoria RAM el que es indiscutiblemente el factor más importante que presenta un valor
de 31,981 según la (Tabla 20), para los individuos seguido claramente del Precio (Coste)
26,284 con valor de importancia, además observamos que tanto el tipo de Procesador
como el número de pulgadas del monitor están casi al mismo nivel con puntuaciones de
15,618 y 14,336.
50
Gráfico 15: Representación gráfica de Utilidades y Precio
Fuente: Extraído de SPSS
Gráfico 16: Representación gráfica de Valores de Impotancia
Fuente: Extraído de SPSS
51
Tabla 20: Valores de Importancia
Fuente: Extraído de SPSS
Tabla 21: Correlación R de Pearson y Tau de Kendall
Fuente: Extraído de SPSS
Y finalmente como, decíamos en el paso 7, la (Tabla 21) nos muestra los estadísticos de
R de Pearson y de Tau de Kendall, ambos para medir la correlación lineal existente
entre las preferencias observadas y las estimadas, de donde concluimos que ambos
valores son significativos.
8. CONCLUSIONES
Para finalizar nuestro estudio vamos a llevar citar una serie de conclusiones finales para
recalcar los aspectos más importantes de todo el trabajo. Bien, recordemos que al
principio se llevó a cabo un análisis para comprobar la disimilaridad que existe entre los
100 portátiles que conseguimos reunir, formando así nuestra base de datos a través de las
marcas más representativas del sector: Lenovo, Asus, Dell, HP, Acer, Apple, MSI, Vant,
Slimbook, Mountain, Microsoft y Toshiba; siendo tres de ellas marcas españolas “Vant,
52
Slimbook y Mountain”. Para ello utilizamos Las conclusiones que empezamos a obtener,
mediante el programa R, fueron que los equipos que tenían una mayor disimilitud entre
ellos, debido a sus características, eran los pertenecientes a los de las marcas Microsoft,
Slimbook y Mountain; siendo los de MSI y ACER los que mayor valor tenían; y los más
parecidos eran los de HP y Apple.
Para tener una mejor idea, a nivel gráfico, de cómo se distribuirían dichos portátiles en
un plano se llevó a cabo Escalamiento Multidimensional de donde pudimos identificar
que las dos dimensiones que conforman el plano, están constituidas por aquellos portátiles
cuyos precios de mercado son muy elevados, superando algunos de ellos los 3000 € y que
además cuentan con un diseño físico exquisito, siendo el principal exponente en estos
aspectos Apple; mientras que el segundo está compuesto por aquellos que disponen
características internas muy buenas , es decir portátiles potentes.
Luego llevamos a cabo un estudio descriptivo más profundo de sus variables dividido en
dos; por un lado un Análisis de Correspondencia Múltiple donde cogimos todas las
variables categóricas que había; y por otro un Análisis de Componentes Principales con
el resto de variables continuas; y al final pudimos clasificarlos de la siguiente manera:
primero estarían los “superordenadores”, es decir los que tendrían no solo un precio por
las nubes sino que cuentan con un buen armamento tecnológico, utilizados sobre todo por
profesionales; luego están los Netbooks, siendo menos potentes y más baratos, estos se
han estado usando sobretodo por los estudiantes de colegios en la última década, ya que
son portátiles no demasiado grandes, no suelen pesar más de 1 Kg y cuentan con unos
precios poco más de 200€; a continuación los Ultraportátiles, que antes del surgimiento
del Netbooks, eran de los más solicitados no solo por su gran manejo o fácil movilidad
sino tienen además algo más de capacidad y potencia que los Nets, cierto que son un
poco más pesados pero sus monitores son más grandes, aunque la realidad es que estos
dos últimos están presenciando sus últimos años de vida, pues la aparición de las Tablets
en el mercado ha supuesto un duro golpe, lo que ha mermado su fuerza; y en última
estancia están los portátiles clásicos, que son más pesados (superando los 2,5 Kg), con
monitores de hasta 18 pulgadas y su batería dura una media de 4 horas; son también en
estos últimos donde podemos encontrar más variedad en cierto sentido porque
dependiendo de la propia antigüedad que tenga el equipo encontraremos desde aquellos
53
que posean unidades ópticas hasta los más modernos que tienen ranuras de Tarjetas SD.
Finalmente llevamos a cabo un análisis conjunto para ver qué características son las
preferidas por los clientes a la hora de ir a comprar un ordenador y los resultados fueron
que se guían en mayor medida por la Memoria RAM, seguido de un Precio que esté a su
alcance y en segunda estancia, en el tipo de Procesador junto la resolución o número de
pulgadas del monitor que presente.
Si quisiéramos hacer una segmentación del mercado, creo que la tendencia que existe en
la actualidad es que son los jóvenes los que dan un mayor uso al portátil hoy en día, más
si tenemos en cuenta que el 76,7 % de los entrevistados, son chicos y chicas menores de
18 años y los comprendidos entre 18 y 35; el 50% son estudiantes con un 26,7% de
trabajadores, usado lo más seguro no solo para temas laborales o trabajos académicos sino
también para los contenidos multimedia de ahora.
9. BIBLIOGRAFIA
- Página Oficial de Lenovo: https://www.lenovo.com/es/es
- Página Oficial de Asus: https://www.asus.com/es/Laptops/
- Página Oficial de Dell: https://www.dell.com/es-es?~ck=mn
- Página Oficial de HP: https://store.hp.com/SpainStore/Merch/List.aspx?sel=NTB
- Página Oficial de Acer: https://www.acer.com/ac/es/ES/content/home y
https://www.aceronline.es/portatiles/hogar
- Página Oficial de Apple: https://www.apple.com/es/mac/ y
https://www.elcorteingles.es/apple/electronica/ordenadores/portatiles/
- Página Oficial de MSI: https://es.msi.com/
- Página Oficial de Slimbook: https://slimbook.es/
- Página Oficial de Vant: https://www.vantpc.es/
- Página Oficial de Mountain: https://www.mountain.es/
- Página Oficial de Micorsoft: https://www.microsoft.com/es-es/
- Página Oficial de Toshiba: http://www.toshiba.es/laptops/product-filter/
- Base de Datos Específica: https://www.notebookcheck.org/Busca.6834.0.html
- Prieto Guerra, Ricardo Enrique (2006). Técnicas Estadísticas de Clasificación, un ejemplo de
Análisis Cluster (Trabajo Fin de Carrrera). Universidad Autónoma del Estado de Hidalgo. Instituto
de Ciencias Básicas e Ingeniería. Área Académica de Ingeniería. Obtenido en:
https://www.uaeh.edu.mx/docencia/Tesis/icbi/licenciatura/documentos/Tecnicas%20estadisticas
%20de%20clasificacion.pdf
54
- Rodríguez – Salazar, María Elena; Álvarez – Hernández, Sergio y Bravo – Núñez, Ernesto (2001).
Coeficientes de Asociación. Universidad Autónoma Metropolitana – Iztapalapa. Obtenido en:
http://avalos.ujaen.es/search~S2*spi?/YCoeficientes+de+Asociaciu00F3n&searchscope=2&S
ORT=D/YCoeficientes+de+Asociaciu00F3n&searchscope=2&SORT=D&SUBKEY=Coeficie
ntes+de+Asociaci%C3%B3n/1%2C2%2C2%2CB/frameset&FF=YCoeficientes+de+Asociaciu
00F3n&searchscope=2&SORT=D&1%2C1%2C
- Arroyo López, Pilar Ester y Borja Medina, Julio César (2017). Análisis multivariante para la
inteligencia de mercados. Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM).
Obtenido en:
https://books.google.es/books?id=l5FlDwAAQBAJ&pg=PT138&dq=distancia+manhattan&hl=e
s&sa=X&ved=0ahUKEwivl9Cl5b3hAhXUDWMBHa4kBqcQ6AEIPTAE#v=onepage&q=dista
ncia%20manhattan&f=false
- F. Husson, S. Lê & J. Pagès (2012). Análisis de datos con R. Escuela Colombiana de Ingeniería
Julio Garavito.
- F. Husson, S. Lê & J. Pagès (2017). Exploratory Multivariate Data Analysis by Example Using R.
University of California.
- Vegdist / Dissimilarity Indices For Community Ecologists. Obtenido en:
https://www.rdocumentation.org/packages/vegan/versions/2.4-2/topics/vegdist
- M. Cuadras, Carles (1989), Distancias Estadísticas, Departament d´Estadística, Universitat de
Barcelona, Vol. 30, Núm. 119, p. 297.
- García Pérez, Alfonso (2005). Métodos avanzados de estadística aplicada. Técnicas avanzadas.
Universidad Nacional de Educación a Distancia (UNED). Departamento de Matemáticas.
Capítulo 1.
- La historia de la computación: Sus generaciones, gráfica, moderna, y más. Obtenido en:
http://conocelahistoria.com/c-tecnologia/la-historia-de-la-computacion/
- Historia de la computación. Obtenido en:
http://www.cad.com.mx/historia_de_la_computacion.htm
- Alonso Oliva, Juan Luis; Gutiérrez Fernández, David; López Santa Cruz, Víctor y Torrecilla
Peñuela, Javier (1998) Historia de los Ordenadores. Escuela Universitaria de Magisterio de
Toledo (España). Universidad de Castilla La Mancha (Especialidad en Educación Primaria).
- Computación cuántica: qué es, de dónde viene y qué ha conseguido. Obtenido en
https://www.xataka.com/ordenadores/computacion-cuantica-que-es-de-donde-viene-y-que-ha-
conseguido
- En qué estado actual se encuentra la computación cuántica y qué podemos esperar. Obtenido en:
https://www.xataka.com/investigacion/que-estado-actual-se-encuentra-computacion-cuantica-
que-podemos-esperar
- Rodríguez Avi, José. Departamento de Estadística e Investigación Operativa. Apuntes de la
asignatura Análisis Multivariante para el Marketing. Temas 1, 2 y 3.
55
- Mendoza, Alejandro (19 de Febrero de 2018). Guía para comprar el portátil que necsitas. Artículo
periodístico de El País.
- Andrés, Rubén (22 de Septiembre de 2018) En qué componentes debes fijarte al comprar un
portátil para trabajar. Obtenido en: https://computerhoy.com/reportajes/tecnologia/que-
componentes-debes-fijarte-comprar-portatil-trabajar-303095
- Linares, G. (2001) ESCALAMIENTO MULTIDIMENSIONAL:CONCEPTOS Y ENFOQUES.
Departamento de Matemática Aplicada, acultad de Matemática y Computación,
Universidad de La Habana. Vol. 22. Nº 2, (Revista Investigación Operacional)
- Pérez López, César (2004) Técnicas de Análisis Multivalente de Datos: Aplicaciones con SPSS.
Universidad Complutense de Madrid. Instituto de Estudios Fiscales.
- Gower, J. C. (1971), “A general coefficient of similarity and some of its properties”. Biometrics,
Vol 27, Nº 4, pp. 857 – 871.
- Ramirez Hurtado, José Manuel (2008) USO COMERCIAL DEL ANALISIS CONJUNTO EN
ESPAÑA. Departamento de Economia, Metodos Cuantitativos e Historia Economica. Universidad
Pablo de Olavide. Obtenido en: http://casus.usal.es/pkp/index.php/MdE/article/viewFile/985/926
- López – Roldán, Pedro y Fachelli Sandra (2015) METODOLOGÍA DE LA INVESTIGACIÓN
SOCIAL CUANTITATIVA. Universitat Autònoma de Barcelona, Departament de Sociologia i
Anàlisi de les Organitzacions. Parte III (Análisis).
ANEXOS
- BASE DE DATOS: https://drive.google.com/file/d/1UCzFgBmCHuAbTqzz-
a38IsgPqfVVT2m-/view?usp=sharing
- MATRICES DE GOWER PARA FUNCION DAISY Y VEGAN:
https://drive.google.com/file/d/1lQL4l93hmfu9eKk7l6W_UZfpraNvkf05/view?
usp=sharing
- DATOS PARA EL ACM:
https://drive.google.com/file/d/1QsOEuadW0YuHYXlzPg-
pXrHyUkhjMy5G/view?usp=sharing
- DATOS PARA EL ACP:
https://drive.google.com/file/d/1FZNl3HFZ5lK3CuAQHWp_PIuTWqayHru_/vi
ew?usp=sharing
- DATOS PARA ANALISIS CONJUNTO:
https://drive.google.com/file/d/1JK2dbe-XoJ7bpr7Gv-D16fDfNgON-0--
/view?usp=sharing
56
ENCUESTA
Hola, soy un estudiante de la Universidad de Jaén y estoy haciendo una pequeña
encuesta para mi último trabajo de carrera del "Grado en Estadística y Empresa",
basado en un estudio sobre las preferencias de cada persona a la hora de comprar un
determinado portátil o laptop, me sería de gran ayuda si pudierais contestarme
rápidamente a las siguientes 3 preguntas y que me ordenarais de forma sencilla (según
vuestras preferencias) los siguientes portátiles que os mostraré abajo en una imagen,
no os llevará más de 3 minutos. Gracias de antemano.
- Sexo
Hombre
Mujer
- Edad
<18
18 – 24
24 – 35
35 – 50
> 50
- Ocupación
Estudiante
Trabajador
Desempleado
Ordene de "Mayor a Menor" preferencia los siguientes 16 portátiles (ID de tarjeta),
en función de las características que tienen cada uno de ellos (Procesador, Pulgadas
de pantalla, Memoria RAM, Puertos USB y el Precio); por ejemplo, si su mayor
57
preferencia es el portátil 12, luego el 7, seguido del 10 ( y así hasta ordenar los 16),
solo debe escribir abajo de forma sencilla sus correspondientes números: 12 - 7 - 10...
(hasta completarlos)
58
59
SINTAXIS DEL ANALISIS CONJUNTO
CONJOINT PLAN='C:\Users\usuario\Desktop\FRAN\AMM\MI TFG\datos para
analisis conjunto.sav'
/DATA='C:\Users\usuario\Desktop\FRAN\AMM\MI TFG\computer_pref.sav'
/SEQUENCE=PREF1 TO PREF16
/SUBJECT=ID
/FACTORS=Motor Pantalla Memoria Conectividad(DISCRETE)
coste (LINEAR LESS)
/PRINT ALL
/UTILITY='C:\Users\usuario\Desktop\FRAN\AMM\MI TFG\utilidades.sav'
/PLOT=ALL
ORDENES DE R PARA EL CALCULO DE DISTANCIA DE GOWER:
- Con función Daisy: daisy(gower_1, metric = c("gower"),stand = FALSE, type
= list(asym = c(12,14,16),ordratio = c(9,10)))
- Con función Vegan: vegdist(gower_1, method="gower", binary=FALSE,
diag=FALSE, upper=FALSE, na.rm = FALSE)
60