guiasjuridicas.es - Documento
El documento tardará unos segundos en cargarse. Espere, por favor.
Análisis multivariante

Análisis multivariante

Conjunto de procedimientos estadístico-econométricos que estudian y analizan de forma simultánea ciertas características de cada individuo, objeto o entidad que forma parte de una determinada investigación.

Contabilidad y finanzas

Concepto

Lo primero que se ha de señalar es que la definición de Análisis Multivariante no es sencilla ni trivial. Una definición general del concepto haría referencia al conjunto de procedimientos estadístico-econométricos que estudian y analizan de forma simultánea ciertas características (más de una) de cada individuo, objeto o entidad que forma parte de una determinada investigación.

El análisis simultáneo de múltiples características de dichos individuos, objetos o entes es la característica clave del Análisis Multivariante. Y ello porque dicha simultaneidad en el análisis permite analizar la interrelación existente entre todas las variables aleatorias que representan dichas características. De lo anterior se deduce que el carácter multivariante de las técnicas englobadas bajo la denominación de Análisis Multivariante, no reside tanto en la multiplicidad de variables consideradas en el estudio, como en la consideración conjunta e interrelacionada de las mismas.

Tipología de técnicas multivariantes

Dicho lo anterior, quizás la mejor manera de entender qué es el Análisis Multivariante es la descripción de los principales procedimientos que engloba. Sin ánimo de ser exhaustivos, éstos pueden ser agrupados en los siguientes tipos:

  • a) Modelos de rango completo y no completo.
    • - Análisis de regresión múltiple.
    • - Análisis de la varianza (ANOVA).
    • - Análisis de la covarianza (ANCOVA).
    • - Análisis multivariante de la varianza (MANOVA).
    • - Análisis multivariante de la covarianza (MANCOVA).
    • - Correlación canónica.
  • b) Reducción de la dimensionalidad.
    • - Análisis de componentes principales
    • - Análisis factorial.
  • c) Clasificación y Discriminación.
    • - Análisis de Conglomerados.
    • - Análisis discriminante.
  • c) Otros procedimientos multivariantes.
    • - Análisis conjunto.
    • - Escalamiento multidimensional.
    • - Análisis de correspondencias.
    • - Análisis logit.
    • - Modelos de ecuaciones estructurales.

1. Modelos de rango completo y no completo

Supóngase que en el problema objeto de estudio se tiene una variable dependiente (Y) y una colección de variables independientes que se suponen explicativas de la anterior bajo una forma lineal o linealizable (X1, X2,...,Xn)

Si tanto la variable a explicar como las variables “explicativas” son cuantitativas y los datos relativos a las últimas conforman una matriz de rango completo, la técnica que, entre otras cosas, proporciona la relación lineal de Y con X1, X2,...,Xn, o en otros términos, que permite predecir los cambios en el valor de en respuesta a los cambios en los valores de X1, X2,...,Xn), o, lo que es lo mismo, la "explicación" del comportamiento de la variable de nuestro interés mediante la información suministrada por una serie de variables de las que se supone depende linealmente, se denomina regresión múltiple. El modelo de regresión múltiple viene dado por yi = β0 + β1χ1i + β2χ2i + ... + βpχpi + еi o, en términos matriciales, Υ = Xβ + е, donde X es una matriz de cantidades conocidas y de rango completo y la inclusión del término de error se justifica por la omisión en el modelo de variables explicativas relevantes o errores de medida.

Si las variables X1, X2,...,Xn fuesen los niveles de un factor o variable cualitativa, o susceptible de tratarse como tal (por ejemplo, varón y mujer son los niveles del factor sexo), y se pretendiese estimar el efecto de que sobre la variable Y tiene el hecho de que una determinada observación pertenezca a un determinado nivel del factor, la técnica que se ocupa de estas cuestiones es el Análisis de la varianza (ANOVA). Nótese que como las observaciones tienen que pertenecer a uno y solo uno de los niveles del factor considerado, la matriz X es de rango no completo, por lo cual no se podrán estimar dichos efectos sino combinaciones lineales de ellos, sin que esto suponga ningún demérito para el análisis. A modo de ejemplo, el ANOVA responde preguntas como ¿cuál es el efecto diferencial entre hombres y mujeres parados en el tiempo de búsqueda de empleo, suponiéndoles iguales en cuanto a otras características de interés? Originalmente el ANOVA se utilizó para determinar el efecto sobre las cosechas de distintos tratamientos o niveles de fertilizante. Por otra parte, resulta relativamente sencillo “reparametrizar” el modelo y convertirlo en un modelo de regresión múltiple.

Si los factores son dos o más, cobra especial relevancia el efecto de la interacción de sus niveles sobre la variable a explicar.

En caso de que algunas de las variables explicativas fuesen de carácter cualitativo y otras de tipo cuantitativo, el modelo se denomina modelo de análisis de la covarianza (ANCOVA). Evidentemente, resultan de especial interés las interacciones entre las variables explicativas. Si las variables a explicar son dos o más el procedimiento se denomina análisis multivariante de la varianza (si las variables explicativas son todas ellas factores) (MANOVA) o análisis multivariante de la covarianza (si coexisten factores con variables cuantitativas (MANCOVA).

Finalmente, la correlación canónica es una técnica que se utiliza para determinar las combinaciones lineales de las variables de los vectores de “variables explicativas” y “a explicar” que presenten la máxima correlación posible. Más concretamente, consiste en determinar, en primer lugar, las dos combinaciones lineales de las variables de dichos vectores, de entre las infinitas que se pueden formar, que presenten la máxima correlación. Posteriormente se determinan otras dos combinaciones lineales de tales vectores, incorrelacionadas con las anteriores, tal que la correlación entre ellas sea máxima. Y así sucesivamente. Como puede apreciarse, el análisis de correlación canónica puede ser visto como una extensión natural del modelo de regresión múltiple.

2. Reducción de la dimensionalidad

Son muy numerosas las ocasiones en las que un investigador tiene que manejar, en la práctica, un elenco ciertamente numeroso de variables correlacionadas entre sí. Evidentemente, si varias de estas variables están correlacionadas, parte de la información que aportan al estudio del fenómeno en cuestión no es “fresca”, o, en términos, más formales, es redundante, puesto que ya la aportan otras de las variables consideradas. Ello lleva al investigador, por cuestiones de manejabilidad y comodidad, a reducir la dimensión del problema, es decir, a trabajar con un conjunto de nuevas variables, menor que el original e incorreladas entre sí, que recogen una gran parte (tan grande como se quiera) de la información que llevaban aparejadas las variables originales. Obviamente, cuanto más se reduzca la dimensionalidad más información original se pierde.

En este sentido, el Análisis de componentes principales examina las relaciones entre un conjunto de p variables correlacionadas y las transforma en un nuevo conjunto de variables incorreladas denominadas componentes principales. Estas nuevas variables son combinaciones lineales de las originales y se derivan en orden de importancia, de tal manera que la primera componente principal recoge, de la variación total de los datos originales, la mayor parte posible. Y así sucesivamente. Esta técnica es originaria de K. Pearson (1901) y fue desarrollada posteriormente por Hotelling (1933, 1936). Su objetivo fundamental es ver si unas pocas componentes recogen la mayor parte de la variación de los datos originales. Si es así, se puede argüir que la dimensionalidad del problema no es p sino inferior a p. En la práctica no siempre es fácil la identificación de las componentes principales por lo que su principal uso recae en la reducción de la dimensionalidad de los datos para simplificar posteriores análisis. Por ejemplo, es una manera muy útil de encontrar agrupaciones en los datos cuando estos vienen caracterizados por un elevado número de variables.

El objeto del Análisis factorial es reproducir (linealmente, puesto que es la forma más sencilla) las interrelaciones entre las variables originales en términos de una serie de factores subyacentes, por otra parte no observables.

Por tanto, mientras que el objeto principal del Análisis de componentes principales es la "explicación de la varianza de las variables originales", el objeto del Análisis factorial es la "explicación" de la covarianza, o correlación en su caso, de dichas variables originales.

El modelo básico de Análisis factorial puede escribirse de la forma: Xj - μ = aj1F1 + aj2F2 + ... + аj2F22 + ujUj donde cada variable observada centrada se expresa linealmente en función de r (generalmente mucho menor que el número de variables) factores comunes a todas las variables observadas y un factor único específico de cada variable. Tanto los factores comunes como los factores únicos se suponen (sin pérdida de generalidad puesto que en la práctica son desconocidos) con media nula y varianza unidad. Los factores únicos se suponen incorrelacionados entre sí y con los factores principales.

Una vez extraídos los factores comunes (uno de los procedimientos para ello es el de componentes principales), el problema radica en su interpretación. Ésta, que se lleva a cabo a partir de las correlaciones de dichos factores con las variables originales, no suele ser clara y por ello se suelen rotar los factores, de tal manera que cada uno de ellos tenga una correlación lo más próxima a la unidad con unas variables y lo más próxima a cero con otras. Ello será de gran ayuda en la tarea de su identificación.

3. Clasificación y discriminación

El análisis de conglomerados, también denominado taxonomía numérica, clasificación o reconocimiento de patrones o formas, está orientado a la síntesis de la información contenida en los elementos observados, síntesis llevada a cabo con vistas a establecer una agrupación de los mismos en función de su mayor o menor homogeneidad. En otros términos, es una técnica estadística que trata de agrupar elementos (que vendrán calificados por un determinado número de características) en grupos mutuamente excluyentes, de tal forma que los elementos de un mismo grupo sean lo más parecidos posible entre sí y lo más diferentes posible respecto de los pertenecientes a otros grupos.

Obviamente, a la hora de llevar a cabo un análisis de conglomerados se deben tomar, previamente, una serie de decisiones: a) selección de las variables en función de las cuales se van a agrupar o clasificar los elementos; b) elección de la distancia entre los elementos; c) el criterio para llevar a cabo la formación de de grupos o conglomerados. d) el criterio de inclusión de los elementos en uno u otro conglomerado.

En cuanto al Análisis discriminante, supóngase una variable aleatoria p-dimensional, X1, X2,...,Xn que caracteriza individuos o casos (p de sus características). Supóngase también que la población de la cual proceden dichos individuos se encuentra segmentada en k clases o grupos. Una de las vertientes del Análisis discriminante es el estudio de las diferencias existentes entre las k clases anteriormente aludidas en base a la consideración conjunta de las p variables. La otra vertiente es de carácter clasificador, pues sirve para ubicar o clasificar un determinado individuo o caso en uno de los grupos en los que se ha dividido la población. La cuestión es elaborar un criterio o regla que sirva para asignar dicho individuo a uno de los k grupos.

Un ejemplo ilustrativo de utilización del Análisis discriminante, ya clásico por otra parte, hace referencia a la concesión de créditos en las entidades financieras. Es evidente que la población solicitante de créditos puede dividirse en dos clases claramente diferenciadas: los que lo amortizan y los que no. Al solicitante del crédito se le formulan una serie de cuestiones de carácter financiero-patrimonial y sus respuestas son los valores que toma, en este individuo, la variable aleatoria p-dimensional anteriormente aludida. Es evidente que una cuestión importante es la determinación de las variables que más discriminan entre los solicitantes que devuelven el crédito concedido (las preguntas que se le harán a los solicitantes serán relativas a estas cuestiones).

Con arreglo a dichas contestaciones se trata de ubicar o clasificar a dicho individuo en uno de los dos grupos. Y para ello es importante disponer de un criterio clasificador que se elaborará en base a la información disponible sobre dichas p variables de otros individuos que solicitaron créditos en el pasado y que ya se sabe si los devolvieron o no.

Se necesita un criterio de asignación o de ubicación de cada uno de los individuos o casos nuevos en una de las anteriores clases o poblaciones. Es decir, se necesita un criterio o regla discriminante, que será tal que asigne el individuo a la i-ésima clase si su vector p-dimensional cae en la i-ésima región de aquellas en las que se ha dividido el espacio p-dimensional.

Obviamente, al ubicar un individuo o caso en una de las anteriores clases, con arreglo a algún criterio discriminante, se pueden cometer dos tipos de errores:

  • a) No clasificar a un individuo en una en una determinada clase cuando realmente pertenece a ella.
  • b) Clasificar a un individuo en una determinada clase cuando realmente no pertenece a ella.

Lógicamente, la regla discriminante que se utilice deberá minimizar la probabilidad de clasificación errónea, o incluso el coste derivado de una clasificación errónea.

4. Otros procedimientos multivariantes

El Análisis conjunto pretende determinar qué combinación de un elenco finito de factores o atributos es el más preferido por una población encuestada. Se utiliza con frecuencia para comprobar la aceptación de diseños nuevos de productos por parte del cliente y para valorar el atractivo de anuncios.

Básicamente, se trata de un modelo que permite obtener un indicador de la importancia relativa de cada una de las características de un producto a través del estudio de los atributos que los consumidores descartan en su elección. El principio básico del análisis consiste en descomponer utilidad por producto en utilidades por atributo.

El análisis conjunto se suele llevar a cabo en las siguientes etapas:

  • a) Identificación y selección de los atributos relevantes. Para identificarlos pueden utilizarse técnicas cualitativas como focus group o aprovechar la experiencia del equipo que está desarrollando el producto.
  • b) Definición de niveles u opciones para cada atributo.
  • c) Definición de la combinación de atributos a ser evaluada, con el objetivo final de determinar cuál de todas las combinaciones es la preferida por los consumidores
  • d) Recogida de información (opiniones de los consumidores).
  • e) Selección del procedimiento de medición de utilidad de cada combinación de atributos.

Bajo la denominación de Escalamiento multidimensional se agrupan un conjunto de técnicas que persiguen el propósito de obtener una configuración de puntos en dimensión reducida que reflejen lo más fielmente posible las percepciones que se tengan sobre las similitudes entre ciertos objetos o estímulos. Para alcanzar dicho propósito, se suele definir una función no lineal que establezca las desviaciones de las distancias definidas en la configuración de puntos con las similitudes observadas entre los objetos o estímulos. A través de un proceso iterativo se minimiza dicha función, lo que puede hacerse por diversos procedimientos de optimización. Se suele utilizar en marketing y ciencias sociales. Los consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus similitudes. Mientras otras técnicas obtienen dimensiones de las respuestas a los atributos de los productos identificados por el investigador, el escalamiento multidimensional proporciona las dimensiones de los juicios de los encuestados sobre la similitud de los productos. Es decir, los resultados no dependen de los juicios de los investigadores. Además, no es necesario mostrar a los encuestados una lista de atributos. Las dimensiones resultantes provienen de los juicios de los encuestados sobre pares de productos. Es la técnica más comúnmente utilizada en mapeado perceptual.

El análisis de correspondencias se utiliza para estudiar, desde un punto de vista gráfico, las relaciones de dependencia e independencia de un conjunto de factores a partir de la información contenida en una tabla de contingencia (tabulación cruzada de dos o más variables cualitativas o factores). Consiste en asociar a cada uno de los niveles de los factores un punto en el espacio n-dimensional, de forma que las relaciones de cercanía/lejanía entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellos. A modo de ejemplo, supóngase que las preferencias de una serie de encuestados por una determinada marca están cruzadas en una tabla de contingencia por sexo y ocupación. Pues bien, a través del Análisis de correspondencias se muestra en un mapa bidimensional o tridimensional la asociación o “correspondencia” de marcas y características de sexo y ocupación de aquéllos que prefieren cada marca (perfiles).

El análisis logit está orientado a modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser utilizado para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (multinomial). En este tipo de situaciones no es aplicable la metodología de la regresión lineal ya que ahora la variable respuesta sólo presenta dos valores (en el caso dicotómico).

Los modelos de ecuaciones estructurales permiten describir, gráfica y analíticamente, las relaciones que se cree que existen entre las variables observables y las no observables, teniendo en cuenta la dirección de cada una de tales relaciones. A partir de la información muestral, se pueden estimar tales relaciones y juzgar su importancia, de tal manera que se puede simplificar el diagrama inicial representativo de las posibles relaciones hasta obtener un modelo parsimonioso.

Un aspecto clave en la estimación de cualquier tipo de modelo estadístico es su sujeción al planteamiento de una teoría debidamente asentada en el área de conocimiento en que se esté trabajando. Este requisito es especialmente importante en un área de modelización tan flexible como ésta. Por ello, se debe prestar una gran atención a la especificación e identificación del modelo. El primer aspecto se refiere al correcto planteamiento del sistema de ecuaciones en función de la teoría subyacente (cumplimiento de supuestos básicos, definición de algunos parámetros como fijos y otros como libres o estimables); el segundo aspecto tiene que ver con que la cantidad de información disponible sea suficiente para tener una estimación única de los parámetros libres, más de una o ninguna.

Recuerde que...

  • Modelos de rango completo y no completo: análisis de regresión múltiple, de la varianza, de la covarianza, multivariante de la varianza, multivariante de la covarianza y correlación canónica.
  • Reducción de la dimensionalidad: análisis de componentes principales y análisis factorial.
  • Clasificación y Discriminación: análisis de conglomerados y análisis discriminante.
  • Otros procedimientos multivariantes: análisis conjunto, escalamiento multidimensional, análisis de correspondencias, de logit y modelos de ecuaciones estructurales.
Subir