guiasjuridicas.es - Documento
El documento tardará unos segundos en cargarse. Espere, por favor.
Estadística no paramétrica

Estadística no paramétrica

Rama de la Estadística cuyas técnicas no asumen los supuestos que exigen los métodos de Estadística paramétrica clásica.

Contabilidad y finanzas

Concepto

Rama de la Estadística cuyas técnicas no asumen ciertos supuestos que exigen los métodos de Estadística paramétrica clásica. Es recomendable su empleo cuando no se verifican dichos supuestos. Las técnicas de Estadística no paramétrica pueden ser clasificadas en dos grupos: métodos de inferencia no paramétrica y métodos de estimación no paramétrica de curvas.

Los métodos clásicos de Estadística paramétrica exigen el cumplimiento de determinados supuestos sobre las poblaciones originales de las que se extraen los datos. En general, los métodos y técnicas de Estadística no paramétrica no requieren cumplir estas hipótesis de partida, por lo que su empleo es apropiado en situaciones en las que no se cumplen estos supuestos. La Estadística no paramétrica puede ser clasificada en dos grandes grupos: la inferencia no paramétrica y la estimación no paramétrica de curvas. Por ejemplo, los contrastes de hipótesis paramétricos son técnicas estadísticas muy empleadas en muchas áreas de investigación y requieren que las distribuciones de las variables aleatorias implicadas sean normales. Son muchos los investigadores que emplean un contraste no paramétrico alternativo, puesto que este no requiere que las variables sigan una distribución normal. La estimación de curvas consiste en el empleo de técnicas de regresión no paramétrica o de suavizado, únicamente bajo hipótesis de suavidad (en el sentido de continuidad y diferenciabilidad).

Inferencia no paramétrica

En el contexto de la Inferencia paramétrica clásica, existen tres supuestos importantes que deben cumplirse para poder emplear estas técnicas y realizar los análisis correspondientes: la homogeneidad de los datos (que todos provengan de la misma distribución de probabilidad), la independencia de los datos y el ajuste a la distribución especificada.

La Inferencia no paramétrica tiene por objetivos:

  • - Construir métodos o procedimientos que permitan estudiar si se cumplen los tres supuestos anteriores.
  • - Construir métodos alternativos para ser empleados cuando no se cumplen dichas hipótesis que establecen los métodos paramétricos clásicos.

Destacamos a continuación algunos de los métodos o contrastes de hipótesis no paramétricos más importantes. Estos métodos pueden clasificarse a su vez en:

  • a) Contrastes de localización

    Los contrastes de localización realizan inferencia sobre algún parámetro de localización, habitualmente sobre una medida de tendencia central de una distribución, sobre la que no se realiza ninguna hipótesis estructural. Destacan el contraste de los signos y el contraste de Wilcoxon.

  • b) Contrastes de bondad de ajuste

    Los contrastes de bondad de ajuste consisten en decidir, a partir de una muestra aleatoria, si puede admitirse que la distribución poblacional coincide con una distribución dada. Ejemplos de estos contrastes son el contraste de la chi-cuadrado de Pearson y el contraste de Kolmogorov-Smirnov. El contraste de la chi-cuadrado está basado en un estadístico que compara la frecuencia de aparición de cada modalidad observada con las frecuencias esperadas. El de Kolmogorov-Smirnov está especialmente diseñado para el contraste de ajuste a distribuciones continuas. Existen otros contrastes específicos para estudiar la normalidad de una distribución.

  • c) Contrastes de independencia

    Los contrastes de independencia tienen por objetivo decidir la posible dependencia entre observaciones muestrales. Los contrastes basados en rachas son un ejemplo de este tipo de contrastes. Las rachas son una sucesión de valores repetidos que provienen de dos muestras. Se emplea el estadístico que cuenta el número total de rachas de cada valor observado.

  • d) Contrastes de homogeneidad

    Los contrastes de homogeneidad estudian si todas las observaciones proceden de variables aleatorias con la misma distribución. Algunos contrastes de homogeneidad son el contraste de Wald-Wolfowitz basado en rachas, el contraste de la suma de rangos de Wilcoxon, el contraste de la U de Mann-Whitney, el contraste de la mediana y el contraste de Friedman.

En el contraste de Wald-Wolfowitz basado en rachas, se emplea el mismo estadístico que en el test de rachas, aunque considerando una región de rechazo del contraste formada por valores pequeños para el número de rachas. El contraste de suma de rangos de Wilcoxon y el de la U de Mann-Whitney contrastan la igualdad de distribuciones, en particular la igualdad de medias o de medianas. Son claras alternativas al contraste de la t de Student cuando no se cumple la hipótesis de normalidad. El contraste de la mediana estudia las diferencias de las funciones de distribución empíricas de dos poblaciones. Una alternativa al contraste paramétrico de igualdad de medias en el Análisis de la varianza es el contraste no paramétrico de Friedman.

Estimación no paramétrica de curvas

La estimación no paramétrica de curvas está basada en el empleo de métodos de regresión no paramétrica o métodos de suavizado. Se establecen supuestos poco restrictivos de suavidad (en el sentido de continuidad y diferenciabilidad) sobre la función de regresión m. Estos métodos pueden clasificarse en dos grupos: métodos de estimación de la función de regresión y métodos de estimación de densidades:

  • Un estimador de la función de regresión de tipo paramétrico (por ejemplo, un estimador de regresión lineal múltiple) toma como hipótesis que la función de regresión pertenece a una clase particular de funciones. El investigador selecciona la forma funcional de m basándose en experiencia previa o en consideraciones de tipo teórico. En situaciones en las que, por algún motivo, se conoce la forma funcional de m, las técnicas de tipo paramétrico son recomendables por su sencillez y por su fácil interpretación. Un método de regresión no paramétrica supone generalmente que m cumple hipótesis de continuidad y diferenciabilidad. Estas hipótesis son menos restrictivas y por tanto, el estimador no paramétrico tiene un mayor margen de flexibilidad. Estas técnicas resultan más apropiadas cuando el conocimiento que se tiene sobre la función de regresión es limitado. Aunque estos dos modelos son dos métodos muy diferentes del Análisis de Regresión, no son incompatibles y se pueden complementar. Un método de tipo no paramétrico puede servir para proponer modelos paramétricos y como validación de los mismos, sugiriendo nuevas características sobre dichos modelos. Los métodos más empleados en suavizamiento son los métodos tipo núcleo y los métodos basados en funciones splines. Otros métodos menos habituales son los estimadores en serie ortogonal (que incluyen los wavelets) y los estimadores k-nearest-neighbor.
    • - Los métodos tipo núcleo son medias ponderadas localmente de las observaciones. El método tipo núcleo más destacado es la estimación polinómica local. La idea básica de un ajuste polinómico local es: en un entorno de cada punto de estimación se ajusta un polinomio de grado p a los datos y los p+1 coeficientes del ajuste son estimados por mínimos cuadrados. Estos estimadores precisan de la elección de una función núcleo, cuya selección tiene una importancia relativa para el rendimiento del estimador. En cambio, la selección del llamado parámetro ancho de banda o parámetro de suavizado, es de una importancia crucial para la eficiencia del estimador. La amplitud del entorno de estimación está determinada totalmente por el parámetro ancho de banda. Este parámetro determina el equilibrio entre el sesgo y la varianza en la curva estimada. Se han desarrollado numerosos métodos de selección automática de dicho parámetro, como validación cruzada, validación cruzada generalizada, métodos plug-in, etc.
    • - Los métodos basados en funciones splines se pueden clasificar en splines de regresión, splines de suavizado y los splines con penalizaciones (o P-splines).
      • * Los splines de regresión son funciones polinómicas a trozos sobre las que se imponen restricciones en los puntos de unión llamados nodos, que dividen el rango de la variable de predicción en regiones. Los splines dependen de tres elementos: grado del polinomio, número de nodos y localización de los nodos. Una elección popular para el grado del polinomio es el grado tres. Los splines de regresión pueden ser ajustados mediante mínimos cuadrados una vez que se han seleccionado el número de nodos, pero la selección de los nodos se realiza mediante algoritmos bastante complicados.
      • * Los splines de suavizado, se obtienen como solución del problema de minimizar una suma de residuos (diferencia entre el valor estimado y el valor observado) al cuadrado, que mide la proximidad a los datos y un término penalizado por el parámetro ancho de banda. Este parámetro determina el equilibrio entre el sesgo y la varianza de la curva ajustada. Los splines de suavizado utilizan tantos parámetros como observaciones, lo que hace que su implementación no sea eficiente cuando el número de observaciones es muy elevado.
      • * Los splines con penalizaciones son computacionalmente más eficientes que los dos métodos anteriores, sobre todo cuando se trabaja con gran cantidad de datos. Combinan lo mejor de ambos enfoques, puesto que utilizan menos parámetros que los splines de suavizado y el empleo de las penalizaciones hace que la selección de los nodos no es tan importante como en los en los splines de regresión.
  • La estimación no paramétrica de una función de densidad es una herramienta importante para el análisis exploratorio ya que proporciona un método eficiente para mostrar la estructura de un conjunto de datos. Está muy relacionada con la estimación de una función de regresión y es especialmente útil cuando los supuestos clásicos de un modelo paramétrico dado resultan ser demasiado restrictivos. Estas técnicas requieren hacer pocos supuestos sobre la función de densidad subyacente y proporcionan modelos más flexibles para el análisis de datos. El método más relevante es el de estimación tipo núcleo de la función de densidad. Otros métodos menos empleados son el método de estimación por series ortogonales, el método del estimador naïve o el método del histograma.

Los métodos tipo núcleo implican el empleo de una función núcleo suavizada, que selecciona aquellas observaciones cercanas al punto de estimación. Se emplea también el parámetro de suavizado, que tiene gran importancia vital en la eficiencia de dicho estimador.

Recuerde que...

  • Las técnicas de Estadística no paramétrica pueden clasificarse en dos grandes grupos: métodos de inferencia y métodos de estimación de curvas.
  • La Inferencia paramétrica clásica puede establecer tres tipos de supuestos: la homogeneidad, la independencia de los datos y el ajuste a la distribución especificada.
  • Los métodos de inferencia no paramétrica pueden aplicarse cuando no se cumple alguno de los tres supuestos anteriores.
  • Los métodos de estimación no paramétrica de curvas establecen hipótesis mucho menos restrictivas que los métodos paramétricos clásicos.
  • Los métodos de estimación no paramétrica de la función de densidad son una herramienta útil para el análisis exploratorio de los datos.
Subir