guiasjuridicas.es - Documento
El documento tardará unos segundos en cargarse. Espere, por favor.
Estadística espacial

Estadística espacial

Rama de la estadística que analiza datos georeferenciados, es decir, datos de los que se dispone sus coordenadas espaciales.

Contabilidad y finanzas

La estadística espacial es la rama de la estadística que analiza datos georeferenciados, es decir, datos de los que se dispone sus coordenadas espaciales. Por ejemplo, la localización espacial de actividades económicas puede ser analizada como un dato espacial. El tipo de dato espacial a analizar permite una primera división de esta rama de la estadística. Hablaremos de datos geoestadísticos si la variable aleatoria a analizar fluctúa (de forma continua o discreta) a lo largo del área de estudio y el investigador toma puntos de observación en dicha región y en ellos mide alguna variable de interés. Si los datos espaciales son georeferenciados como puntos, entonces estaremos hablando de patrones puntuales generados por algún mecanismo estocástico. En estos datos, la posición y el número de puntos por unidad de espacio son las variables de interés del proceso, así como algunas características que podrían estar asociadas a cada posición espacial. Finalmente, si los datos están asociados a regiones que dividen el área total de estudio, hablaremos de datos en retículo, por ejemplo, una variable aleatoria asociada a las provincias españolas.

Modelo estocástico de Cressie

Cressie (1992) propone el siguiente modelo estocástico espacial para los tres tipos de datos. Sea una localización espacial, donde comúnmente se considera d = 2, y sea Z(s) una variable aleatoria o vector aleatorio observado en dicha posición s. Si se permite que s varíe en un conjunto de índices D, entonces se define un campo aleatorio ddimensional vía:

{Z(s): s є D}

En función del tipo de dato a analizar dicho proceso estocástico toma las siguientes características. Si los datos son geoestadísticos, entonces D es un conjunto finito de y la variable aleatoria Z(s) puede variar de forma continua en D. Por ejemplo, las observaciones de las concentraciones de algún contaminante en una región de estudio. Si D es un conjunto numerable de como resultado de una realización de un mecanismo estocástico, donde Z(s) típicamente puede tomar dos valores 0 o 1, hablaremos de un proceso puntual. Si esta variable Z(s) toma otros valores distintos de 0 o 1, por ejemplo , entonces este tipo de proceso estocástico se llama proceso puntual marcado, donde Z(s) es una marca o característica de s. Finalmente, si D es una colección finita de puntos en , por ejemplo posiciones en una malla o las posiciones de un conjunto de regiones, entonces hablaremos de datos de área o en retículo.

Geoestadística

Pasemos ahora a caracterizar cada uno de estos procesos espaciales. La geoestadística es la rama de la estadística espacial que estudia variables aleatorias espacialmente explícitas mediante la toma de observaciones puntuales en localizaciones que el propio investigador puede determinar. Por ejemplo, el estudio de la concentración de un determinado contaminante en el suelo implica la toma de algunas muestras de suelo en posiciones que el propio investigador decide. Sin embargo, nótese que a veces las posiciones de observación pueden venir dadas, como, por ejemplo, algunas variables climáticas donde la posición de las observaciones depende de la localización de las estaciones meteorológicas. Los objetivos básicos de la geoestadística son la detección de dependencias espaciales, el estudio de la variabilidad de los datos tanto a gran como a pequeña escala y la inferencia estadística de la variable de interés basándonos en los datos observados.

Variograma

El variograma es la herramienta estadística esencial para la detección de dependencia espacial para medias a pequeñas escalas. Esta función teórica viene definida por:

donde (si, sj) є son posiciones espaciales; en algunos textos se define simplemente γ(si,sj) como el semivariograma. Si el proceso es homogéneo se puede utilizar γ(si,sj) = γ (r) donde , es decir la distancia Euclídea entre observaciones. Cuando se utilizan datos reales obtenidos en campo el variograma definido (el llamado teórico) no es de aplicación. En este caso se utiliza el variograma empírico que viene definido para un sistema homogéneo como

donde z(si) es una realización del proceso espacial, N(r) es el conjunto de parejas de puntos que cumplen que y | N(r) | es el cardinal de N(r). Varios modelos de variograma han sido utilizados para explicar la dependencia espacial, destacando el variograma exponencial, el esférico y el Gaussiano.

Método geoestadístico de Kriging

Si nuestro objetivo es la interpolación de los valores de nuestro campo aleatorio utilizando el vector de observaciones, necesitamos aplicar la herramienta geoestadística llamada Kriging en honor a Daniel G. Krige, pionero en la utilización de dicho método. Básicamente, Kriging es una técnica estadística basada en mínimos cuadrados para obtener los valores de una variable aleatoria en función del valor de esta variable en puntos vecinos.

Sea Z(s) = m(s) + e(s) el modelo estadístico del valor de una observación tomada en la posición s, donde e(s) es el error asociado a dicha posición. Entonces un estimador lineal del valor de la variable aleatoria en una posición no observada Z(s0) es

donde (estimador insesgado) y . El método de Kriging se basa en la minimización del error cuadrático medio asociado a dicho estimador lineal. En algunos casos m(s) = μ y por tanto constante en D. Cuando esto sucede se suele referir a este tipo de kriging como ordinario.

Los procesos puntuales

Vamos seguidamente a introducir algunos aspectos básicos del segundo gran grupo de procesos espaciales, los procesos puntuales. Un proceso puntual es un mecanismo estocástico que genera un conjunto contable y finito de puntos en una región acotada. Como ejemplos relevantes podemos incluir emisiones de una fuente radioactiva, pulsos eléctricos, secuencia temporal de eventos naturales, la distribución de árboles en un bosque y la distribución espacial de epicentros de terremotos. La teoría de los procesos puntuales permite el estudio de las ocurrencias de puntos al azar (por ejemplo árboles, planetas, ciudades) en el espacio y tiempo. Varias disciplinas científicas han utilizado esta teoría para analizar datos espacialmente explícitos incluyendo la economía, la biología, la ecología, la agronomía y la ciencia forestal.

Objetivos principales

Los objetivos principales de los procesos puntuales son el análisis de la dependencia espacial entre eventos, el análisis de la densidad de puntos por unidad de espacio, la determinación de modelos matemáticos que expliquen los patrones puntuales de estudio y la generación de datos sintéticos basados en dichos modelos. Para el estudio de la dependencia espacial de patrones puntuales existen varias herramientas estadísticas destacando aquellas basadas en funciones de correlación. Las funciones de correlación se basan en las distancias dos a dos de los eventos del patrón puntual. Asumiendo homogeneidad en el patrón puntual a analizar, considérese dos discos infinitesimales de área d(x) y d(y), donde (x, y) ε y sea P(r) la probabilidad que los dos discos contengan un punto del proceso. Entonces podemos definir esta probabilidad vía:

donde g(r) es la función de correlación de parejas. De forma general esta función indica inhibición entre puntos cuando g(r) < 1, g(r) = 1 indica el caso Poisson (es decir un proceso completamente al azar), mientras que g(r) > 1 implica agregación entre los eventos. Desde la definición heurística de la función de correlación de parejas, introducimos la función K de Ripley como una función acumulativa de segundo orden

donde λK(r) es el número medio de otros puntos dentro de una distancia más pequeña o igual a r desde un punto arbitrario del proceso puntual. Las dos funciones son utilizadas para estudiar la estructura espacial puntual y para rechazar o aceptar la hipótesis nula de un patrón completamente al azar. Otras funciones estadísticas utilizadas para analizar patrones puntuales son la función de vecinos más cercanos G y la función del espacio vacío F.

Modelos y métodos

Varios modelos matemáticos han sido definidos para la generación de patrones puntuales. El proceso puntual Poisson es el mecanismo más simple de generación de patrones puntuales y es utilizado para caracterizar patrones puntuales "completamente al azar". Normalmente estos dos conceptos suelen ser considerados de forma indistinta. Si la hipótesis nula de un patrón completamente al azar es rechazada, existen varios modelos que pueden explicar estas estructuras puntuales. Por ejemplo, si el patrón puntual está formado por conjuntos (grupos) de puntos, posiblemente este patrón haya sido generado por algún mecanismo de agregación. Existen varios mecanismos estocásticos que generan patrones agregados, por ejemplo, los procesos Poisson de agregación y los procesos de Cox. También existen mecanismos estocásticos que generan estructuras puntuales completamente opuestas a las agregadas, configuraciones de puntos altamente regulares. En estos mecanismos, la probabilidad de que en una posición determinada pueda ser ubicado un punto dependerá directamente de la configuración puntual de los puntos alrededor de esta posición. Estos procesos puntuales suelen ser llamados de Markov o de Gibbs debido a esta dependencia espacial.

Finalmente mencionar que existen varios métodos de inferencia estadística de procesos puntuales donde los basados en la verisimilitud y la pseudo-verisimilitud son los más utilizados. También comentar que existen cuatro grandes métodos para simular patrones puntuales para generar datos sintéticos, los algoritmos espaciales de nacimiento y muerte, el algoritmo de Metropolis-Hastings y métodos basados en el algoritmo de la simulación exacta.

Datos en retículo

Por último, pasemos a caracterizar las herramientas estadísticas para analizar datos en retículo. Aquí los datos están asociados a regiones que dividen el área total de estudio, por ejemplo, el número de infectados por un virus en cada provincia española, el nivel de renta en los barrios de la ciudad de Barcelona o el número de frutos por árbol asumiendo una distribución reticular de los mismos. Debido a que las regiones de estudio tienen márgenes, un concepto básico es el de vecindad entre regiones. En función de la definición de vecindad (por ejemplo, puede estar basada en la distancia entre los centroides de las regiones) que utilicemos, obtener una matriz de vecindad que nos resuma y pondere el grado de vinculación existente entre las regiones es de especial interés.

Similarmente, en este tipo de datos un objetivo básico es la determinación de la correlación espacial y la inferencia estadística basada en datos observados. Para analizar la correlación espacial para datos en retículo, el test de Moran y el estadístico de Geary son las herramientas estadísticas más utilizadas. La inferencia estadística de este tipo de datos está basada en que la observación en una localidad determinada vendrá necesariamente influenciada por las observaciones en las localidades próximas. Por tanto, es natural pensar que los modelos de datos en retículo estarán basados en modelos autoregresivos de series temporales, por ejemplo, el Spatial Simultaneous Autoregression model (SAR) y el modelo Conditionally autoregressive (CAR). También existen métodos de inferencia basados en la estadística bayesiana.

Recuerde que...

  • Los datos geoestadísticos son aquellos en los que la variable aleatoria a analizar fluctúa a lo largo del área de estudio y el investigador toma puntos de observación en dicha región midiendo alguna variable de interés.
  • Si los datos espaciales son georeferenciados como puntos, entonces se habla de patrones puntuales generados por algún mecanismo estocástico.
  • Si los datos están asociados a regiones que dividen el área total de estudio, se habla de datos en retículo.
  • La geoestadística es la rama de la estadística espacial que estudia variables aleatorias espacialmente explícitas mediante la toma de observaciones puntuales en localizaciones que el propio investigador puede determinar.
  • El método de Kriging es una técnica estadística basada en mínimos cuadrados para obtener los valores de una variable aleatoria en función del valor de esta variable en puntos vecinos.
Subir