sábado, 30 de mayo de 2015

Tema 9. Estadística inferencial: muestreo y estimación.



Este es ya el penúltimo tema de la asignatura, en el cual veremos la inferencia estadística (error estándar, teoría central del límite e intervalos de confianza) y el procedimiento muestral y muestreo probabilístico.



Inferencia estadística

Para entender el proceso de la inferencia estadística hay que tener claro varios términos:

Población de estudio: conjunto de pacientes sobre los que queremos estudiar alguna cuestión.

Muestra: conjunto de individuos concretos que participan en el estudio.

Tamaño muestral: número de individuos de la muestra.

Inferencia estadística: conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población.

Técnicas de muestreo: conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población.

Muestreo probabilístico o aleatorio: es una técnica de muestreo en virtud de la cual las muestras son recogidas en un proceso que brinda a todos los individuos de la población las mismas oportunidades de ser seleccionados, es al azar.

Error aleatorio: error asociado a esa muestra elegida al azar.

Parámetro: medida que se quiere obtener de una población.

Estimador: medida de la variable obtenida en la muestra.


En la siguiente imagen se ve cómo es el proceso, en el cual de la población de elige aleatoriamente una muestra para calcular el estimador y utilizarlo en la población para sacar el parámetro.



Error estándar

Es la medida que trata de captar la variabilidad de los valores del estimador, es decir, es la diferencia que hay entre el estimador y el parámetro. Cuanto más pequeño es, más nos podemos fiar del valor de una muestra concreta.

Su cálculo depende de cada estimador:

       
      
                            

  •   Para una media:
  • Para una proporción (frecuencia relativa):

 



S = desviación típica, n = tamaño de la muestra, p = proporción del estimador

Mientras mayor sea el tamaño de la muestra, menor será el error.

Teorema central del límite

Según este teorema para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la población y desviación típica igual al error estándar del estimador de que se trate.

Por lo tanto si sigue una distribución normal:

-             +/-  1S, 68% de las observaciones
-              +/- 2S, 95% de las observaciones
-              +/- 3S, 99% de las observaciones

Intervalos de confianza
Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio).
Se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite. 
Para calcularlos se utiliza:









Y para proporciones:



 



Y aquí lo vemos en un ejemplo

En un centro de salud se pretende realizar un estudio sobre tabaquismo, para lo que se selecciona una muestra de 337 pacientes. Los enfermeros del centro de salud encontraron que en total en la muestra había 83 fumadores habituales. Se pide que calculemos el intervalo de confianza al 95 y al 99% para la proporción de tabaquismo en el total de población del centro de salud.





Aquí dejo un video donde lo explican:





Procedimiento muestral y tipos de muestreo

Procedimiento muestral

Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.
           
La población general de la queremos obtener conclusiones la vamos a elegir al azar, para obtener la muestra y a partir de esta hacer inferencia de la población entera. (confianza en %).


Tipos de muestreo

El muestreo puede ser: probabilístico y no probabilístico.

Probabilístico

Es el método que consiste en extraer una parte (o muestra) de una población o universo, de tal forma que todas las muestras posibles de tamaño fijo, tengan la misma posibilidad de ser seleccionados. Y puede ser:


  • Aleatorio simple. Cada unidad tiene la posibilidad equitativa de ser incluida en la muestra (de sorteo o rifa y tablas de números aleatorios).
  • Aleatorio sistemático. Similar al aleatorio simple, donde cada unidad tiene la misma probabilidad de ser seleccionada. Ejemplo: N: 500 (población) y n: 100 (personas que queremos en la muestra) N/n = 5, el intervalo sería de 5.
  • Estratificado. Se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben someterse al estudio presentan cierta variabilidad o distribución conocida que pueden afectar a los resultados.
  • Conglomerado. Se usa cuando no se dispone de una lista detallada y enumerada de cada una de las unidades y resulta muy complejo elaborarla. En la selección de la muestra se toman los subgrupos.

No probabilístico


No sigue el proceso aleatorio y no puede considerarse que la muestra sea representativa de una población. Se caracteriza porque el investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del estudio que realiza. Y puede ser:


  • Por cuotas. En el que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar.
  • Accidental. Consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar.


Tamaño de la muestra

Para el cálculo del tamaño de una muestra para estimar la media de una población se usa la siguiente fórmula:





Z es un valor que depende del nivel de confianza 1 – α con que se quiera dar a los intervalos calculados a partir de estimadores de esa muestra. (Para nivel de confianza 95%, z= 2; y para nivel de confianza 99% z= 3).

S2 es la varianza poblacional.

e: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar.

Si tras esta operación se cumple el resultado: N > n(n-1), el cálculo del tamaño muestral termina aquí.

Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula:





Y para calcular el tamaño de una muestra cuando queremos estimar una proporción se utiliza:




Por último aquí dejo un par de ejemplos:

1 - Se desea hacer una estimación sobre la edad media de una determinada población. Calcula el tamaño de la muestra necesario para poder realizar dicha estimación con unan error menor de medio año a un nivel de confianza del  99%. Se conoce de estudios previos que la edad media de dicha población tiene una desviación típica igual a 3. (35.000 habitantes).


2 - Un grupo de investigadores quieren conocer la proporción de hipertensión arterial en un municipio de 6550 habitantes, sabiendo que la bibliografía sitúa la prevalencia general de HTA en el 15%, se pide el tamaño de la muestra para estimar la prevalencia de la HTA, considerando un nivel de confianza del 95% y una precisión deseada del 3%.
 


Respecto a este tema, la duda que tengo es como saber distinguir cada tipo de probabilístico y no probabilístico, porque es algo lioso. Por lo demás, lo veo fácil y muy mecánico porque siempre se debe seguir los mismo pasos en cada problema.

No hay comentarios:

Publicar un comentario