Pruebas estadísticas explicadas: ¿Cuándo usar cuál?

Pruebas estadísticas explicadas: ¿Cuándo usar cuál?

Las pruebas estadísticas se utilizan en las pruebas de hipótesis y se pueden usar para determinar si una variable predictiva tiene una relación estadísticamente significativa con una variable de resultado y para estimar la diferencia entre dos o más grupos.

Asimismo, las pruebas estadísticas suponen una hipótesis nula de no relación o diferencia entre grupos. Luego determinan si los datos observados están fuera del rango de los valores predichos por la hipótesis nula.

Si ya sabes con qué tipos de variables estás lidiando, puedes elegir la prueba estadística correcta para tus datos. De igual modo en el siguiente post de pruebas estadísticas explicadas: ¿Cuándo usar cuál? te ilustraremos un poco más sobre este tema.

Qué son y cómo funcionan las pruebas estadísticas

Las pruebas estadísticas funcionan calculando un estadístico de prueba, un número que describe cuánto difiere la relación entre las variables en su prueba de la hipótesis nula de no relación. Luego calcula un valor p (valor de probabilidad). El valor p estima la probabilidad de que se vea la diferencia descrita por el estadístico de prueba si la hipótesis nula de ninguna relación fuera cierta.

Si el valor del estadístico de prueba es más extremo que el estadístico calculado a partir de la hipótesis nula, se puede inferir una relación estadísticamente significativa entre el predictor y las variables de resultado. Si el valor del estadístico de prueba es menos extremo que el calculado a partir de la hipótesis nula, entonces no se puede inferir una relación estadísticamente significativa entre el predictor y las variables de resultado.

Puedes realizar pruebas estadísticas sobre los datos que se han recopilado de manera estadísticamente válida, ya sea a través de un experimento o mediante observaciones realizadas utilizando métodos de muestreo probabilístico.

Para que una prueba estadística sea válida, el tamaño de la muestra debe ser lo suficientemente grande como para aproximarse a la distribución real de la población estudiada. Para determinar qué prueba estadística utilizar, debes saber si tus datos cumplen con ciertos supuestos. Debes conocer los tipos de variables con las que está tratando y las suposiciones estadísticas.

Las pruebas estadísticas hacen algunas suposiciones comunes sobre los datos que están probando:

Independencia de las observaciones (sin autocorrelación): las observaciones / variables que incluyes en tu prueba no están relacionadas (por ejemplo, las mediciones múltiples de un solo sujeto de prueba no son independientes, mientras que las mediciones de múltiples sujetos de prueba diferentes son independientes).

Homogeneidad de la varianza: la varianza dentro de cada grupo que se compara es similar entre todos los grupos. Si un grupo tiene mucha más variación que otros, limitará la efectividad de la prueba.

Normalidad de los datos: los datos siguen una distribución normal (también conocida como curva de campana). Esta suposición se aplica solo a los datos cuantitativos.

Si tus datos no cumplen con los supuestos de normalidad u homogeneidad de la varianza, es posible que puedas realizar una prueba estadística no paramétrica, que te permite hacer comparaciones sin ningún supuesto sobre la distribución de datos. Si tus datos no cumplen con el supuesto de independencia de las observaciones, puedes utilizar una prueba que tenga en cuenta la estructura de tus datos (pruebas de medidas repetidas o pruebas que incluyen variables de bloqueo).

Las variables

Los tipos de variables que tienes generalmente determinan qué tipo de prueba estadística puedes usar.

Las variables cuantitativas representan cantidades de cosas (por ejemplo, el número de árboles en un bosque). Los tipos de variables cuantitativas incluyen:

  • Continuo (también conocido como variables de relación): representa medidas y generalmente se puede dividir en unidades más pequeñas que una (por ejemplo, 0,75 gramos).
  • Discreto (también conocido como variables enteras): representan recuentos y generalmente no se pueden dividir en unidades más pequeñas que una (por ejemplo, 1 árbol).

Las variables categóricas representan agrupaciones de cosas (por ejemplo, las diferentes especies de árboles en un bosque). Los tipos de variables categóricas incluyen:

  • Ordinal: representa datos con un orden (por ejemplo, clasificaciones).
  • Nominal: representa nombres de grupos (por ejemplo, marcas o nombres de especies).
  • Binario: representa datos con un resultado sí / no o 1/0 (por ejemplo, ganar o perder).

Elije la prueba que se ajuste a los tipos de predictores y variables de resultado que ha recopilado.

Tipos y Funciones

Existen diversos tipos de pruebas estadísticas y algunas te las presentamos a continuación.

Pruebas paramétrica: regresión, comparación o correlación

Las pruebas paramétricas generalmente tienen requisitos más estrictos que las pruebas no paramétricas y pueden hacer inferencias más fuertes a partir de los datos.

Solo se pueden realizar con datos que cumplan con los supuestos comunes de las pruebas estadísticas. Los tipos más comunes de prueba paramétrica incluyen pruebas de regresión, pruebas de comparación y pruebas de correlación.

Pruebas de regresión

Las pruebas de regresión se utilizan para probar las relaciones de causa y efecto. Buscan el efecto de una o más variables continuas en otra variable.

 

Variable de predicción

Variable de resultado

Ejemplo de pregunta de investigación

Regresión lineal simple

Continuo

1 predictor

Continuo

1 resultado

¿Cuál es el efecto de los ingresos en la longevidad?

Regresión lineal múltiple

Continuo

2 o más predictores

Continuo

1 resultado

¿Cuál es el efecto del ingreso y los minutos de ejercicio por día en la longevidad?

Regresión logística

Continuo

Binario

¿Cuál es el efecto de la dosificación del fármaco en la supervivencia de un sujeto de prueba?

 

Pruebas de comparación

Las pruebas de comparación buscan diferencias entre las medias grupales. Se pueden usar para probar el efecto de una variable categórica sobre el valor medio de alguna otra característica.

Las pruebas T se usan cuando se comparan las medias de exactamente dos grupos (por ejemplo, las alturas promedio de hombres y mujeres). Las pruebas ANOVA y MANOVA se utilizan al comparar las medias de más de dos grupos (por ejemplo, las alturas promedio de niños, adolescentes y adultos).

 

Variable de predicción

Variable de resultado

Ejemplo de pregunta de investigación

Prueba t emparejada

Categórico

1 predictor

Cuantitativo

los grupos provienen de la misma población

¿Cuál es el efecto de dos programas diferentes de preparación de exámenes en el puntaje promedio de los exámenes para estudiantes de la misma clase?

Prueba t independiente

Categórico

1 predictor

Cuantitativo

los grupos provienen de diferentes poblaciones

¿Cuál es la diferencia en los puntajes promedio de los exámenes para estudiantes de dos escuelas diferentes?

ANOVA

Categórico

1 o más predictor

Cuantitativo

1 resultado

¿Cuál es la diferencia en los niveles promedio de dolor entre los pacientes posquirúrgicos que reciben tres analgésicos diferentes?

 

Pruebas de correlación

Las pruebas de correlación verifican si dos variables están relacionadas sin suponer relaciones de causa y efecto.

Estos se pueden usar para probar si dos variables que deseas usar en (por ejemplo) una prueba de regresión múltiple están auto correlacionadas.

 

Variable de predicción

Variable de resultado

Ejemplo de pregunta de investigación

Pearson

Continuo

Continuo

¿Cómo se relacionan la latitud y la temperatura?


Chi-Square

Categórico

Categórico

¿Cómo se relaciona la membresía en un equipo deportivo con la membresía en un club de teatro entre estudiantes de secundaria?

 

Elegir una prueba no paramétrica

Las pruebas no paramétricas no hacen tantas suposiciones sobre los datos y son útiles cuando se violan una o más de las suposiciones estadísticas comunes.

Sin embargo, las inferencias que hacen no son tan fuertes como con las pruebas paramétricas.

 

Variable de predicción

Variable de resultado

Usar en lugar de

Lancero

Ordinal

Ordinal

Pruebas de regresión y correlación.

Prueba de la muestra

Categórico

Cuantitativo

Prueba T


Kruskal – Wallis

Categórico

3 o más grupos

Cuantitativo

ANOVA


ANOSIM

Categórico

3 o más grupos

Cuantitativo

2 o más variables de resultado

MANOVA


Prueba de suma de rangos de Wilcoxon

Categórico

2 grupos

Cuantitativo

los grupos provienen de diferentes poblaciones

Prueba t independiente

 

¿Cuándo usar cuál?

Si aún persiste la duda de cuando usar un tipo de prueba estadística y cuando usar otra, acá de lo explicamos con algunas pruebas en especifico

Cuándo usar la prueba T

Se usa una prueba t para comparar la media de dos muestras dadas. Al igual que una prueba z, una prueba t también supone una distribución normal de la muestra. Se usa una prueba t cuando no se conocen los parámetros de la población (media y desviación estándar). Existen tres tipos de pruebas T

  • Prueba t de muestras independientes que compara la media de dos grupos
  • Prueba t de muestra pareada que compara medias del mismo grupo en diferentes momentos
  • Una prueba t de muestra que prueba la media de un solo grupo contra una media conocida.

Cuándo usar la prueba ANOVA

ANOVA, también conocido como análisis de varianza, se utiliza para comparar múltiples (tres o más) muestras con una sola prueba. Pero ten cuidado pues existen 2 tipos principales de ANOVA

  • ANOVA unidireccional: se utiliza para comparar la diferencia entre las tres o más muestras o grupos de una sola variable independiente.
  • MANOVA: MANOVA nos permite probar el efecto de una o más variables independientes en dos o más variables dependientes. Además, MANOVA también puede detectar la diferencia en correlación entre variables dependientes dados los grupos de variables independientes.

Cuándo usar la prueba chi-cuadrado

La prueba de chi-cuadrado se usa para comparar variables categóricas. Hay dos tipos de prueba de chi-cuadrado.

  • Prueba de bondad de ajuste, que determina si una muestra coincide con la población.
  • Una prueba de ajuste de chi-cuadrado para dos variables independientes la cual se utiliza para comparar dos variables en una tabla de contingencia para verificar si los datos se ajustan.

Cuándo usar la prueba Wilcoxon

La prueba de Wilcoxon-Mann-Whitney es un análogo no paramétrico de la prueba t de muestras independientes y se puede usar cuando no se supone que la variable dependiente es una variable de intervalo normalmente distribuida (solo se supone que la variable es al menos ordinal) Notará que la sintaxis de SPSS para la prueba Wilcoxon-Mann-Whitney es casi idéntica a la de la prueba t de muestras independientes.

Cuándo usar la prueba Kruskal Wallis

La prueba de Kruskal Wallis se usa cuando tienes una variable independiente con dos o más niveles y una variable dependiente ordinal.

En otras palabras, es la versión no paramétrica de ANOVA y una forma generalizada del método de prueba de Mann-Whitney, ya que permite dos o más grupos.

Cuándo usar la prueba emparejada

Una prueba t pareada (muestras) se usa cuando tienes dos observaciones relacionadas (es decir, dos observaciones por sujeto) y desea ver si las medias en estas dos variables de intervalo distribuidas normalmente difieren entre sí.

Cuándo usar la prueba regresión logística

Si tienes un resultado binario medido repetidamente para cada sujeto y deseas ejecutar una regresión logística que tenga en cuenta el efecto de múltiples medidas de sujetos individuales, puedes realizar una regresión logística de medidas repetidas.

En SPSS, esto se puede hacer usando el comando GENLIN e indicando binomial como la distribución de probabilidad y logit como la función de enlace que se utilizará en el modelo.

Cuándo usar la prueba regresión lineal simple

La regresión lineal simple nos permite observar la relación lineal entre un predictor de intervalo distribuido normalmente y una variable de resultado de intervalo distribuido normalmente.

Cuándo usar la prueba regresión lineal múltiple

La regresión múltiple es muy similar a la regresión simple, excepto que en la regresión múltiple tiene más de una variable predictiva en la ecuación.