El número de grados de libertad para la independencia de dos variables categóricas viene dado por una fórmula simple: ( r – 1) ( c – 1). Aquí r es el número de filas yc es el número de columnas en la tabla bidireccional de los valores de la variable categórica. Siga leyendo para obtener más información sobre este tema y comprender por qué esta fórmula proporciona el número correcto.

Antecedentes

Un paso en el proceso de muchas pruebas de hipótesis es la determinación del número de grados de libertad. Este número es importante porque para distribuciones de probabilidad que involucran una familia de distribuciones, como la distribución de chi-cuadrado, el número de grados de libertad señala la distribución exacta de la familia que deberíamos usar en nuestra prueba de hipótesis.

Los grados de libertad representan el número de elecciones libres que podemos hacer en una situación determinada. Una de las pruebas de hipótesis que nos obliga a determinar los grados de libertad es la prueba de chi-cuadrado para la independencia de dos variables categóricas.

Pruebas de independencia y tablas bidireccionales

La prueba de chi-cuadrado para la independencia requiere que construyamos una tabla de dos factores, también conocida como tabla de contingencia. Este tipo de tabla tiene r filas y c columnas, que representan los niveles r de una variable categórica y los niveles c de la otra variable categórica. Por lo tanto, si no contamos la fila y la columna en las que registramos los totales, hay un total de celdas rc en la tabla de dos factores.

La prueba de chi-cuadrado para la independencia nos permite probar la hipótesis de que las variables categóricas son independientes entre sí. Como mencionamos anteriormente, las r filas y c columnas de la tabla nos dan ( r – 1) ( c – 1) grados de libertad. Pero puede que no quede claro de inmediato por qué este es el número correcto de grados de libertad.

El número de grados de libertad

Para ver por qué ( r – 1) ( c – 1) es el número correcto, examinaremos esta situación con más detalle. Suponga que conocemos los totales marginales para cada uno de los niveles de nuestras variables categóricas. En otras palabras, conocemos el total de cada fila y el total de cada columna. Para la primera fila, hay c columnas en nuestra tabla, por lo que hay c celdas. Una vez que conocemos los valores de todas menos una de estas celdas, debido a que conocemos el total de todas las celdas, es un simple problema de álgebra determinar el valor de la celda restante. Si estuviéramos completando estas celdas de nuestra tabla, podríamos ingresar c – 1 de ellas libremente, pero entonces la celda restante está determinada por el total de la fila. Por lo tanto, hay c – 1 grado de libertad para la primera fila.

Continuamos de esta manera para la siguiente fila, y nuevamente hay c – 1 grados de libertad. Este proceso continúa hasta llegar a la penúltima fila. Cada una de las filas, excepto la última, aporta c – 1 grados de libertad al total. En el momento en que tengamos todos menos la última fila, entonces, debido a que conocemos la suma de la columna, podemos determinar todas las entradas de la última fila. Esto nos da r – 1 filas con c – 1 grados de libertad en cada una de ellas, para un total de ( r – 1) ( c – 1) grados de libertad.

Ejemplo

Vemos esto con el siguiente ejemplo. Supongamos que tenemos una tabla de dos factores con dos variables categóricas. Una variable tiene tres niveles y la otra dos. Además, suponga que conocemos los totales de filas y columnas de esta tabla:

Nivel ANivel BTotal
Nivel 1100
Nivel 2200
Nivel 3300
Total200400600

La fórmula predice que hay (3-1) (2-1) = 2 grados de libertad. Vemos esto de la siguiente manera. Suponga que llenamos la celda superior izquierda con el número 80. Esto determinará automáticamente la primera fila completa de entradas:

Nivel ANivel BTotal
Nivel 18020100
Nivel 2200
Nivel 3300
Total200400600

Ahora, si sabemos que la primera entrada en la segunda fila es 50, entonces el resto de la tabla está completa, porque conocemos el total de cada fila y columna:

Nivel ANivel BTotal
Nivel 18020100
Nivel 250150200
Nivel 370230300
Total200400600

La tabla está completamente llena, pero solo teníamos dos opciones libres. Una vez conocidos estos valores, el resto de la tabla quedó completamente determinado.

Aunque normalmente no necesitamos saber por qué hay tantos grados de libertad, es bueno saber que en realidad solo estamos aplicando el concepto de grados de libertad a una nueva situación.