Prueba de Fisher: guía completa de la Prueba Exacta de Fisher para tablas 2x2

La Prueba de Fisher, conocida también como la Prueba Exacta de Fisher, es una técnica estadística fundamental cuando se trabajan con tablas de contingencia 2×2 y se desea evaluar si existe una asociación entre dos variables categóricas. Este artículo reúne una explicación clara, ejemplos prácticos, comparaciones con otros tests y guías de implementación en diferentes herramientas. Si buscas entender cuándo utilizar la Prueba de Fisher y cómo interpretar sus resultados, has llegado al recurso adecuado.

Qué es la Prueba de Fisher y por qué es tan importante

La Prueba de Fisher es una prueba estadística exacta para la asociación entre dos variables binomiales en una tabla 2×2. A diferencia de la prueba de chi-cuadrado, que se basa en aproximaciones y puede requerir tamaños de muestra relativamente grandes para ser fiable, la Prueba de Fisher no depende de esas aproximaciones. En su lugar, utiliza la distribución hipergeométrica para calcular el p-valor exacto de la observación obtenida (o una más extrema) bajo la hipótesis nula de independencia entre las variables.

En términos sencillos, si tienes un pequeño conjunto de datos o esperanzas de recuentos bajos en algunas celdas (por ejemplo, menos de 5 en alguna celda), la Prueba de Fisher ofrece una evaluación más precisa que otras pruebas. Por ello, es común elegir la Prueba de Fisher ante tablas 2×2 con recuentos discretos y con el objetivo de comprobar si la distribución de frecuencias es compatible con la independencia de las variables analizadas.

Cuándo usar la Prueba de Fisher

La Prueba de Fisher es particularmente adecuada en estas situaciones:

Cuando trabajas con tablas 2×2 y tienes tamaños de muestra pequeños.
Cuando las frecuencias esperadas en alguna celda son inferiores a 5 o cuando hay asimetría marcada en la distribución de frecuencias.
Cuando necesitas un p-valor exacto en lugar de una aproximación basada en leyes asintóticas.
En estudios de biología, medicina, psicología y ciencias sociales donde se analizan asociaciones binarias entre dos variables categóricas (por ejemplo, tratamiento vs. respuesta, presencia/ausencia de una característica).

Es importante recordar que la Prueba de Fisher evalúa si hay evidencia de dependencia entre las variables. Si el resultado es significativo, se concluye que las variables no son independientes en la muestra observada; no se afirma necesariamente una relación causal.

La matriz 2×2 y la notación típica

La Prueba de Fisher se aplica a una tabla de contingencia 2×2 con las siguientes frecuencias:

a: presencia de la característica X y resultado positivo
b: presencia de la característica X y resultado negativo
c: ausencia de la característica X y resultado positivo
d: ausencia de la característica X y resultado negativo

La tabla se presenta como:

           Resultado
          Positivo  Negativo
Ante X     a          b
No Ante X  c          d

La suma total n es igual a a + b + c + d. Bajo la hipótesis de independencia, la distribución de la celda a se describe con la distribución hipergeométrica con parámetros determinados por las sumas de fila y columna. El p-valor exacto de la Prueba de Fisher se obtiene evaluando la probabilidad de todas las configuraciones posibles de la tabla con las mismas sumas marginales que la observada y que son igual o más extremas que la observada.

Cómo se calcula la Prueba de Fisher: idea central y dos-tail vs one-tail

La esencia matemática de la Prueba de Fisher es el cálculo del p-valor exacto para la configuración observada de la tabla 2×2. Se utiliza la distribución hipergeométrica para computar la probabilidad de observar una determinada cantidad a (o una más extrema) dadas las sumas marginales. En la práctica, existen dos enfoques comunes:

Dos colas (two-tailed): evalúa la probabilidad de obtener una distribución que sea tan extrema como la observada en cualquiera de las direcciones posibles de asociación.
Una cola (one-tailed): se enfoca en la dirección específica de interés (por ejemplo, mayor cantidad de éxitos en el grupo expuesto).

La fórmula exacta para p-valor puede parecer compleja, pero el resultado depende exclusivamente de a, b, c, d y de las sumas marginales. En la mayoría de software estadístico, basta con introducir la matriz de la tabla 2×2 y seleccionar la opción de Prueba de Fisher para obtener el p-valor y, en algunos casos, un intervalo de confianza asociado a la odds ratio.

Interpretación de resultados de la Prueba de Fisher

Una vez obtenido el p-valor, la interpretación es directa:

Si el p-valor es menor que el nivel de significancia elegido (habitualmente 0.05), se rechaza la hipótesis nula de independencia y se concluye que existe una asociación entre las dos variables en la muestra.
Si el p-valor es mayor que el nivel de significancia, no hay suficiente evidencia para afirmar una asociación; puede haber independencia entre las variables, o simplemente la muestra sea insuficiente para detectarla.

Además del p-valor, muchos informes incluyen el odds ratio (OR) y su intervalo de confianza. Aunque la Prueba de Fisher se centra en la significancia, el OR ofrece una medida de la magnitud de la asociación. En tablas 2×2 con resultados binarios, un OR>1 indica una asociación positiva entre las variables, mientras que OR<1 sugiere una asociación negativa.

La Prueba de Fisher frente a la Prueba de chi-cuadrado

La Prueba de chi-cuadrado es otra herramienta común para analizar tablas 2×2, pero presenta limitaciones cuando las frecuencias esperadas son bajas. En esas situaciones, la Prueba de Fisher es preferible por las siguientes razones:

Es exacta: no depende de suposiciones de distribución y ofrece p-valores exactos para tamaños pequeños de muestra.
El resultado es válido incluso si la distribución de frecuencias observadas es irregular.
En muestras grandes, los resultados de la Prueba de Fisher y la Prueba de chi-cuadrado tienden a coincidir; sin embargo, Fisher sigue siendo más conservadora cuando las celdas son bajas.

En resumen, para tablas 2×2 con recuentos pequeños, la Prueba de Fisher es la opción recomendada; para muestras grandes y distribuciones adecuadas, la Prueba de chi-cuadrado con corrección de Yates puede ser suficiente, aunque no siempre equivalente a Fisher.

Ejemplos prácticos: una guía paso a paso

Ejemplo 1: ensayo clínico con tamaño limitado

Se evalúa si un nuevo fármaco reduce la incidencia de un evento adverso. En 40 pacientes, se observa lo siguiente:

Tratamiento: 6 eventos/14 sin eventos
Control: 2 eventos/18 sin eventos

La matriz 2×2 es:

                 Evento
                Sí   No
Tratamiento     6     8
Control         2     16

Aplicando la Prueba de Fisher, se obtiene un p-valor que indica si hay evidencia de que el tratamiento y el evento no son independientes. Si el p-valor resulta 0.045, por ejemplo, se concluye que existe asociación significativa entre tratamiento y ocurrencia del evento al nivel 0.05.

Ejemplo 2: estudios de diagnóstico con pocas observaciones

Se investiga si un biomarcador es diagnóstico de una enfermedad. En un conjunto de 50 pacientes, la tabla 2×2 es:

                 Enfermedad
                 Sí  No
Biomarcador Sí   4    1
Biomarcador No   2   43

La Prueba de Fisher ofrece un p-valor exacto que permite concluir si hay evidencia de que el biomarcador está asociado con la presencia de la enfermedad, incluso con recuentos muy bajos en la celda de verdaderos positivos.

Implementación práctica: cómo ejecutar la Prueba de Fisher en R

R es una de las herramientas más utilizadas en estadística por su potencia y flexibilidad. A continuación se muestran ejemplos simples para realizar la Prueba de Fisher con una tabla 2×2.

En R: sintaxis básica

# Crear la matriz de la tabla 2x2
tabla <- matrix(c(a, b, c, d), nrow = 2, byrow = TRUE)

# Realizar la Prueba de Fisher
resultado <- fisher.test(tabla)

# Ver resultados
resultado

Donde a, b, c, d corresponden a las frecuencias de la tabla en el orden que se describe arriba. El objeto resultado mostrará el p-valor exacto y el odds ratio si corresponde.

Implementación práctica: cómo ejecutar la Prueba de Fisher en Python

En Python, la biblioteca SciPy ofrece la función fisher_exact para realizar la Prueba de Fisher de forma eficiente.

En Python: ejemplo con SciPy

from scipy.stats import fisher_exact

# Tabla 2x2 como lista de listas
tabla = [[a, b],
         [c, d]]

# Realizar la Prueba de Fisher
oddsratio, p_value = fisher_exact(tabla)

print("Odds ratio:", oddsratio)
print("P-value (Fisher):", p_value)

Este código permite obtener el p-valor exacto y la razón de odds. Es recomendable interpretar el odds ratio junto con el p-valor para entender la magnitud de la asociación en la muestra analizada.

Ventajas y limitaciones de la Prueba de Fisher

Ventajas:

Exactitud del p-valor para muestras pequeñas.
Insensibilidad a la distribución de frecuencias cuando se trabaja con tablas 2×2.
Aplicable en contextos biomédicos, sociales y experimentales con datos binarios.

Limitaciones:

La prueba se centra en tablas 2×2; cuando hay tablas mayores, se requieren variantes o extensiones de la prueba o pruebas de independencia más complejas.
Con muestras extremadamente grandes, la Prueba de Fisher puede ser computacionalmente más costosa que pruebas aproximadas, aunque hoy en día los recursos de cómputo lo mitigan.
La interpretación debe acompañarse del efecto medido (p. ej., odds ratio) para entender la magnitud de la asociación.

Consejos para reportar resultados de la Prueba de Fisher en artículos científicos

Al documentar los resultados de la Prueba de Fisher, es recomendable incluir:

La tabla 2×2 exacta utilizada (con los recuentos a, b, c, d) o una representación clara de las frecuencias.
El p-valor obtenido y, si es posible, el intervalo de confianza del odds ratio.
El tamaño de la muestra y cualquier limitación relevante (p. ej., sesgo, selección de muestras).
La especificación de si se realizó una prueba de una o dos colas y la justificación de esa elección.

Un informe transparente facilita la reproducibilidad y la interpretación de los hallazgos por parte de otros lectores y revisores.

Casos prácticos y consideraciones en ciencias de la salud

En ciencias de la salud, la Prueba de Fisher es frecuente para comparar la seguridad o eficacia de tratamientos, especialmente en fases tempranas de investigación o en ensayos con eventos raros. También es útil para validar indicadores diagnósticos cuando la muestra es limitada. Es importante recordar que una asociación estadística no implica causalidad; los resultados deben interpretarse dentro del diseño del estudio y de posibles sesgos confusos.

Variantes y terminologías relacionadas con la Prueba de Fisher

Con frecuencia encontrarás diversas formas de referirse a esta técnica. Algunas variantes incluyen:

Prueba Exacta de Fisher
Fisher Exact Test
Test exacto de Fisher
Prueba de independencia (tabla 2×2) de Fisher
Análisis hipergeométrico aplicado a tablas 2×2

Todos estos términos se refieren a la misma idea central: evaluar la independencia entre dos variables binarias en una tabla 2×2 mediante cálculos exactos.

Errores comunes y buenas prácticas al usar la Prueba de Fisher

No forzar una interpretación causal a partir de una prueba de significancia estadística.
Evitar confundir el p-valor con la magnitud de la asociación; complementar con el odds ratio.
Cuando se presentan múltiples pruebas, considerar ajustes por pruebas múltiples (p. ej., Bonferroni) para controlar el error tipo I.
Verificar que la tabla realmente es 2×2 y que las frecuencias son consistentes con el estudio diseñado.

Preguntas frecuentes sobre la Prueba de Fisher

¿La Prueba de Fisher sirve para tablas mayores a 2×2?

No exactamente. La Prueba de Fisher está diseñada para tablas 2×2. Existen extensiones y métodos alternativos para tablas más grandes o para análisis de tablas múltiples, pero requieren enfoques diferentes y suelen ser más complejos.

¿Qué significa un p-valor muy pequeño en la Prueba de Fisher?

Indica que es poco probable que las frecuencias observadas se deban al azar bajo la hipótesis de independencia; sugiere una asociación entre las variables en la muestra analizada.

¿Es correcto usar la Prueba de Fisher cuando el tamaño de la muestra es grande?

Podría seguir siendo válido, pero en muestras grandes la Prueba de chi-cuadrado con corrección puede ser más eficiente y el resultado puede aproximarse al de Fisher. Para tablas 2×2 con recuentos altos en todas las celdas, la chi-cuadrado suele ser suficiente.

Conclusión: cuándo elegir la Prueba de Fisher y qué aprender de ella

La Prueba de Fisher es una herramienta poderosa para analizar la dependencia entre dos variables binarias en tablas 2×2, especialmente cuando los datos son escasos o las frecuencias son bajas. Su carácter exacto la convierte en la opción preferida para obtener inferencias fiables sin depender de aproximaciones. Al reportar resultados, combinar el p-valor con medidas de efecto como el odds ratio aporta una visión completa de la relación entre las variables. Con las guías presentadas, puedes aplicar la Prueba de Fisher con confianza en R, Python u otras herramientas y comunicar de forma clara y rigurosa tus hallazgos.

Prueba de Fisher: guía completa de la Prueba Exacta de Fisher para tablas 2×2