Un problema estadístico: tamaño de la muestra y potencia de la prueba

crocodileComo es típico en los problemas de matemáticas, este post comienza con una suposición de partida… Imaginemos que tenemos dos grupos. Por ejemplo, personas que tienen un perro como animal de compañía y personas que tienen un reptil como mascota (evito decir “animal de compañía” por razones obvias). Queremos saber si el grado de bienestar de uno y otro grupo difiere, para lo cual administramos las escalas correspondientes y, tras una ardua tarea WalkDogde codificación y análisis, obtenemos los resultados. Ahora nuestra labor como investigadores es rechazar la hipótesis nula (es decir, aquella que dice que los grupos son iguales) y aceptar la hipótesis alternativa (que dice que su grado de bienestar es diferente)… o al contrario, aceptar la primera y rechazar la segunda. Echamos un vistazo de nuevo a los datos y a la prueba de comparación de medias que hemos realizado, y vemos que todo parece indicar que los grupos difieren en su grado de bienestar (¡hemos obtenido un p<0.05!)… entonces la conclusión parecería clara… rechazamos la hipótesis nula y aceptamos que los amantes de los perros y los de los reptiles difieren en sus niveles de bienestar. OK, pero no hay que olvidar que en estadística las conclusiones no son en realidad tan “claras y distintas”, y cualquier afirmación se hace con un nivel de probabilidad asociado.

Por ejemplo, es bien conocido que los investigadores habitualmente fijan el “nivel de significación”  o “alpha (α)” en 0.05 (como hemos hecho en el caso anterior), lo que quiere decir que la probabilidad de rechazar una hipótesis nula que realmente es verdadera es tan sólo del 5%. Dicho de otra forma, que tenemos una probabilidad de 0.05 de cometer un “falso positivo” y decir que los grupos son diferentes cuando en realidad no lo son.

Un concepto algo más elusivo es el de “potencia de la prueba”. La potencia de una prueba de hipótesis en estadística se refiere a la probabilidad de rechazar una hipótesis nula que es falsa; o dicho de otra forma, representa la probabilidad de aceptar una hipótesis alternativa como verdadera cuando así lo es. En nuestro ejemplo, sería la probabilidad de que, si los dos grupos son efectivamente diferentes, la prueba de comparación de sus niveles de bienestar que hemos realizado–una prueba t para muestras independientes- nos diga que no es lo mismo ser dueño de un caniche que de una cobra. En este sentido, la potencia de la prueba refleja la “sensibilidad” de un contraste de hipótesis, esto es, su capacidad para detectar diferencias significativas existentes entre los grupos.

Y aquí es donde tiene lugar uno de los problemas que están bajo el foco de los investigadores últimamente, sobre todo a raíz de la publicación de un artículo en el que se cuestiona la validez  de muchas de las conclusiones obtenidas en el ámbito de las neurociencias (Button et al., 2013). ¿Por qué? Básicamente, porque emplear muestras pequeñas –como es habitual en los estudios que someten a los sujetos a un escáner neurológico mediante fMRI- conlleva una pérdida de potencia en los contrastes de hipótesis. La publicación de este artículo en Nature Reviews Neuroscience ha tenido su impacto en la blogosfera y autores como Christian Jarret, Greg Miller, Ed Yong, el anónimo Neurobonkers, Miguel Ángel Vadillo o la propia Kate Button -una de las autoras del estudio- han prestado gran atención a este tema y escrito sobre él de una forma precisa y amena.

Aunque ha sido la investigación neurocientífica la que más directamente se ha visto afectada y aludida por este problema, no obstante, no se trata de algo exclusivo de esta disciplina, sino de todos aquellos estudios que se basan en un tamaño muestral reducido. Vamos paso a paso. La potencia de una prueba de hipótesis depende de tres elementos:

  • el α (alpha) o nivel de significación: si se aumenta alpha, también aumenta el valor de la potencia… eso sí, con un mayor riesgo de cometer “falsos positivos”. Por convención, alpha se suele fijar en valores como 0.05 o 0.01, por lo que no vamos a fijarnos ahora en ello, aunque también es un tema que daría para hablar.
  • el “tamaño del efecto”, por ejemplo, la magnitud de las diferencias entre grupos, la fuerza de una asociación entre variables, etc. Si mantenemos fijo el nivel de significación y el tamaño de la muestra, a medida que aumenta el tamaño del efecto aumenta también la potencia del contraste. Es decir, que –dicho de forma llana y rápida- los efectos de gran tamaño son más fáciles de detectar que los pequeños.
  • el tamaño de la muestra: si quedamos fijos los demás elementos (nivel de significación y tamaño del efecto), al aumentar el tamaño de la muestra aumenta también la potencia de la prueba. Esto es, con una muestra grande es más probable detectar diferencias significativas entre los grupos cuando realmente éstas existen. La imagen siguiente ejemplifica bien este hecho. La zona sombreada en color azul (β) representa la probabilidad de cometer un “falso negativo”, es decir, de mantener que no existen diferencias entre los grupos cuando en realidad sí las hay. La potencia de la prueba viene dada por 1-β. Como puede apreciarse, manteniendo todo lo demás igual, con una muestra de N=20 el “área azul” (β) es considerablemente mayor que con una muestra mucho más grande, de N=200. Esto es, con una muestra pequeña la probabilidad de cometer un “falso negativo” se incrementa, y en correspondencia, será menor la probabilidad de decir que sí hay diferencias significativas entre los grupos cuando realmente sea así.

PowerSampleSize

Los dos últimos elementos señalados tienen una especial relevancia, por sus implicaciones para en el diseño de un estudio y para la interpretación de resultados. Si los tenemos en consideración, la advertencia es clara: cuando los efectos son pequeños y el tamaño muestral es reducido, la potencia del contraste se reduce; es decir, la capacidad para detectar diferencias significativas disminuye. Existen otros escenarios igualmente a tener en cuenta. Cuando el tamaño del efecto es grande, incluso con una muestra pequeña puede ser relativamente probable obtener resultados significativos. Y cuando el tamaño del efecto es pequeño, la probabilidad de identificar resultados significativos se incrementa con una muestra grande.
En la figura y la tabla que aparecen a continuación se puede ver una representación de estos efectos para el caso de un contraste de medias mediante prueba t para muestras independientes, asumiendo un alpha de 0.05 y grupos de igual tamaño.

PowerSampleSize

Las tres líneas de la gráfica representan un tamaño del efecto pequeño (roja), mediano (azul) y grande (verde). Como se ve en los tres casos, la potencia de la prueba se incrementa a medida que se incrementa el tamaño muestral. Esto es, como decía antes, una muestra grande hará más probable la detección de diferencias significativas cuando éstas realmente existan. Vamos ahora a fijarnos en la influencia del tamaño del efecto. La línea roja representa un tamaño del efecto d=0.2, que según Cohen (1992) sería considerado pequeño. Como puede apreciarse, la potencia de la prueba es baja cuando el tamaño del efecto también lo es.

TablePowerEn concreto, si vemos la tabla, con una d=0.2 y una muestra de 100 sujetos apenas se llega a una potencia del 25,73%. Imaginemos que las diferencias entre grupos son reales en la población de referencia. Una potencia como ésta quiere decir que si replicásemos nuestra recogida de datos 100 veces, tan sólo obtendríamos un efecto significativo en aproximadamente la cuarta parte de las muestras. Es decir, que en nuestro caso hipotético no seríamos muy buenos detectando las diferencias, pequeñas pero reales, entre propietarios de perros y de reptiles. Y es que en un estudio con baja potencia se incrementa, consecuentemente, la probabilidad de cometer un error característico: el de pasar por alto diferencias reales, es decir, cometer un “falso negativo”. Con un tamaño del efecto tan bajo como d=0.2 necesitaríamos una muestra de nada menos que 620 sujetos (310 por grupo) para alcanzar una potencia del 80%, que es la habitualmente recomendada.
El escenario es bien distinto para el caso de un tamaño del efecto grande (línea verde, d=0.8). Con 40 sujetos (20 por grupo) ya se alcanza una potencia del 80%; e incluso, por comparar con el caso anterior, con tan sólo 5 sujetos por grupo ya se habría llegado a una potencia del 31,33%.

Lo anterior tiene además una importante implicación a la hora de publicar (y leer) resultados, algo de lo que algunos de los autores anteriormente mencionados se han hecho eco. Si tenemos en cuenta el sesgo (y la presión) hacia publicar sólo aquellos resultados que son significativos, lo esperable sería que fuera muy difícil publicar resultados provenientes de muestras pequeñas… básicamente, porque –como hemos visto- es poco probable detectar diferencias significativas a partir de ellas. ¡Salvo que los tamaños del efecto sean grandes! Y esto tiene al menos dos consecuencias. Una, es muy posible que al usar muestras pequeñas estemos pasando por alto tamaños del efecto pequeños… simplemente porque “no salen resultados significativos”, los cuales son difíciles de detectar en un escenario donde muestra y efectos son pequeños. Y otra, si uno echa un vistazo a los artículos publicados cuyos resultados se han obtenido en muestras pequeñas, puede llevarse la impresión (muy probablemente inexacta) de que los efectos –ya se trate de la diferencia entre grupos, el cambio tras una intervención, la asociación de una variable con otra, etc.- son de una magnitud enorme… simplemente porque, con muestras pequeñas, sólo los estudios que encuentren efectos de gran magnitud, sean éstos reales o tan sólo un espejismo obtenido por azar, lograrán pasar el umbral de la significación estadística y ser publicados.

En definitiva, el artículo de Button et al. (2013) nos invita  a la reflexión sobre las reglas de la estadística, más allá de la aplicación mecánica de técnicas, y a pensar en profundidad sobre el diseño de los estudios de investigación. Nos hace ser conscientes, además, de las limitaciones inherentes al uso de muestras pequeñas y de los riesgos que entraña el sacrificar la potencia en un contraste de hipótesis. Incluso permite enfocar desde una nueva perspectiva el problema de la no-replicación de algunos resultados. El diagnóstico parece claro. El reto ahora está, sobre todo, en encontrar fórmulas adecuadas para resolver los problemas de tipo práctico que se plantean, especialmente en aquellas áreas en las que el uso de muestras pequeñas es habitual, y tal vez, inevitable.

Puedes acceder al artículo de Button et al. (2013) aquí (sólo abstract en abierto).

Referencia:
ResearchBlogging.orgButton KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, & Munafò MR (2013). Power failure: why small sample size undermines the reliability of neuroscience. Nature reviews. Neuroscience, 14 (5), 365-76 PMID: 23571845