Introducción

La definición de tamaños muestrales para proyectos de investigación es una dificultad que aqueja incluso a los investigadores más experimentados. Parte del problema consiste en que las recomendaciones acumuladas en el acervo de conocimientos se ha cristalizado como una cultura de la “significancia literal” entre investigadores que deben hacer un uso procedimental de los conceptos.

Todo investigador debería estar familiarizado con el concepto de error muestral, que se puede definir como el grado de (des-)confianza al asumir que la muestra en cuestión está representando a la población.

Cálculo de tamaños muestrales

Para su cálculo, hoy en día, se pueden utilizar tablas o herramientas disponibles en línea. Me parece particularmente útil esta porque permite la reversibilidad  entre tamaños y errores. Obviamente se tendrá que hacer una revisión con los datos de algún Instituto de Estadística o Ministerio o una publicación anterior para conocer la población de los casos que se están estudiando. Luego se asumen los intervalos de confianza que por convención se establecen para errores muestrales de 5% o 0,05 (que es igual). Esta convención tomada por muchos practicantes de las ciencias como una norma es la que determina la cristalización de la significancia literal que se discutirá en la parte final.

Conviene comentar que uno de los conceptos más difíciles de entender es el porcentaje o tamaño del efecto esperado, que determina que tamaño muestral representa a la población en un efecto (o variable) específico y estimable. Para mayor información se recomienda consultar un buen libro de estadística, pero basta con señalar que usualmente se asumirán tamaños esperable de 0,5 o 50% (que es igual).

Conceptualización

En definitiva se vinculan en una sola fórmula (1) el grado en el que la información disponible (variables medidas) en una muestra refleje la información (no disponible y desconocida) de la población completa, que a su vez (2) depende del tamaño de la muestra obtenida. En la medida que hay más información de población revelada en la muestra, más confiable es esta información.

Ejercicios

a.) Si se realiza una recolección de datos transversal en una muestra de 200 establecimientos dentro del universo de establecimientos de Educación Media en Chile, ¿Qué error muestral se alcanza?

b.) ¿Qué tamaño debe tener la muestra para lograr un error muestral de 5% y así ajustarse a la convención?

c.) Repita el las preguntas anteriores para los establecimientos de enseñanza básica en Chile.

Discusión

Ahora bien, habiendo resuelto lo anterior es posible profundizar en una discusión sobre un uso obtuso del error muestral como limitante para obtener conocimiento científico.

Se ha discutido ampliamente en artículos especializados en metodología, sobre como los intervalos recomendados estadísticamente deben ser considerados en la justa medida de un continuo de confiabilidad y no como una categoría dicotómica para aplicar o no aplicar estadísticas inferenciales (Concato y Hartigan, 2016). Personalmente adscribo a esta postura pues si bien un consenso sobre la  calidad mínima de un procedimiento científico es necesario, la realidad muchas veces impone limitantes difíciles de satisfacer en post de una mala conceptualización de la “objetividad” en la ciencia. En otras palabras, no cumplir con el requisito de error muestral, no falsea automáticamente los datos hallados, sólo los hace menos confiables. Menos confiables no quiere decir inútiles, sino requeridos de tomar con precaución. Considerando que hoy en día hay muchos errores metodológicos no reportados o producidos por ignorancia de los mismos investigadores tiendo a confiar más en un dato bien levantado con un reporte de poca confiabilidad bien hecho, que en uno cuyo levantamiento no es transparente o directamente falaz.

El hábito de dicotomizar la significancia obedece a recomendaciones rebatibles de los matemáticos estadísticos entendidas como “reglas” por quienes no somos matemáticos. Lamentablemente en muchos casos la interpretación de los tamaños del efecto, que por cierto pueden ser más relevantes para el proceder científico que cumplir las convenciones sobre significancia estadística, son desechados por los mismos desesperados investigadores que no cumplen con el estándar esperado (Schmidt, 1996). Cuando esto sucede, el reporte se debe mantener, la contribución se debe hacer notar (en su justa medida) y una explicación debe ser ofrecida al lector. Con eso se cumplen alto estándares de calidad investigativa independientemente  del cumplimiento de significancia. Este proceso siempre es conceptual o teórico en su naturaleza y debiera introducir criterios, más allá de los estadístico, que generen sentido y coherencia.

Además, en cada área específica de las estadísticas los tamaños muestrales cobran diferente importancia. Mientras que en la pruebas t y las ANOVA el tamaño muestral corrige la significancia de los resultados, en otros como las ecuaciones estructurales no lo hace de la misma manera. Se sugiere profundizar en literatura especializada según el tipo de análisis que se quiere realizar.

Para los interesados en ecuaciones estructurales puedo adelantar algunos de los puntos que ha producido mi revisión. Dado que son constructos matemáticos semejantes a las estadísticas asintóticas (vale decir que no se ajustan a tamaños de muestra crecientes) el tamaño muestral exagerado puede producir rechazos de modelos por magnitudes nimias (Tanaka, 1987). Si bien no hay reglas indiscutibles en este campo, los tamaños muestrales de 200 casos obedecen a una recomendación ampliamente difundida (Lei y Wu, 2007).

Conclusiones

Creo que todo investigador debe poder transitar en su aprendizaje desde un pre-entendimiento de los errores muestrales a desarrollar la capacidad de explicarlos, calcularlos, comprender la convención asociada, estimarlos para sus proyectos y valorar su utilidad. Una vez que domina este entendimiento, es necesario transitar a un post-entendimiento en el que debe aprender a ponerlos en perspectiva, desarrollar el criterio para sopesar el costo o las posibilidades de no cumplir el estándar y poder discutir a buen nivel las razones por las que ofrece una interpretación definitiva.

Referencias

Concato, J., & Hartigan, J. A. (2016). P values: from suggestion to superstition. Journal of Investigative Medicine, 64(7), 1166-1171.

Lei, P. W., & Wu, Q. (2007). Introduction to structural equation modeling: Issues and practical considerations. Educational Measurement: issues and practice, 26(3), 33-43.

Schmidt, F. L. (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers. Psychological methods, 1(2), 115.

Tanaka, J. S. (1987). ” How big is big enough?”: Sample size and goodness of fit in structural equation models with latent variables. Child development, 134-146.