Análisis Estadísticos para Ensayos Clínicos y Estudios Epidemiológicos. Asesoría estadística para investigación, en general, incluyendo Tesis. Asesoría Metodológica. Diseño de Posters para Congresos y Eventos Científicos.

lunes, 26 de septiembre de 2016

El Cáncer y la Investigación Clínica



El primer objetivo de la Sección de Medicina Ocupacional es "constituir un foro de discusión para que los médicos y los cirujanos con especial conocimiento de la relación entre enfermedades, lesiones y condiciones de trabajo puedan discutir sus problemas, no solo entre ellos sino también con colegas de otras especialidades, en reuniones conjuntas con otras secciones de la Sociedad". El segundo objetivo es "hacer accesibles los conocimientos sobre riesgos físicos, químicos y psicológicos del trabajo, en particular los que son raros o difíciles de reconocer". (1)

En Cuba se han realizado múltiples estudios para investigar la correlación, si la hubiera, entre factores ambientales, genéticos, etc. y el cáncer.

El comportamiento de los factores de riesgo de cáncer en Cuba constituye la base científica para brindar medidas preventivas, así como establecer acciones de salud encaminadas a disminuir el riesgo de nuestra población. Para este análisis se aplicó una encuesta en las 14 provincias del país, donde se obtuvo información de la prevalencia de algunos factores demográficos y factores de riesgo. Se evidenció la existencia de 2 grupos: uno para las provincias occidentales y centrales y otro para las orientales, y se observó que los factores: hábitos de fumar, consumo de bebidas alcohólicas y conducta sexual son los de mayor influencia en la formación de los grupos. Los métodos multivariados permitieron analizar todos los factores en conjunto y diferenciar a la población por sus hábitos de vida. (2)

En otro orden de ideas, el informe estadístico del 2013 sobre incidencia y mortalidad del cáncer en los Estados Unidos combina los datos del Programa Nacional de Registros del Cáncer de los CDC y los del Programa de Vigilancia, Epidemiología y Resultados Finales del Instituto Nacional del Cáncer para producir nuevas estadísticas federales oficiales sobre la incidencia del cáncer (nuevos casos diagnosticados) en un solo año.

El informe actual ofrece datos estatales y regionales específicos sobre los casos de cáncer diagnosticados y las muertes por cáncer en el 2013, el año más reciente para el cual se tiene información sobre la incidencia.

Cada año, el cáncer cobra la vida de más de medio millón de estadounidenses. El cáncer es la segunda causa principal de muerte en los Estados Unidos, superada únicamente por las enfermedades cardiacas.

A nivel mundial el cáncer es una de las principales causas de morbilidad y mortalidad; en 2012 hubo unos 14 millones de nuevos casos y 8,2 millones de muertes relacionadas con el cáncer. Se prevé que el número de nuevos casos aumente en aproximadamente un 70% en los próximos 20 años.

Aproximadamente un 30% de las muertes por cáncer son debidas a cinco factores de riesgo conductuales y dietéticos: índice de masa corporal elevado, ingesta reducida de frutas y verduras, falta de actividad física, consumo de tabaco y consumo de alcohol.

El consumo de tabaco y alcohol, la dieta malsana y la inactividad física son los principales factores de riesgo de cáncer en todo el mundo. Algunas infecciones crónicas también constituyen factores de riesgo, y son más importantes en los países de ingresos medios y bajos.

Los virus de las hepatitis B (VHB) y C (VHC) y algunos tipos de papilomavirus humanos (PVH) aumentan el riesgo de cáncer de hígado y cuello uterino, respectivamente. La infección por el VIH también aumenta considerablemente el riesgo de algunos cánceres, como los del cuello uterino.

El tema del cáncer y las investigaciones asociadas al mismo es vasto. Esto es sólo un vistazo al extenso mundo de la investigación clínica aunada al conocimiento del mismo y, por ende, a su curación.

------------------------------------------------------------
(1) Bradford Hill, Austin (†)
(2) Lic. Patricia Lorenzo-Luaces Alvarez, Lic. Yaima Galán Alvarez y Lic. María Elena Abascal

viernes, 16 de septiembre de 2016

El Test de Kruskal-Wallis



El test de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías.

Este contraste permite decidir si puede aceptarse la hipótesis de que k muestras independientes proceden de la misma población o de poblaciones idénticas con la misma mediana. El único supuesto necesario es que las distribuciones subyacentes de las variables sean continuas y que éstas hayan sido medidas por lo menos en una escala ordinal.

Sean n1, n2 ... nk los tamaños de cada una de las muestras y n el total de observaciones. Para el cálculo del estadístico de prueba se ordenan las n observaciones de menor a mayor y se les asignan rangos desde 1 hasta n. A continuación se obtiene la suma de los rangos correspondientes a los elementos de cada muestra, Rj y se halla el rango promedio. Si la hipótesis nula es cierta, es de esperar que el rango promedio sea aproximadamente igual para las k muestras; cuando dichos promedios sean muy diferentes es un indicio de que H0 es falsa.

Utilice la prueba de Kruskal-Wallis para determinar si las medianas de dos o más grupos difieren cuando tenga datos que no sean simétricos, como es el caso de los datos asimétricos.

La prueba de Kruskal-Wallis es una alternativa no paramétrica al ANOVA de un solo factor. La prueba no requiere que los datos sean normales, sino que utilice la clasificación de los valores de los datos en lugar del valor real de los datos para el análisis.

Por ejemplo, un administrador del sector de la salud desea comparar el espacio de camas desocupadas de tres hospitales en la misma ciudad.
Para Kruskal-Wallis, las hipótesis son:

    H0: todas las medianas de las poblaciones son iguales.
    H1: todas las medianas de las poblaciones no son iguales.

domingo, 15 de mayo de 2016

Sobre Estadística Inferencial...



La Estadística Inferencial se  dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio.


Estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.


La estadística inferencial comprende:

  • Toma de muestras o muestreo, que se refiere a la forma adecuada de considerar una muestra que permita obtener conclusiones estadísticamente válidas y significativas.
  • Estimación de parámetros o variables estadísticas, que permite estimar valores poblacionales a partir de muestras de mucho menor tamaño.
  • Contraste de hipótesis, que permite decidir si dos muestras son estadísticamente diferentes, si un determinado procedimiento tiene un efecto estadístico significativo, etc.
  • Diseño experimental.
  • Inferencia bayesiana.
  • Métodos no paramétricos.

Muestreo probabilístico
Consiste en elegir una muestra de una población al azar. Existen varios tipos de muestreo:

  • Muestreo aleatorio simple

Se numeran los elementos de la población, para obtener una muestra, y se seleccionan al azar los n elementos que contiene la muestra.

  • Muestreo aleatorio sistemático

Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta completar la muestra.

  • Muestreo aleatorio estratificado

Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato.

Estimación de parámetros
Es el procedimiento utilizado para conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un parámetro de la población; pero también necesitamos precisar un:

  • Intervalo de confianza

Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza específico.

  • Nivel de confianza

Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.
Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra.
Si disminuimos el error, tenemos que aumentar el tamaño de la muestra.

Hipótesis estadísticas
Un test estadístico es un procedimiento para, a partir de una muestra aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar una hipótesis previamente emitida sobre el valor de un parámetro desconocido de una población.

martes, 5 de abril de 2016

Hablemos de vectores aleatorios y análisis multivariante



Los vectores aleatorios nos sirven para construir este tipo de modelos. Incluso en física, donde parece que los modelos determinan claramente el valor de las variables, estas padecen errores producidos por variables no incluidos en el modelo o procesos puramente aleatorios, lo que hace necesario recurrir a modelos estadísticos para estimar sus parámetros.

Los métodos estadísticos multivariantes y el análisis multivariante son herramientas estadísticas que estudian el comportamiento de tres o más variables al mismo tiempo.


Es una colección de métodos que permiten tratar problemas muy diversos en los que diferentes propiedades se miden en un conjunto específico de objetos.

El análisis multivariante permite trabajar con matrices que contengan más variables que observaciones.

Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.
En el análisis multivariante los factores de estudio son llamados factores de riesgo (bioestadística), variables independientes o variables explicativas.

Las variables analizadas están correlacionadas, de otro modo hay nada interesante que estudiar, de modo que su análisis individual o por parejas no es suficiente.

El análisis de componentes principales, busca un conjunto reducido de combinaciones lineales de las variables originales que resuman la variación de los datos, es decir, la información contenida en las medidas.

Tipos de Técnicas multivariantes
Se pueden clasificar en tres grandes grupos:
1)     Métodos de dependencia
Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma.
2)     Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué.
3)     Métodos estructurales

Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.

Etapas de  un análisis multivariante
Las etapas de un análisis multivariante pueden reunirse en 3:
1 - Objetivos del Análisis
2 - Diseño del Análisis
3 - Hipótesis del Análisis
4 - Realización del Análisis
5 - Interpretación de Resultados
6 - Validación del análisis



miércoles, 9 de marzo de 2016

Básicos sobre Regresión Lineal Simple



Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente.

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:

  1. Que la relación entre las variables sea lineal.
  2. Que los errores en la medición de las variables explicativas sean independientes entre sí.
  3. Que los errores tengan varianza constante. (Homocedasticidad)
  4. Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
  5. Que el error total sea la suma de todos los errores.

En la Regresión Lineal Simple sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros.

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + e
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
b es el coeficiente de regresión poblacional (pendiente de la línea recta)
e es el error

En esta expresión estamos admitiendo que todos los factores o causas que influyen en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores no controlados que englobaremos bajo el nombre de perturbación o error aleatorio, e, que provoca que la dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre.

Una forma de determinar si puede existir o no dependencia entre variables, y en caso de haberla deducir de qué tipo puede ser, es gráficamente representando los pares de valores observados. A dicho gráfico se le llama diagrama de dispersión.

Si la relación lineal de dependencia entre Y y X fuera exacta, las observaciones se situarían a lo largo de una recta.



En a) hay ausencia de relación (independencia).
En b) existe asociación lineal positiva (varían en general en el mismo sentido).
En c) existe asociación lineal negativa (varían en sentido contrario).
En d) existe fuerte asociación, pero no lineal.