Aldanálisis: Índice de Concordancia de Kappa (k)

miércoles, 12 de febrero de 2014

Índice de Concordancia de Kappa (k)

El coeficiente o índice kappa (k) se basa en comparar la concordancia observada en un conjunto de datos, respecto a la que podría ocurrir por mero azar, y puede ser calculado en tablas de cualquier dimensión, siempre y cuando se contrasten dos observadores.

La máxima concordancia posible corresponde a κ = 1. El valor κ = 0 se obtiene cuando la concordancia observada es precisamente la que se espera a causa exclusivamente del azar.

El coeficiente kappa se construye en base a un cociente, el cual incluye en su numerador la diferencia entre la sumatoria de las concordancias observadas y la sumatoria de las concordancias atribuibles al azar, mientras que sudenominador incluye la diferencia entre el total de observaciones y la sumatoria de las concordancias atribuibles al azar. La fórmula vendría a ser:

El coeficiente kappa fue propuesto originalmente por Cohen (1960) para el caso de dos evaluadores o dos métodos, por lo que a menudo se le conoce como kappa de Cohen. El caso más sencillo se presenta cuando la variable cualitativa es dicotómica (dos posibilidades) y se está comparando dos métodos de clasificación (por ejemplo dos escalas clínicas). Esta situación se puede representar en una tabla de frecuencias.

Posteriormente fue generalizado para el caso de más de dos evaluadores por Fleiss, por lo que a veces también se habla del índice kappa de Fleiss. Landis y Koch también propusieron unos márgenes para valorar el grado de acuerdo en función del índice kappa.

El índice kappa (k) se usa para evaluar la concordancia o reproducibilidad de instrumentos de medida cuyo resultado es categórico.
Representa la proporción de acuerdos observados más allá del azar respecto del máximo acuerdo posible más allá del azar.
En la interpretación del índice kappa (k) hay que tener en cuenta que el índice depende del acuerdo observado, pero también de la prevalencia del carácter estudiado y de la simetría de los totales marginales.

Desde la propuesta inicial de Cohen el índice k ha sido progresivamente generalizado a clasificaciones multinomiales (con más de dos categorías), ordinales, a más de dos observadores, a diseños incompletos y a todas estas situaciones combinadas, generalizaciones que suponen una mayor complejidad en el cálculo pero que mantienen la misma interpretación.

--------------------------------

Agradecimientos a las siguientes fuentes:

Medidas de concordancia: el índice de Kappa. López de Ullibarri Galparsoro I, Pita Fernández, S.España.

Evaluación de la concordancia inter-observador eninvestigación pediátrica: Coeficiente de Kappa. Jaime Cerda L., Luis Villarroel del P. Chile

Medidas de concordancia para variables cualitativas. Luis M. Molinero. España.

El índice kappa. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid. España.

18 comentarios:

Antonio Rojas dijo...: No entiendo. ¿Hay diferentes índices de kappa dependiendo del tamaño de las tablas? ¿La de Cohen era 2 x 2 y las otras permiten más?
Muchas gracias, quizás podría serme útil un trabajo que está haciendo mi esposa.
Muy bueno, su Blog, Licenciada.; jueves, 13 febrero, 2014
Carmen C. dijo...: Hola: O sea que si lo utilizo y el índice k me da, por decir algo, 0,70 yo podría decir que la concordancia es real, y no por azar, con bastante seguridad? ¿Es esa la idea?
Gracias.; viernes, 14 febrero, 2014
Aldanalisis dijo...: Hola Antonio. Si hay ciertas diferencias en los cálculos. Se basaron en las premisas de Cohen para proyectar ese tipo de análisis en tablas que no fueran dicotómicas.

Carmen, hola! Si, si realizaras el cálculo correctamente y tu índice fuera k = 0,70 tendrías alta certeza de que la concordancia no fue por azar!

¡Gracias por comentar!; sábado, 15 febrero, 2014
Unknown dijo...: Hola, ¿cuando las categorias en las que se califica no son excluyentes es posible usar kappa? ¿con qué ajustes?

Gracias; miércoles, 04 junio, 2014
Aldanalisis dijo...: No sería adecuado porque si se solapan es lógico que va a existir concordancia.

Imagínece calcular la concordancia entre partos y ser paciente de sexo femenino.

Hasta ahora no se ha logrado que los pacientes masculinos se embaracen, por lo tanto de antemano se sabe que en el ejemplo anterior la concordancia existe PORQUE SÍ.

Sé que es unn ejemplo sumamente obvio, pero creo que ayuda a establecer por qué no tendría sentido con datos que se solapen.

Espero haber ayudado.

Saludos y disculpa la tardancia (mi computadora se dañó lamentablemente, y ahoro sólo puedo conectarme muy de vez en cuando).; sábado, 14 junio, 2014
gramirez dijo...: Mi nombre es Guillermo Ramírez y soy profesor de Estadística. Te felicito por tu blog y por tu clara explicación. Te sugeriría que incluyeras un sencillo ejemplo de cálculo. Saludos; domingo, 12 junio, 2016
Mas yo menos ella dijo...: Hola! Me gustaría saber si kappa se puede utilizar para evaluar concordancia dos pruebas diagnósticas, por ejemplo exámenes endoscopicos con exámenes histopatologicos.

Si tienes PDF o algún lugar en donde pueda obtener más información podrías enviarla a mi correo electrónico? Susan.rodriguez@ug.uchile.cl

Muchas gracias; martes, 02 mayo, 2017
Aldanalisis dijo...: Hola Susan:

Si una de las pruebas es Golden Rule, yo utilizaría el estadístico de McNemar.

http://aldanalisis.blogspot.com/2012/03/el-test-de-mcnemar.html

Saludos, ALDA; lunes, 08 mayo, 2017
Anónimo dijo...: Hola, muy buen o tu blog, dime y si tengo mas de 2 categorias en los resultados de una prueba, con dos evaluadores, como sería, porque los ejemplos que veo es con o sin.; viernes, 26 mayo, 2017
Anónimo dijo...: Hola, dime y si son varias categorías en los resultados con 2 evaluadores, como sería?.; viernes, 26 mayo, 2017
Aldanalisis dijo...: Hola "anónimo":

Si tienes más de dos no utilices el método de Cohen, sino de Fleiss u otro que trabaje con más categorías.

Saludos!; lunes, 29 mayo, 2017
Esther dijo...: Buenas tardes, estoy haciendo un trabajo de fin de carrera sobre una validación de una técnica de ginecología y obstetricia.
Mediante una calculadora de internet calcule el indice kappa entre las dos técnicas que tengo (la estándar por un lado y la técnica que quiero validar) el resultado me da muy bajo una concordancia muy pobre dice.
Realmente no se que quiere decir eso ; podría ser que la técnica que quiero validar es ineficaz??
Es algo que me ha pasado al calcular el cociente de probabilidad o likelihood ratio y la probabilidad pre y post prueba .
gracias; sábado, 24 marzo, 2018
Aldanalisis dijo...: Hola Esther:

Normalmente el coeficiente Kappa se utiliza para determinar concordancia entre evaluadores (personas) de una prueba o un instrumento.

Si estás probando pruebas clínicas deberías inclinarte por el cálculo de la sensibilidad y especificidad y los valores predictivos.

Te recomiendo también el Test de McNemar (http://aldanalisis.blogspot.com/2012/03/el-test-de-mcnemar.html) con el cual puedes comparar si hay cambios significativos entre ambas mediciones, la de la prueba aceptada o Gold Stándar, y la de la prueba que estás estudiando y de la que deseas calcular su efectividad.

Te deseo mucho éxito en tu trabajo.

Saludos, ALDA; lunes, 26 marzo, 2018
Claudio dijo...: Hola Alda , me puedes orientar por favor como estructurar una tabla de contingencia para cohen para comparar 2 normas de calidad las cuales tendrán variables dicótomas SI o NO en relación a si existe concordancia entre ambas.

saludos

Claudio; martes, 22 enero, 2019
Aldanalisis dijo...: Hola Claudio.

Si son dos normas de calidad con probables respuesta Si/No, es exactamente el ejemplo clásico de la tabla de contingencia, como está en el Post.

Por ejemplo, en las columnas colocas tus dos variables (las normas de calidad) y en las filas colocas Si / No.

Una típica tabla de 2 x 2.

Saludos.; viernes, 01 febrero, 2019
Lía dijo...: Hola! Primero que nada felicitar su trabajo en el Blog.
Estoy realizando un trabajo de grado y necesitaría orientación con la siguiente problemática.

Estoy comparando la eficacia de la radiología y la tomografía para identificar restos metálicos en piezas de museo. El objetivo es saber si existe una diferencia significativa entre estas técnicas de imagenologia para dicho fin.
Dos observadores evaluaran las imágenes a ciegas y sin conocer el resultado del otro estudio.
Estadísticamente como se podría plasmar los resultados del trabajo?; jueves, 02 abril, 2020
Aldanalisis dijo...: Hola Lía:

Sería una comparación de dos pruebas diagnósticas.
¿Alguna de ellas es considerada Gold Standar?
Los gráficos resultan muy prácticos porque ofrecen una apreciación visual inmediata, pero siempre necesitarás acompañarlos del correspondiente valor de p, porque aunque a veces los gráficos den la apariencia de una gran diferencia, esta diferencia no siempre resulta significativa estadísticamente.

Saludos!
(Puedes escribirme a Gmail si quieres mayor información); jueves, 11 junio, 2020
Lía dijo...: Ha sido muy amable! Le escribiré a su correo para obtener más información; viernes, 10 julio, 2020

Publicar un comentario