Sie2003
Predicción de complicaciones cardiacas utilizando
Minería de Datos: Estado del Arte
Norka Gómez López, René Iván González Fernández, Alejandro Rosete Suárez
Resumen. El electrocardiograma (ECG) ha sido ampliamente
supervivencia y la calidad de vida del paciente afectado de
aplicado en el diagnóstico de enfermedades cardiovasculares. El
esta enfermedad, pero su efectividad disminuye cuando no son
intervalo QT representa la actividad ventricular en el ECG. La
aplicados tempranamente [3].
dispersión espacial del intervalo QT, calculada como la
Las Unidades de Cuidados Coronarios (UCC) están dotadas
diferencia entre la mayor y la menor duración del intervalo QT
de los medios técnicos y de los recursos humanos necesarios
medida en las 12 derivaciones del ECG adquiridas para la atención y vigilancia continuada de los pacientes con
simultáneamente, ha emergido como un indicador asociado a
arritmias ventriculares en pacientes cardiacos. Valores elevados
cardiopatías agudas graves y potencialmente recuperables [4].
del mismo se han observado en pacientes coronarios con El uso de técnicas no invasivas como la Electrocardiografía es
complicaciones después de un infarto del miocardio. Usualmente
de gran utilidad en el diagnóstico y monitoreo de este tipo de
la dispersión espacial del intervalo QT es estudiada pacientes [5]. En estas condiciones es posible apreciar
puntualmente, reportándose resultados contradictorios sobre su
cambios en la duración, amplitud y morfología de las ondas e
valor predictivo.
intervalos del ECG.
El gran desarrollo tecnológico de las computadoras en las últimas
El intervalo QT del electrocardiograma (ECG) representa la
décadas ha potenciado el almacenamiento de grandes cantidades
actividad ventricular y su variabilidad espacial ha sido
de datos a tal punto que extraer conocimiento de los mismos sin
estudiada desde hace más de una década como un indicador de
el empleo de herramientas potentes es prácticamente imposible
para el hombre. La Minería de Datos ha venido a suplir esa
aumento de susceptibilidad a arritmias ventriculares [6].
necesidad, ya que permite identificar patrones válidos y útiles a
Existen múltiples reportes de estudio de los valores de
partir de los datos. Ha sido ampliamente utilizada para extraer
dispersión espacial del intervalo QT en diferentes situaciones
conocimiento en diferentes campos, entre ellos la Medicina.
clínicas [7-10] y de su valor predictivo [6, 11, 12] mediante la
En este trabajo se propone emplear técnicas de Minería de Datos
aplicación de técnicas de análisis estadístico. Aunque se ha
para estudiar la tendencia de la dispersión espacial del intervalo
observado que los valores de dispersión espacial del intervalo
QT como un nuevo indicador que nos permita predecir a corto
QT se encuentran incrementados en pacientes con arritmias
plazo complicaciones cardiacas en pacientes coronarios.
cardiacas, los resultados contradictorios de los estudios no han
permitido establecer valores de referencia ni definir un criterio
Palabras Claves. Dispersión espacial del intervalo QT, de predicción.
Electrocardiografía, Minería de Datos.
Este trae como consecuencia que no existe un criterio que
permita predecir cuando un paciente que se encuentra en cuidados coronarios se va a complicar y los médicos basan sus
I. INTRODUCCIÓN
decisiones en su experiencia y en la observación de las señales de los pacientes, sin aprovechar el conocimiento oculto en los
La Organización Mundial de la Salud (OMS) reporta que
La Minería de Datos ha demostrado su utilidad en la
las enfermedades cardiovasculares constituyen la primera extracción de conocimiento en situaciones donde el volumen
causa de muerte a nivel mundial y de nuestro país [1]. El
de datos es muy grande o complejo por la cantidad y el tipo de
Infarto del Miocardio Agudo (IMA) es una enfermedad datos que se manipulan. Se puede definir como ¨el conjunto
frecuente, de evolución incierta, cuya mortalidad durante la
de técnicas y herramientas aplicadas al proceso no trivial de
fase aguda se estima entre el 20 y el 50% a pesar de los
extraer y presentar conocimiento implícito, previamente
avances alcanzados, lo cual justifica que se dediquen desconocido, potencialmente útil y humanamente
esfuerzos y recursos para mejorar su pronóstico y perfeccionar
comprensible, a partir de grandes conjuntos de datos, con
su terapia [2]. Existen fármacos y procederes de probada objeto de predecir de forma automatizada tendencias y
efectividad en el mismo, que están destinados a mejorar la
comportamientos y/o descubrir de forma automatizada minerías de datos variadas, abiertas y cambiantes. Además modelos previamente desconocidos¨ [13].
facilita la limpieza y la transformación de datos [15].
Ha sido aplicada en la Medicina para la identificación de
Selección, limpieza y transformación: En esta fase se
patologías, diagnóstico de enfermedades, detección de eliminan o corrigen los datos incorrectos, y se decide la pacientes con riesgo de sufrir una patología concreta, gestión
estrategia a seguir con los datos incompletos; además, se
hospitalaria y asistencial, recomendación priorizada de consideran únicamente aquellos atributos que van a ser fármacos para una misma patología, etc. Por ejemplo, Borraci
relevantes, con el objetivo de hacer más fácil la tarea propia
y Rubio [14] estudiaron la aplicabilidad de las redes de minería. El éxito de un proceso de Minería de Datos neuronales en el pronóstico de resultados quirúrgicos depende, no sólo de tener todos los datos necesarios (una individuales y por grupos de riesgo de la cirugía cardiaca. En
buena recopilación), sino de que éstos estén íntegros,
la gestión hospitalaria también ha contribuido con completos y consistentes (una buena limpieza e integración) predicciones temporales de los centros asistenciales para el
[15]. Esta fase incluye cuatro etapas principales: identificación
mejor uso de recursos, consultas, salas y habitaciones [15, 16].
y conversión de tipos en dependencia de las necesidades y de
Esta investigación se enmarca en un trabajo cuyo objetivo
los algoritmos que se vayan a utilizar, rellenar los datos
general es emplear técnicas de Minería de Datos para estudiar
inexistentes, identificación de espurios (outliers), y
la tendencia de la dispersión espacial del intervalo QT con
eliminación de ruido y datos incompletos. Para solucionar los
vistas a predecir a corto plazo complicaciones cardiacas en
problemas anteriores se pueden utilizar técnicas estadísticas y
pacientes coronarios. Para ello se ha desarrollado un estudio
de visualización como por ejemplo, los histogramas para la
investigativo sobre las metodologías, modelos, tareas y detección de datos anómalos, gráficos de dispersión, cálculos técnicas empleadas para la Minería de Datos y se han de medias, varianzas, correlaciones, análisis multivariante, etc expuesto las tareas de Minería a desarrollar para alcanzar los
objetivos propuestos.
Minería de Datos: Esta fase consiste en la búsqueda de
patrones y relaciones entre los datos. El resultado de la
II. MATERIALES Y MÉTODOS
Minería de Datos son conjuntos de reglas, ecuaciones, árboles
de decisión, redes neuronales, grafos probabilísticos, etc. En
El término descubrimiento de conocimiento en bases de
esta fase se aplica el modelo, la tarea, la técnica y el algoritmo
datos (
Knowledge Discovery in Databases, KDD) se utiliza
seleccionado para la obtención de reglas y patrones. En la
frecuentemente como sinónimo de Minería de Datos, aunque
búsqueda del modelo que aporte la información más útil, en
existen claras diferencias entre ambos. KDD es un proceso
ocasiones es necesario explorar varios modelos, volviendo
que consta de una serie de fases, mientras que la Minería de
incluso a las fases anteriores del proceso.
Datos es sólo una de estas fases.
Evaluación e interpretación: En esta fase se evalúan los
A descubrir conocimiento en bases de datos o KDD se le
patrones y se analizan por expertos, y si es necesario, se
define como "el proceso no trivial de identificar patrones vuelve a las fases anteriores para una nueva iteración. Para válidos, novedosos, potencialmente útiles y en última realizar la evaluación se entrena el modelo con una parte de instancia, comprensibles a partir de los datos" [17].
los datos y luego se valida con los restantes. Dependiendo de
Un proceso clásico de KDD consta de 5 fases la tarea de Minería de Datos existen diferentes medidas de
fundamentales: integración y recopilación; selección, limpieza
evaluación de los modelos [19]. Para la interpretación por
y transformación; Minería de Datos; evaluación e parte de los usuarios del conocimiento que aportan los interpretación; y difusión y uso. Las dos primeras fases suelen
modelos aprendidos, se pueden aplicar técnicas como la
englobarse base el nombre de preparación de datos [15]. visualización de modelos, o visualización posterior [15]. Además de las fases anteriores, frecuentemente se incluye una
Difusión: Esta fase tiene como fin el empleo de forma
fase previa de análisis de las necesidades de la organización y
correcta del modelo aprendido en el contexto de la aplicación
definición del problema, en la que se conoce el desarrollo y
real y de los usuarios para los cuales se inició el proceso de
dominio de la aplicación y se establecen los objetivos finales
extracción de conocimiento. Es aconsejable, transcurrido
que se pretenden lograr y los criterios de rendimiento. A esta
cierto tiempo, realizar una revisión y actualización de los
fase se le denomina entendimiento del dominio y en ella se
modelos para ver si se ajustan a la nueva situación de la
emplea, junto a la preparación de los datos, el 80% del organización. esfuerzo total de realizar un proceso de KDD [18].
KDD es un proceso iterativo pues la salida de alguna de las
Integración y recopilación: En esta fase se determinan las
fases puede hacer volver a pasos anteriores y porque a
fuentes de información que pueden ser útiles y dónde menudo son necesarias varias iteraciones para extraer conseguirlas; se transforman todos los datos a un formato
conocimiento de alta calidad. También precisa de la
común, y se detectan y resuelven las inconsistencias. La interacción del usuario o experto en el dominio del problema, obtención de los datos puede realizarse directamente desde
el cual debe colaborar en la preparación de los datos y a la
sistemas transaccionales, archivos o a partir de un almacén de
validación del conocimiento extraído, entre otras actividades.
datos. Los almacenes de datos no son estrictamente necesarios
A. Metodologías para llevar a cabo un proceso de KDD
para realizar Minería de Datos, aunque sí extremadamente
El desarrollo de un proceso de KDD no es trivial y la
útiles si se va a trabajar con grandes volúmenes de datos, que
existencia de una guía para llevarlo a cabo permite organizar
varían con el tiempo y donde se desea realizar tareas de los recursos materiales y humanos de forma eficiente [15].
Entre las metodologías más utilizadas internacionalmente se
5. Valorar (Assess): Valoración del modelo.
encuentran CRISP-DM y SEMMA, aunque en ocasiones los
La ejecución de sus fases no está descrita de forma rígida,
desarrolladores emplean metodologías propias [20].
por lo que no es necesario terminar una antes de comenzar otra, conservando así, la iterabilidad y ciclicidad del proceso.
Metodología CRISP-DM [21]
B. Herramientas para realizar un análisis de los datos
La metodología CRISP-DM (
CRoss-Industry Standard
Actualmente existen gran cantidad de herramientas
Processfor Data Mining) es una de las más difundidas y diseñados para apoyar el análisis de los datos durante un utilizadas. Está descrita como un proceso jerárquico que proceso de KDD. Algunas de estas herramientas son consiste en un conjunto de tareas descritas en cuatro niveles
propietarias y otras de distribución libre. Entre las
de abstracción, desde el general hasta el específico: fase, herramientas propietarias se encuentran: SPSS Clementine, tareas generales, tareas específicas e instancias de proceso.
SAS Enterprise Miner, SQL Server, Oracle Data Mining Suite
La metodología CRISP-DM estructura el ciclo de vida de
(Darwin) y DB2 Intelligent Miner. Entre las herramientas
un proyecto de KDD en seis fases, que interactúan entre ellas
libres están: WEKA y RadpidMiner (YALE).
de forma iterativa durante el desarrollo del proyecto.
A continuación se exponen las principales características de
1. Comprensión del Negocio: Se determinan los objetivos
las herramientas más utilizadas entre las mencionadas [22].
del negocio, se evalúa la situación y se elabora el plan del
SPSS Clementine [23]: Es una herramienta visual
desarrollada por ISL (
Integral Solutions Limited) y
2. Comprensión de los Datos: Se recopilan los datos comercializada por SPSS que constituye uno de los sistemas
iniciales, se describen, se exploran y se verifica la calidad de
más populares en el mercado. Entre sus características más
significativas se destaca el hecho de que a diferencia de otras
3. Preparación de los Datos: Se seleccionan los datos, se herramientas que se centran en el modelado, ella apoya el
limpian, construyen, integran y estructuran para ser minados.
ciclo completo de KDD y está diseñada bajo la metodología
4. Modelado: Se seleccionan las técnicas de modelado, se
CRISP-DM. Posee una arquitectura distribuida
genera el diseño del experimento y se construyen y evalúan
(cliente/servidor). Permite el uso de técnicas de aprendizaje
tales como: redes neuronales, árboles de decisión (C5.0 y
5. Evaluación: Se valoran los resultados, se revisa el CART), agrupamiento (K-Medias), reglas de asociación (GRI,
proceso y se determinan las próximas acciones.
A priori, etc.), regresión lineal y regresión logística, entre
6. Despliegue: Se traza la estrategia de empleo de los otras. Posee un potente soporte gráfico que permite al usuario
resultados, y se planifica el mantenimiento del proceso, tener una visión global de todo el proceso y que comprende además, se documentan las experiencias.
gráficos estadísticos, gráficos 3-D y animados, visualizadores
Esta metodología permite retrocesos entre varias de sus interactivos de las diferentes tareas que realiza el experto y
fases para volver a analizar los resultados obtenidos. Además,
navegadores para árboles de decisión, reglas de asociación,
el proyecto se torna cíclico, pues este no se termina una vez
redes neuronales de Kohonen, agrupamientos, etc. Permite
que la solución es desplegada, ya que las informaciones trabajar con datos estructurados (tabulares) en diferentes obtenidas pueden provocar nuevas preguntas enfocadas en el
formatos de bases de datos, archivos de texto y hojas de
negocio, donde los procesos de minería subsecuentes se cálculo de Excel. También permite hacer minería de texto y beneficiarán de las experiencias previas.
minería Web. SPSS Clementine es un sistema multiplataforma. La aplicación está disponible para sistemas
Metodología Semma
Windows, Sun Solaris, HP-UX AIX y OS/400.
SAS Enterprise Miner [24, 25]: Es una herramienta
La metodología Semma fue desarrollada por SAS Institute y
comercial proporcionada por SAS. Su diseño está inspirado
se define como el proceso de selección, exploración y por la metodología SEMMA. Entre sus características más modelado de grandes cantidades de datos para descubrir significativas se encuentra el hecho de que posee una patrones de negocio desconocidos.
arquitectura distribuida y una potente interfaz gráfica de
Su nombre es el acrónimo correspondiente a las cinco fases
usuario. La herramienta tiene soporte para almacenes de datos
básicas del proceso:
y permite trabajar con archivos en un formato propio de SAS
1. Muestreo (Sample): Extracción de la población muestral
y de sistemas de bases de datos comerciales. Incluye técnicas
sobre la que se va a aplicar el análisis.
para ayudar al pre-procesado de datos. Además implementa
2. Explorar (Explore): Determinar cuáles son las variables
algoritmos que proveen modelos predictivos y descriptivos,
explicativas que van a servir como entradas al modelo.
tales como árboles de decisión, redes neuronales, asociación,
3. Modificar (Modify): Tratamiento realizado sobre los agrupamiento, entre otros. Permite la visualización y
datos de forma previa a la modelización, de forma que se
representación de los resultados mediante información en
definan claramente las entradas del modelo a realizar.
lenguaje natural, gráficos en dos o tres dimensiones y un
4. Modelo (Model): Permite establecer una relación entre generador automático de reportes que resume los resultados en
las variables explicativas y las variables objeto del estudio,
un informe HTML. Tanto el programa cliente como servidor
que posibilitan inferir el valor de las mismas con un nivel de
de SAS Enterprise Manager, puede ser trasladado a diferentes
confianza determinado.
plataformas: Windows, Linux, Solaris, HP-UX, Digital Unix, etc.
RapidMiner (YALE) [26]: Fue implementado en Java por
a ser resuelto por un algoritmo de Minería de Datos. Entre las
la Universidad de Dortmund para la realización de tareas más importantes de la Minería de Datos se encuentran: experimentos de aprendizaje automático. Funciona en los clasificación, regresión (predicción o estimación), sistemas operativos Windows y Linux. Es un software de
agrupamiento (clustering o segmentación), correlación y
código abierto y de libre distribución. Se retroalimenta de las
asociación. Las tres primeras se agrupan bajo del nombre de
librerías de funciones de WEKA en su entorno de aprendizaje.
MD directa o sea que se tiene definido el objetivo y las tres
En julio del 2007 cambió su nombre por RapidMiner. Permite
últimas reciben el nombre de MD indirecta o sea no se sabe
la entrada de datos en formato Microsoft Excel y SPSS. aún a ciencia cierta qué resultados se quieren obtener [15]. Incluye operadores para el aprendizaje automático (máquina
Clasificación: En ella, cada instancia (o registro de la vista
de vectores soporte, árboles de decisión, agrupamiento y minable) pertenece a una clase, la cual se indica mediante el algoritmos genéticos). Desde la perspectiva de la visualización
valor del atributo a predecir, el cual puede tomar solamente
ofrece representaciones de datos en dispersión en 2D y 3D;
valores discretos, cada uno de ellos correspondiente a una
coordenadas paralelas y grandes posibilidades de transformar
clase. El resto de los atributos de la instancia y que son
las visualizaciones de los datos.
relevantes a la clase, se utilizan para predecir la misma. El
WEKA (Waikato Enviroment for Knowledge Analysis)
objetivo de esta tarea es predecir la clase de nuevas instancias
[27, 28]: Es una de las aplicaciones de minería más populares,
de las que se desconoce la clase. De ahí que un algoritmo de
desarrollada por un equipo de investigadores de la clasificación persigue maximizar la razón de precisión de las Universidad de Waikato (Nueva Zelanda). Una de las ventajas
nuevas instancias, la cual se calcula como el cociente entre las
fundamentales de esta herramienta es que su desarrollo sobre
predicciones correctas y el número total de predicciones. La
el lenguaje java la hace multiplataforma. Además, el hecho de
tarea de clasificación es una de las que más frecuentemente se
ser de código abierto unido a su prestigio, hace que se usa en la Minería de Datos [15, 30]. encuentre en constante evolución por parte de la comunidad
Regresión: También llamada predicción o estimación.
internacional. El formato de entrada de los datos es un archivo
Consiste en aprender una función real que asigna a cada
plano organizado en filas y columnas (formato ARFF). instancia un valor real. Se diferencia de la clasificación en que Incluye una gran cantidad de filtros para el preprocesado de
el valor a predecir es numérico. El objetivo en este caso es
los datos. Está formado por una serie de paquetes de código
minimizar el error (generalmente el error cuadrático medio)
abierto con diferentes implementaciones de las técnicas de
entre el valor predicho y el valor real.
clasificación, asociación, agrupamiento y visualización de
Agrupamiento (clustering): Tarea descriptiva que consiste
datos. Posee una interfaz gráfica de usuario compuesta de
en obtener grupos a partir de los datos, basándose en el
cuatro entornos que permiten diferentes funcionalidades y principio de maximizar la similitud entre los elementos de un formas de análisis.
grupo a la vez que se minimiza la similitud entre los distintos
grupos. Al agrupamiento también se le puede llamar segmentación ya que parte o segmenta los datos en grupos que
C. Modelos de Minería de Datos
pueden o no ser disjuntos [15]. Una aplicación del
Los modelos constituyen la forma de representar el agrupamiento en la minería de texto y en los sistemas de
conocimiento obtenido a partir de los datos analizados, ya sea
recuperación de información es para mejorar su precisión y
en forma de relaciones, patrones o reglas, o como un resumen
para la organización y personalización de los resultados de los
descriptivo de los mismos. La forma de representar un modelo
motores de búsqueda [31].
está determinada por la tarea de Minería de Datos escogida, el
Correlación: Se usa para examinar el grado de similitud de
tipo de técnica empleada, y el algoritmo implementado para
los valores de dos variables numéricas. Una fórmula estándar
realizarlo. Los modelos pueden ser de dos tipos: predictivos o
para medir la correlación lineal es el coeficiente de correlación
r, el cual es un valor real comprendido entre -1 y 1. Si r es 1
En los modelos predictivos una de las variables es (respectivamente, -1) las variables están perfectamente
expresada en función de las otras. Esto permite estimar o
correlacionadas (perfectamente correlacionadas
predecir valores futuros de las variables objetivo o negativamente), mientras que si es O no hay correlación. Esto
dependientes, partiendo de otros datos que se consideran quiere decir que cuando r es positivo, las variables tienen un
influyentes en su comportamiento. Entre las tareas que comportamiento similar (ambas crecen o decrecen al mismo
producen modelos predictivos están la clasificación y la tiempo) y cuando r es negativo si una variable crece la otra
regresión [29].
Los modelos descriptivos tienen como objetivo la
Asociación: Tiene como objetivo identificar relaciones no
descripción total de los datos y posibilitan explorar las explícitas entre atributos categóricos. Este análisis permite
propiedades de los datos que se examinan e identificar descubrir correlaciones o concurrencias en los sucesos de los
patrones que explican, resumen o caracterizan los mismos.
datos a analizar y se formaliza generalmente en la obtención
Entre las tareas que producen modelos de este tipo se de reglas de tipo: "SI el atributo X toma el valor d entonces el
encuentran el agrupamiento, la asociación y la correlación
atributo Y toma el valor b". En la parte derecha de las reglas
[21]de asociación puede aparecer cualquier atributo, y además
D. Tareas de Minería de Datos
puede aparecer más de un atributo. Las reglas de asociación se evalúan usando dos parámetros: soporte (o cobertura) y
Un tipo de tarea de Minería de Datos es un tipo de problema
confianza. El soporte de una regla se define como el número
de instancias que la regla predice correctamente y la confianza
un peso numérico, y en cada nodo excepto en los de entrada,
mide el porcentaje de veces que la regla se cumple cuando se
hay una función de activación que determina la salida del
puede aplicar, es decir, cuando se cumple su antecedente. Un
mismo. Cuando un nodo recibe las entradas o estímulos de
caso especial de reglas de asociación, son las reglas de otros, los procesa para producir una salida que transmite al asociación secuenciales que se usan para determinar patrones
siguiente. La señal de salida tendrá una intensidad, fruto de la
secuenciales en los datos [15].
combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un
E. Técnicas de Minería de Datos
valor distinto para cada par de neuronas que conectan y son
Existen diferentes paradigmas detrás de las técnicas modificados durante el proceso de entrenamiento pudiendo así
utilizadas para la Minería de Datos: técnicas de inferencia
fortalecer o debilitar la conexión o comunicación entre
estadística, árboles de decisión, redes neuronales, inducción
neuronas particulares.
de reglas, aprendizaje basado en instancias, algoritmos
Las redes neuronales pueden usarse en problemas de
genéticos, aprendizaje bayesiano, programación lógica clasificación, de regresión y de agrupamiento. Son capaces de
inductiva y varios tipos de métodos basados en núcleos, entre
trabajar con información incompleta, con ruido o
inconsistente. Trabajan directamente con datos numéricos, por
A continuación se explican algunos de los más utilizados:
lo que para usarlas con datos nominales primeramente éstos deben transformarse a números. Su mayor desventaja es que el
Árboles de decisión
modelo aprendido es difícilmente comprensible. Tienen una gran capacidad de generalización para problemas no lineales,
Un árbol de decisión es una serie de decisiones o aunque requieren bastantes datos para su entrenamiento Los
condiciones organizadas en forma jerárquica que van dos tipos principales de aprendizaje son aprendizaje
separando el problema siguiendo la técnica del divide y supervisado y aprendizaje no supervisado [15].
vencerás, hasta llegar a las hojas del árbol que determinan la clase o grupo a la que pertenece el registro o individuo. Cada
Algoritmos genéticos
rama de un árbol de decisión puede interpretarse como una regla donde los nodos internos constituyen el antecedente de
Los algoritmos genéticos siguen los patrones de la
la regla, y la clase asignada en la hoja es el consecuente. En su
evolución biológica (mutación y cruce) para ir mejorando una
forma más habitual, las opciones posibles son excluyentes, a
solución en función de sus valores iniciales. La mutación
partir de una determinada condición. [28].
ocurre cuando alguna solución cambia, bien de forma
Un árbol de decisión usualmente es construido en dos fases.
aleatoria o controlada, mientras que el cruce se obtiene cuando
En una primera fase se construye un árbol amplio y profundo
se construye una nueva solución a partir de dos contribuciones
que cubre todos los datos de entrenamiento. En una segunda
procedentes de otras soluciones [34].
fase, la fase de poda, el tamaño final del árbol es determinado
Los datos son convertidos a formato binario y, partiendo de
con el objetivo de obtener modelos más generales [32].
una solución inicial o cromosoma y a través de múltiples
Puede utilizarse en tareas de clasificación, agrupamiento,
iteraciones, los modelos se combinan para crear nuevos
regresión y estimación de probabilidades. Se emplea el modelos. Para ello, se usa una función de adaptación o de
término árboles de clasificación cuando los árboles de optimalidad (fttness function), que selecciona los mejores
decisión son usados para predecir variables categóricas y a modelos que sobrevivirán o serán cruzados. Este ciclo
árboles de regresión cuando se usan para predecir variables
evolutivo continúa hasta que se verifique una determinada
condición de parada: que se hayan realizado un determinado
Existen muchos algoritmos de construcción de árboles de
número máximo de evaluaciones de individuos, que la
decisión entre ellos el C4.5, ID3, CART y ASSISTANT que
población haya evolucionado durante un número máximo de
se diferencian fundamentalmente en las en las estrategias de
generaciones, que se haya alcanzado una solución con un
poda y en la regla adoptada para dividir los nodos [15, 18].
determinado valor de la función de adaptación (o de parte de ella), que se estacione la población por no generarse
Redes neuronales
individuos nuevos durante un determinado número de generaciones, etc. [15]
Las redes neuronales es un método conexionista inspirado
Los distintos algoritmos genéticos difieren en la forma en
en el funcionamiento del cerebro humano. Pueden ser vistas
que se representan los modelos, cómo se combinan los
como una red de neuronas interconectadas para formar una
individuos, si existen mutaciones y cómo son éstas, y cómo se
red. Dependiendo de la naturaleza del problema, la red usa la función de adaptación.
neuronal artificial es organizada en topologías diferentes,
En la Minería de Datos, los algoritmos genéticos se pueden
entre ellas perceptrón simple, redes multicapa, redes de base
usar para el agrupamiento, la clasificación y las reglas de
radial, redes de Kohonen, etc., con no menos algoritmos
asociación, así como para la selección de atributos. También
diferentes para cada forma de organización; el más conocido
pueden usarse para guiar a otros algoritmos de Minería de
es el de retropropagación (backpropagation) [33].
Datos en el proceso de aprendizaje. Por ejemplo, en las redes
En la mayoría de las redes neuronales, cada nodo de entrada
neuronales los algoritmos genéticos pueden usarse como un
está conectado a otro, y estos a su vez pudieran estar medio para ajustar los pesos reemplazando a la propagación
conectados a otros o a los de salida. Cada arco tiene asociado
Aprendizaje basado en casos
Las técnicas utilizadas para predecir tendencias y valores de
datos en series temporales tratan de identificar los siguientes
En el aprendizaje basado en casos se resuelven nuevos tipos de movimientos:
problemas adaptando las soluciones que fueron utilizadas para
• Movimientos a largo término o tendencias: estos
resolver problemas anteriores. Es especialmente adecuado en
movimientos indican el comportamiento general de la
dominios poco formalizados y donde el aprendizaje juega un
serie en un período largo de tiempo. Ayudan a identificar
papel preponderante [35].
cuál es la tendencia que sigue o ha seguido la serie.
Se parte de almacenar los casos iniciales y al llegar un
• Variaciones cíclicas: representan ciclos que presentan las
nuevo caso se compara con los existentes y se clasifica de
series. Estas variaciones cíclicas pueden o no ser
acuerdo al ejemplo más parecido. Si no se puede asignar a
periódicas. Es decir, los ciclos pueden no ser
ninguno de los ya existentes, se almacena como un caso
completamente iguales después de períodos de tiempos
Para medir la similitud entre dos casos se utiliza una • Movimientos estacionales: estos movimientos se deben a
función de distancia. Entre las más tradicionales están las que
eventos que ocurren con una frecuencia establecida y
trabajan con casos donde todos los atributos son numéricos,
como la distancia euclídea, de Mahalanobis, del coseno, etc.
• Movimientos aleatorios o irregulares: estos movimientos
También existen distancias como la función delta que suele
representan el comportamiento de la serie debido a
ser utilizada para tipos de datos nominales. Además se pueden
eventos aleatorios o semi-aleatorios.
definir distancias específicas para documentos de texto o
El análisis de series temporales es conocido también como
hipertexto, grafos, árboles y cualquier otra estructura de datos
la descomposición de series temporales en estos cuatro
que represente los ejemplos [15].
movimientos básicos.
Las técnicas para identificar tendencias a largo tiempo
F. Minería de Datos para series temporales
habitualmente se tratan con técnicas estadísticas como la regresión. Por lo general se suele primero eliminar los
Muchas bases de datos contienen información que ha sido
movimientos aleatorios suavizando la serie temporal mediante
almacenada cronológicamente en períodos de tiempos el cómputo de la media de un intervalo. Existen otras opciones
constantes, o bien, que puede ser considerada como una para realizar suavizados. Por ejemplo, variar el peso de los
secuencia de eventos. Otras están formadas por series con
valores de las serie para calcular las medias; dar más valor a
observaciones de carácter cronológico que normalmente se
los valores más cercanos en tiempo que a los más lejanos, etc.
realizan de forma repetida y con la misma frecuencia. Este
El coeficiente de auto correlación (o autocorrelación
tipo de series se denominan series temporales. Predecir cómo
simple) y los correlogramas de autocorrelación permiten
evolucionarán las series en el futuro tiene indudables estudiar la existencia de patrones estacionales en la serie.
Luego de descubrir algún tipo de movimiento estacional con
Este tipo de información contiene una serie de período k en la serie temporal, se puede transformar la serie
características especiales, como por ejemplo relaciones para el eliminar el efecto del movimiento estacional. Esto
temporales intrínsecas entre los datos, o bien propiedades no
permite que se puedan descubrir otro tipo de movimientos
detectables directamente. Estas características, en general, no
estacionales secundarios ocultos inicialmente. Además,
pueden ser tratadas directamente por los algoritmos permite que se puedan aplicar herramientas de análisis de
tradicionales de extracción de conocimiento desde bases de
series temporales como ARIMA.
datos, lo cual limita la calidad del conocimiento que se
Las técnicas más comunes para la predicción del
obtiene. Por esta razón surge un área específica de la Minería
comportamiento de series temporales son ARIMA, funciones
de Datos que trata de desarrollar técnicas concretas para el
de transferencia, Auto-Regresión vectorial (VAR) y redes
análisis de series temporales.
artificiales [37]. ARIMA (AutoRegressive Integrated Moving
Los objetivos del estudio de las series temporales son Average) es una metodología se basa en la aplicación de dos
identificar el patrón que rige el comportamiento de los datos
procesos denominados proceso autoregresivo y proceso de
en el tiempo y predecir los valores futuros que tomará la serie
desplazamiento de medias.
Otra técnica utilizada en series temporales para predecir el
La mayoría de las técnicas caen en alguna de las siguientes
comportamiento de series, es buscar secuencias similares a la
categorías [36]: •
presente ocurridas en el pasado, para observar cuál fue la
Análisis de tendencias y predicción: El objetivo es predecir
evolución de la serie y extrapolar esa evolución al presente.
valores futuros en la serie temporal a partir del análisis de
Frecuentemente se emplea la distancia euclídea para medir la
valores históricos.
similitud entre dos secuencias de series temporales
Búsqueda de similitud: Permite encontrar secuencias o sub-
desplazadas un retraso k [38]. Sin embargo, suele ser más
secuencias con características similares entre múltiples habitual aplicar transformaciones sobre la serie de datos ya
tiras de datos temporales.
que muchas técnicas de análisis de señales requieren que los
Análisis de relación: El objetivo es identificar relaciones
datos se encuentren en el dominio de las frecuencias. La
entre varias series temporales. Las relaciones causales son
distancia entre dos señales en el dominio del tiempo es similar
las más populares, las cuales detectan relaciones de a la distancia en el dominio de la frecuencia. Dos
causa-efecto entre múltiples series temporales.
transformaciones de este tipo son la transformada discreta de
La señal electrocardiográfica debe ser digitalizada
Fourier (Discrete Fourier Transform, DFT) y la transformada
utilizando una frecuencia de muestreo de 500 Hz y luego de
discreta de Wavelet (Discrete Wavelet Transform, DWT) ser amplificada, pasada por uno o varios filtros electrónicos [39].
con el objetivo de reducir el espectro de frecuencia al ancho
de banda que resulte de interés [47].
La detección de los complejos QRS es una parte
G. Predicción de complicaciones cardiacas en pacientes
fundamental de los sistemas de análisis computarizado del
coronarios
ECG y de su efectividad depende en gran medida los
El intervalo QT del ECG refleja la duración de los procesos
resultados de las etapas ulteriores. La principal dificultad de la
de despolarización y repolarización ventricular y se mide detección de los complejos QRS radica en la variedad de
desde el inicio del complejo QRS hasta el final de la onda T.
posibles clases morfológicas debido tanto a variaciones en un
La prolongación de este intervalo está asociada con un alto
mismo paciente (variabilidad natural latido a latido,
riesgo de arritmias ventriculares y muerte cardiaca súbita en
movimientos, modificación de las características eléctricas del
varias condiciones clínicas, entre ellas en pacientes que han
cuerpo, etc.), como a variaciones entre pacientes. Por este
sufrido un infarto cardiaco [40, 41].
motivo se deben utilizar técnicas que permitan la
La dispersión espacial del intervalo QT (QTd) se define
identificación del complejo independientemente de la
como la diferencia entre la mayor y la menor duración de los
morfología de los latidos.
intervalos QT cuando se miden de forma simultánea en el
Además, durante el proceso de adquisición de la señal de
electrocardiograma de 12 derivaciones. Su aumento es electrocardiográfica, ésta es contaminada por diferentes
considerado un signo de inestabilidad eléctrica, que reduce el
fuentes de señales espurias [48], de las cuales las más
umbral de fibrilación ventricular y aumenta la susceptibilidad
importantes son:
a las arritmias malignas [42].
• Interferencia de la línea de alimentación eléctrica de
Teóricamente la determinación exacta de QTd requiere de la
adquisición simultánea de las 12 derivaciones. Sin embargo,
• Deficiente contacto de los electrodos con la piel del
en ocasiones no es posible medir el intervalo QT en todas las
derivaciones y no es posible decir cuando alguna de las • Artefactos provocados por movimientos involuntarios del
omitidas contiene los valores extremos necesarios para
calcular la QTd. Para resolver esta situación se han aplicado
• Oscilaciones de la línea base debido a la respiración.
múltiples soluciones. Day et al propuso corregir el error • Contracción de los músculos (ruido electromiográfico).
dividiendo el resultado de la QTd por la raíz cuadrada del
• Ruido generado por dispositivos electrónicos utilizados en
número de derivaciones perdidas y que un mínimo de 6
la digitalización de la señal.
derivaciones debían por ser medidas [7]. Otra sugerencia es
Para reducir el ruido presente en la señal se aplican filtros
utilizar solo un conjunto de las derivaciones estándar digitales lineales. Las frecuencias de corte más utilizadas para
partiendo de la idea de que algunas de ellas contienen los
filtrar digitalmente el ECG están entre 0.5 Hz y 0.67 Hz para
valores extremos [43, 44].
las bajas frecuencias y 35 Hz y 40 Hz para las altas [49]. Esto
Se plantea que cuando es necesaria una determinación evita que sea distorsionada morfológicamente la señal
precisa del intervalo QT, se debe utilizar una fórmula de electrocardiográfica, ya que las señales de más alta frecuencia
corrección que tenga en cuenta la frecuencia cardiaca. Sin
(complejos QRS) no sobrepasan los 35 Hz y las más bajas
embargo, para la medición de la dispersión espacial del (las ondas P y T), no descienden los 0.67 Hz. Además quedan
intervalo QT existen discrepancias respecto a la necesidad del
fuera del intervalo a estudiar las frecuencias correspondientes
uso del intervalo QT corregido con la frecuencia cardiaca
al ruido electromiográfico, la interferencia de la línea de
alimentación, la respiración y el movimiento de los electrodos,
El instante final de la onda T es difícil de precisar pues esta
que afectan la calidad de la señal como ya se explicó.
zona del ECG generalmente está caracterizada por También se recomienda el uso de filtros Notch, de gran
componentes de baja frecuencia que se traducen como un
utilidad para eliminar la interferencia que provoca en la señal
segmento de señal con baja pendiente, en la que no se puede
la línea de alimentación. Básicamente estos filtros rechazan
identificar un cambio abrupto de pendiente o de polaridad que
una frecuencia en particular y dejan pasar todas las otras
facilite el establecimiento del punto buscado [46].
frecuencias [50].
Después de ser detectados los complejos QRS se pasa a la
H. Medición del intervalo QT
clasificación de los mismos con vistas a desechar los latidos
El proceso de medición de la dispersión espacial del ectópicos. Para ello es necesario tener en cuenta el ancho del
intervalo QT parte de determinar el intervalo QT en las 12
complejo QRS (para lo que hay que determinar el inicio y el
derivaciones. Este proceso comienza con la adquisición del
final del complejo), la distancia con respecto a los QRS
ECG, seguida de la detección y clasificación de los complejos
anterior y posterior y el nivel de correlación con un complejo
QRS (representado por las ondas Q, R, S y en ocasiones R') y
que se haya considerado normal.
la detección del inicio de la onda Q y el final de la onda T. A
Por último es necesario detectar el final de la onda T. Los
partir de estas mediciones es posible calcular la duración del
algoritmos automatizados para medir el final de la onda T se
pueden dividir en dos categorías: algoritmos basados en
umbral y algoritmos basados en la intersección de una estimular las investigaciones relacionadas con las señales pendiente y una línea isoeléctrica. La Figura 2 ilustra las
electrocardiográficas y otras señales biomédicas complejas.
características de algunos de estos algoritmos.
Uno de sus componentes, PhysioBank, es un gran archivo de registros digitales de señales fisiológicas y sus datos [52]. En él se almacena hoy día más de 40 bases de datos de registros digitales de datos y señales fisiológicas [53]. Por ejemplo, la base de datos de ECG del Instituto Técnico Cardiológico de San Petersburgo incluye 75 registros de media hora de duración de 12 derivaciones de ECG, pertenecientes a pacientes a los que se les va a realizar pruebas por enfermedad arterial coronaria.
III. RESULTADOS Y DISCUSIONES
Las metodologías SEMMA y CRISP-DM tienen en común
que estructuran el proyecto de KDD en fases que se encuentran interrelacionadas entre sí, transformándolo en un
Figura 2: Diferentes formas de establecer el punto final de la onda T
proceso iterativo e interactivo. La principal diferencia entre
En los algoritmos basados en umbral, este puede ser un
ellas es que la metodología CRISP-DM mantiene una
porcentaje del pico de la onda T, la derivada del pico de la
perspectiva más amplia respecto a los objetivos empresariales
onda T o la integral de la onda T. La metodología de este tipo
del proyecto con la introducción de la fase de comprensión del
de algoritmos es similar a la utilizada en la medición manual.
negocio, mientras SEMMA va más a los aspectos técnicos del
Algunos algoritmos basados en las características de la mismo.
pendiente de la onda T miden la intersección de una línea
Otra diferencia significativa entre la metodología SEMMA
isoeléctrica con:
y la metodología CRISP-DM radica en su relación con las
• una tangente al punto de máxima pendiente de la onda T,
herramientas comerciales. La metodología SEMMA sólo es
• una línea que pasa por el pico de la onda T y el punto de abierta en sus aspectos generales ya que está muy ligada a los
máxima pendiente de la onda o,
productos SAS donde se encuentra implementada. Por su
• una línea de mínimos cuadrados alrededor de la región de parte la metodología CRISP-DM ha sido diseñada como una
máxima pendiente.
metodología neutra respecto a la herramienta que se utilice
En este tipo de algoritmos la metodología difiere de la para el desarrollo del proyecto de Minería de Datos, siendo su
medición manual en que la aproximación al final de la onda T
distribución libre y gratuita y que está en constante
es con una línea recta.
perfeccionamiento.
Otras técnicas se basan en la extrapolación a la línea base
La ausencia de un estándar universalmente reconocido para
con curvas exponencial o parabólica, técnicas de promediado
la medición de la dispersión espacial del intervalo QT no
de latidos sinusales, fórmulas, transformada Wavelet, etc.; en
permite la comparación de los valores reportados. Se
las cuales el procesamiento se torna complicado y requiere de
presentan diferencias en las derivaciones utilizadas para la
muchos recursos.
medición de la dispersión espacial del intervalo QT, el uso o no de fórmulas de corrección y el algoritmo para determinar el
I. Bases de datos de señales de ECG
punto final de la onda T.
Las bases de datos son esenciales para el desarrollo y la
Para desarrollar la investigación se confeccionará una base
evaluación de algoritmos y sistemas para el análisis de datos
de datos de señales electrocardiográficas en la que se
fisiológicos. Son fundamentales para probar los algoritmos
almacenará además del ECG, información clínica de los
con datos reales, y ser capaces de realizar pruebas repetibles y
pacientes y de las condiciones en las que se hizo el registro.
reproducibles para el refinamiento de los mismos. Sin la Los registros electrocardiográficos deben contener realización de pruebas reproducibles no es posible expresar
información de las 12 derivaciones del ECG durante un
con certeza que las diferencias observadas en los resultados de
período de tiempo que nos permita apreciar las variaciones en
un análisis son debidas a diferencias en el método analítico o a
la dispersión del intervalo QT ante complicaciones. Los ECG
diferencias en los datos de entrada.
procederán de pacientes con enfermedades coronarias agudas
Algunos electrocardiógrafos y sistemas
con y sin complicaciones. Se incluirán también pacientes sin
electrocardiográficos permiten almacenar en bases de datos las
enfermedad coronaria que conformaran el grupo de control.
señales de ECG adquiridas o transmitirlas a una computadora
Deben obtenerse registros en diferentes horarios del día con
para su almacenamiento y análisis [51]. En ellas junto a la
vistas a analizar las variaciones circadianas. Algunos de estos
señal de ECG se almacenan datos de los pacientes y las registros pudieran ser extraídos de algunas de las bases de condiciones en que se realizó la grabación. De esta forma es
datos de PhysioBank que cumplan con los requisitos de la
posible conformar una base de datos propia que sirva de investigación. ayuda a las investigaciones.
A partir de las señales de electrocardiográficas, se
En el año 2000 fue creado un medio para la investigación
determinarán los valores de dispersión espacial del intervalo
científica de señales fisiológicas complejas, con el objetivo de
QT para cada minuto de registro. Para ello a intervalos de 1
minuto se tomarán 10 segundos del ECG para calcular un
de complicaciones cardiacas en pacientes coronarios. Este
ciclo promedio por derivación y a partir de estos ciclos se
conocimiento es necesario con vistas a proveer a los
calculará un único valor de dispersión.
especialistas de una herramienta para la predicción de eventos
Además se tendrá en cuenta en el análisis la siguiente adversos.
información de los pacientes y las condiciones en que se realizó el estudio:
• Edad del paciente
WHO, "Cardiovascular diseases. Fact sheet No. 317," World
• Sexo del paciente
Health Organization Febrero 2007 2007.
• Hora de inicio del registro
Aros F. , Marrugat J., Bayon J., and M. J. A., "Datos
epidemiológicos y fisiopatología del infarto agudo del miocardio.,"
# Infartos previos
Revista Española de Cardiología, pp. 3-8, 2001.
• Fracción de eyección del ventrículo izquierdo del [3]
B. Castillo, "Caracterización de los pacientes fallecidos por infarto
del miocardio agudo,"
Revista cubana de medicina intensiva y
emergencias, vol. 6, 25-02-2008 2007.
Diagnóstico al ingreso
V. Valle, Á. Alonso, F. Arós, J. Gutierrez, and G. Sanz, "Guías de
• Tipo de complicación
práctica clínica de la Sociedad Española de Cardiología sobre
• Hora de la complicación
requerimientos y equipamiento de la unidad coronaria,"
Revista
Española de Cardiología vol. 54, pp. 617-623, 2001.
Factores de riesgo:
B. J. Drew, R. M. Califf, M. Funk, E. S. Kaufman, M. W. Krucoff,
M. M. Laks, P. W. Macfarlane, C. Sommargren, S. Swiryn, and G.
F. V. Hare, "Practice Standards for Electrocardiographic
Monitoring in Hospital Settings: An American Heart Association Scientific Statement From the Councils on Cardiovascular Nursing,
Clinical Cardiology, and Cardiovascular Disease in the Young:
Las tareas preliminares de minería propuestas son:
Endorsed by the International Society of Computerized
• Obtener grupos de secuencias o sub-secuencias con
Electrocardiology and the American Association of Critical-Care
características similares entre múltiples series de
Nurses,"
Circulation, pp. 2721-2746, 2004.
C. P. Day, J. M. McComb, and R. W. Campbell, "QT dispersion:
valores de dispersión espacial del intervalo QT.
an indication of arrhythmia risk in patients with long QT intervals,"
• Conocer las relaciones que se establecen entre el
Br. Heart J., vol. 63, pp. 342-344, June 1, 1990 1990.
comportamiento de las series de valores de [7]
C. P. Day, J. M. McComb, J. Matthews, and R. W. Campbell,
dispersión espacial del intervalo QT y las
"Reduction in QT dispersion by sotalol following myocardial infarction,"
Eur Heart J, pp. 423-427, 1991.
características de los pacientes.
C.-C. Lai, H.-C. Hsiao, S.-H. Hsiao, W.-C. Huang, C.-W. Chiou,
• Conocer las relaciones que se establecen entre el
T.-C. Yeh, H.-R. Hwang, Doyal Lee, G.-Y. Mar, S.-K. Lin1, K.-R.
comportamiento de las series de valores de
Chiou, S.-L. Lin, and C.-P. Liu, "Role of Shortened QTc
dispersión espacial del intervalo QT y el horario de
Dispersion in In-hospital Cardiac Events in Patients Undergoing Percutaneous Coronary Intervention for Acute Coronary
Syndrome,"
J Chin Med Assoc, vol. 69, pp. 297-303, julio 2008
• Determinar cómo influye el comportamiento de las
series de valores de dispersión espacial del [9]
T. G. Lyras, V. A. Papapanagiotou, M. G. Foukarakis, F. K. Panou,
intervalo QT en la ocurrencia de complicaciones
N. D. Skampas, J. A. Lakoumentas, C. V. Priftis, and A. A. Zacharoulis, "Evaluation of serial QT dispersion in patients with
first non-Q-wave myocardial infarction: Relation to the severity of underlying coronary artery disease,"
Clinical Cardiology, vol. 26,
IV. CONCLUSIONES
pp. 189-195, 2003.
L. Fei, J. H. Goldman, K. Prasad, P. J. Keeling, K. Reardon, A. J.
La Minería de Datos permite identificar patrones válidos y
Camm, and W. J. McKenna, "QT dispersion and RR variations on
útiles a partir de los datos, y ha sido ampliamente utilizada
12-lead ECGs in patients with congestive heart failure secondary to
para extraer conocimiento en diferentes campos. El análisis de
idiopathic dilated cardiomyopathy,"
Eur. Heart J., vol. 17, pp. 258-263, February 2, 1996 1996.
series temporales es un área específica de la minería que [11]
P. P. Davey, J. Bateman, I. P. Mulligan, C. Forfar, C. Barlow, and
permite el análisis del comportamiento de datos con relaciones
G. Hart, "QT interval dispersion in chronic heart failure and left
temporales intrínsecas entre ellos. Para el estudio del
ventricular hypertrophy: relation to autonomic nervous system and
comportamiento de la dispersión espacial del intervalo QT en
Holter tape abnormalities,"
Br. Heart J., vol. 71, pp. 268-273, March 1, 1994 1994.
el tiempo se aplicarán técnicas de análisis de series [12]
S. Chalil, Z. R. Yousef, S. A. Muyhaldeen, R. E. A. Smith, P.
Jordan, C. R. Gibbs, and F. Leyva, "Pacing-Induced Increase in QT
De entre las metodologías que existen para aplicar un
Dispersion Predicts Sudden Cardiac Death Following Cardiac
proceso de KDD, se decidió aplicar la metodología CRISP-
Resynchronization Therapy,"
J Am Coll Cardiol, vol. 47, pp. 2486-
DM ya que mantiene una perspectiva amplia respecto a los
2492, June 20, 2006 2006.
Piatetski-Shapiro and W. J. Frawley,
Knowledge Discovery in
objetivos empresariales del proyecto. Además, no está ligada a
Databases: Ed.AAAI/MIT Press, 1991.
ninguna herramienta de las que se utilizan para el desarrollo
R. A. BORRACCI and M. RUBIO, "Aplicabilidad de redes
del proyecto de Minería de Datos y al ser de distribución libre
neuronales artificiales para la predicción de los resultados
y gratuita, está en constante perfeccionamiento.
individuales de la cirugía cardíaca. Estudio preliminar,"
REVISTA ARGENTINA DE CARDIOLOGÍA, vol. 71, pp. 351-358, 2003.
La aplicación de un proceso de KDD en el estudio del
J. Hernández Orallo, M. J. Ramírez Quintana, and C. Ferri
comportamiento de la dispersión espacial del intervalo QT en
Ramírez,
Introducción a la Minería de datos. Madrid, 2004.
el tiempo, permitirá determinar su relación con la ocurrencia
B. HEDEN, H. ÖHLIN, R. RITTNER, and L. EDENBRANDT, "Acute myocardial infarction detected in the 12-lead ECG by
artificial neural networks,"
Circulation, vol. 96, pp. 1798-1802,
Mortality in the Elderly : The Rotterdam Study,"
Circulation, vol.
97, pp. 467-472, February 10, 1998 1998.
U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth,
Advanced in
P. W. Macfarlane, S. C. McLaughlin, and J. C. Rodger, "Influence
Knowledge Discovery and Data Mining. MA: MIT Press, 1996.
of lead selection and population on automated measurement of QT
F. J. Martínez de Pisón Ascacibar, "Optimización mediante
dispersion,"
Circulation, pp. 2160-2167, 1998.
técnicas de minería de datos del ciclo de recocido de una línea de
M. Malik and V. N. Batchvarov, "Measurement, interpretation and
galvanizado." vol. GRADO DE DOCTOR EN INGENIERÍA
clinical potential of QT dispersion "
J Am Coll Cardiol, vol. 36, pp.
INDUSTRIAL: Universidad de La Rioja, Departamento de
1749-1766, 2000.
Ingeniería Mecánica, 2003.
M. Cañizares, N. Gomez, R. I. Gonzalez, M. M. Rivero, J.
R. Brito Sarasa, "Minería de Datos aplicada a la Gestión Docente
Folgueras, and G. Meissimilly, "A new method for
del Instituto Superior Politécnico José Antonio Echeverría," Tesis
electrocardiogram study," in
Engineering in Medicine and Biology
para optar por el título de Máster en Informática Aplicada. ISPJAE,
Society, 2003. Proceedings of the 25th Annual International
Conference of the IEEE, 2003, pp. 2643- 2646.
KDnuggets, "KDnuggets : Polls : Data Mining Methodology,"
IEC, "International Standard IEC 60601-2-51 Medical electrical
equipment - Part 2-51: "Particular requirements for safety,
CRISP-DM 1.0 Step-by-step data mining guide, 2000.
including essential performance, of recording and analyzing single
KDnuggets, "KDnuggets : Polls : Data Mining / Analytic Software
and multichannel electrocardiographs," 2003.
(Tools)," 2007
G. M. Friesen, T. C. Jannett, M. A. Jadallah, S. L. Yates, S. R.
SPSS, "Clementine 11.0 - Especificaciones," 2006.
Quint, and H. T. Nagle, "A comparison of the noise sensitivity of
SAS Institute Inc.,
Data Mining Using SAS® Enterprise Miner: A
nine QRS detection algorithms.,"
IEEE Transactions on
Case Study Approach, Second Edition.: SAS Institute Inc., 2003.
Biomedical Engineering, vol. 37, pp. 85-98, 1990.
SAS Institute Inc., "SAS® ENTERPRISE MINER™ 5.3. Fact
P. Kligfield, L. S. Gettes, J. J. Bailey, R. Childers, B. J. Deal, E. W.
Sheet," 2008.
Hancock, G. v. Herpen, J. A. Kors, P. Macfarlane, D. M. Mirvis,
YALE, "RapidMiner Features," 2007.
O. Pahlm, P. Rautaharju, and G. S. Wagner, "Recommendations
J. M. Molina López and J. García Herrero,
Técnicas de análisis de
for the Standardization and Interpretation of the
datos. Aplicaciones prácticas utilizando Microsoft EXCEL y
Electrocardiogram: Part I: The Electrocardiogram and Its
WEKA. Madrid: Universidad Carlos III, 2006.
Technology: A Scientific Statement From the American Heart
Witten and E. Frank,
Data Mining: Practical Machine
Association Electrocardiography and Arrhythmias Committee,
Learning Tools and Techniques, Second Edition: Morgan
Council on Clinical Cardiology; the American College of
Kaufmann Publishers, 2005.
Cardiology Foundation; and the Heart Rhythm Society Endorsed
D. Hand, H. Mannila, and P. Smyth,
Principles of Data Mining:
byt he International Society for Computerized Electrocardiology,"
The MIT Press, 1991.
Circulation, pp. 1306-1324, 2007.
KDnuggets, "KDnuggets : Polls : Data Mining Methods ", 2007
W. J. Tompkins,
Biomedical digital signal processing: Editorial
H. Frigui and O. Nasraoui, "Simultaneous Clustering and Dynamic
Prentice Hall, 1993.
Keyword Weighting for Text Documents," in
Survey of Text
R. Almeida, R. González, and A. Rodríguez, "Sistema para el
Mining Clustering, Classification, and Retrieval, M. W. Berry,
monitoreo continuo de ECG: Cardioestudio," in
IFMBE-
Ed.: Springer-Verlag New York, 2004.
Proceddings 2007, 2007, pp. 175-177.
J. Gehrke, "Clasification and regression trees.," in
Encyclopedia of
A. L. Goldberger, L. A. N. Amaral, L. Glass, J. M. Hausdorff, P. C.
Data Warehousing and Mining: Idea Group Reference, 2006.
Ivanov, R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and H.
Behavioral and Cognitive Modeling of the Human
E. Stanley, "PhysioBank, PhysioToolkit, and PhysioNet :
Brain. Artificial Intelligence and Soft Computing: CRC Press,
Components of a New Research Resource for Complex
Physiologic Signals,"
Circulation, vol. 101, pp. e215-220, June 13,
D. T. Larose,
Data Mining Methods and models: John Wiley &
Sons, Inc, 2006.
PhysioNet, "PhysioBank: physiologic signal archives for
J. M. Juárez Herrero, "Una Aproximación Multimodal al
biomedical research," 2008.
Diagnóstico Temporal Mediante Razonamiento Basado en Casos y
Razonamiento Basado en Modelos. Aplicaciones en Medicina.,"
Revista Iberoamericana de Inteligencia Artificial, 2007.
M. Sayal, "Time Series Analysis and Mining Techniques," in
Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 1120-1124.
V. Cho, "Time Series Data Forescasting," in
Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 1125-1129.
A. Denton, "Clustering of time series data," in
Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 172-175.
C. Dimoulas, G. Kalliris, G. Papanikolaou, and A. Kalampakas, "Long-term signal detection, segmentation and summarization using wavelets and fractal dimension: A bioacoustics application in gastrointestinal-motility monitoring,"
Computers in Biology & Medicine, vol. 37, pp. 438-462, 2007.
O. S. Sychov, O. A. Epanchintseva, and O. I. Gay, "QT interval and its dispersion in patiens with ischemic heart disease and ventricular arrhytmias: Prognosis of cardiac events.,"
Europace, vol. 7, pp. 293-a-, January 1, 2005 2005.
T. Rossenbacker and S. G. Priori, "Clinical diagnosis of long QT syndrome: back to the caliper,"
Eur. Heart J., vol. 28, pp. 527-528, March 1, 2007 2007.
R. Díaz, R. Zayas, and M. Dorantes, "Dispersión del intervalo QT en pacientes con cardiopatía isquémica aguda.,"
Rev Cubana Cardiol Cir Cardiovasc, vol. 14, pp. 17-26, 2000.
M. C. de Bruyne, A. W. Hoes, J. A. Kors, A. Hofman, J. H. van Bemmel, and D. E. Grobbee, "QTc Dispersion Predicts Cardiac
Source: http://ccia.cujae.edu.cu/index.php/siia/siia2008/paper/viewFile/1155/234
Characterisation of Salmonella (09 11406) MAF Technical Paper No: 2011/67 Prepared for MAF Biosecurity Operational Research By Senior Lecturer Daniel Petkov, IVABS, Massey University, Dr. Julie Collins-Emerson, mEpiLab, IVABS, Massey University and Prof. Nigel French, Food Safety &Veterinary Public Health, mEpiLab, IVABS, Massey University
Protein Cell 2014, 5(2):113–123DOI 10.1007/s13238-013-0013-0 Signaling control of the constitutiveandrostane receptor (CAR) Hui Yang, Hongbing Wang& Department of Pharmaceutical Sciences, University of Maryland School of Pharmacy, 20 Penn Street, Baltimore, MD 21201,USA& Correspondence: [email protected] (H. Wang)Received November 24, 2013 Accepted December 7, 2013