Chester Clinic

Sie2003

Predicción de complicaciones cardiacas utilizando Minería de Datos: Estado del Arte Norka Gómez López, René Iván González Fernández, Alejandro Rosete Suárez
Resumen. El electrocardiograma (ECG) ha sido ampliamente
supervivencia y la calidad de vida del paciente afectado de aplicado en el diagnóstico de enfermedades cardiovasculares. El
esta enfermedad, pero su efectividad disminuye cuando no son intervalo QT representa la actividad ventricular en el ECG. La
aplicados tempranamente [3]. dispersión espacial del intervalo QT, calculada como la
Las Unidades de Cuidados Coronarios (UCC) están dotadas diferencia entre la mayor y la menor duración del intervalo QT
de los medios técnicos y de los recursos humanos necesarios medida en las 12 derivaciones del ECG adquiridas para la atención y vigilancia continuada de los pacientes con
simultáneamente, ha emergido como un indicador asociado a
arritmias ventriculares en pacientes cardiacos. Valores elevados
cardiopatías agudas graves y potencialmente recuperables [4]. del mismo se han observado en pacientes coronarios con El uso de técnicas no invasivas como la Electrocardiografía es
complicaciones después de un infarto del miocardio. Usualmente
de gran utilidad en el diagnóstico y monitoreo de este tipo de la dispersión espacial del intervalo QT es estudiada pacientes [5]. En estas condiciones es posible apreciar
puntualmente, reportándose resultados contradictorios sobre su
cambios en la duración, amplitud y morfología de las ondas e valor predictivo.
intervalos del ECG. El gran desarrollo tecnológico de las computadoras en las últimas
El intervalo QT del electrocardiograma (ECG) representa la décadas ha potenciado el almacenamiento de grandes cantidades
actividad ventricular y su variabilidad espacial ha sido de datos a tal punto que extraer conocimiento de los mismos sin
estudiada desde hace más de una década como un indicador de el empleo de herramientas potentes es prácticamente imposible
para el hombre. La Minería de Datos ha venido a suplir esa
aumento de susceptibilidad a arritmias ventriculares [6]. necesidad, ya que permite identificar patrones válidos y útiles a
Existen múltiples reportes de estudio de los valores de partir de los datos. Ha sido ampliamente utilizada para extraer
dispersión espacial del intervalo QT en diferentes situaciones conocimiento en diferentes campos, entre ellos la Medicina.
clínicas [7-10] y de su valor predictivo [6, 11, 12] mediante la En este trabajo se propone emplear técnicas de Minería de Datos
aplicación de técnicas de análisis estadístico. Aunque se ha para estudiar la tendencia de la dispersión espacial del intervalo
observado que los valores de dispersión espacial del intervalo QT como un nuevo indicador que nos permita predecir a corto
QT se encuentran incrementados en pacientes con arritmias plazo complicaciones cardiacas en pacientes coronarios.
cardiacas, los resultados contradictorios de los estudios no han permitido establecer valores de referencia ni definir un criterio
Palabras Claves. Dispersión espacial del intervalo QT, de predicción.
Electrocardiografía, Minería de Datos.
Este trae como consecuencia que no existe un criterio que permita predecir cuando un paciente que se encuentra en cuidados coronarios se va a complicar y los médicos basan sus I. INTRODUCCIÓN decisiones en su experiencia y en la observación de las señales de los pacientes, sin aprovechar el conocimiento oculto en los La Organización Mundial de la Salud (OMS) reporta que La Minería de Datos ha demostrado su utilidad en la las enfermedades cardiovasculares constituyen la primera extracción de conocimiento en situaciones donde el volumen causa de muerte a nivel mundial y de nuestro país [1]. El de datos es muy grande o complejo por la cantidad y el tipo de Infarto del Miocardio Agudo (IMA) es una enfermedad datos que se manipulan. Se puede definir como ¨el conjunto frecuente, de evolución incierta, cuya mortalidad durante la de técnicas y herramientas aplicadas al proceso no trivial de fase aguda se estima entre el 20 y el 50% a pesar de los extraer y presentar conocimiento implícito, previamente avances alcanzados, lo cual justifica que se dediquen desconocido, potencialmente útil y humanamente esfuerzos y recursos para mejorar su pronóstico y perfeccionar comprensible, a partir de grandes conjuntos de datos, con su terapia [2]. Existen fármacos y procederes de probada objeto de predecir de forma automatizada tendencias y efectividad en el mismo, que están destinados a mejorar la comportamientos y/o descubrir de forma automatizada minerías de datos variadas, abiertas y cambiantes. Además modelos previamente desconocidos¨ [13]. facilita la limpieza y la transformación de datos [15]. Ha sido aplicada en la Medicina para la identificación de Selección, limpieza y transformación: En esta fase se
patologías, diagnóstico de enfermedades, detección de eliminan o corrigen los datos incorrectos, y se decide la pacientes con riesgo de sufrir una patología concreta, gestión estrategia a seguir con los datos incompletos; además, se hospitalaria y asistencial, recomendación priorizada de consideran únicamente aquellos atributos que van a ser fármacos para una misma patología, etc. Por ejemplo, Borraci relevantes, con el objetivo de hacer más fácil la tarea propia y Rubio [14] estudiaron la aplicabilidad de las redes de minería. El éxito de un proceso de Minería de Datos neuronales en el pronóstico de resultados quirúrgicos depende, no sólo de tener todos los datos necesarios (una individuales y por grupos de riesgo de la cirugía cardiaca. En buena recopilación), sino de que éstos estén íntegros, la gestión hospitalaria también ha contribuido con completos y consistentes (una buena limpieza e integración) predicciones temporales de los centros asistenciales para el [15]. Esta fase incluye cuatro etapas principales: identificación mejor uso de recursos, consultas, salas y habitaciones [15, 16]. y conversión de tipos en dependencia de las necesidades y de Esta investigación se enmarca en un trabajo cuyo objetivo los algoritmos que se vayan a utilizar, rellenar los datos general es emplear técnicas de Minería de Datos para estudiar inexistentes, identificación de espurios (outliers), y la tendencia de la dispersión espacial del intervalo QT con eliminación de ruido y datos incompletos. Para solucionar los vistas a predecir a corto plazo complicaciones cardiacas en problemas anteriores se pueden utilizar técnicas estadísticas y pacientes coronarios. Para ello se ha desarrollado un estudio de visualización como por ejemplo, los histogramas para la investigativo sobre las metodologías, modelos, tareas y detección de datos anómalos, gráficos de dispersión, cálculos técnicas empleadas para la Minería de Datos y se han de medias, varianzas, correlaciones, análisis multivariante, etc expuesto las tareas de Minería a desarrollar para alcanzar los objetivos propuestos. Minería de Datos: Esta fase consiste en la búsqueda de
patrones y relaciones entre los datos. El resultado de la II. MATERIALES Y MÉTODOS Minería de Datos son conjuntos de reglas, ecuaciones, árboles de decisión, redes neuronales, grafos probabilísticos, etc. En El término descubrimiento de conocimiento en bases de esta fase se aplica el modelo, la tarea, la técnica y el algoritmo datos (Knowledge Discovery in Databases, KDD) se utiliza seleccionado para la obtención de reglas y patrones. En la frecuentemente como sinónimo de Minería de Datos, aunque búsqueda del modelo que aporte la información más útil, en existen claras diferencias entre ambos. KDD es un proceso ocasiones es necesario explorar varios modelos, volviendo que consta de una serie de fases, mientras que la Minería de incluso a las fases anteriores del proceso. Datos es sólo una de estas fases. Evaluación e interpretación: En esta fase se evalúan los
A descubrir conocimiento en bases de datos o KDD se le patrones y se analizan por expertos, y si es necesario, se define como "el proceso no trivial de identificar patrones vuelve a las fases anteriores para una nueva iteración. Para válidos, novedosos, potencialmente útiles y en última realizar la evaluación se entrena el modelo con una parte de instancia, comprensibles a partir de los datos" [17]. los datos y luego se valida con los restantes. Dependiendo de Un proceso clásico de KDD consta de 5 fases la tarea de Minería de Datos existen diferentes medidas de fundamentales: integración y recopilación; selección, limpieza evaluación de los modelos [19]. Para la interpretación por y transformación; Minería de Datos; evaluación e parte de los usuarios del conocimiento que aportan los interpretación; y difusión y uso. Las dos primeras fases suelen modelos aprendidos, se pueden aplicar técnicas como la englobarse base el nombre de preparación de datos [15]. visualización de modelos, o visualización posterior [15]. Además de las fases anteriores, frecuentemente se incluye una Difusión: Esta fase tiene como fin el empleo de forma
fase previa de análisis de las necesidades de la organización y correcta del modelo aprendido en el contexto de la aplicación definición del problema, en la que se conoce el desarrollo y real y de los usuarios para los cuales se inició el proceso de dominio de la aplicación y se establecen los objetivos finales extracción de conocimiento. Es aconsejable, transcurrido que se pretenden lograr y los criterios de rendimiento. A esta cierto tiempo, realizar una revisión y actualización de los fase se le denomina entendimiento del dominio y en ella se modelos para ver si se ajustan a la nueva situación de la emplea, junto a la preparación de los datos, el 80% del organización. esfuerzo total de realizar un proceso de KDD [18]. KDD es un proceso iterativo pues la salida de alguna de las Integración y recopilación: En esta fase se determinan las
fases puede hacer volver a pasos anteriores y porque a fuentes de información que pueden ser útiles y dónde menudo son necesarias varias iteraciones para extraer conseguirlas; se transforman todos los datos a un formato conocimiento de alta calidad. También precisa de la común, y se detectan y resuelven las inconsistencias. La interacción del usuario o experto en el dominio del problema, obtención de los datos puede realizarse directamente desde el cual debe colaborar en la preparación de los datos y a la sistemas transaccionales, archivos o a partir de un almacén de validación del conocimiento extraído, entre otras actividades. datos. Los almacenes de datos no son estrictamente necesarios A. Metodologías para llevar a cabo un proceso de KDD para realizar Minería de Datos, aunque sí extremadamente El desarrollo de un proceso de KDD no es trivial y la útiles si se va a trabajar con grandes volúmenes de datos, que existencia de una guía para llevarlo a cabo permite organizar varían con el tiempo y donde se desea realizar tareas de los recursos materiales y humanos de forma eficiente [15]. Entre las metodologías más utilizadas internacionalmente se 5. Valorar (Assess): Valoración del modelo. encuentran CRISP-DM y SEMMA, aunque en ocasiones los La ejecución de sus fases no está descrita de forma rígida, desarrolladores emplean metodologías propias [20]. por lo que no es necesario terminar una antes de comenzar otra, conservando así, la iterabilidad y ciclicidad del proceso. Metodología CRISP-DM [21] B. Herramientas para realizar un análisis de los datos La metodología CRISP-DM (CRoss-Industry Standard Actualmente existen gran cantidad de herramientas Processfor Data Mining) es una de las más difundidas y diseñados para apoyar el análisis de los datos durante un utilizadas. Está descrita como un proceso jerárquico que proceso de KDD. Algunas de estas herramientas son consiste en un conjunto de tareas descritas en cuatro niveles propietarias y otras de distribución libre. Entre las de abstracción, desde el general hasta el específico: fase, herramientas propietarias se encuentran: SPSS Clementine, tareas generales, tareas específicas e instancias de proceso. SAS Enterprise Miner, SQL Server, Oracle Data Mining Suite La metodología CRISP-DM estructura el ciclo de vida de (Darwin) y DB2 Intelligent Miner. Entre las herramientas un proyecto de KDD en seis fases, que interactúan entre ellas libres están: WEKA y RadpidMiner (YALE). de forma iterativa durante el desarrollo del proyecto. A continuación se exponen las principales características de 1. Comprensión del Negocio: Se determinan los objetivos las herramientas más utilizadas entre las mencionadas [22]. del negocio, se evalúa la situación y se elabora el plan del SPSS Clementine [23]: Es una herramienta visual
desarrollada por ISL (Integral Solutions Limited) y 2. Comprensión de los Datos: Se recopilan los datos comercializada por SPSS que constituye uno de los sistemas iniciales, se describen, se exploran y se verifica la calidad de más populares en el mercado. Entre sus características más significativas se destaca el hecho de que a diferencia de otras 3. Preparación de los Datos: Se seleccionan los datos, se herramientas que se centran en el modelado, ella apoya el limpian, construyen, integran y estructuran para ser minados. ciclo completo de KDD y está diseñada bajo la metodología 4. Modelado: Se seleccionan las técnicas de modelado, se CRISP-DM. Posee una arquitectura distribuida genera el diseño del experimento y se construyen y evalúan (cliente/servidor). Permite el uso de técnicas de aprendizaje tales como: redes neuronales, árboles de decisión (C5.0 y 5. Evaluación: Se valoran los resultados, se revisa el CART), agrupamiento (K-Medias), reglas de asociación (GRI, proceso y se determinan las próximas acciones. A priori, etc.), regresión lineal y regresión logística, entre 6. Despliegue: Se traza la estrategia de empleo de los otras. Posee un potente soporte gráfico que permite al usuario resultados, y se planifica el mantenimiento del proceso, tener una visión global de todo el proceso y que comprende además, se documentan las experiencias. gráficos estadísticos, gráficos 3-D y animados, visualizadores Esta metodología permite retrocesos entre varias de sus interactivos de las diferentes tareas que realiza el experto y fases para volver a analizar los resultados obtenidos. Además, navegadores para árboles de decisión, reglas de asociación, el proyecto se torna cíclico, pues este no se termina una vez redes neuronales de Kohonen, agrupamientos, etc. Permite que la solución es desplegada, ya que las informaciones trabajar con datos estructurados (tabulares) en diferentes obtenidas pueden provocar nuevas preguntas enfocadas en el formatos de bases de datos, archivos de texto y hojas de negocio, donde los procesos de minería subsecuentes se cálculo de Excel. También permite hacer minería de texto y beneficiarán de las experiencias previas. minería Web. SPSS Clementine es un sistema multiplataforma. La aplicación está disponible para sistemas Metodología Semma Windows, Sun Solaris, HP-UX AIX y OS/400. SAS Enterprise Miner [24, 25]: Es una herramienta
La metodología Semma fue desarrollada por SAS Institute y comercial proporcionada por SAS. Su diseño está inspirado se define como el proceso de selección, exploración y por la metodología SEMMA. Entre sus características más modelado de grandes cantidades de datos para descubrir significativas se encuentra el hecho de que posee una patrones de negocio desconocidos. arquitectura distribuida y una potente interfaz gráfica de Su nombre es el acrónimo correspondiente a las cinco fases usuario. La herramienta tiene soporte para almacenes de datos básicas del proceso: y permite trabajar con archivos en un formato propio de SAS 1. Muestreo (Sample): Extracción de la población muestral y de sistemas de bases de datos comerciales. Incluye técnicas sobre la que se va a aplicar el análisis. para ayudar al pre-procesado de datos. Además implementa 2. Explorar (Explore): Determinar cuáles son las variables algoritmos que proveen modelos predictivos y descriptivos, explicativas que van a servir como entradas al modelo. tales como árboles de decisión, redes neuronales, asociación, 3. Modificar (Modify): Tratamiento realizado sobre los agrupamiento, entre otros. Permite la visualización y datos de forma previa a la modelización, de forma que se representación de los resultados mediante información en definan claramente las entradas del modelo a realizar. lenguaje natural, gráficos en dos o tres dimensiones y un 4. Modelo (Model): Permite establecer una relación entre generador automático de reportes que resume los resultados en las variables explicativas y las variables objeto del estudio, un informe HTML. Tanto el programa cliente como servidor que posibilitan inferir el valor de las mismas con un nivel de de SAS Enterprise Manager, puede ser trasladado a diferentes confianza determinado. plataformas: Windows, Linux, Solaris, HP-UX, Digital Unix, etc. RapidMiner (YALE) [26]: Fue implementado en Java por
a ser resuelto por un algoritmo de Minería de Datos. Entre las la Universidad de Dortmund para la realización de tareas más importantes de la Minería de Datos se encuentran: experimentos de aprendizaje automático. Funciona en los clasificación, regresión (predicción o estimación), sistemas operativos Windows y Linux. Es un software de agrupamiento (clustering o segmentación), correlación y código abierto y de libre distribución. Se retroalimenta de las asociación. Las tres primeras se agrupan bajo del nombre de librerías de funciones de WEKA en su entorno de aprendizaje. MD directa o sea que se tiene definido el objetivo y las tres En julio del 2007 cambió su nombre por RapidMiner. Permite últimas reciben el nombre de MD indirecta o sea no se sabe la entrada de datos en formato Microsoft Excel y SPSS. aún a ciencia cierta qué resultados se quieren obtener [15]. Incluye operadores para el aprendizaje automático (máquina Clasificación: En ella, cada instancia (o registro de la vista
de vectores soporte, árboles de decisión, agrupamiento y minable) pertenece a una clase, la cual se indica mediante el algoritmos genéticos). Desde la perspectiva de la visualización valor del atributo a predecir, el cual puede tomar solamente ofrece representaciones de datos en dispersión en 2D y 3D; valores discretos, cada uno de ellos correspondiente a una coordenadas paralelas y grandes posibilidades de transformar clase. El resto de los atributos de la instancia y que son las visualizaciones de los datos. relevantes a la clase, se utilizan para predecir la misma. El WEKA (Waikato Enviroment for Knowledge Analysis)
objetivo de esta tarea es predecir la clase de nuevas instancias [27, 28]: Es una de las aplicaciones de minería más populares, de las que se desconoce la clase. De ahí que un algoritmo de desarrollada por un equipo de investigadores de la clasificación persigue maximizar la razón de precisión de las Universidad de Waikato (Nueva Zelanda). Una de las ventajas nuevas instancias, la cual se calcula como el cociente entre las fundamentales de esta herramienta es que su desarrollo sobre predicciones correctas y el número total de predicciones. La el lenguaje java la hace multiplataforma. Además, el hecho de tarea de clasificación es una de las que más frecuentemente se ser de código abierto unido a su prestigio, hace que se usa en la Minería de Datos [15, 30]. encuentre en constante evolución por parte de la comunidad Regresión: También llamada predicción o estimación.
internacional. El formato de entrada de los datos es un archivo Consiste en aprender una función real que asigna a cada plano organizado en filas y columnas (formato ARFF). instancia un valor real. Se diferencia de la clasificación en que Incluye una gran cantidad de filtros para el preprocesado de el valor a predecir es numérico. El objetivo en este caso es los datos. Está formado por una serie de paquetes de código minimizar el error (generalmente el error cuadrático medio) abierto con diferentes implementaciones de las técnicas de entre el valor predicho y el valor real. clasificación, asociación, agrupamiento y visualización de Agrupamiento (clustering): Tarea descriptiva que consiste
datos. Posee una interfaz gráfica de usuario compuesta de en obtener grupos a partir de los datos, basándose en el cuatro entornos que permiten diferentes funcionalidades y principio de maximizar la similitud entre los elementos de un formas de análisis. grupo a la vez que se minimiza la similitud entre los distintos grupos. Al agrupamiento también se le puede llamar segmentación ya que parte o segmenta los datos en grupos que C. Modelos de Minería de Datos pueden o no ser disjuntos [15]. Una aplicación del Los modelos constituyen la forma de representar el agrupamiento en la minería de texto y en los sistemas de conocimiento obtenido a partir de los datos analizados, ya sea recuperación de información es para mejorar su precisión y en forma de relaciones, patrones o reglas, o como un resumen para la organización y personalización de los resultados de los descriptivo de los mismos. La forma de representar un modelo motores de búsqueda [31]. está determinada por la tarea de Minería de Datos escogida, el Correlación: Se usa para examinar el grado de similitud de
tipo de técnica empleada, y el algoritmo implementado para los valores de dos variables numéricas. Una fórmula estándar realizarlo. Los modelos pueden ser de dos tipos: predictivos o para medir la correlación lineal es el coeficiente de correlación r, el cual es un valor real comprendido entre -1 y 1. Si r es 1 En los modelos predictivos una de las variables es (respectivamente, -1) las variables están perfectamente expresada en función de las otras. Esto permite estimar o correlacionadas (perfectamente correlacionadas predecir valores futuros de las variables objetivo o negativamente), mientras que si es O no hay correlación. Esto dependientes, partiendo de otros datos que se consideran quiere decir que cuando r es positivo, las variables tienen un influyentes en su comportamiento. Entre las tareas que comportamiento similar (ambas crecen o decrecen al mismo producen modelos predictivos están la clasificación y la tiempo) y cuando r es negativo si una variable crece la otra regresión [29]. Los modelos descriptivos tienen como objetivo la Asociación: Tiene como objetivo identificar relaciones no
descripción total de los datos y posibilitan explorar las explícitas entre atributos categóricos. Este análisis permite propiedades de los datos que se examinan e identificar descubrir correlaciones o concurrencias en los sucesos de los patrones que explican, resumen o caracterizan los mismos. datos a analizar y se formaliza generalmente en la obtención Entre las tareas que producen modelos de este tipo se de reglas de tipo: "SI el atributo X toma el valor d entonces el encuentran el agrupamiento, la asociación y la correlación atributo Y toma el valor b". En la parte derecha de las reglas [21]de asociación puede aparecer cualquier atributo, y además D. Tareas de Minería de Datos puede aparecer más de un atributo. Las reglas de asociación se evalúan usando dos parámetros: soporte (o cobertura) y Un tipo de tarea de Minería de Datos es un tipo de problema confianza. El soporte de una regla se define como el número de instancias que la regla predice correctamente y la confianza un peso numérico, y en cada nodo excepto en los de entrada, mide el porcentaje de veces que la regla se cumple cuando se hay una función de activación que determina la salida del puede aplicar, es decir, cuando se cumple su antecedente. Un mismo. Cuando un nodo recibe las entradas o estímulos de caso especial de reglas de asociación, son las reglas de otros, los procesa para producir una salida que transmite al asociación secuenciales que se usan para determinar patrones siguiente. La señal de salida tendrá una intensidad, fruto de la secuenciales en los datos [15]. combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un E. Técnicas de Minería de Datos valor distinto para cada par de neuronas que conectan y son Existen diferentes paradigmas detrás de las técnicas modificados durante el proceso de entrenamiento pudiendo así utilizadas para la Minería de Datos: técnicas de inferencia fortalecer o debilitar la conexión o comunicación entre estadística, árboles de decisión, redes neuronales, inducción neuronas particulares. de reglas, aprendizaje basado en instancias, algoritmos Las redes neuronales pueden usarse en problemas de genéticos, aprendizaje bayesiano, programación lógica clasificación, de regresión y de agrupamiento. Son capaces de inductiva y varios tipos de métodos basados en núcleos, entre trabajar con información incompleta, con ruido o inconsistente. Trabajan directamente con datos numéricos, por A continuación se explican algunos de los más utilizados: lo que para usarlas con datos nominales primeramente éstos deben transformarse a números. Su mayor desventaja es que el Árboles de decisión modelo aprendido es difícilmente comprensible. Tienen una gran capacidad de generalización para problemas no lineales, Un árbol de decisión es una serie de decisiones o aunque requieren bastantes datos para su entrenamiento Los condiciones organizadas en forma jerárquica que van dos tipos principales de aprendizaje son aprendizaje separando el problema siguiendo la técnica del divide y supervisado y aprendizaje no supervisado [15]. vencerás, hasta llegar a las hojas del árbol que determinan la clase o grupo a la que pertenece el registro o individuo. Cada Algoritmos genéticos rama de un árbol de decisión puede interpretarse como una regla donde los nodos internos constituyen el antecedente de Los algoritmos genéticos siguen los patrones de la la regla, y la clase asignada en la hoja es el consecuente. En su evolución biológica (mutación y cruce) para ir mejorando una forma más habitual, las opciones posibles son excluyentes, a solución en función de sus valores iniciales. La mutación partir de una determinada condición. [28]. ocurre cuando alguna solución cambia, bien de forma Un árbol de decisión usualmente es construido en dos fases. aleatoria o controlada, mientras que el cruce se obtiene cuando En una primera fase se construye un árbol amplio y profundo se construye una nueva solución a partir de dos contribuciones que cubre todos los datos de entrenamiento. En una segunda procedentes de otras soluciones [34]. fase, la fase de poda, el tamaño final del árbol es determinado Los datos son convertidos a formato binario y, partiendo de con el objetivo de obtener modelos más generales [32]. una solución inicial o cromosoma y a través de múltiples Puede utilizarse en tareas de clasificación, agrupamiento, iteraciones, los modelos se combinan para crear nuevos regresión y estimación de probabilidades. Se emplea el modelos. Para ello, se usa una función de adaptación o de término árboles de clasificación cuando los árboles de optimalidad (fttness function), que selecciona los mejores decisión son usados para predecir variables categóricas y a modelos que sobrevivirán o serán cruzados. Este ciclo árboles de regresión cuando se usan para predecir variables evolutivo continúa hasta que se verifique una determinada condición de parada: que se hayan realizado un determinado Existen muchos algoritmos de construcción de árboles de número máximo de evaluaciones de individuos, que la decisión entre ellos el C4.5, ID3, CART y ASSISTANT que población haya evolucionado durante un número máximo de se diferencian fundamentalmente en las en las estrategias de generaciones, que se haya alcanzado una solución con un poda y en la regla adoptada para dividir los nodos [15, 18]. determinado valor de la función de adaptación (o de parte de ella), que se estacione la población por no generarse Redes neuronales individuos nuevos durante un determinado número de generaciones, etc. [15] Las redes neuronales es un método conexionista inspirado Los distintos algoritmos genéticos difieren en la forma en en el funcionamiento del cerebro humano. Pueden ser vistas que se representan los modelos, cómo se combinan los como una red de neuronas interconectadas para formar una individuos, si existen mutaciones y cómo son éstas, y cómo se red. Dependiendo de la naturaleza del problema, la red usa la función de adaptación. neuronal artificial es organizada en topologías diferentes, En la Minería de Datos, los algoritmos genéticos se pueden entre ellas perceptrón simple, redes multicapa, redes de base usar para el agrupamiento, la clasificación y las reglas de radial, redes de Kohonen, etc., con no menos algoritmos asociación, así como para la selección de atributos. También diferentes para cada forma de organización; el más conocido pueden usarse para guiar a otros algoritmos de Minería de es el de retropropagación (backpropagation) [33]. Datos en el proceso de aprendizaje. Por ejemplo, en las redes En la mayoría de las redes neuronales, cada nodo de entrada neuronales los algoritmos genéticos pueden usarse como un está conectado a otro, y estos a su vez pudieran estar medio para ajustar los pesos reemplazando a la propagación conectados a otros o a los de salida. Cada arco tiene asociado Aprendizaje basado en casos Las técnicas utilizadas para predecir tendencias y valores de datos en series temporales tratan de identificar los siguientes En el aprendizaje basado en casos se resuelven nuevos tipos de movimientos: problemas adaptando las soluciones que fueron utilizadas para • Movimientos a largo término o tendencias: estos resolver problemas anteriores. Es especialmente adecuado en movimientos indican el comportamiento general de la dominios poco formalizados y donde el aprendizaje juega un serie en un período largo de tiempo. Ayudan a identificar papel preponderante [35]. cuál es la tendencia que sigue o ha seguido la serie. Se parte de almacenar los casos iniciales y al llegar un • Variaciones cíclicas: representan ciclos que presentan las nuevo caso se compara con los existentes y se clasifica de series. Estas variaciones cíclicas pueden o no ser acuerdo al ejemplo más parecido. Si no se puede asignar a periódicas. Es decir, los ciclos pueden no ser ninguno de los ya existentes, se almacena como un caso completamente iguales después de períodos de tiempos Para medir la similitud entre dos casos se utiliza una • Movimientos estacionales: estos movimientos se deben a función de distancia. Entre las más tradicionales están las que eventos que ocurren con una frecuencia establecida y trabajan con casos donde todos los atributos son numéricos, como la distancia euclídea, de Mahalanobis, del coseno, etc. • Movimientos aleatorios o irregulares: estos movimientos También existen distancias como la función delta que suele representan el comportamiento de la serie debido a ser utilizada para tipos de datos nominales. Además se pueden eventos aleatorios o semi-aleatorios. definir distancias específicas para documentos de texto o El análisis de series temporales es conocido también como hipertexto, grafos, árboles y cualquier otra estructura de datos la descomposición de series temporales en estos cuatro que represente los ejemplos [15]. movimientos básicos. Las técnicas para identificar tendencias a largo tiempo F. Minería de Datos para series temporales habitualmente se tratan con técnicas estadísticas como la regresión. Por lo general se suele primero eliminar los Muchas bases de datos contienen información que ha sido movimientos aleatorios suavizando la serie temporal mediante almacenada cronológicamente en períodos de tiempos el cómputo de la media de un intervalo. Existen otras opciones constantes, o bien, que puede ser considerada como una para realizar suavizados. Por ejemplo, variar el peso de los secuencia de eventos. Otras están formadas por series con valores de las serie para calcular las medias; dar más valor a observaciones de carácter cronológico que normalmente se los valores más cercanos en tiempo que a los más lejanos, etc. realizan de forma repetida y con la misma frecuencia. Este El coeficiente de auto correlación (o autocorrelación tipo de series se denominan series temporales. Predecir cómo simple) y los correlogramas de autocorrelación permiten evolucionarán las series en el futuro tiene indudables estudiar la existencia de patrones estacionales en la serie. Luego de descubrir algún tipo de movimiento estacional con Este tipo de información contiene una serie de período k en la serie temporal, se puede transformar la serie características especiales, como por ejemplo relaciones para el eliminar el efecto del movimiento estacional. Esto temporales intrínsecas entre los datos, o bien propiedades no permite que se puedan descubrir otro tipo de movimientos detectables directamente. Estas características, en general, no estacionales secundarios ocultos inicialmente. Además, pueden ser tratadas directamente por los algoritmos permite que se puedan aplicar herramientas de análisis de tradicionales de extracción de conocimiento desde bases de series temporales como ARIMA. datos, lo cual limita la calidad del conocimiento que se Las técnicas más comunes para la predicción del obtiene. Por esta razón surge un área específica de la Minería comportamiento de series temporales son ARIMA, funciones de Datos que trata de desarrollar técnicas concretas para el de transferencia, Auto-Regresión vectorial (VAR) y redes análisis de series temporales. artificiales [37]. ARIMA (AutoRegressive Integrated Moving Los objetivos del estudio de las series temporales son Average) es una metodología se basa en la aplicación de dos identificar el patrón que rige el comportamiento de los datos procesos denominados proceso autoregresivo y proceso de en el tiempo y predecir los valores futuros que tomará la serie desplazamiento de medias. Otra técnica utilizada en series temporales para predecir el La mayoría de las técnicas caen en alguna de las siguientes comportamiento de series, es buscar secuencias similares a la categorías [36]: • presente ocurridas en el pasado, para observar cuál fue la Análisis de tendencias y predicción: El objetivo es predecir evolución de la serie y extrapolar esa evolución al presente. valores futuros en la serie temporal a partir del análisis de Frecuentemente se emplea la distancia euclídea para medir la valores históricos. similitud entre dos secuencias de series temporales Búsqueda de similitud: Permite encontrar secuencias o sub- desplazadas un retraso k [38]. Sin embargo, suele ser más secuencias con características similares entre múltiples habitual aplicar transformaciones sobre la serie de datos ya tiras de datos temporales. que muchas técnicas de análisis de señales requieren que los Análisis de relación: El objetivo es identificar relaciones datos se encuentren en el dominio de las frecuencias. La entre varias series temporales. Las relaciones causales son distancia entre dos señales en el dominio del tiempo es similar las más populares, las cuales detectan relaciones de a la distancia en el dominio de la frecuencia. Dos causa-efecto entre múltiples series temporales. transformaciones de este tipo son la transformada discreta de La señal electrocardiográfica debe ser digitalizada Fourier (Discrete Fourier Transform, DFT) y la transformada utilizando una frecuencia de muestreo de 500 Hz y luego de discreta de Wavelet (Discrete Wavelet Transform, DWT) ser amplificada, pasada por uno o varios filtros electrónicos [39]. con el objetivo de reducir el espectro de frecuencia al ancho de banda que resulte de interés [47]. La detección de los complejos QRS es una parte G. Predicción de complicaciones cardiacas en pacientes fundamental de los sistemas de análisis computarizado del coronarios ECG y de su efectividad depende en gran medida los El intervalo QT del ECG refleja la duración de los procesos resultados de las etapas ulteriores. La principal dificultad de la de despolarización y repolarización ventricular y se mide detección de los complejos QRS radica en la variedad de desde el inicio del complejo QRS hasta el final de la onda T. posibles clases morfológicas debido tanto a variaciones en un La prolongación de este intervalo está asociada con un alto mismo paciente (variabilidad natural latido a latido, riesgo de arritmias ventriculares y muerte cardiaca súbita en movimientos, modificación de las características eléctricas del varias condiciones clínicas, entre ellas en pacientes que han cuerpo, etc.), como a variaciones entre pacientes. Por este sufrido un infarto cardiaco [40, 41]. motivo se deben utilizar técnicas que permitan la La dispersión espacial del intervalo QT (QTd) se define identificación del complejo independientemente de la como la diferencia entre la mayor y la menor duración de los morfología de los latidos. intervalos QT cuando se miden de forma simultánea en el Además, durante el proceso de adquisición de la señal de electrocardiograma de 12 derivaciones. Su aumento es electrocardiográfica, ésta es contaminada por diferentes considerado un signo de inestabilidad eléctrica, que reduce el fuentes de señales espurias [48], de las cuales las más umbral de fibrilación ventricular y aumenta la susceptibilidad importantes son: a las arritmias malignas [42]. • Interferencia de la línea de alimentación eléctrica de Teóricamente la determinación exacta de QTd requiere de la adquisición simultánea de las 12 derivaciones. Sin embargo, • Deficiente contacto de los electrodos con la piel del en ocasiones no es posible medir el intervalo QT en todas las derivaciones y no es posible decir cuando alguna de las • Artefactos provocados por movimientos involuntarios del omitidas contiene los valores extremos necesarios para calcular la QTd. Para resolver esta situación se han aplicado • Oscilaciones de la línea base debido a la respiración. múltiples soluciones. Day et al propuso corregir el error • Contracción de los músculos (ruido electromiográfico). dividiendo el resultado de la QTd por la raíz cuadrada del • Ruido generado por dispositivos electrónicos utilizados en número de derivaciones perdidas y que un mínimo de 6 la digitalización de la señal. derivaciones debían por ser medidas [7]. Otra sugerencia es Para reducir el ruido presente en la señal se aplican filtros utilizar solo un conjunto de las derivaciones estándar digitales lineales. Las frecuencias de corte más utilizadas para partiendo de la idea de que algunas de ellas contienen los filtrar digitalmente el ECG están entre 0.5 Hz y 0.67 Hz para valores extremos [43, 44]. las bajas frecuencias y 35 Hz y 40 Hz para las altas [49]. Esto Se plantea que cuando es necesaria una determinación evita que sea distorsionada morfológicamente la señal precisa del intervalo QT, se debe utilizar una fórmula de electrocardiográfica, ya que las señales de más alta frecuencia corrección que tenga en cuenta la frecuencia cardiaca. Sin (complejos QRS) no sobrepasan los 35 Hz y las más bajas embargo, para la medición de la dispersión espacial del (las ondas P y T), no descienden los 0.67 Hz. Además quedan intervalo QT existen discrepancias respecto a la necesidad del fuera del intervalo a estudiar las frecuencias correspondientes uso del intervalo QT corregido con la frecuencia cardiaca al ruido electromiográfico, la interferencia de la línea de alimentación, la respiración y el movimiento de los electrodos, El instante final de la onda T es difícil de precisar pues esta que afectan la calidad de la señal como ya se explicó. zona del ECG generalmente está caracterizada por También se recomienda el uso de filtros Notch, de gran componentes de baja frecuencia que se traducen como un utilidad para eliminar la interferencia que provoca en la señal segmento de señal con baja pendiente, en la que no se puede la línea de alimentación. Básicamente estos filtros rechazan identificar un cambio abrupto de pendiente o de polaridad que una frecuencia en particular y dejan pasar todas las otras facilite el establecimiento del punto buscado [46]. frecuencias [50]. Después de ser detectados los complejos QRS se pasa a la H. Medición del intervalo QT clasificación de los mismos con vistas a desechar los latidos El proceso de medición de la dispersión espacial del ectópicos. Para ello es necesario tener en cuenta el ancho del intervalo QT parte de determinar el intervalo QT en las 12 complejo QRS (para lo que hay que determinar el inicio y el derivaciones. Este proceso comienza con la adquisición del final del complejo), la distancia con respecto a los QRS ECG, seguida de la detección y clasificación de los complejos anterior y posterior y el nivel de correlación con un complejo QRS (representado por las ondas Q, R, S y en ocasiones R') y que se haya considerado normal. la detección del inicio de la onda Q y el final de la onda T. A Por último es necesario detectar el final de la onda T. Los partir de estas mediciones es posible calcular la duración del algoritmos automatizados para medir el final de la onda T se pueden dividir en dos categorías: algoritmos basados en umbral y algoritmos basados en la intersección de una estimular las investigaciones relacionadas con las señales pendiente y una línea isoeléctrica. La Figura 2 ilustra las electrocardiográficas y otras señales biomédicas complejas. características de algunos de estos algoritmos. Uno de sus componentes, PhysioBank, es un gran archivo de registros digitales de señales fisiológicas y sus datos [52]. En él se almacena hoy día más de 40 bases de datos de registros digitales de datos y señales fisiológicas [53]. Por ejemplo, la base de datos de ECG del Instituto Técnico Cardiológico de San Petersburgo incluye 75 registros de media hora de duración de 12 derivaciones de ECG, pertenecientes a pacientes a los que se les va a realizar pruebas por enfermedad arterial coronaria. III. RESULTADOS Y DISCUSIONES Las metodologías SEMMA y CRISP-DM tienen en común que estructuran el proyecto de KDD en fases que se encuentran interrelacionadas entre sí, transformándolo en un Figura 2: Diferentes formas de establecer el punto final de la onda T proceso iterativo e interactivo. La principal diferencia entre En los algoritmos basados en umbral, este puede ser un ellas es que la metodología CRISP-DM mantiene una porcentaje del pico de la onda T, la derivada del pico de la perspectiva más amplia respecto a los objetivos empresariales onda T o la integral de la onda T. La metodología de este tipo del proyecto con la introducción de la fase de comprensión del de algoritmos es similar a la utilizada en la medición manual. negocio, mientras SEMMA va más a los aspectos técnicos del Algunos algoritmos basados en las características de la mismo. pendiente de la onda T miden la intersección de una línea Otra diferencia significativa entre la metodología SEMMA isoeléctrica con: y la metodología CRISP-DM radica en su relación con las • una tangente al punto de máxima pendiente de la onda T, herramientas comerciales. La metodología SEMMA sólo es • una línea que pasa por el pico de la onda T y el punto de abierta en sus aspectos generales ya que está muy ligada a los máxima pendiente de la onda o, productos SAS donde se encuentra implementada. Por su • una línea de mínimos cuadrados alrededor de la región de parte la metodología CRISP-DM ha sido diseñada como una máxima pendiente. metodología neutra respecto a la herramienta que se utilice En este tipo de algoritmos la metodología difiere de la para el desarrollo del proyecto de Minería de Datos, siendo su medición manual en que la aproximación al final de la onda T distribución libre y gratuita y que está en constante es con una línea recta. perfeccionamiento. Otras técnicas se basan en la extrapolación a la línea base La ausencia de un estándar universalmente reconocido para con curvas exponencial o parabólica, técnicas de promediado la medición de la dispersión espacial del intervalo QT no de latidos sinusales, fórmulas, transformada Wavelet, etc.; en permite la comparación de los valores reportados. Se las cuales el procesamiento se torna complicado y requiere de presentan diferencias en las derivaciones utilizadas para la muchos recursos. medición de la dispersión espacial del intervalo QT, el uso o no de fórmulas de corrección y el algoritmo para determinar el I. Bases de datos de señales de ECG punto final de la onda T. Las bases de datos son esenciales para el desarrollo y la Para desarrollar la investigación se confeccionará una base evaluación de algoritmos y sistemas para el análisis de datos de datos de señales electrocardiográficas en la que se fisiológicos. Son fundamentales para probar los algoritmos almacenará además del ECG, información clínica de los con datos reales, y ser capaces de realizar pruebas repetibles y pacientes y de las condiciones en las que se hizo el registro. reproducibles para el refinamiento de los mismos. Sin la Los registros electrocardiográficos deben contener realización de pruebas reproducibles no es posible expresar información de las 12 derivaciones del ECG durante un con certeza que las diferencias observadas en los resultados de período de tiempo que nos permita apreciar las variaciones en un análisis son debidas a diferencias en el método analítico o a la dispersión del intervalo QT ante complicaciones. Los ECG diferencias en los datos de entrada. procederán de pacientes con enfermedades coronarias agudas Algunos electrocardiógrafos y sistemas con y sin complicaciones. Se incluirán también pacientes sin electrocardiográficos permiten almacenar en bases de datos las enfermedad coronaria que conformaran el grupo de control. señales de ECG adquiridas o transmitirlas a una computadora Deben obtenerse registros en diferentes horarios del día con para su almacenamiento y análisis [51]. En ellas junto a la vistas a analizar las variaciones circadianas. Algunos de estos señal de ECG se almacenan datos de los pacientes y las registros pudieran ser extraídos de algunas de las bases de condiciones en que se realizó la grabación. De esta forma es datos de PhysioBank que cumplan con los requisitos de la posible conformar una base de datos propia que sirva de investigación. ayuda a las investigaciones. A partir de las señales de electrocardiográficas, se En el año 2000 fue creado un medio para la investigación determinarán los valores de dispersión espacial del intervalo científica de señales fisiológicas complejas, con el objetivo de QT para cada minuto de registro. Para ello a intervalos de 1 minuto se tomarán 10 segundos del ECG para calcular un de complicaciones cardiacas en pacientes coronarios. Este ciclo promedio por derivación y a partir de estos ciclos se conocimiento es necesario con vistas a proveer a los calculará un único valor de dispersión. especialistas de una herramienta para la predicción de eventos Además se tendrá en cuenta en el análisis la siguiente adversos. información de los pacientes y las condiciones en que se realizó el estudio: • Edad del paciente WHO, "Cardiovascular diseases. Fact sheet No. 317," World • Sexo del paciente Health Organization Febrero 2007 2007. • Hora de inicio del registro Aros F. , Marrugat J., Bayon J., and M. J. A., "Datos epidemiológicos y fisiopatología del infarto agudo del miocardio.," # Infartos previos Revista Española de Cardiología, pp. 3-8, 2001. • Fracción de eyección del ventrículo izquierdo del [3] B. Castillo, "Caracterización de los pacientes fallecidos por infarto del miocardio agudo," Revista cubana de medicina intensiva y emergencias, vol. 6, 25-02-2008 2007. Diagnóstico al ingreso V. Valle, Á. Alonso, F. Arós, J. Gutierrez, and G. Sanz, "Guías de • Tipo de complicación práctica clínica de la Sociedad Española de Cardiología sobre • Hora de la complicación requerimientos y equipamiento de la unidad coronaria," Revista Española de Cardiología vol. 54, pp. 617-623, 2001. Factores de riesgo: B. J. Drew, R. M. Califf, M. Funk, E. S. Kaufman, M. W. Krucoff, M. M. Laks, P. W. Macfarlane, C. Sommargren, S. Swiryn, and G. F. V. Hare, "Practice Standards for Electrocardiographic Monitoring in Hospital Settings: An American Heart Association Scientific Statement From the Councils on Cardiovascular Nursing, Clinical Cardiology, and Cardiovascular Disease in the Young: Las tareas preliminares de minería propuestas son: Endorsed by the International Society of Computerized • Obtener grupos de secuencias o sub-secuencias con Electrocardiology and the American Association of Critical-Care características similares entre múltiples series de Nurses," Circulation, pp. 2721-2746, 2004. C. P. Day, J. M. McComb, and R. W. Campbell, "QT dispersion: valores de dispersión espacial del intervalo QT. an indication of arrhythmia risk in patients with long QT intervals," • Conocer las relaciones que se establecen entre el Br. Heart J., vol. 63, pp. 342-344, June 1, 1990 1990. comportamiento de las series de valores de [7] C. P. Day, J. M. McComb, J. Matthews, and R. W. Campbell, dispersión espacial del intervalo QT y las "Reduction in QT dispersion by sotalol following myocardial infarction," Eur Heart J, pp. 423-427, 1991. características de los pacientes. C.-C. Lai, H.-C. Hsiao, S.-H. Hsiao, W.-C. Huang, C.-W. Chiou, • Conocer las relaciones que se establecen entre el T.-C. Yeh, H.-R. Hwang, Doyal Lee, G.-Y. Mar, S.-K. Lin1, K.-R. comportamiento de las series de valores de Chiou, S.-L. Lin, and C.-P. Liu, "Role of Shortened QTc dispersión espacial del intervalo QT y el horario de Dispersion in In-hospital Cardiac Events in Patients Undergoing Percutaneous Coronary Intervention for Acute Coronary Syndrome," J Chin Med Assoc, vol. 69, pp. 297-303, julio 2008 • Determinar cómo influye el comportamiento de las series de valores de dispersión espacial del [9] T. G. Lyras, V. A. Papapanagiotou, M. G. Foukarakis, F. K. Panou, intervalo QT en la ocurrencia de complicaciones N. D. Skampas, J. A. Lakoumentas, C. V. Priftis, and A. A. Zacharoulis, "Evaluation of serial QT dispersion in patients with first non-Q-wave myocardial infarction: Relation to the severity of underlying coronary artery disease," Clinical Cardiology, vol. 26, IV. CONCLUSIONES pp. 189-195, 2003. L. Fei, J. H. Goldman, K. Prasad, P. J. Keeling, K. Reardon, A. J. La Minería de Datos permite identificar patrones válidos y Camm, and W. J. McKenna, "QT dispersion and RR variations on útiles a partir de los datos, y ha sido ampliamente utilizada 12-lead ECGs in patients with congestive heart failure secondary to para extraer conocimiento en diferentes campos. El análisis de idiopathic dilated cardiomyopathy," Eur. Heart J., vol. 17, pp. 258-263, February 2, 1996 1996. series temporales es un área específica de la minería que [11] P. P. Davey, J. Bateman, I. P. Mulligan, C. Forfar, C. Barlow, and permite el análisis del comportamiento de datos con relaciones G. Hart, "QT interval dispersion in chronic heart failure and left temporales intrínsecas entre ellos. Para el estudio del ventricular hypertrophy: relation to autonomic nervous system and comportamiento de la dispersión espacial del intervalo QT en Holter tape abnormalities," Br. Heart J., vol. 71, pp. 268-273, March 1, 1994 1994. el tiempo se aplicarán técnicas de análisis de series [12] S. Chalil, Z. R. Yousef, S. A. Muyhaldeen, R. E. A. Smith, P. Jordan, C. R. Gibbs, and F. Leyva, "Pacing-Induced Increase in QT De entre las metodologías que existen para aplicar un Dispersion Predicts Sudden Cardiac Death Following Cardiac proceso de KDD, se decidió aplicar la metodología CRISP- Resynchronization Therapy," J Am Coll Cardiol, vol. 47, pp. 2486- DM ya que mantiene una perspectiva amplia respecto a los 2492, June 20, 2006 2006. Piatetski-Shapiro and W. J. Frawley, Knowledge Discovery in objetivos empresariales del proyecto. Además, no está ligada a Databases: Ed.AAAI/MIT Press, 1991. ninguna herramienta de las que se utilizan para el desarrollo R. A. BORRACCI and M. RUBIO, "Aplicabilidad de redes del proyecto de Minería de Datos y al ser de distribución libre neuronales artificiales para la predicción de los resultados y gratuita, está en constante perfeccionamiento. individuales de la cirugía cardíaca. Estudio preliminar," REVISTA ARGENTINA DE CARDIOLOGÍA, vol. 71, pp. 351-358, 2003. La aplicación de un proceso de KDD en el estudio del J. Hernández Orallo, M. J. Ramírez Quintana, and C. Ferri comportamiento de la dispersión espacial del intervalo QT en Ramírez, Introducción a la Minería de datos. Madrid, 2004. el tiempo, permitirá determinar su relación con la ocurrencia B. HEDEN, H. ÖHLIN, R. RITTNER, and L. EDENBRANDT, "Acute myocardial infarction detected in the 12-lead ECG by artificial neural networks," Circulation, vol. 96, pp. 1798-1802, Mortality in the Elderly : The Rotterdam Study," Circulation, vol. 97, pp. 467-472, February 10, 1998 1998. U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, Advanced in P. W. Macfarlane, S. C. McLaughlin, and J. C. Rodger, "Influence Knowledge Discovery and Data Mining. MA: MIT Press, 1996. of lead selection and population on automated measurement of QT F. J. Martínez de Pisón Ascacibar, "Optimización mediante dispersion," Circulation, pp. 2160-2167, 1998. técnicas de minería de datos del ciclo de recocido de una línea de M. Malik and V. N. Batchvarov, "Measurement, interpretation and galvanizado." vol. GRADO DE DOCTOR EN INGENIERÍA clinical potential of QT dispersion " J Am Coll Cardiol, vol. 36, pp. INDUSTRIAL: Universidad de La Rioja, Departamento de 1749-1766, 2000. Ingeniería Mecánica, 2003. M. Cañizares, N. Gomez, R. I. Gonzalez, M. M. Rivero, J. R. Brito Sarasa, "Minería de Datos aplicada a la Gestión Docente Folgueras, and G. Meissimilly, "A new method for del Instituto Superior Politécnico José Antonio Echeverría," Tesis electrocardiogram study," in Engineering in Medicine and Biology para optar por el título de Máster en Informática Aplicada. ISPJAE, Society, 2003. Proceedings of the 25th Annual International Conference of the IEEE, 2003, pp. 2643- 2646. KDnuggets, "KDnuggets : Polls : Data Mining Methodology," IEC, "International Standard IEC 60601-2-51 Medical electrical equipment - Part 2-51: "Particular requirements for safety, CRISP-DM 1.0 Step-by-step data mining guide, 2000. including essential performance, of recording and analyzing single KDnuggets, "KDnuggets : Polls : Data Mining / Analytic Software and multichannel electrocardiographs," 2003. (Tools)," 2007 G. M. Friesen, T. C. Jannett, M. A. Jadallah, S. L. Yates, S. R. SPSS, "Clementine 11.0 - Especificaciones," 2006. Quint, and H. T. Nagle, "A comparison of the noise sensitivity of SAS Institute Inc., Data Mining Using SAS® Enterprise Miner: A nine QRS detection algorithms.," IEEE Transactions on Case Study Approach, Second Edition.: SAS Institute Inc., 2003. Biomedical Engineering, vol. 37, pp. 85-98, 1990. SAS Institute Inc., "SAS® ENTERPRISE MINER™ 5.3. Fact P. Kligfield, L. S. Gettes, J. J. Bailey, R. Childers, B. J. Deal, E. W. Sheet," 2008. Hancock, G. v. Herpen, J. A. Kors, P. Macfarlane, D. M. Mirvis, YALE, "RapidMiner Features," 2007. O. Pahlm, P. Rautaharju, and G. S. Wagner, "Recommendations J. M. Molina López and J. García Herrero, Técnicas de análisis de for the Standardization and Interpretation of the datos. Aplicaciones prácticas utilizando Microsoft EXCEL y Electrocardiogram: Part I: The Electrocardiogram and Its WEKA. Madrid: Universidad Carlos III, 2006. Technology: A Scientific Statement From the American Heart Witten and E. Frank, Data Mining: Practical Machine Association Electrocardiography and Arrhythmias Committee, Learning Tools and Techniques, Second Edition: Morgan Council on Clinical Cardiology; the American College of Kaufmann Publishers, 2005. Cardiology Foundation; and the Heart Rhythm Society Endorsed D. Hand, H. Mannila, and P. Smyth, Principles of Data Mining: byt he International Society for Computerized Electrocardiology," The MIT Press, 1991. Circulation, pp. 1306-1324, 2007. KDnuggets, "KDnuggets : Polls : Data Mining Methods ", 2007 W. J. Tompkins, Biomedical digital signal processing: Editorial H. Frigui and O. Nasraoui, "Simultaneous Clustering and Dynamic Prentice Hall, 1993. Keyword Weighting for Text Documents," in Survey of Text R. Almeida, R. González, and A. Rodríguez, "Sistema para el Mining Clustering, Classification, and Retrieval, M. W. Berry, monitoreo continuo de ECG: Cardioestudio," in IFMBE- Ed.: Springer-Verlag New York, 2004. Proceddings 2007, 2007, pp. 175-177. J. Gehrke, "Clasification and regression trees.," in Encyclopedia of A. L. Goldberger, L. A. N. Amaral, L. Glass, J. M. Hausdorff, P. C. Data Warehousing and Mining: Idea Group Reference, 2006. Ivanov, R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and H. Behavioral and Cognitive Modeling of the Human E. Stanley, "PhysioBank, PhysioToolkit, and PhysioNet : Brain. Artificial Intelligence and Soft Computing: CRC Press, Components of a New Research Resource for Complex Physiologic Signals," Circulation, vol. 101, pp. e215-220, June 13, D. T. Larose, Data Mining Methods and models: John Wiley & Sons, Inc, 2006. PhysioNet, "PhysioBank: physiologic signal archives for J. M. Juárez Herrero, "Una Aproximación Multimodal al biomedical research," 2008. Diagnóstico Temporal Mediante Razonamiento Basado en Casos y Razonamiento Basado en Modelos. Aplicaciones en Medicina.," Revista Iberoamericana de Inteligencia Artificial, 2007. M. Sayal, "Time Series Analysis and Mining Techniques," in Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 1120-1124. V. Cho, "Time Series Data Forescasting," in Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 1125-1129. A. Denton, "Clustering of time series data," in Encyclopedia of Data Warehousing and Mining: Idea Group Inc., 2006, pp. 172-175. C. Dimoulas, G. Kalliris, G. Papanikolaou, and A. Kalampakas, "Long-term signal detection, segmentation and summarization using wavelets and fractal dimension: A bioacoustics application in gastrointestinal-motility monitoring," Computers in Biology & Medicine, vol. 37, pp. 438-462, 2007. O. S. Sychov, O. A. Epanchintseva, and O. I. Gay, "QT interval and its dispersion in patiens with ischemic heart disease and ventricular arrhytmias: Prognosis of cardiac events.," Europace, vol. 7, pp. 293-a-, January 1, 2005 2005. T. Rossenbacker and S. G. Priori, "Clinical diagnosis of long QT syndrome: back to the caliper," Eur. Heart J., vol. 28, pp. 527-528, March 1, 2007 2007. R. Díaz, R. Zayas, and M. Dorantes, "Dispersión del intervalo QT en pacientes con cardiopatía isquémica aguda.," Rev Cubana Cardiol Cir Cardiovasc, vol. 14, pp. 17-26, 2000. M. C. de Bruyne, A. W. Hoes, J. A. Kors, A. Hofman, J. H. van Bemmel, and D. E. Grobbee, "QTc Dispersion Predicts Cardiac

Source: http://ccia.cujae.edu.cu/index.php/siia/siia2008/paper/viewFile/1155/234

Characterisation of salmonella

Characterisation of Salmonella (09 11406) MAF Technical Paper No: 2011/67 Prepared for MAF Biosecurity Operational Research By Senior Lecturer Daniel Petkov, IVABS, Massey University, Dr. Julie Collins-Emerson, mEpiLab, IVABS, Massey University and Prof. Nigel French, Food Safety &Veterinary Public Health, mEpiLab, IVABS, Massey University

journal.hep.com.cn

Protein Cell 2014, 5(2):113–123DOI 10.1007/s13238-013-0013-0 Signaling control of the constitutiveandrostane receptor (CAR) Hui Yang, Hongbing Wang& Department of Pharmaceutical Sciences, University of Maryland School of Pharmacy, 20 Penn Street, Baltimore, MD 21201,USA& Correspondence: [email protected] (H. Wang)Received November 24, 2013 Accepted December 7, 2013