Tlp.limsi.fr
TALN 2011, Montpellier, 27 juin – 1er juillet 2011
Accès au contenu sémantique en langue de spécialité :
extraction des prescriptions et concepts médicaux
Pierre Zweigenbaum1
(1) LIMSI-CNRS, BP133, 91403 Orsay Cedex, France
(2) Département de Linguistique, Université de Genève, Suisse
Résumé. Pourtant essentiel pour appréhender rapidement et globalement l'état de santé des patients, l'accèsaux informations médicales liées aux prescriptions médicamenteuses et aux concepts médicaux par les outilsinformatiques se révèle particulièrement difficile. Ces informations sont en effet généralement rédigées en textelibre dans les comptes rendus hospitaliers et nécessitent le développement de techniques dédiées. Cet articleprésente les stratégies mises en œuvre pour extraire les prescriptions médicales et les concepts médicaux dansdes comptes rendus hospitaliers rédigés en anglais. Nos systèmes, fondés sur des approches à base de règleset d'apprentissage automatique, obtiennent une F1-mesure globale de 0,773 dans l'extraction des prescriptionsmédicales et dans le repérage et le typage des concepts médicaux.
While essential for rapid access to patient health status, computer-based access to medical in-
formation related to prescriptions key medical expressed and concepts proves to be difficult. This information isindeed generally in free text in the clinical records and requires the development of dedicated techniques. Thispaper presents the strategies implemented to extract medical prescriptions and concepts in clinical records writtenin English language. Our systems, based upon linguistic patterns and machine-learning approaches, achieved aglobal F1-measure of 0.773 for extraction of medical prescriptions, and of clinical concepts.
Extraction d'information, Indexation contrôlée, Informatique médicale, Concepts médicaux,
Keywords: Information extraction, Controled indexing, Medical informatics, Clinical concepts, Prescrip-tions.
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
L'accès au sens présent dans les documents au moyen d'outils informatiques est indispensable, tant du point devue de la compréhension du contenu que du développement des méthodologies informatiques facilitant cet accès.
Selon le domaine de langue étudié et le format des données accessibles, la production de systèmes est loin d'êtretriviale. Nous avons fait le choix d'axer cette étude sur un domaine de langue particulier, le domaine médical,en travaillant sur des documents spécifiques, les comptes rendus hospitaliers. Les comptes rendus hospitaliersintègrent un nombre important d'informations sur l'état de santé des patients, tant au niveau des prescriptionsmédicales que des concepts médicaux utilisés. Ces informations, bien que partiellement structurées en sections(antécédents du patient, histoire de la maladie, traitement de sortie, etc.), sont rédigées en texte libre et leur ap-préhension par des outils informatiques, en l'absence de normalisation, se révèle difficile. Cependant, la langueemployée dans les comptes rendus se caractérise par une stabilité et une formalisation élevées sur le plan syn-taxique, sémantique, et même structurel (Sager, 1981; Friedman, 2000), ce qui autorise une analyse automatique.
Un accès rapide aux informations médicales contenues dans un dossier patient est essentiel pour les praticienshospitaliers, pour résumer les antécédents du patient ou pour réaliser des études préventives. Deux types d'infor-mations médicales émergent dans les documents cliniques : en premier lieu, les informations liées à la prise demédicaments, qu'elles concernent le médicament en lui-même ou les informations associées (dosage, fréquence,etc.) ; en second lieu, les concepts clés dans la pratique clinique, qui recouvrent les problèmes médicaux (signes,symptômes, maladies, etc.), les examens réalisés pour les diagnostiquer, et les traitements associés.
Nous présentons dans cet article un état de l'art sur l'accès au contenu sémantique dans les comptes rendus cli-niques (section 2) puis les approches que nous avons développées pour accéder aux informations médicales, d'unepart pour extraire les informations liées aux prescriptions médicales (section 3), d'autre part pour repérer, extraireet typer les concepts médicaux (section 4) dans le cadre de nos participations aux éditions 2009 et 2010 du chal-lenge international i2b2 (informatics for integrating biology to the bedside) dont les thématiques concernaient cesaspects (Uzuner et al., 2010a,b). Nous détaillons et discutons les résultats obtenus dans chacune de ces sections.
L'accès au contenu d'un document textuel peut être appréhendé de deux manières : soit par le biais d'approches àbase d'apprentissage, soit par la création de patrons linguistiques faisant appel à des connaissances d'expert.
Les approches à base d'apprentissage reposent sur l'utilisation de corpus annotés avec soin, dans une volumétriesuffisante et une répartition homogène, pour permettre à un système d'apprendre les conditions dans lesquellesse rencontrent les informations à extraire. Ces approches font l'objet de nombreux travaux, en particulier dans ledomaine de la reconnaissance des entités nommées médicales (Li et al., 2008; Doan & Xu, 2010) ou en analysemorphologique (Claveau & Kijak, 2010), rendus possibles par la disponibilité étendue et la simplicité d'utilisationde ces outils d'apprentissage. Si ces outils permettent d'obtenir rapidement de bons résultats, ils demeurent large-ment dépendants des données fournies en entrée, et seules des données homogènes, de qualité et disponibles ennombre suffisant, tels les corpus des challenges médicaux i2b2, permettent d'obtenir des résultats convaincants.
À l'opposé, les techniques à base de patrons linguistiques faisant appel à des connaissances d'expert pour laproduction de ces patrons ne nécessitent pas de corpus annotés. Elles nécessitent une somme de travail consé-quente pour produire et adapter les patrons mais proposent l'avantage de fournir de bien meilleurs résultats (Long,2007; Hamon & Grabar, 2010), grâce aux ressources linguistiques existantes en anglais pour le domaine médical,telles que le Metathesaurus et le Specialist Lexicon de l'UMLS (Lindberg et al., 1993). La généralisation de cesapproches apparaît souvent délicate à opérer, du fait de la spécialisation de la langue de spécialité concernée.
La combinaison de ces deux approches permet d'accroître sensiblement la qualité des résultats produits, soitcomme approches complémentaires l'une de l'autre (une technique suivie de la seconde (Tikk & Solt, 2010)), soitcomme apport de l'une pour l'autre (les patrons linguistiques utilisés pour extraire des informations réutiliséescomme caractéristiques lors de la construction des modèles d'apprentissage (Wang, 2009)).
Le choix de mobiliser une approche plutôt qu'une autre est souvent dicté par le type de corpus rendu disponible :une approche à base d'apprentissage en cas de corpus annoté, une approche à base de lexiques et de règles le caséchéant. Nous avons suivi cette observation dans les choix méthodologiques décrits dans les sections suivantes.
ACCÈS AU CONTENU SÉMANTIQUE EN LANGUE DE SPÉCIALITÉ
Accès aux prescriptions médicales
Nous avons d'abord mis au point les méthodes d'extraction de prescriptions médicales pour l'anglais, dans lecadre de notre participation à l'édition 2009 du défi i2b2 (Deléger et al., 2010). Nous les avons ensuite adaptéesau français. Les données étant relatives à une langue de spécialité, les techniques décrites sont en conséquenceconditionnées par cette langue de spécialité.
Présentation générale
Les prescriptions médicales recouvrent le nom du médicament (qu'il s'agisse d'un nom commercial, du nomgénérique, ou du principe actif) et les informations associées à ce médicament. On distingue ainsi différentstypes d'informations. En premier lieu, les informations relatives à la posologie (dosage, fréquence, quantité, moded'administration, durée), à la forme galénique, etc. Ces informations se présentent sous des formes relativementstables qu'il est alors possible de décrire au moyen de patrons linguistiques. Un deuxième type d'informationconcerne la raison de la prise de ce médicament. Ce type d'information n'apparaît pas sous une forme régulière etdoit faire l'objet d'une analyse plus complexe du texte. Enfin, un troisième type d'information se situe au niveaudes événements et de la temporalité relatifs à ces prescriptions médicales et nécessite une analyse des phénomèneslinguistiques entrant en jeu autour des noms de médicaments.1 Le traitement de ce dernier type d'information aété abandonné lors du déroulement du défi 2009.
Présentation du corpus
Le corpus est composé de comptes rendus hospitaliers rédigés en anglais. Les documents proviennent d'un centremédical américain spécialisé en cardiologie. Ils ont fait l'objet d'une anonymisation où les informations per-sonnelles (noms, prénoms, etc.) ont été remplacées par d'autres informations de même type en conservant uncaractère vraisemblable. Le corpus de développement intègre 696 documents, parmi lesquels 17 ont fait l'objetd'une annotation, tandis que le corpus de test intègre 547 documents. Les documents sont structurés en sectionsassez générales telles que histoire de la maladie, allergies, examens de laboratoire, suivi de l'hospitalisation, etprescriptions de sortie. Les textes contiennent des abréviations qui concernent les noms de médicaments ("vanc"pour vancomycin, "levo" ou "levoflox" pour levofloxacin), les symptômes médicaux ("afib" pour atrial fibrilla-tion, "abd pain" pour abdominal pain), les fréquences ("bid" pour bis in diem), et les modes d'administration ("iv"pour intravenous, "sub" pour sub-lingual).
Aucune annotation de référence n'existant préalablement au lancement du défi, la référence a été constituée endeux temps, premièrement par un vote majoritaire des sorties produites par les participants, et deuxièmement viaune phase d'adjudication faisant intervenir l'ensemble des participants au défi (Uzuner et al., 2010b). Au final,la référence a été constituée de manière collective pour 251 documents du corpus de test. Les résultats que nousprésentons dans cet article pour la partie extraction de prescriptions médicales se fondent donc sur l'évaluationopérée sur ces documents de référence.
Nombre de documents
Mode d'administration
TAB. 1 – Nombre d'éléments à extraire dans les documents annotés des corpus de développement et de test.
1La prescription médicale est-elle en cours, ou bien doit-elle être commencée ou arrêtée ? Où se situe la prescription médicale sur l'échelle
temporelle (dans le passé, le présent ou le futur) ? Comment la prescription médicale est-elle présentée au patient (le médicament doit-il êtrepris obligatoirement, sous certaine condition, ou s'agit-il d'une suggestion) ?
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
Le tableau 1 renseigne du nombre d'informations attendues dans chaque corpus. Faute de disposer d'un corpusde développement entièrement annoté, nous donnons la volumétrie pour les 17 fichiers annotés qui nous ont étéfournis par les organisateurs avec le corpus de développement. Si le nombre d'informations de chaque type resteproportionnel entre les deux corpus, il apparaît d'emblée que certaines informations sont peu présentes dans l'en-semble des corpus, rendant difficile le développement d'outils robustes pour les traiter. C'est notamment le casdes informations de durée renseignées dans moins de 10 % des prescriptions. Une prescription sur cinq seulementintègre la raison pour laquelle le médicament a été prescrit. Les autres types d'information sont davantage ren-seignés : le mode d'administration dans une prescription sur trois, les dosage et fréquence dans des proportionséquivalentes d'une prescription sur deux.
Dans l'exemple du tableau 2, nous représentons les informations à extraire en les encadrant de balises. Les deuxoccurrences du médicament heparin doivent donner lieu à deux lignes de sortie. La première ligne – relative à lapremière occurrence – intègrera les informations de dosage, de mode d'administration, de fréquence et de raison,alors que la seconde ligne – relative à la seconde occurrence – ne comprendra que l'information de raison, lesautres informations se rapportant uniquement à la première apparition.
<raison> Prophylaxis </raison> , <medicament> heparin </medicament> <dosage> 5000 units </dosage><mode> subcu </mode> <frequence> t.i.d. </frequence> - the patient has consistently refused her <medi-cament> heparin </medicament> .
TAB. 2 – Exemple d'annotation en prescriptions médicales.
Description du système
Notre système ayant été développé dans le cadre de la participation à l'édition 2009 du défi i2b2, nous l'avonsorienté vers le traitement des informations suivantes : nom du médicament, dosage, mode d'administration, fré-quence, durée, raison de la prescription, et type de portion de texte dans lequel apparaît la prescription (liste oupassage narratif). Nous avons fait le choix de développer un système reposant entièrement sur des règles d'ex-traction et des listes, sans recourir à des outils externes tels que des étiqueteurs, lemmatiseurs ou analyseurssyntaxiques. Ce choix repose sur le fait que les informations à extraire peuvent l'être, soit par la projection delexiques (noms de médicaments, modes d'administration), soit par l'utilisation de règles (les chiffres des dosages,fréquences, durées, etc.), ces méthodes permettant l'obtention rapide de résultats de qualité.
Les problèmes à résoudre dans cette tâche consistaient à gérer l'exhaustivité des noms de médicaments (géné-riques, marques, classes thérapeutiques) et l'ambiguïté intrinsèque de ces noms (distinguer la concentration dudosage, repérer les substances actives utilisées comme nom de médicament). Nous devions également calculer lerattachement des informations aux noms de médicaments, prendre en compte la factorisation des informations, etconsidérer les cas particuliers de reprises pronominales.
Nous avons créé trois types de lexiques. Le premier lexique concerne les noms de médicaments et existe sous deuxversions : une version réduite de 8 923 noms de médicaments issus de deux sites Internet (FDA2 et RxList3), et uneversion plus large contenant 180 089 noms correspondant aux entrées du Metathesaurus de l'UMLS4 pour le typesémantique Clinical drug. Les éléments présents dans cette seconde liste sont néanmoins sujets à discussion etne correspondent pas toujours à des noms de médicaments tels que ceux attendus (alcool, tabac, etc.). Le secondlexique est constitué d'une liste de symptômes médicaux pour permettre l'identification de la prescription d'unmédicament. Il a été créé à partir des entrées de l'UMLS classées sous le type sémantique Sign and Symptom.
Enfin, le dernier lexique consiste en une liste d'abréviations et termes spécifiques issue des travaux de (Berman,2004). Nous avons mis en correspondance chaque terme avec le type d'information qui lui correspond : desabréviations ou termes de types dosage (mg, sliding scale), mode d'administration (iv, intramuscular), fréquence(qd, prn), durée (week).
2FDA : Food and Drug Administration, http://www.accessdata.fda.gov/scripts/cder/drugsatfda/index.cfm3http://www.rxlist.com/4UMLS : Unified Medical Language System.
ACCÈS AU CONTENU SÉMANTIQUE EN LANGUE DE SPÉCIALITÉ
Nous avons défini une stratégie d'extraction d'information reposant sur deux étapes principales (figure 1) : dansun premier temps, nous identifions les noms de médicaments ; à partir de cette première étape, nous recherchonsles informations associées à chaque médicament.
FIG. 1 – Architecture du système d'extraction de prescriptions médicales utilisé pour i2b2 2009.
L'identification des noms de médicaments repose uniquement sur un appariement exact avec le contenu deslexiques de médicaments précédemment décrits. Une fois les noms de médicaments identifiés dans un document,nous cherchons les informations qui lui sont associées. Nous avons élaboré des expressions régulières pour chaqyetype d'information à traiter, à partir des guides d'annotation et d'exemples identifiés en corpus. Nous complétonsl'application de ces règles par une recherche dans les listes d'abréviations et de symptômes.
Pour déterminer les informations devant être associées à chaque médicament, nous avons procédé à deux étapesde segmentation du texte. Dans un premier temps, nous segmentons le texte en phrases en nous fondant sur la miseen forme du document (lignes séparatrices et titres de section) et la ponctuation (en distinguant les points de fin dephrase des points d'abréviation ou des points mathématiques dans les décimales en anglais). Nous identifions lesnoms de médicaments dans ces phrases. Dans un second temps, nous procédons à une segmentation des phrasessur la base des noms de médicaments précédemment identifiés, en considérant que chaque nom de médicamentconstitue le début d'une portion de phrase. Nous cherchons alors les informations associées à chaque médicament àl'intérieur de ces portions, considérant que les informations associées aux prescriptions médicales suivent toujoursles noms de médicaments. Pour le cas où certains types d'information n'auraient pas été trouvés à la suite du nomde médicament, nous les cherchons dans la portion qui précède.
Le système permet également de gérer les cas de doubles entrées, lorsqu'une même information s'applique à deuxprescriptions différentes (deux médicaments prescrits pour soigner la même affection), ou parce qu'une seuleexpression factorise deux informations de même type (un dosage différent le matin et le soir). Nous avons géréces cas au moyen de règles définies empiriquement.
Enfin, nous avons traité quelques cas particuliers de résolution des anaphores au moyen de règles dédiées : lepronom "this" suivi de trois syntagmes verbaux, "was discontinued", "was increased" et "was decreased". Dansces cas de reprise pronominale, nous avons créé une seconde sortie pour le médicament désigné par le pronom,éventuellement complétée par les informations suivant le syntagme verbal (en cas de modification du dosage, etc.).
Résultats et discussion
Nous donnons dans le tableau 3 les résultats obtenus par notre système sur le corpus de test composé des 251documents annotés collectivement. Comme pour toute évaluation d'un système d'extraction d'information, deuxpoints sont ici évalués : le typage de l'élément extrait d'une part, et la portée de l'extraction d'autre part. Les résul-tats présentés ici exigent que la portée ait été déterminée de façon exacte (notre système peut avoir correctementtypé un élément mais l'évaluation sera incorrecte du fait d'une erreur de frontière dans la portée de l'informationextraite). Les informations élémentaires de type dosage, mode d'administration, fréquence, durée, et raison ne sontconsidérées comme pertinentes que si elles sont associées dans la référence à un médicament. Les rangées médi-cament, dosage, etc., évaluent chaque type d'information séparément. La rangée « niveau horizontal » demandequ'une prescription soit complètement et exactement reconnue pour être considérée comme correcte.
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
Niveau horizontal
Mode d'administration
TAB. 3 – Résultats obtenus par notre système au défi i2b2 2009 (recouvrement exact).
Notre système obtient globalement de bons résultats (il a été classé 8ème sur 20 participants internationaux) avecune précision toujours supérieure au rappel, notre système générant relativement peu de bruit. Certains typesd'information tels que la durée et les raisons de la prescription ont produit des résultats assez bas. Concernantles durées, le nombre restreint d'exemples dans le corpus de développement ne nous a pas permis de définir demanière précise et robuste les règles appliquées pour l'identification de ce type d'information.
Nous estimons qu'un moyen d'améliorer la détections des raisons passe par l'utilisation d'outils d'analyse syn-taxique, de manière à identifier précisément les syntagmes nominaux et prépositionnels. Il semble que dans unebonne partie des situations où notre méthode n'a pas pu détecter la raison d'une prescription, cette raison étaitexprimée dans le contexte d'une portion de phrase relativement bien formée, où les relations grammaticales ontde bonnes chances d'être analysables automatiquement et d'aider à rattacher raison et médicament. Cependant, lavariation syntaxique et l'étendue des raisons annotées dans le corpus d'entraînement témoignent de la complexitéde cette tâche : les raisons "pain" (un seul terme), "the previous enterococcus infection" (un syntagme nominal), et"had a temperature to about 101" (un syntagme verbal) ont ainsi été associées au médicament "vancomycin". Unautre moyen consiste à utiliser une base de connaissances faisant le lien entre médicament et symptômes traités :si le terme "hypercholesterolemia" (ou une variante) est trouvé dans le voisinage des médicaments "Zocor" et"simvastatin", nous pourrions extraire la raison en accordant une importance accrue à ce terme. Une autre pistepermettant l'amélioration de l'identification des informations associées consiste à mobiliser des présupposés d'ex-pert, en adoptant une approche par inférence (déduire le mode d'administration d'un médicament à partir de saforme galénique). Le coût de constitution d'une telle base de données associé à l'absence de normalisation destextes risquent néanmoins de limiter les apports d'une telle démarche.
Accès aux concepts médicaux
Présentation générale
La première piste de la campagne i2b2/VA 2010 concernait la détection et le typage de concepts médicaux dansdes comptes rendus médicaux, parmi trois catégories de concepts (voir tableau 4) : les problèmes se rapportent auxobservations faites sur l'état du patient et concernent les maladies et symptômes anormaux ou liés à une maladieexistante, les traitements décrivent les méthodes utilisées pour résoudre le problème d'un patient (procédures,médicaments, etc.), et les examens se rapportent aux examens prescrits pour aider à diagnostiquer ces problèmes.
<problem> C5-6 disc herniation </problem> with <problem> cord compression </problem>PRN <problem> Shortness of Breath </problem>
<treatment> bilateral lymph node dissection </treatment><treatment> LISINOPRIL </treatment> 10 MG PO DAILY
If <test> BS </test> is less than 125He was found on <test> physical exam </test> to have an asymmetric prostate
TAB. 4 – Exemples de concepts de chaque type pour la tâche i2b2/VA 2010.
ACCÈS AU CONTENU SÉMANTIQUE EN LANGUE DE SPÉCIALITÉ
La syntaxe spécifique de la langue médicale utilisée dans les comptes rendus médicaux a notamment été décritepar (Sager et al., 1994, 1995; Sager & Nhàn, 2002). Nous constatons aisi que certaines phrases peuvent êtreconstituées presque exclusivement d'énumérations, ne comprendre qu'un seul mot ou au contraire être longues etqu'il n'y a pas eu de normalisation dans la façon de noter les éléments (voir tableau 5).
Phénomène étudié
Supprelin La vs Supprelin LA
magnetic resonance imaging of . vs MRI of .
Thaw vs THAUW
Forme des phrases
On physical examination today , his lungs are clear to auscultation and percussion .
Regular rhythm .
f / u with PCP and Dr. Pump as scheduled , return to ED with worsening sob orincreased cough or sputum production
TAB. 5 – Exemples de problèmes rencontrés en langue de spécialité.
Ces différentes considérations nous ont convaincus de ne pas procéder à une analyse syntaxique des documentscomme traitement de base. Du fait de la forme très variable des expressions désignant les concepts à détecter, nousavons également décidé de ne pas chercher à modéliser complètement ces expressions par une ou plusieurs gram-maires locales. Par ailleurs, disposant d'un corpus d'apprentissage de taille raisonnable, nous avons opté pour uneapproche s'appuyant sur des champs conditionnels aléatoires (CRF) (Lafferty et al., 2001), ces derniers permet-tant de bonnes performances pour une tâche d'étiquetage en séquence comme celle de la détection de concepts.
Nous avons pour cela utilisé l'implémentation CRF++ (Kudo, 2007). Toutefois, si ces modèles permettent debonnes performances, des expériences (Zidouni et al., 2010) ont montré qu'utiliser comme attributs des informa-tions d'ordre linguistique (POS, informations sémantiques, etc.) permettait d'améliorer les modèles. Nous avonscherché à produire des informations et des analyses partielles des expressions concernées, et à fournir au CRF desattributs encodant ces informations. L'objectif étant de produire les analyses linguistiques que l'on peut obtenir defaçon fiable et de déléguer au processus d'apprentissage les décisions finales sur les frontières et type des entités.
Description du corpus
Le corpus se compose de comptes rendus cliniques provenant à part égale de trois hôpitaux nord-américains.5Le corpus d'entraînement se compose de 349 documents manuellement annotés6 tandis que le corpus de testcomprend 477 documents. Il n'existe pas de type de concept sur-représenté par rapport aux autres types et ladistribution des types reste équivalente entre les deux corpus (voir tableau 6). Enfin, nous observons que lesconcepts médicaux à identifier recouvrent des formes d'expressions assez différentes à l'intérieur de chaque type.
Une abréviation ou un syntagme nominal complet peuvent tous deux constituer un concept médical (tableau 4).
Nombre de documents
TAB. 6 – Nombre d'éléments à extraire dans les corpus de développement et de test.
5Beth Israel Deaconess Medical Center (Boston, MA), Partners HealthCare (Boston, MA), University of Pittsburgh Medical Center (Pitts-
burgh, PA). Ces instituts ont tous trois fourni des comptes rendus cliniques ; l'Université de Pittsburgh a également fourni des notes de suivi.
6Les organisateurs ont également fourni 827 documents non annotés avec le corpus de développement. Nous avons fait le choix de ne
travailler que sur les 349 documents annotés, notre système reposant sur la construction de modèle par apprentissage (voir sous-section 4.3).
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
Description du système
Présentation générale
L'approche que nous avons développée (Minard et al., 2011) repose sur un système à base d'apprentissage. Nousavons ainsi créé des modèles d'apprentissage à base de CRF en utilisant les traits habituels pour ce genre de tâche,à savoir des n-grammes et des indices typographiques (casse, ponctuation, token alphabétique ou numérique etc.).
Nous avons également ajouté des traits correspondant aux résultats d'analyses linguistiques.
Afin de procéder à différents tests lors de la construction du modèle, nous avons scindé le corpus de développe-ment en sous-corpus d'entraînement (241 documents), de développement (54 documents) et de test à blanc (54documents). Pour la phase de test du défi, une fois trouvée la meilleure configuration, nous avons reconstruit unmodèle global fondé sur l'ensemble des 349 documents.
Notre approche reposant sur l'application d'un modèle à base d'apprentissage, nous avons mobilisé plusieursressources pour produire les traits nécessaires à la construction du modèle (schéma 2).
Règles de post-traitement
Specialist lexicon
Documents cliniques
Liste de concepts
Typage sémantique
FIG. 2 – Architecture du système d'extraction de concepts médicaux utilisé pour i2b2/VA 2010.
Tous les mots des corpus ont d'abord été annotés en utilisant le Tree Tagger (Schmid, 1994) et ses modèles pourl'anglais. Ainsi chaque token a été associé avec sa partie du discours et son lemme.
Nous avons ensuite effectué un étiquetage à l'aide d'informations lexicales en utilisant les ressources fourniespar le Specialist Lexicon de l'UMLS (Lindberg et al., 1993). Ces ressources contiennent 62 263 adjectifs et320 013 noms, et distinguent les adjectifs relationnels des adjectifs qualificatifs, ainsi que différents types denoms (noms propres, noms comptables et non comptables). Pour les adjectifs, cette ressource contient égalementdes informations sur la position des adjectifs dans la phrase (attribut ou post-nominal).
Nous avons également ajouté une information sémantique en nous appuyant sur les travaux de (Sager et al., 1995)et sur les données d'entraînement. Nous avons ainsi construit des lexiques spécialisés (pour les noms des parties ducorps, de maladie, de médicaments) et des grammaires permettant de typer des segments en fonction de différentescatégories : les parties du corps (sternal articular facet of third costal cartilage), les analyses de laboratoire (bloodwbc, creatinine, hematocrit), les différents examens (angiography, biopsy), des pré- et post-marqueurs d'examens(follow-up ., physicial ., . levels), les médicaments (Abacavir Sulfate), les mode d'administration (inhaler,oral, pills), les instruments et objets médicaux (cannula, pacemaker, stent), les procédures (bypass, amputation,resection), et les dosages (100 mg, 1 dose). Ces différentes catégories ont paru pertinentes après examen ducorpus et analyse des contextes droit et gauche des concepts ainsi que de la composition des concepts eux-mêmes.
Précisons que ces catégories n'avaient pas vocation à représenter directement les concepts, mais à fournir desclasses permettant de regrouper des mots ou groupes de mots sous une même appellation afin de réduire l'espacede recherche. Le tableau 7 montre des exemples de ces catégories (partie gauche du tableau) et les met en rapportavec les concepts (partie droite). Nous avons par ailleurs remarqué que ces catégories fournissent des informationsstructurantes qui se rapportent aux concepts. Ainsi, un test se rapporte souvent à une partie de l'anatomie et uneprocédure alors que certains noms ou adjectifs sont fréquemment présents en partie droite (pré-marqueur) ougauche (post-marqueur) des concepts, en particulier pour les concepts problème et examen.
ACCÈS AU CONTENU SÉMANTIQUE EN LANGUE DE SPÉCIALITÉ
Annotation sémantique + POS
Annotation correspondante du concept
1)_JJ Rapid_JJ <anat> atrial_JJ </anat> <diag> fibril-
1) <problem> Rapid atrial fibrillation
lation_NN </diag> with_IN demand_NN <diag> ische-
mia_NN </diag>
<localisation> Left_VVD </localisation> <anat> heart_NN
<test> Left heart catheterization </test>
</anat> <procedure> catheterization_NN </procedure> wi-
without <treatment> intervention </treat-
thout_IN intervention_NN (_( **DATE[Dec_NP 16_CD
ment> ( **DATE[Dec 16 07] ) .
07]_NN )_) ._SENTThere_EX was_VBD no_DT <diag> diplopia_NN </diag>
There was no <problem> diplopia </pro-
,_, visual_JJ <pomark-disease> loss_NN </pomark-disease>
blem> , <problem> visual loss </pro-
,_, <diag> speech_NN abnormality_NN </diag> or_CC sen-
blem> , <problem> speech abnormality
sory_JJ change_NN in_IN her_PP$ history_NN ._SENT
</problem> or <problem> sensory change</problem> in her history .
Significant for <problem> non-insulin dia-
for_IN non-insulin_NN <diag> diabetes_NN mellitus_NN
betes mellitus </problem> , for which he
</diag> ,_, for_IN which_WDT he_PP takes_VVZ <me-
takes <treatment> Diabeta </treatment> ,
doc> Diabeta_NP </medoc> ,_, one_CD QD_NNS ;_ :
one QD ; <problem> right eye cataract
<anat> right_JJ eye_NN </anat> <diag> cataract_NN
</problem> , operated on three years ago .
</diag> ,_, operated_VVN on_IN three_CD years_NNSago_RB ._SENT
TAB. 7 – Lien entre information sémantique et concepts.
Enfin, nous avons cherché à voir s'il était possible de typer sémantiquement les tokens en fonction de leurs pre-miers ou derniers caractères que nous appelons par commodité préfixe et suffixe. Nous avons découpé les différentsmots n'appartenant pas aux dictionnaires de spécialité (médicaments ou parties du corps) puis en avons extrait lessuccessions de caractères qui permettaient à coup sûr un début de classification. Ainsi, les suffixes de type -stomyrenvoient fréquemment à une procédure. En tout, cinq classes sémantiques ont été utilisées (position, chiffrage,procédure, examen, diagnostic).
Les grammaires ont été construites en utilisant WMATCH, un moteur d'analyse fondé notamment sur des expres-sions régulières de mots (Galibert, 2009; Rosset et al., 2008). L'analyseur a été construit de manière automatiqueà partir des données d'entraînement et des différents lexiques de spécialité à notre disposition. Ceux-ci étaient aunombre de trois : anatomie (145 199 mots ou expressions complexes), médicaments (27 518 mots ou expressionscomplexes), et maladies (175 645 mots ou expressions complexes). Nous avons d'autre part collecté les collo-cations des concepts et créé, en nous appuyant sur la fréquence et la distribution non ambiguë des termes, deslexiques spécifiques à la tâche (modes d'administration, procédures, outils médicaux, localisations sur le corps dupatient – souvent en rapport avec une partie du corps –, examens, et pré et post-marqueurs, tant pour les examensque pour les maladies). Ces lexiques ont été utilisés pour l'acquisition des règles d'analyse au format WMATCH.
Le tableau 8 présente des exemples de catégorisation de mot fondé sur le suffixe (extrait), de règle contextuellepour la détection de la catégorie mode et d'appel à un lexique. La règle de catégorisation indique que les mots seterminant par "asty" sont une procédure. La règle contextuelle contient deux applications possibles (séparées parle symbole " ") : les mots détectés par la macro &modes (un ensemble de règles contextuelles) et suivis éventuel-lement de load sont annotés comme étant un _mode ; il en est de même pour le mot release, s'il est précédé d'unadjectif. L'application du lexique se fait en appelant la macro qui inclut le lexique de procédures.
_procedure : [A-z]+ "omy" [A-z]+ "asty" . ;
Règle contextuelle
_mode : (&modes load ? (<= _JJ _VVD _VVN) release) ;
Application de lexique
_procedure : (&procedure) ;
TAB. 8 – Exemples de règles.
Ces différentes informations ont constitué l'ensemble des traits qui ont alimenté l'apprentissage du modèle CRF.
Ce modèle et les modules d'extraction de traits forment le système de base pour cette campagne d'évaluation.
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
Enfin, nous avons ajouté en sortie de ce système une phase de correction par l'ajout de règles de post-traitement.
Nous avons supposé que l'hypothèse « un sens par corpus » (Fung, 1998) est vérifiée dans une langue de spécialité,à plus forte raison dans le typage de concepts médicaux : nous avons examiné les expressions étiquetées par destypes de concepts différents dans le corpus et avons normalisé leur étiquette au type observé le plus fréquent(un token ayant pour trait la catégorie médicament qui n'aurait pas été typé ou l'aurait été typé différemment detraitement est corrigé avec le type traitement).
Résultats et discussion
Le tableau 9 présente les résultats obtenus par notre système sur l'identification et le typage des concepts mé-dicaux. L'évaluation a été réalisée sur 477 documents. Les chiffres renseignés dans ce tableau reposent sur unappariement à l'identique des concepts ; les erreurs de frontière ont donc été pénalisantes.
TAB. 9 – Résultats obtenus par notre système au défi i2b2 2010 (recouvrement exact).
Le système d'identification et de typage des concepts médicaux obtient une F1-mesure générale de 0,773 (notresystème s'est classé 12ème sur 22 participants internationaux). Pour cette tâche d'extraction de concepts médi-caux, notre système obtient de nouveau une précision supérieure au rappel pour chaque type de concept. Nousnotons que les performances du système se révèlent équivalentes sur les trois types de concepts médicaux à traiter,cette observation s'expliquant par la répartition équilibrée des concepts dans ces trois catégories. Les dix meilleurssystèmes du défi ont tous employé des méthodes d'apprentissage. Le meilleur système (De Bruijn et al., 2010) amodélisé la tâche avec un CRF et s'en est servi pour définir les traits d'un modèle semi-markovien caché. Plusieursautres systèmes bien classés ont utilisé comme traits le résultat de systèmes de reconnaissance d'entités médicales.
Dans le cadre de ce travail, nous avons constitué un ensemble de ressources nécessaires au traitement de la languemédicale. Nous avons ainsi dressé un inventaire exhaustif des noms de médicaments (génériques, marques etclasses thérapeutiques) et créé des lexiques d'abréviations et de symptômes. Nous avons par ailleurs élaboré uneméthodologie de détection des types d'entités de différentes sortes (par l'application d'expressions régulières etl'utilisation d'un lexique d'abréviations spécifiques) et de gestion de la factorisation d'information (coordinationet duplication). Enfin, nous avons étudié les caractéristiques linguistiques à utiliser pour la construction de modèlesd'apprentissage dédiés au traitement des concepts médicaux.
En Traitement Automatique des Langues, les systèmes à base de règles constituent une solution pertinente pourtraiter des corpus non annotés porteurs d'informations stables syntaxiquement. L'application de patrons syn-taxiques permet effectivement d'obtenir rapidement de bons résultats comme en témoignent ceux que nous avonsobtenus sur l'extraction d'information dans les prescriptions médicales lors de l'édition 2009 du défi i2b2.
En revanche, la variation syntaxique des informations à extraire se révèle beaucoup plus difficile à traiter. L'utili-sation seule de règles syntaxiques conduit à un manque de robustesse du système et doit faire l'objet d'une appli-cation complémentaire d'autres types de méthodes. À cet effet, l'utilisation de méthodes hybrides rassemblant unapprentissage supervisé et des informations linguistiques permet d'accroître les chances de traiter correctement cetype de données. C'est l'approche que nous avons suivie pour l'identification et le typage des concepts médicauxpour l'édition 2010 du défi i2b2 ; dans le cas présent, nous nous sommes servis d'informations d'ordre linguistiqueà deux reprises : en premier lieu pour constituer des traits sur chaque token de manière à construire un modèlepour l'apprentissage, puis dans un second temps, comme moyen d'affiner les résultats produits par l'applicationdu modèle précédemment construit.
ACCÈS AU CONTENU SÉMANTIQUE EN LANGUE DE SPÉCIALITÉ
Dans le domaine médical, la langue de spécialité utilisée revêt un caractère particulièrement stable et formel,tant sur les plans syntaxique que sémantique, voire structurel. Ces caractéristiques nous autorisent à utiliser desapproches hybrides lorsqu'existent des corpus annotés. Lorsque les annotations font défaut, les caractéristiqueslinguistiques de la langue médicale nous permettent néanmoins de travailler uniquement à base de patrons syn-taxiques. Ces méthodes montrent leurs limites lorsque l'information à extraire se trouve rédigée en texte plus libre,à l'instar des raisons qui justifient une prescription médicale. Dans cette perspective, des traitements linguistiquesplus complexes faisant intervenir une analyse en dépendances pourraient constituer une alternative intéressante.
Ce travail a été partiellement réalisé dans le cadre des projets Akenaton (ANR-07-TecSan-001) et Quæro (finan-cement Oseo, agence française pour l'innovation et la recherche).
Les données médicales utilisées proviennent du consortium Informatics for Integrating Biology to the Bedside(i2b2) grâce aux financements numéros U54LM008748 de la National Library of Medicine, VA HSR HIR 08-374 du Consortium for Healthcare Informatics Research (CHIR), et VA HSR HIR 08-204 du VA Informatics andComputing Infrastructure (VINCI).
BERMAN J. J. (2004). Pathology Abbreviated : A Long Review of Short Terms. Archives of Pathology &Laboratory Medicine, 128(3), 347–352.
CLAVEAU V. & KIJAK E. (2010). Analyse morphologique en terminologie biomédicale par alignement etapprentissage non-supervisé. In Actes de TALN 2010.
DE BRUIJN B., CHERRY C., KIRITCHENKO S., MARTIN J. & ZHU X. (2010). MRC at i2b2 : one challenge,three practical tasks, nine statistical systems, hundreds of clinical records, millions of useful features. In Proc.
of i2b2/VA 2010.
DELÉGER L., GROUIN C. & ZWEIGENBAUM P. (2010). Extracting Medical Information from Narrative PatientRecords : the Case of Medication-related Information. J Am Med Inform Assoc, 17(5), 555–558.
DOAN S. & XU H. (2010). Recognizing Medication related Entities in Hospital Discharge Summaries usingSupport Vector Machine. In Coling2010 : Poster Volume, p. 259–266.
FRIEDMAN C. (2000). A broad-coverage natural language processing system. In AMIA Annu Symp Proc, p.
270–274.
FUNG P. (1998). A Statistical View on Bilingual Lexicon Extraction : From Parallel Corpora to Non-parallelCorpora. In AMTA, p. 1–17.
GALIBERT O. (2009). Approches et méthodologies pour la réponse automatique à des questions adaptées à uncadre interactif en domaine ouvert. PhD thesis, Université Paris-Sud 11, Orsay, France.
HAMON T. & GRABAR N. (2010). Linguistic approach for identification of medication names and relatedinformation in clinical narratives. J Am Med Inform Assoc, 17(5), 549–554.
KUDO T. (2007). CRF++. http ://crfpp.sourceforge.net/.
LAFFERTY J., MCCALLUM A. & PEREIRA F. (2001). Conditional Random Fields : Probabilistic models forsegmenting and labeling sequence data. In Proc. of ICML, p. 282–289.
LI D., KIPPER-SCHULER K. & SAVOVA G. (2008). Conditionnal Random Fields and Support Vector Machinesfor Disorder Named Entity Recognition in Clinical Texts. In BioNLP2008 : Current Trends in BiomedicalNatural Language Processing, p. 94–95.
LINDBERG D., HUMPHREYS B. & MCCRAY A. (1993). The Unified Medical Language System. Meth InformMed, 32(4), 281–291.
LONG W. (2007). Lessons Extracting Diseases from Discharge Summaries. In AMIA Annu Symp Proc, p.
478–482.
CYRIL GROUIN, LOUISE DELÉGER, BRUNO CARTONI, SOPHIE ROSSET, PIERRE ZWEIGENBAUM
MINARD A.-L., LIGOZAT A.-L., BEN ABACHA A., BERNHARD D., CARTONI B., DELÉGER L., GRAU B.,ROSSET S., ZWEIGENBAUM P. & GROUIN C. (2011). Hybrid Methods for improving Information Access inClinical Documents : Concept, Assertion, and Relation Identification. J Am Med Inform Assoc. À paraître.
ROSSET S., GALIBERT O., BERNARD G., BILINSKI E. & ADDA G. (2008). The LIMSI participation to theQAst track. In Working Notes of CLEF 2008 Workshop, Aarhus, Danemark.
SAGER N. (1981). Natural Language Processing : A Computer Grammar of English and Its Applications.
Addison Wesley.
SAGER N., LYMAN M., NHÀN N. & TICK L. (1994). Automatic Encoding into SNOMED III : A PreliminaryInvestigation. In Proc. of the 18th Annual Symposium on Computer Applications in Medical Care, p. 230–234.
SAGER N., LYMAN M., NHÀN N.-T. & TICK L. J. (1995). Medical language processing : applications toPatient Data Representation and Automatic Encoding. Meth Inform Med, 34(1–2), 140–146.
SAGER N. & NHÀN N.-T. (2002). The Computability of strings, transformations, and sublanguage. In B. E.
NEVIN & S. M. JOHNSON, Eds., The legacy of Zellig Harris – Language and information into the 21st century- volume 2 : computability of language and computer applications, volume 2, chapter 4, p. 79–120. Amster-dam/Philadelphia : John Benjamins Publishing Company.
SCHMID H. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. In Proc. of the InternationalConference on New Methods in Language Processing, p. 44–49.
TIKK D. & SOLT I. (2010). Improving textual medication extraction using combined conditional random fieldsand rule-based systems. J Am Med Inform Assoc, 17(5), 540–544.
UZUNER O., SOLTI I. & CADAG E. (2010a). Extracting medication information from clinical text. J Am MedInform Assoc, 17(5), 514–518.
UZUNER O., SOLTI I., XIA F. & CADAG E. (2010b). Community annotation experiment for ground truthgeneration for the i2b2 medication challenge. J Am Med Inform Assoc, 17(5), 519–523.
WANG Y. (2009). Annotating and Recognising Named Entities in Clinical Notes. In Proc. of the ACL-IJCNLP2009 Student Research Workshop, p. 18–26, Singapore.
ZIDOUNI A., ROSSET S. & GLOTIN H. (2010). Efficient Combined Approach for Named Entity Recognitionin Spoken Language. In Proc. of InterSpeech, Makuhari, Japon.
Source: ftp://tlp.limsi.fr/public/grouin_taln2011_acces_au_contenu.pdf
Bedienungsanleitung User Guide Guide d'utilisation Istruzione d'uso Manual de uso Bedieningshandleiding Elektronischer Zylinder Electronic cylinder Cylindre électronique Cilindro elettronico Cilindro electrónico Elektronische cilinder Technische Änderungen/Abweichungen und Druckfehler vorbehalten. Das Copyright liegt bei der EVVA Sicherheitstechnologie GmbH. Technical changing and misprint are subject to change. Copyright by EVVA Sicherheitstechnologie GmbH. Sous réserve de modifications/divergences techniques et d‘erreurs d‘impression. Tous droits réservés à EVVA Sicherheitstechnologie GmbH. Con riserva di modifiche tecniche/differenze ed errori di stampa. Il copyright è di EVVA Sicherheitstechnologie GmbH. Sujeto a modificaciones/divergencias técnicas y errores de impresión. Copyright de EVVA Sicherheitstechnologie GmbH. Technische wijzigingen/afwijkingen en drukfouten voorbehouden. Copyright berust bij EVVA Sicherheitstechnologie GmbH.
Emulsion pour perfusionOLIMEL N7 E Emulsion pour perfusionOLIMEL N9 Emulsion pour perfusionOLIMEL N9 E Emulsion pour perfusion RCP : Résumé des caractéristiques du produit OLIMEL N7, émulsion pour perfusion RESUME DES CARACTERISTIQUES DU PRODUIT 1. DENOMINATION DU MEDICAMENTOLIMEL N7, émulsion pour perfusion 2. COMPOSITION QUALITATIVE ET QUANTITATIVEOLIMEL se présente sous la forme d'une poche à 3 compartiments. Chaque poche contient une solution