Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain

Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical

Résumé

BERT models used in specialized domains all seem to be the result of a simple strategy : initializing with the original BERT then resuming pre-training on a specialized corpus. This method yields rather good performance (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT(Peng et al., 2019)). However, it seems reasonable to think that training directly on a specialized corpus, using a specialized vocabulary, could result in more tailored embeddings and thus help performance. To test this hypothesis, we train BERT models from scratch using many configurationsinvolving general and medical corpora. Based on evaluations using four different tasks, we find that the initial corpus only has a weak influence on the performance of BERT models when these are further pre-trained on a medical corpus.
Les modèles BERT employés en domaine spécialisé semblent tous découler d’une stratégie assez simple : utiliser le modèle BERT originel comme initialisation puis poursuivre l’entraînement de celuici sur un corpus spécialisé. Il est clair que cette approche aboutit à des modèles plutôt performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il paraît raisonnable de penser qu’entraîner un modèle directement sur un corpus spécialisé, en employant un vocabulaire spécialisé, puisse aboutir à des plongements mieux adaptés au domaine et donc faire progresser les performances. Afin de tester cette hypothèse, nous entraînons des modèles BERT à partir de zéro en testant différentes configurations mêlant corpus généraux et corpus médicaux et biomédicaux. Sur la base d’évaluations menées sur quatre tâches différentes, nous constatons que le corpus de départ influence peu la performance d’un modèle BERT lorsque celui-ci est ré-entraîné sur un corpus médical.
Fichier principal
Vignette du fichier
185.pdf (1.03 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02786184 , version 1 (07-06-2020)
hal-02786184 , version 2 (17-06-2020)
hal-02786184 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02786184 , version 3

Citer

Hicham El Boukkouri. Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, Jun 2020, Nancy, France. pp.29-42. ⟨hal-02786184v3⟩
505 Consultations
444 Téléchargements

Partager

Gmail Facebook X LinkedIn More