TREMoLo corpus : guide d'annotation pour un corpus annoté en registres de langue pour le français - CentraleSupélec Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2021

TREMoLo corpus : guide d'annotation pour un corpus annoté en registres de langue pour le français

Résumé

Ce guide d'annotation propose un protocole d'étiquetage manuel pour les"Communications Médiées par Ordinateurs", (plus précisément pour des tweets) en proportions de registres de langue. Son but est de constituer un sous-corpus de textes étiquetés manuellement en registres de langue à partir duquel un modèle peut s'entraîner avant d'en généraliser automatiquement les annotations à un corpus textuel plus volumineux. Plus largement il prend part au projet ANR TREMoLo dont "les objectifs sont de progresser dans l'étude des registres de langue et de développer des méthodes automatiques de transformation de textes d'un registre vers un autre".
Fichier principal
Vignette du fichier
TREMoLo_corpus_guide_annotation.pdf (3.45 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03218217 , version 1 (05-05-2021)
hal-03218217 , version 2 (02-09-2021)
hal-03218217 , version 3 (02-09-2021)
hal-03218217 , version 4 (03-09-2021)
hal-03218217 , version 5 (16-09-2021)

Identifiants

  • HAL Id : hal-03218217 , version 1

Citer

Jade Mekki, Delphine Battistelli, Nicolas Béchet, Gwénolé Lecorvé. TREMoLo corpus : guide d'annotation pour un corpus annoté en registres de langue pour le français. 2021. ⟨hal-03218217v1⟩
343 Consultations
279 Téléchargements

Partager

Gmail Facebook X LinkedIn More