Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

Béatrice Mazoyer; Nicolas Hervé; Céline Hudelot; Julia Cage

Communication Dans Un Congrès Année : 2020

Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

(1) , (2) , (1) , (3)

1
2
3

Béatrice Mazoyer

Fonction : Auteur
PersonId : 178192
IdHAL : beatrice-mazoyer
ORCID : 0000-0003-4074-2976
IdRef : 250144468

Mathématiques et Informatique pour la Complexité et les Systèmes

Nicolas Hervé

Fonction : Auteur
PersonId : 948944

Institut National de l'Audiovisuel

Céline Hudelot

Fonction : Auteur
PersonId : 20877
IdHAL : celine-hudelot
ORCID : 0000-0003-3849-4133

Mathématiques et Informatique pour la Complexité et les Systèmes

Julia Cage

Fonction : Auteur
PersonId : 1101763
IdHAL : julia-cage
ORCID : 0000-0001-7085-5774
IdRef : 160569524

Département d'économie (Sciences Po)

Résumé

In this work, we evaluate the performance of recent text embeddings for the automatic detection of events in a stream of tweets. We model this task as a dynamic clustering problem.Our experiments are conducted on a publicly available corpus of tweets in English and on a similar dataset in French annotated by our team. We show that recent techniques based on deep neural networks (ELMo, Universal Sentence Encoder, BERT, SBERT), although promising on many applications, are not very suitable for this task. We also experiment with different types of fine-tuning to improve these results on French data. Finally, we propose a detailed analysis of the results obtained, showing the superiority of tf-idf approaches for this task.

Dans cet article, nous nous intéressons aux approches récentes de plongements lexicaux en vue de les appliquer à la détection automatique d'événements dans un flux de tweets. Nous modélisons cette tâche comme un problème de clustering dynamique. Nos expériences sont menées sur un corpus de tweets en anglais accessible publiquement ainsi que sur un jeu de données similaire en français annoté par notre équipe. Nous montrons que les techniques récentes fondées sur des réseaux de neurones profonds (ELMo, Universal Sentence Encoder, BERT, SBERT), bien que prometteuses sur de nombreuses applications , sont peu adaptées pour cette tâche, même sur le corpus en anglais. Nous expérimentons également différents types de fine-tuning afin d'améliorer les résultats de ces modèles sur les données en français. Nous proposons enfin une analyse fine des résultats obtenus montrant la supériorité des approches traditionnelles de type tf-idf pour ce type de tâche et de corpus.

Domaines

Traitement du texte et du document Recherche d'information [cs.IR] Réseaux sociaux et d'information [cs.SI]

Fichier principal

EGC_2020.pdf (127.7 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Béatrice Mazoyer : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-02432990

Soumis le : mercredi 8 janvier 2020-17:57:12

Dernière modification le : jeudi 29 juin 2023-16:32:04

Archivage à long terme le : jeudi 9 avril 2020-23:21:06

Dates et versions

hal-02432990 , version 1 (08-01-2020)

Identifiants

HAL Id : hal-02432990 , version 1
ARXIV : 2001.04139

Citer

Béatrice Mazoyer, Nicolas Hervé, Céline Hudelot, Julia Cage. Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais. Extraction et Gestion des connaissances, EGC 2020, Jan 2020, Bruxelles, Belgique. ⟨hal-02432990⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SCIENCESPO CNRS CENTRALESUPELEC MICS USPC UNIV-PARIS-SACLAY GS-ENGINEERING GS-COMPUTER-SCIENCE HUB-IA ECON-SCPO SCPO_OA

258 Consultations

501 Téléchargements

Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager