Personnalisation et enrichissement des méthodes d’accès aux données

Grégory Smits

Résumé

The translation of data into knowledge is a crucial task at the heart of many professional activities. Two main strategies may be envisaged to perform this translation : by querying a database management system or by using data mining techniques. These two approaches have been so far studied independently by two distinct communities, namely the database community and the data mining one. The works described in this document, whose aim is to synthetize the research results obtained during the last eight years passed in the IRISA laboratory, mainly belong to the database area. However, considering the growing importance of unstructured data, my last contributions are at the intersection of data mining and databases. The common thread in this document is the enrichment of the methods used to access data. Data access is considered as a three steps process : 1) the expression of an information need, 2) the efficient retrieval of data satisfying the considered information need, and 3) the restitution of the query results to the user. The singular aspect of the data processing chain described in this document relies on the leading role given to the user at each step of the process defined to translate data into knowledge. The first part of the document is dedicated to the enrichment of some methods used to access data. My contributions on that point are twofold. The first one aims at making querying interfaces more flexible and at increasing their expressivity by letting users access data using their own vocabulary composed of linguistic terms. The second approach consists in helping users, with cooperative strategies or intuitive query interfaces, translate their information needs into queries. As commercial database systems do not provide flexible querying functionalities, the second part of the document describes my contributions on the evaluation of selection statements involving conditions based on the satisfaction of subjective linguistic terms. Through these last works, I have shown that a compromise may be found between flexibility and efficiency when querying data. An intelligent data management system should also assist users during the analysis of the results of their queries. Cooperative answering strategies aim at helping users understand the content of a result set and also aim at enriching it with indirect answers and complementary knowledge. The third part of the document details several cooperative answering strategies that ease the translation of query results into knowledge. The theoretical framework that links the different parts of the data processing chain presented in this document is soft computing. In this sense, an underlying objective of this document is also to show that the theories and techniques of soft computing bring pragmatic and innovative solutions to answer the crucial issue of data management. A positive conclusion and perspectives for future research directions are given at the end of this document about the role the soft computing community can play by promoting the idea of representing, computing and reasoning about data with words.

La transformation de données en connaissances constitue une tâche cruciale au cœur de nombreuses activités professionnelles. Deux principales stratégies peuvent être envisagées pour effectuer cette transformation : l’interaction par requêtage avec un système de gestion de bases de données ou l’application de méthodes souvent automatiques de fouille de données. Ces deux approches ont jusqu’alors été étudiées de manière indépendante par deux communautés scientifiques distinctes : celle des bases de données et celle de la fouille de données. Les travaux décrits dans ce document, dont un objectif est d’effectuer une synthèse constructive des résultats obtenus au cours de mes huit années de recherche à l’IRISA, s’inscrivent principalement dans le cadre de l’interrogation de bases de données. Cependant, de par l’importance grandissante prise par les données non tructurées, mes dernières contributions établissent une intersection entre l’acquisition automatique non supervisée de connaissances et l’interrogation de données. Le fil conducteur de ce document est l’enrichissement des méthodes d’accès aux données. L’accès aux données y est vu comme un processus en trois étapes, 1) l’expression d’un besoin d’information, 2) la récupération efficace des données satisfaisant le besoin d’information exprimé et 3) la restitution des résultats à l’utilisateur. Le trait singulier de la chaîne de traitement de données décrite dans ce document provient de la place prépondérante accordée à l’utilisateur à chaque étape du processus de transformation des données en connaissances. La première partie de ce document est consacrée à l’enrichissement des méthodes d’accès aux données. Mes contributions sur l’enrichissement de l’étape d’expression des besoins d’information s’articulent autour de deux axes. Le premier consiste à rendre flexibles les interfaces d’interrogation et à améliorer leur expressivité en permettant à l’utilisateur d’accéder aux données à travers l’utilisation d’un vocabulaire personnel composé de descripteurs linguistiques. Le second axe consiste à assister l’utilisateur, avec des stratégies coopératives ou des interfaces d’interrogation intuitives, lors de la traduction de son besoin d’information en requête. Les systèmes commerciaux de gestion de données n’étant pas initialement pourvus de fonctionnalités d’interrogation flexible à l’aide de descripteurs linguistiques, la seconde partie du document décrit mes contributions sur l’évaluation de conditions de sélection de données exprimées à l’aide de descripteurs linguistiques subjectifs. Ces travaux m’ont permis de montrer qu’il était possible de trouver un compromis intéressant entre flexibilité et efficacité lors de l’interrogation de données. Un système intelligent d’accès aux données se doit d’accompagner l’utilisateur lors de l’analyse des résultats de sa requête. Les stratégies de réponse coopérative visent à aider l’utilisateur à comprendre un ensemble de résultats et à l’enrichir avec des données ou connaissances complémentaires. La troisième partie de ce document détaille plusieurs stratégies coopératives permettant à l’utilisateur de transformer plus rapidement les résultats de ses requêtes en connaissances. Le cadre théorique qui unifie les maillons de la chaîne de traitement de données présentée dans ce document est celui du soft computing. Ce document a également pour objectif de montrer que les théories et techniques de soft computing apportent des solutions pragmatiques et novatrices à un enjeu actuel crucial, celui de la valorisation des données. Le bilan, dressé sous forme de perspectives de recherche à la fin de ce document, souligne le rôle majeur que peut jouer la communauté scientifique du soft computing en promouvant l’idée de représenter, calculer et raisonner sur des données avec des mots.

Personnalisation et enrichissement des méthodes d’accès aux données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager