text_mining_extraction_textes


Le text mining regroupe des techniques issues de l’intelligence artificielle, dans les domaines de la linguistique, de la sémantique, du langage, des statistiques et de l’informatique. Ensemble, ces différentes techniques servent à extraire des données et visent à classifier et analyser des corpus de textes pour recréer de l’information et identifier les tendances. Le text mining est très apprécié en marketing, mais aussi en communication, en sciences politiques ou encore dans la recherche. 

 

Le text mining : en quoi consiste-t-il ?

 

Le text mining se décompose en deux phases : l’analyse des corpus de textes et l’interprétation de cette analyse. Il s’agit donc d’identifier les termes des textes, leurs relations et leurs sens, puis de sélectionner des textes parmi d’autres. Les outils de text mining ont pour but l’automatisation de la structuration des documents justement faiblement structurés. De l’information est alors générée à propos du contenu d’un document textuel. 

 

Les outils de text mining suivent cependant certaines règles de base :

 

- le logiciel de text mining doit évidemment pouvoir reconnaître les mots

- il doit pouvoir interpréter la ponctuation ainsi que la mise en page d’un document

- il doit pouvoir tenir compte des formes grammaticales et lexicales dans l’analyse des corpus de textes

- il doit pouvoir respecter la phase de lemmatisation : cela consiste à déterminer les déclinaisons ou les flexions d’un mot.


Les objectifs du text mining

 

Le text mining se montre très utile dans certains cas, si l’on souhaite :

 

- classifier des documents de manière automatique

- avoir un aperçu du contenu d’un document sans avoir besoin de le lire avant

- enrichir des bases de données de façon automatique

- effectuer une veille sur des corpus documentaires

- développer l’index d’un moteur de recherche afin que la consultation des documents soit améliorée

- analyser les émotions des internautes sur les réseaux sociaux

- classer des emails entrants dans diverses catégories…