L'objectif de ce module est d'aborder les bases du traitement de données textuelles, en s'appuyant sur des approches linguistiques et statistiques. Tous les aspects du cycle d'analyse seront considérés : l'extraction de l'information textuelle à partir de sources issues du Web, l'application de techniques de nettoyage de ces données, puis le traitement et l'analyse de ces données au travers d'applications diverses, telles que la construction d'un moteur de recherche, l'extraction d'informations pertinentes ou la classification de textes. Le cours sera illustré sur un cas d'étude réel choisi par chaque étudiant en employant le langage de programmation Python.