Professeur responsable

Daniel Lemire

Préalable

INF 1220 ou INF 2015

Objectifs

Décrire ce qu'est l'information non structurée et le rôle qu'elle joue dans l'organisation. Utiliser les techniques classiques de recherche d'informations (expressions régulières, recherche par mots-clés, etc.) et les techniques Web (algorithmes topologiques tels que PageRank et HUBS, filtrage collaboratif) dans le cadre du développement logiciel et d'activités scientifiques. Évaluer les différentes méthodes de recherche d'informations dans un contexte de gestion des connaissances (index, expressions régulières, modèles booléens, vectoriels et probabilistes, filtrage collaboratif, etc.).

Contenu

Les lois de Zipf et Mandelbrot. Théorie de l'information de Shannon. Formats des métadonnées, XML. Expressions régulières : ancrages, groupement atomique, tests avant/arrière, quantificateurs avides, paresseux et possessifs. Index inversés. Arbres de suffixes. Tableaux de suffixes. Modèles booléens, vectoriels et probabilistes. Modèles de la langue. Ergonomie en recherche d'informations. Hyperonymie, hyponymie, troncature, lemmatisation et thésaurus. Utilisation pratique d'un moteur de recherche dans une application avec Lucene et Snowball. Hyperliens et moteurs de recherche sur le Web : PageRank et HITS. Logistique d'un moteur de recherche Web. Systèmes de recommandation et filtrage collaboratif. Évaluation : précision, rappel, note F, validation croisée.

Matériel didactique

Le matériel didactique est disponible sur le site Web de la TÉLUQ. Il comprend aussi un cédérom du projet Gutenberg, un volume, Les systèmes de recherche d'informations, modèles conceptuels, de M. Ihadjadene et des textes extraits du volume Maîtrise des expressions régulières, de J. E. F. Friedl.

Liste des documents expédiés

Renseignements technologiques

Le cours nécessite un accès à Internet. Il est accessible avec Windows, Mac OS et Linux. L'utilisation du logiciel J2SE SDK Java pourrait être nécessaire. La résolution de l'ordinateur doit être de 1024 x 768 ou plus. Une carte de son est recommandée.

Encadrement

L'encadrement est individualisé et assuré par une personne tutrice. Les communications se font principalement dans les forums de discussion et par courrier électronique.

Évaluation

L'évaluation repose sur six travaux (5 %, 10 %, 10 %, 10 %, 10 % et 5 %) et un examen à domicile (50 %).

Particularités d'inscription

La connaissance de l'algèbre linéaire de niveau collégial est requise.