Professeur responsable

Daniel Lemire

Objectifs

Décrire ce que sont les connaissances et l'information non structurée et le rôle qu'elles jouent dans l'organisation. Utiliser les techniques classiques de recherche d'informations et les techniques Web dans le cadre du développement logiciel et d'activités scientifiques. Intégrer la recherche d'informations dans le développement informatique. Utiliser efficacement les informations contenues dans de grands ensembles de documents. Évaluer les différentes méthodes de recherche d'informations dans un contexte de gestion des connaissances.

Contenu

Les lois de Zipf et Mandelbrot. Théorie de l'information de Shannon. Les formats de métadonnées, XML. Expressions régulières : ancrages, groupement atomique, tests avant/arrière, quantificateurs avides, paresseux et progressifs. Index inversés. Arbres de suffixes. Tableaux de suffixes. Modèles booléens, vectoriels et probabilistes. Modèles de la langue. Ergonomie en recherche d'informations. Hyperonymie, hyponymie, troncature, lemmatisation et thésaurus. Utilisation pratique d'un moteur de recherche dans une application avec Lucene et Snowball. Hyperliens et moteurs de recherche sur le Web : PageRank et HITS. La logistique d'un moteur de recherche Web. Systèmes de recommandation et filtrage collaboratif. Évaluation : précision, rappel, note F, validation croisée.

Matériel didactique

Le matériel didactique est disponible sur le site Web de la TÉLUQ. Il comprend aussi un cédérom du projet Gutenberg, un volume, Les systèmes de recherche d'informations, modèles conceptuels, de M. Ihadjadene, et des textes extraits du volume Maîtrise des expressions régulières, de J. E. F. Friedl.

Liste des documents expédiés

Renseignements technologiques

Le cours nécessite un accès à Internet. Il est accessible sur Macintosh et sur les systèmes d'exploitation Linux et Unix. L'utilisation du logiciel J2SE SDK Java pourrait être nécessaire. La résolution de l'ordinateur doit être de 1024 x 768 ou plus. Une carte de son est recommandée.

Encadrement

Les communications se font principalement dans les forums de discussion et par courrier électronique.

Évaluation

L'évaluation repose sur six travaux (5 %, 10 %, 10 %, 10 %, 10 % et 5 %) et un examen à domicile (50 %)

Particularités d'inscription

Pour suivre ce cours, une connaissance de l'algèbre linéaire de niveau collégial et une connaissance minimale du Java sont requises.

Si INF 6460 ou INF7900 de l'UQAM ont été suivis, on ne peut s'inscrire au présent cours.