(French version below)
You are cordially invited to attend the thesis defense of Fabien André that will be held Friday November 25, 2016 at 9:30 in room Petri-Turing and for a drink in room Minquiers.
Jury members:
Peter Triantafillou, Professor, University of Glasgow
Gaël Thomas, Professor, Telecom SudParis
Nicolas Le Scouarnec, Senior Scientist, Technicolor
Achour Mostefaoui, Professor, Université de Nantes
Anne-Marie Kermarrec, Supervisor, Mediego
Title: Exploiting Modern Hardware for Large Scale Nearest Neighbor Search
Abstract:
Many multimedia information retrieval or machine learning problems require efficient high-dimensional nearest neighbor search techniques. For instance, multimedia objects (images, music or videos) can be represented by high-dimensional feature vectors. Finding two similar multimedia objects then comes down to finding two objects that have similar feature vectors. In the current context of mass use of social networks, large scale multimedia databases or large scale machine learning applications are more and more common, calling for efficient nearest neighbor search approaches.
This thesis builds on product quantization, an efficient nearest neighbor search technique that compresses high-dimensional vectors into short codes. This makes it possible to store very large databases entirely in RAM, enabling low response times. We propose several contributions that exploit the capabilities of modern CPUs, especially SIMD and the cache hierarchy, to further decrease response times offered by product quantization.
Vous êtes cordialement invités à venir assister à la soutenance de thèse de Fabien André qui se tiendra vendredi 25 novembre à 9h30 en salle Petri-Turing ainsi qu’au pot qui suivra en salle Minquiers.
Composition du jury :
Peter Triantafillou, Professeur, University of Glasgow
Gaël Thomas, Professeur, Telecom SudParis
Nicolas Le Scouarnec, Chargé de recherche, Technicolor
Achour Mostefaoui, Professeur, Université de Nantes
Anne-Marie Kermarrec, Directrice de thèse, Mediego
Titre : Exploitation du matériel moderne pour la recherche de plus proche voisin à large échelle
Résumé :
De nombreux problèmes de recherche d’information multimédia ou d’apprentissage automatique nécessitent des techniques de recherche de plus proche voisin en haute dimensionnalité efficaces. Par exemple, les objets multimédia (images, musique ou vidéos) peuvent être représentés par des vecteurs caractéristiques de haute dimensionnalité. Trouver deux objets multimédia similaires revient alors à trouver deux objets multimédia ayant des vecteurs caractéristiques similaires. Dans le contexte actuel d’utilisation massive des réseaux sociaux, les bases de données multimédia à large échelle ou les applications d’apprentissage automatisé à large échelle sont de plus en plus courantes, exacerbant la nécessité de techniques efficaces de recherche de plus proche voisin.
Cette thèse s’appuie sur la quantification produit, une technique de recherche de plus proche voisin efficace qui compresse les vecteurs de haute dimensionnalité en codes compacts. Ceci permet de stocker des bases de données volumineuses entièrement en RAM, permettant alors des temps de réponse bas. Nous proposons plusieurs contributions exploitant les capacités des CPU modernes, notamment le SIMD et la hiérarchie de caches, pour réduire davantage les temps de réponse offerts par la quantification produit.