(French version below)
Note: A video recording of the defense as well as the slides of the presentation can be found here.
You are cordially invited to attend the thesis defense of Nupur Mittal that will be held Friday November 25, 2016 at 14:30 in room Petri-Turing and for a drink in room Minquiers.
Jury members:
Pascal Molli, Professor, University of Nantes
Esther Pacitti, Professor, University of Montpellier 2
David Gross-Amblard, Professor, University of Rennes 1
Erwan Le Merrer, Senior Scientist, Technicolor
George Giakkoupis, Researcher, Inria Rennes Bretagne-Atlantique
Anne-Marie Kermarrec, Supervisor, Mediego
Title: Data, Learning and Privacy in Recommendation Systems
Abstract:
Recommendation systems have gained tremendous popularity, both in academia and industry. They have evolved into many different varieties depending mostly on the techniques and ideas used in their implementation. This categorization also marks the boundary of their application domain. Regardless of the types of recommendation systems, they are complex and multi-disciplinary in nature, involving subjects like information retrieval, data cleansing and preprocessing, data mining etc. In our work, we identify three different challenges (among many possible) involved in the process of making recommendations and provide their solutions.
We elaborate the challenges involved in obtaining user-demographic data, and processing it, to render it useful for making recommendations. The focus here is to make use of Online Social Networks to access publicly available user data, to help the recommendation systems. Using user-demographic data for the purpose of improving the personalized recommendations, has many other advantages, like dealing with the famous cold-start problem. It is also one of the founding pillars of hybrid recommendation systems. With the help of this work, we underline the importance of user’s publicly available information like tweets, posts, votes etc. to infer more private details about her.
As the second challenge, we aim at improving the learning process of recommendation systems. Our goal is to provide a k-nearest neighbor method that deals with very large amount of datasets, surpassing billions of users. We propose a generic, fast and scalable k-NN graph construction algorithm that improves significantly the performance as compared to the state-of-the art approaches. Our idea is based on leveraging the bipartite nature of the underlying dataset, and use a preprocessing phase to reduce the number of similarity computations in later iterations. As a result, we gain a speed-up of 14 compared to other significant approaches from literature.
Finally, we also consider the issue of privacy. Instead of directly viewing it under trivial recommendation systems, we analyze it on Online Social Networks. First, we reason how OSNs can be seen as a form of recommendation systems and how information dissemination is similar to broadcasting opinion/reviews in trivial recommendation systems. Following this parallelism, we identify privacy threat in information diffusion in OSNs and provide a privacy preserving algorithm for the same. Our algorithm Riposte quantifies the privacy in terms of differential privacy and with the help of experimental datasets, we demonstrate how Riposte maintains the desirable information diffusion properties of a network.
Note: Un enregistrement vidéo de la soutenance ainsi que le support de la présentation sont disponibles ici.
Vous êtes cordialement invités à venir assister à la soutenance de thèse de Nupur Mittal qui se tiendra vendredi 25 novembre à 14h30 en salle Petri-Turing ainsi qu’au pot qui suivra en salle Minquiers.
Composition du jury :
Pascal Molli, Professeur, Université de Nantes
Esther Pacitti, Professeur, Université de Montpellier 2
David Gross-Amblard, Professeur, Université de Rennes 1
Erwan Le Merrer, Chargé de recherche, Technicolor
George Giakkoupis, Chargé de recherche, Inria Rennes Bretagne-Atlantique
Anne-Marie Kermarrec, Directrice de thèse, Mediego
Titre : Données, apprentissage et respect de la vie privée dans les systèmes de recommandation
Résumé :
Les systèmes de recommandation sont devenus une partie indispensable des services et des applications d’internet, en particulier dû à la surcharge de données provenant de nombreuses sources. Quel que soit le type, chaque système de recommandation a des défis fondamentaux à traiter. Dans ce travail, nous identifions trois défis communs, rencontrés par tous les types de systèmes de recommandation : les données, les modèles d’apprentissage et la protection de la vie privée. Nous élaborons différents problèmes qui peuvent être créés par des données inappropriées en mettant l’accent sur sa qualité et sa quantité. De plus, nous mettons en évidence l’importance des réseaux sociaux dans la mise à disposition publique de systèmes de recommandation contenant des données sur ses utilisateurs, afin d’améliorer la qualité des recommandations. Nous fournissons également les capacités d’inférence de données publiques liées à des données relatives aux utilisateurs. Dans notre travail, nous exploitons cette capacité à améliorer la qualité des recommandations, mais nous soutenons également qu’il en résulte des menaces d’atteinte à la vie privée des utilisateurs sur la base de leurs informations. Pour notre second défi, nous proposons une nouvelle version de la méthode des k plus proches voisins (knn, de l’anglais k-nearest neighbors), qui est une des méthodes d’apprentissage parmi les plus populaires pour les systèmes de recommandation. Notre solution, conçue pour exploiter la nature bipartie des ensembles de données utilisateur-élément, est évolutive, rapide et efficace pour la construction d’un graphe knn et tire sa motivation de la grande quantité de ressources utilisées par des calculs de similarité dans les calculs de knn. Notre algorithme KIFF utilise des expériences sur des jeux de données réelles provenant de divers domaines, pour démontrer sa rapidité et son efficacité lorsqu’il est comparé à des approches issues de l’état de l’art. Pour notre dernière contribution, nous fournissons un mécanisme permettant aux utilisateurs de dissimuler leur opinion sur des réseaux sociaux sans pour autant dissimuler leur identité. Notre algorithme Riposte est un algorithme réparti pour la diffusion d’informations (idées, nouvelles, opinions ou tendances) dans un réseau social. Il assure également qu’une information ne se répand largement que si (et seulement si) une grande partie des utilisateurs trouvent qu’elle est intéressante. En outre, si seulement quelques utilisateurs pensent qu’une information est intéressante, Riposte fait en sorte que le processus de diffusion de l’information meurt rapidement, pour limiter sa diffusion, et tout cela se fait dans le respect de la vie privée des utilisateurs. Chacune de nos contributions, ainsi que leurs fondements théoriques, est soutenue par des expériences utilisant des ensembles de données réelles et variées.