Compression bidirectionnelle pour l'apprentissage fédéré hétérogène

Constantin Philippenko

Résumé

The last two decades have witnessed an unprecedented increase in computational power, leading to a vast surge in the volume of available data. As a consequence, machine learning algorithms have evolved to adapt to this new situation. Especially, many modern applications now use a network of clients to store the data and compute the models: efficient learning in this framework is harder, especially under communication constraints. This is why, a new approach, federated learning, has been developed in recent years: the data is kept on the original server and a central server orchestrates the training. This thesis aims to address two fundamental aspects of federated learning. The first goal is to analyze the trade-offs of distributed learning with communication constraints, with the objective of reducing its energy cost and environmental footprint. The second goal is to tackle problems resulting from heterogeneity among clients. This thesis focuses on bidirectional compression and summarizes my contributions to this field of research.In our first contribution, we focus on the intertwined effect of compression and client (statistical) heterogeneity. We introduce a framework of algorithms, named Artemis, that tackles the problem of learning in a federated setting with communication constraints. In our second contribution, we move the focus toward feedback loops to reduce the impact of compression. We introduce an algorithm, coined MCM; it builds upon Artemis and introduces a new paradigm that preserves the central model from down compression. This mechanism allows to carry out bidirectional compression while asymptotically achieving the rates of convergence of unidirectional compression. In our third contribution, we go beyond the classical worst-case assumption on the variance of compressors and provide a fine-grained analysis of the impact of compression within the fundamental learning framework of least-squares regression. Within this setting, we highlight differences in convergence between several unbiased compression schemes having the same variance increase.

Les deux dernières décennies ont été marquées par une augmentation sans précédent de la puissance de calcul et du volume de données disponibles. En conséquence, les algorithmes d'apprentissage automatique ont évolué pour s'adapter à cette nouvelle situation. En particulier, beaucoup d'applications modernes utilisent désormais des réseaux de clients pour stocker les données et calculer les modèles : un apprentissage efficace dans ce cadre est plus difficile, en particulier en raison des contraintes de communication. C'est pourquoi, une nouvelle approche, l'apprentissage fédéré, a été développée au cours de ces dernières années : les données sont conservées sur leur serveur d'origine et un serveur central orchestre l'entraînement. Cette thèse vise à aborder deux aspects fondamentaux de l'apprentissage fédéré. Le premier objectif est d'analyser les compromis de l'apprentissage distribué sous contraintes de communication ; le but étant de réduire le coût énergétique et l'empreinte environnementale. Le second objectif est d'aborder les problèmes résultant de l'hétérogénéité des clients qui complexifie la convergence de l'algorithme vers une solution optimale. Cette thèse se concentre sur la compression bidirectionnelle et résume mes contributions à ce domaine de recherche.Dans notre première contribution, nous nous concentrons sur l'effet entremêlé de la compression et de l'hétérogénéité (statistique) des clients. Nous introduisons un framework d'algorithmes, appelé Artemis, qui s'attaque au problème des coûts de communication de l'apprentissage fédéré. Dans notre deuxième contribution, nous mettons l'accent sur les boucles de rétroaction afin de réduire l'impact de la compression. Nous introduisons un algorithme, MCM, qui s'appuie sur Artemis et propose un nouveau paradigme qui préserve le modèle central lors de la compression descendante. Ce mécanisme permet d'effectuer une compression bidirectionnelle tout en atteignant asymptotiquement des taux de convergence identiques à ceux de la compression unidirectionnelle. Dans notre troisième contribution, nous allons au-delà de l'hypothèse classique du pire cas sur la variance et fournissons une analyse fine de l'impact de la compression dans le cadre de la régression des moindres carrés. Dans cette configuration, nous mettons en évidence les différences de convergence entre plusieurs schémas de compression sans biais ayant pourtant la même variance.

Compression bidirectionnelle pour l'apprentissage fédéré hétérogène

Bidirectional compression for Federated Learning in a heterogeneous setting

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager