Automatic generation of performance model for heterogeneous architectures - Systèmes Répartis, Calcul Parallèle et Réseaux Accéder directement au contenu
Thèse Année : 2023

Automatic generation of performance model for heterogeneous architectures

Génération automatique de modèles de performance pour architectures hétérogènes

Résumé

Moore’s Law has allowed during the past 40 years to exponentially increase the densityof transistors of integrated circuits. As a result, computing devices ranging from general-purpose processors to dedicated accelerators have become more and more complex due tothe specialization and the multiplication of their compute units. Therefore, both low-levelprogram optimization (e.g. assembly-level programming and generation) and acceleratordesign must solve the issue of efficiently mapping of the input program computations tothe various chip capabilities. However, real-world chips blueprints are not openly accessible:given the diversity of CPUs available (Intel’s / AMD’s / Arm’s microarchitectures), wetackle the problem of automatically inferring a performance model applicable to fine-grainthroughput optimization of regular programs. Furthermore, when order of magnitude ofperformance gain over generic accelerators are needed, then domain-specific acceleratorsmust be considered; which raises the same questions of the number of dedicated units aswell as their functionality. To remedy this issue, we present two complementary approaches:on one hand, the study of single-application specialized accelerators with an emphasis onhardware reuse, and, on the other hand, the generation of semi-specialized designs suited fora user-defined set of applications.
Tout au long des 40 dernières années, la loi de Moor a permi d'augmenter de façon exponentielle la densité des transistors des circuits intégrés. En conséquence, les appareils informatiques - allant des processeurs centraux aux accélérateurs dédiés, sont devenus de plus en plus complexes du fait de la multiplicité croissante de leurs unités de calcul.Par conséquent, à la fois le design de puces et l'optimisation logicielle (qu'elle soit manuelle, en assembleur, ou effectuée par un compilateur) doivent résoudre le problème de l'association efficace des calculs variés du programmes aux unités présentes sur le matériel. Or, les caractéristiques de ces unités ne sont pas toujours disponibles. Devant la diversité des CPU du commerce (Intel, AMD, Arm ayant chacun leurs microarchitectures), nous nous attaquons ici au problème de la génération automatique de modèles de performance, applicables lors de l'optimisation à grain fin de programme réguliers.De plus, dans les cas où des gains de multiples ordre de grandeur sont désirés, des accélérateurs spécifiques doivent être utilisé, ce qui pose une question similaire au niveau de l'organisation de la puce. Pour faire face à ces questions, nous proposons deux approches complémentaires : d'une part, l'étude d'accélérateurs haute performances spécialisés pour une application et, d'autre part, la génération automatique d'architectures semi-spécialisées pour accélérer une famille d'applications.
Fichier principal
Vignette du fichier
DERUMIGNY_2023_diffusion.pdf (2.84 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04653883 , version 1 (19-07-2024)

Identifiants

  • HAL Id : tel-04653883 , version 1

Citer

Nicolas Derumigny. Automatic generation of performance model for heterogeneous architectures. Other [cs.OH]. Université Grenoble Alpes [2020-..]; Colorado state university, 2023. English. ⟨NNT : 2023GRALM082⟩. ⟨tel-04653883⟩
0 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More