====== Optimiser les transferts de données ======
C = A * B
===== Sans shared =====
Par exemple, transformation 2D -> 1D. Accès dans A non coalescent, accès dans B coalescent. Utilisation de sharde memory.
{{ :470-1_2d_lineaire.png |}}
Conversion matrice 2D en mémoire 1D
===== Avec shared =====
Utilisation de tiles pour charger la mémoire globale dans la shared
{{ :470-2_matrice_multiplication_shared.png |}}
Utiliser les tiles