Attributes | Values |
---|
type
| |
Thesis advisor
| |
Author
| |
alternative label
| - Parallel and distributed systems programming , fault-tolerance, resilience and adaptability
|
dc:subject
| - Grille
- Thèses et écrits académiques
- Traitement réparti
- Tolérance aux fautes (informatique)
- Recouvrement
- Points de reprise
|
preferred label
| - Programmation des systèmes parallèles distribués, tolérance aux pannes, résilience et adaptabilité
|
Language
| |
Subject
| |
dc:title
| - Programmation des systèmes parallèles distribués, tolérance aux pannes, résilience et adaptabilité
|
Degree granting institution
| |
note
| - Les grilles et les grappes sont des architectures de plus en plus utilisées dans le domaine du calcul scientifique distribué. Le nombre important de constituants hétérogènes (processeurs, mémoire, interconnexion) dans ces architectures dynamiques font que le risque de défaillance est très important. Compte tenu de la durée considérable de l'exécution d'une application parallèle distribuée, ce risque de défaillance doit être contrôlé par l'utilisation de technique de tolérance aux pannes. Dans ce travail, la représentation de l'état de l'exécution d'un programme parallèle est un graphe, dynamique, de flot de données construit à l'exécution. Cette description du parallélisme est indépendante du nombre de ressources et donc exploitée pour résoudre les problèmes liés à la dynamicité des plateformes considérées. La définition de formats portables pour la représentation des noeuds du graphe résout les problèmes d'hétérogénéité. La sauvegarde du graphe de flot de données d'une application durant son exécution sur une plateforme, constitue des points de reprise pour cette application. Par la suite, une reprise est possible sur un autre type ou nombre de processus. Deux méthodes de sauvegarde / reprise, avec une analyse formelle de leurs complexités, sont présentées : SEL (Systematic Event Logging) et TIC (Theft-Induced Checkpointing). Des mesures expérimentales d'un prototype sur des applications caractéristiques montrent que le surcoût à l'exécution peut être amorti, permettant d'envisager des exécutions tolérantes aux pannes qui passent à l'échelle.
- Grid and cluster architectures are gaining in popularity for scientific computing applications. The distributed computations, as well as their underlying infrastructure consisting of a large number of computers, storage and networking devices, pose challenges in overcoming the effects of node failures. This work presents a new checkpoint/recovery method for dataflow computations using work-stealing in heterogeneous environments as found in grid or cluster computing. Basing the state of the computation on a dynamic macro dataflow graph, it is shown that the mechanisms provide effective checkpointing for multithreaded applications in heterogeneous environments. Two methods are presented, i.e. Systematic Event Logging (SEL) and Theft-Induced Checkpointing TIC, which are efficient and extremely flexible under the system-state model, allowing for recovery on different platforms under different number of processors. A formal analysis of the overhead induced by both methods is presented, followed by an experimental evaluation in a large platform. It is shown that both methods have very small overhead and that trade-offs between checkpointing and recovery cost can be controlled.
|
dc:type
| |
http://iflastandar...bd/elements/P1001
| |
rdaw:P10219
| |
has content type
| |
is primary topic
of | |
is rdam:P30135
of | |