Le framework Apache Hadoop

Utilisation d'Hadoop en mode Standalone

Intéret du mode standalone

L'objectif du mode standalone dans Hadoop est de tester le fonctionnement d'une tâche MapReduce développée.

Dans le cadre de ce mode, la tâche est exécutée sur le poste client dans une seule machine virtuelle Java (JVM). Aucune configuration particulière n'est nécessaire car la bibliothèque hadoop fournie à la base fonctionne en mode Standalone.

Lancement d'un exemple

Un exemple de tâche MapReduce à exécuter est le suivant :

Execution de la commande Grep sur un ensemble de fichiers : la fonction map va ajouter dans une table les mots des fichiers correspondant à une regexp avec le chiffre 1 comme valeur, la fonction réduce va sommer le nombre de 1 pour chaque mot trouvé et produire un résultat
En entrée : un ensemble de fichiers quelconque
En sortie : mots correspondant à une regexp et son nombre d’occurences

Le job MapReduce développé sera compilé, puis une archive jar sera produite.

Afin de tester l'exécution du job, il suffit d'exéctuer la commande suivante :

bin/hadoop jar grep.jar Grep input/ output/

Grep étant le nom de la classe contenant les fonctions map et reduce dans grep.jar

input/ le répertoire contenant les fichiers en entrée et output/ le répertoire qui contiendra les résultats après exécution de la tâche.

Le framework Apache Hadoop

Utilisation d'Hadoop en mode Standalone

Intéret du mode standalone

Lancement d'un exemple

Présentation

Le Framework

Son fonctionnement

Les modes d'utilisation

Implémentations et outils

Conclusion