Le framework Apache Hadoop
Utilisation d'Hadoop en mode Standalone
Intéret du mode standalone
L'objectif du mode standalone dans Hadoop est de tester le fonctionnement d'une tâche MapReduce développée.
Dans le cadre de ce mode, la tâche est exécutée sur le poste client dans une seule machine virtuelle Java (JVM). Aucune configuration particulière n'est nécessaire car la bibliothèque hadoop fournie à la base fonctionne en mode Standalone.
Lancement d'un exemple
Un exemple de tâche MapReduce à exécuter est le suivant :
- Execution de la commande Grep sur un ensemble de fichiers : la fonction map va ajouter dans une table les mots des fichiers correspondant à une regexp avec le chiffre 1 comme valeur, la fonction réduce va sommer le nombre de 1 pour chaque mot trouvé et produire un résultat
- En entrée : un ensemble de fichiers quelconque
- En sortie : mots correspondant à une regexp et son nombre d’occurences
Le job MapReduce développé sera compilé, puis une archive jar sera produite.
Afin de tester l'exécution du job, il suffit d'exéctuer la commande suivante :
bin/hadoop jar grep.jar Grep input/ output/
Grep étant le nom de la classe contenant les fonctions map et reduce dans grep.jar
input/ le répertoire contenant les fichiers en entrée et output/ le répertoire qui contiendra les résultats après exécution de la tâche.