Le framework Apache Hadoop

Un peu d'histoire...

 




Origine du projet

Hadoop faisait auparavant partie du projet Nutch, initié en 2002 par Doug Cutting ingénieur de chez Yahoo. Ce projet visait à construire un moteur de recherche open-source libre de nouvelle génération, modulaire et dont la caractéristique principale était l'indexation des données. Il utilisait Lucène en tant que bibliothèque de moteur de recherche, un autre projet développé chez Yahoo.


Logo du projet Nutch

Le projet Nutch a été developpé en Java et permettait de gérer tout type de données, indépendamment d'un langage de programmation. Il fut intégré à la fondation Apache en Janvier 2005.

En Juin 2003, la première version du projet Nutch permettait de gérer et d'indexer une base de plus de 100 millions de documents. Le projet Hadoop a été initié en tirant partie des modules proposés par les développeurs, permettant l'analyse de données indexées par Lucène.

 

Evolutions

Depuis le projet Nutch, l'entreprise Google également sensible au domaine du traitement et du stockage de big data, a publié de nombreux documents de recherches définissant des technologies permettant une gestion efficace de la distribution de données.

Dans ce cadre, plusieurs publications définissant le système de fichiers distribué de Google, Google File System (GFS) sont sorties. Ses principales caractéristiques ont été reprises dans le cadre du développement du système de fichiers distribué d'Hadoop, comme nous le verrons dans la partie suivante. Une publication sur la spécification du patron de développement MapReduce par Google (qui n'a pas inventé mapReduce, mais l'a seulement implémenté dans son architecture), ont également influencé les développeurs du projet Hadoop.

En 2009, le projet Hadoop en béta a été rendu open-source au sein de la fondation Apache Software, ce qui a permis a une communauté de développeurs de le faire évoluer et de le stabiliser.

 

Aujourd'hui

La première version stable du framework Hadoop est sortie en 2011 (v1.0.0). Depuis, une évolution de ses deux principales composantes, HDFS et MapReduce, ont conduit à la publication d'une version 2.0 alpha d'Hadoop (Cf. "Conclusion"). Cette version constitue une amélioration de l'architecture Hadoop avec un accroissement des performances de calcul sur le système distribué.

Doug Cutting, le créateur d'Hadoop, est devenu le président du conseil d'administration d'Apache Foundation Software

Origine du nom

Le nom Hadoop à une origine assez étonnante. En effet, alors que le projet de calcul sur des données distribuées allait être détaché de Nutch chez Yahoo, Doug Cutting, coordinateur, cherchait un nom pour ce nouveau projet. Son fils, alors agé de 3 ans avait un éléphant en peluche jaune prénommé Hadoop. Ceci lui a donné l'idée de nommer le projet du nom de cet éléphant.