Hadoop et son écosystème

left-small Avec l’arrivé de Apache Spark, Hadoop est souvent vu comme désuet et legacy. Il est vrai que le monde BigData est en perpétuelle évolution et qu’un produit peut être déprécié en quelques mois.

Cependant, restreindre le terme Hadoop aux seuls technologies MapReduce, HDFS et YARN est, pour moi, une erreur.

Déjà parce que ces technologies peuvent être décorrélées et ensuite car, souvent, la très grande majorité des nouvelles technologies issues du monde BigData s’appuient sur les couches existantes et s’intègrent avec ces dernières.

Par exemple, plutôt que dire que Hadoop est mort et que Spark est son remplaçant, il serait plus juste de dire que l’écosystème Hadoop se voit rajouter le nouveau moteur d’exécution Spark (n’oublions pas que Spark s’intègre très bien avec HDFS en l’occurence pour la partie colocalisation des données/traitements ou même pour répondre aux besoins de checkpointing).

Dans la présentation ci-dessous, j’ai tenté, de manière non exhaustive, de lister et regrouper par usage quelques unes des technologies que je considère faire partie de l’écosystème Hadoop et qui, de mon point de vue, constitue l’environnement Hadoop que certains nomment également Data Platform.

Hadoop et son écosystème from Khanh Maudoux

 Share!

 
comments powered by Disqus