Parquet

Sqoop et Parquet : Mode d'emploi

left-small Dans le monde du BigData (en l’occurence avec Hadoop), il est parfois utile de pouvoir importer le contenu d’une base de données dans son Datalake.

Pour ce faire, Apache Sqoop est une des alternatives pour le faire (peut être pas la meilleure mais bon…).

En effet, Sqoop permet d’importer (et exporter également) les données d’une base de données dans :

  • hdfs au format plain text, sequencefile, avro ou parquet
  • hive
  • hbase

En outre, il permet d’avoir un mode incrémental afin de gérer le mode delta.

Cependant, comme on le verra dans cet article, Sqoop n’est pas aussi trivial qu’il peut le paraitre.

C’est ce qui sera détaillé dans cet article : à savoir une sorte de mini retour d’expérience… et heureux en plus ;)