Jetoile

Je toile ou J* au choix…

Packaging, Test Et Livraison Pour Hadoop : Mode D’emploi

left-small Hadoop et son écosystème est un monde complexe où beaucoup de nos paradigmes de développeur Java / JavaEE (EE4J?) sont chamboulés.

D’une part les technologies utilisées diffèrent mais, en plus, d’autres questions telles que l’architecture, les tests (unitaires, intégrations, …), la gestion des logs (debug, audit, pki, …), les procédures de livraison, la gestion de la configuration de l’application, etc. viennent s’y ajouter.

Cet article va montrer comment il est possible de concilier simplement les tests d’intégration mais aussi le déploiement afin de tendre vers la philosophie de continuous deployment.

Une solution sera proposée et, même si elle est discutable et peut paraitre naïve, elle montrera comment il peut être simple de concilier ces deux points.

Concernant les technologies utilisées, la solution proposée utilisera :

  • Spark 2.2.0
  • Oozie
  • Knox
  • ElasticSearch 5.6.3
  • Hive
  • Scala 2.11 pour le langage mais Java pourrait également être utilisé
  • Maven 3.5.0 pour la partie de build

Bien sûr, il est facilement possible d’ajouter d’autres technologies comme HBase, Sqoop, Hive (avec exécution de hql) ou autre.

A noter qu’il sera utilisé les composants Hortonworks (HDP 2.6.2) et c’est pourquoi toute la partie exécution des jobs se fera au travers d’Oozie qui est, le plus souvent quand on utilise une distribution du marché, la solution par défaut.

Ainsi il sera traité les points suivants :

  • Description du cas d’usage et implémentation
  • Anatomie d’un livrable
  • Mise en oeuvre

in Hadoop, Livrable, Test Read on →

Des Tests D’intégration Avec Cassandra

left-small Parce que je suis parti sur ma lancée des articles des tests d’intégration avec …, à la demande de Duyhai, voilà que je me retrouve à faire un article pour Apache Cassandra… ;)

Plus sérieusement, faire des tests d’intégration avec Apache Cassandra est beaucoup plus simple qu’avec Redis ou Elasticsearch mais il existe cependant 2 projets qui simplifient énormément les tests d’intégration avec Cassandra :

Ce petit article résume comment utiliser ces 2 solutions.

in Cassandra, Test Read on →

Des Tests D’intégration Avec Redis

left-small Redis est écrit en C et faire des tests d’intégration en Java peut s’avérer compliquer. En outre, le fait que Redis doive être compilé lors de son installation rend les choses encore moins aisées.

Bien sûr, il est possible d’utiliser Docker ou de l’installer préalablement sur son poste mais cette deuxième option casse un peu les bonnes pratiques des tests.

Il existe également de nombreux projets permettant de faire des tests avec Redis mais, souvent, les solutions proposées embarquent le binaire de Redis ou on besoin qu’il soit déjà présent et installer/compiler sur le poste (https://github.com/kstyrc/embedded-redis, https://github.com/lordofthejars/nosql-unit, https://github.com/ishiis/redis-unit). Les solutions qui intègrent le binaire ne sont malheureusement souvent pas à jour et laisse assez peu la main sur la version.

Pour ceux qui n’aurait pas envie d’utiliser Docker, cet article va montrer comment il est possible de piloter programmatiquement l’installation de Redis afin de permettre les tests d’intégration.

in Redis, Test Read on →

Des Tests D’intégration Avec Elasticsearch

elasticsearch logo La version 5.0.0-alpha4 a signé la fin du support du mode embedded d’Elasticsearch.

Cela a été annoncé et la classe NodeBuilder permettant de démarrer un noeud programmatiquement a été supprimée.

Cependant, même si la raison de l’arrêt du support de ce mode est compréhensible, cela pose le problème des tests d’intégration puisqu’il n’est plus possible de démarrer un Elasticsearch pendant la phase de test.

Oui, Elastic propose officiellement une alternative via l’utilisation de ESIntegTestCase mais personnellement, je ne suis pas très fan de cette approche…

Cet article va tenter de dresser un panorama non exhaustif de ce que j’ai pu trouver d’intéressant pour permettre de réaliser des tests d’intégration avec Elasticsearch.

in Elasticsearch, Test Read on →

Sqoop Et Parquet : Mode D’emploi

left-small Dans le monde du BigData (en l’occurence avec Hadoop), il est parfois utile de pouvoir importer le contenu d’une base de données dans son Datalake.

Pour ce faire, Apache Sqoop est une des alternatives pour le faire (peut être pas la meilleure mais bon…).

En effet, Sqoop permet d’importer (et exporter également) les données d’une base de données dans :

  • hdfs au format plain text, sequencefile, avro ou parquet
  • hive
  • hbase

En outre, il permet d’avoir un mode incrémental afin de gérer le mode delta.

Cependant, comme on le verra dans cet article, Sqoop n’est pas aussi trivial qu’il peut le paraitre.

C’est ce qui sera détaillé dans cet article : à savoir une sorte de mini retour d’expérience… et heureux en plus ;)

in Hadoop, Parquet, Sqoop Read on →

Hadoop Unit 1.3

left-small Si vous êtes un lecteur assidu (ou pas ;)), vous avez pu vous rendre compte que j’avais posté précédemment sur un composant au doux nom d’Hadoop-Unit.

J’ai le plaisir de vous annoncer qu’il a été releasé en version 1.3 et qu’il est également disponible sur maven central.

Il intègre dans sa nouvelle version :

  • support d’ElasticSearch 5.0.0-alpha2
  • correction de bugs : la variable d’environnement HADOOP_UNIT n’est plus nécessaire que pour les utilisateurs de Windows (merci Florent ;))
  • passage en version 0.1.6 de Hadoop Mini Cluster

A noter que pour utiliser Hadoop Unit en mode standalone, il est maintenant nécessaire de choisir entre Hadoop-Unit version SolR et Hadoop-Unit version ElasticSearch.

Cela est dû à un conflit de jars (Lucene pour ne pas le citer…) qui oblige à gérer ces composants indépendamment…

Pour les téléchargements, ça se passe ici :

Enjoy ;)

in Hadoop

Hadoop Unit

left-small Dans mon dernier post, j’avais parlé d’une surcouche que j’avais développé afin de faciliter l’utilisation de quelques-uns des composants de l’écosystème Hadoop, à savoir :

  • Hdfs,
  • Zookeeper,
  • HiveMetastore,
  • Hiveserver2,
  • SolR,
  • SolRCloud,
  • Oozie,
  • Kafka,
  • HBase,
  • MongoDB [New \o/ ],
  • et Cassandra [New \o/ ].

Il s’appelait alors Hadoop-Bootstrap mais il s’agissait aussi d’une première version qui a, bien sûr, évolué.

Cet article présentera donc quels ont été les améliorations qui ont été apportées.

Disclaimer : je tiens à repréciser que Hadoop-unit n’est qu’une solution de contournement permettant de simuler une partie de l’écosystème Hadoop afin de permettre de disposer en local d’un ersatz de distribution afin de fluidifier le développement mais proposant aussi d’effectuer des tests d’intégration dans un environnement dégradé. Cela peut également permettre d’éviter de monter un cluster Hadoop dédié aux tests d’intégration.

in Hadoop Read on →