La semaine dernière, j’ai eu l’occasion avec Eric Debray de chez Cisco France de présenter comment l’ETL Pentaho Data Integration peut jouer un rôle majeur dans vos projets Big Data.

En effet il n’est pas évident de penser ETL lorsqu’on se lance dans des développements MapReduce sur Hadoop. Et pourtant pour les non « puriste » développeur Java il s’avère très utile de pouvoir développer graphiquement comme on le fait pour une alimentation de DWH. Certes certains pense que justement on a plus besoin de DWH et donc plus besoin d’ETL mais c’est un peu précoce comme raisonnement. En effet si vous avez déjà un existant BI vous allez en effet plus facilement pouvoir choisir ce que vous mettrez dans votre DWH ou ce que vous laisserez sur vos File System HDFS. C’est le concept que l’on nomme « Optimisation DWH ».
Or Hadoop s’accompagne d’un ensemble de plusieurs composants. Alors PDI pourra jouer le rôle d’ordonnanceur pour orchestrer tous les traitements. Vous souhaitez plutôt utiliser Sqoop que le connecteur Hive de Pentaho? Pas de souçis et si vous avez un groupe de tables volumineuses vous avez parfaitement raison. Mais en pilotant depuis PDI votre chargement Sqoop vous aurez tout dans le même traitement.
Donc en résumé les avantages ETL Pentaho avec Hadoop:
- Visual MapReduce = Développer graphiquement et sans erreur de code vos traitements MapReduce qui s’exécuteront bien nativement dans votre cluster Hadoop
- Orchestration de vos process Hadoop = du chargement au MR jusqu’au chargement de vos éventuels entrepôts cibles, tout en un
- Big Data Layer = Vous utilisez le Hadoop d’Apache et envisager peut être de passer prochainement sur MapR, Horton, Cloudera, … Pas de souçis tous vos développements seront opérationnels immédiatement sur votre nouveau cluster sans redéveloppement ou recompilation. Nous sommes agnostiques de la plateforme et compte tenu que nous ne générons pas de codes exécutables avec PDI, pas besoin de livrer sur votre cluster voire tous les nodes vos exécutables
Vous pouvez désormais vous reposer en visualisant l’interview:

Voici également le blog complet d’Eric: gblogs.cisco.com/fr-datacenter/…
A+