Pentaho & Yarn

Depuis plusieurs années, comme tout bon ETL, il est possible de créer un cluster avec Pentaho Data Integration (Kettle).
Ainsi en utilisant le shell « Carte » vous pouvez utiliser tous vos serveurs disponibles, sans installer un lourd programme sur chacun, pour paralléliser une interface d’intégration Pentaho et obtenir de meilleurs temps de traitement et surtout exploiter votre infrastructure qui dort!

PDI_YARNAvec YARN vous allez pouvoir utiliser votre Cluster Hadoop pour optimiser les temps de traitements de vos interfaces ETL.De part sa conception (ce n’est pas un générateur de code) n’importe quelle étape de PDI, et donc pas seulement des interfaces de type MapReduce, vont pouvoir s’exécuter au sein de votre cluster Hadoop.  Plus rien à installer nulle part, notre architecture Pentaho se fondant avec celle d’Hadoop, c’est bien votre cluster Hadoop qui va se charger de distribuer les librairies Java utiles à vos traitements. Et ceci quel que soit votre distribution Hadoop grâce à notre module Big Data Layer (vidéo) qui vous permet d’être indépendant de la version du Cluster.

Quand on prend en compte le coût des infrastructures pour construire un Cluster Hadoop (faible au regard de l’achat d’un monstre de guerre chez les gros constructeurs), on voit bien ici les bénéfices du Big Data sur la gestion de nos infrastructures. YARN issu de Hadoop est fait pour distribuer des process sur une ferme de serveur, et vu que Pentaho est fait de la même veine, tous vos traitements ETL vont pouvoir bénéficier de ce type d’infra.

Tout cela est déjà en phase de dernier contrôle au sein de nos Pentaho Labs et sera délivré à nos clients dans la version 5.1 de Pentaho avant cet été.

Pensez-y!