Archives du mot-clé kettle

BioMe – Application analytique Big Data

Read it in english

Je partage avec vous aujourd’hui une vidéo en Français ! d’une des fonctionnalités phare de Pentaho.

Labellisée Streamline Data Refinery en interne, ce concept est une présentation de méthode de livraison des données Big Data à vos utilisateurs. Ce scénario se déroule en 3 étapes:

1/ Sélection des données souhaitées
Présenter à l’utilisateur un Dashboard contenant des Kpi’s générique de vos Data. Cela lui permet de définir les principaux éléments du périmètre cible de son analyse.
Il peut compléter ses choix avec autant de critères que vous lui proposerez.

2/ Préparation des données
Pentaho Data Integration (PDI) va prendre en compte les paramètres de l’utilisateur et dynamiquement filtrer les datasets utiles à rechercher dans votre Datalake on dans toutes sources de données imaginables.
Par la suite vous pouvez « automatiquement » annoter les données c’est à dire réellement créer un Metadata lisible pour votre utilisateur. Il s’agit bien ici d’un ETL qui va créer un dictionnaire de données pour qualifier vos hiérarchies d’axes d’analyse et vos principaux indicateurs et leurs attributs.

3/ Publication des données 
En fin de traitement, PDI va publier le nouveau Metadata sur la console utilisateur Pentaho et dans le cas présent alerter l’utilisateur depuis son application BioMe de la disponibilité des données.
Celui-ci pourra alors utiliser l’outil de discovery de Pentaho, Pentaho Analyzer qui est dans cet exemple « embarqué » dans l’application BioMe.

Enjoy!

Pentaho & Yarn

Depuis plusieurs années, comme tout bon ETL, il est possible de créer un cluster avec Pentaho Data Integration (Kettle).
Ainsi en utilisant le shell « Carte » vous pouvez utiliser tous vos serveurs disponibles, sans installer un lourd programme sur chacun, pour paralléliser une interface d’intégration Pentaho et obtenir de meilleurs temps de traitement et surtout exploiter votre infrastructure qui dort!

PDI_YARNAvec YARN vous allez pouvoir utiliser votre Cluster Hadoop pour optimiser les temps de traitements de vos interfaces ETL.De part sa conception (ce n’est pas un générateur de code) n’importe quelle étape de PDI, et donc pas seulement des interfaces de type MapReduce, vont pouvoir s’exécuter au sein de votre cluster Hadoop.  Plus rien à installer nulle part, notre architecture Pentaho se fondant avec celle d’Hadoop, c’est bien votre cluster Hadoop qui va se charger de distribuer les librairies Java utiles à vos traitements. Et ceci quel que soit votre distribution Hadoop grâce à notre module Big Data Layer (vidéo) qui vous permet d’être indépendant de la version du Cluster.

Quand on prend en compte le coût des infrastructures pour construire un Cluster Hadoop (faible au regard de l’achat d’un monstre de guerre chez les gros constructeurs), on voit bien ici les bénéfices du Big Data sur la gestion de nos infrastructures. YARN issu de Hadoop est fait pour distribuer des process sur une ferme de serveur, et vu que Pentaho est fait de la même veine, tous vos traitements ETL vont pouvoir bénéficier de ce type d’infra.

Tout cela est déjà en phase de dernier contrôle au sein de nos Pentaho Labs et sera délivré à nos clients dans la version 5.1 de Pentaho avant cet été.

Pensez-y!