Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncé pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport à la v5. Sur la console c’est Analyzer qui évolue et permet désormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collègues. CreatemeasureAutre astuce notoire est le fait de pouvoir gérer dans les rôles le droit de créer des Metadata avec le Datasource Wizard sans nécessairement être administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le développement des Clusters Hadoop. Le marché répond clairement que ce n’est plus une nécessité. De notre DWH ont généraient des Datamart. Désormais le concept est de générer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart à la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez déjà un DWH l’objet n’est pas de le supprimer et il restera utile pour les données Corporate à mettre à disposition de vos plus grands consommateurs de données. Tachez néanmoins de valider qu’il peut se mettre à jour en NearRealTime.

Pipeline

Le Data Pipeline est quant à lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de données, traditionnelles ou Big Data et de les mettre à disposition de vos users en mode gouvernance des données (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une étape de votre Transformation PDI et création d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et définissez une source de données en sélectionnant l’option « Pentaho Data Services ». Vous organisez les données et définissez des formats par défaut si vous le souhaitez et vous êtes prêt à utiliser Analyzer sur votre source de données PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de manière générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. Côté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiés les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intégration pourra alors s’effectuée en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu définir un cluster PDI pour paralléliser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maîtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter à cela les algorithmes préparés par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider à générer de l’alerting dans des contextes de maintenance prédictive ou encore vous aider à identifier les jeux de données devant retenir votre attention en priorité au regard de vos objectifs métiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en œuvre sur la base de la plateforme analytique Pentaho.

2 réflexions sur « Pentaho v6 – DataPipeline »

Laisser un commentaire