Archives du mot-clé hadoop

DATA LAKE IS NOT ONLY SQL

Read it in English

Pour les plus de 40 ans 😉 Oracle a toujours été la référence du stockage que ce soit pour le transactionnel ou l’analytique.

Depuis la mouvance Big Data et après sa plus grande compréhension, de nombreux projets se lancent enfin concrètement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considère comme une problématique assez fréquente.

datalakeComme depuis toujours on souhaite avoir des performances pour que toutes requêtes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’écosystème Big Data mais revêt 2 pivots essentiels en terme de choix, Hadoop et NoSql.

Pour moi le premier est un cluster de traitement de la donnée et le file système idéal qui remplace entre autres nos anciennes staging area. Aujourd’hui ce stockage brut massif se dénomme Data Lake lorsqu’on ne l’applique plus exclusivement aux données destinées à être traitées par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’être un espace de stockage universel bien au-delà du périmètre des responsables décisionnels. C’est un espace centralisé ou nativement le hardware permet déjà de retrouver un grand nombre d’informations par les seules metadata initiales stockées au moment de leur ingestion.
De plus son mode cluster en mode distribué, comme d’autres, est un générateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.

NoSql offre dans le même temps des modes de modélisation des données très souple et évolutif tout en conservant d’excellente performance en terme de requête car le maître mot reste « base de données ». Mais quelque soit la souplesse de ces modèles dont le plus en vogue est la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribué.

Au temps de l’IoT cette conceptualisation est moins présente car l’urgence est de collecter et stocker pour rendre disponible à tout moment si besoin. Dans ce domaine Hadoop poursuit son règne. Cela n’interdit pas d’alimenter des processus temps réels avec des orchestration de Apache Kafka qu’il supporte. Au delà vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.

Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient à mon sens à s’interdire de futur projet analytique. Si ces solutions répondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi économiser sur toutes les évolutions que vous souhaitez apporter à un outil transactionnel ou de reporting dédié. Si vous souhaitez ajouter une information, ou même démultiplier une information existante en plusieurs attributs, NoSql vous aidera largement a réaliser cela quasi instantanément. Mais à mon sens, NoSql ne peut pas être confondu avec une architecture Data Lake.

Ces Big questions très familières au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donnée. On a commencé par faire de l’analyse sur des projets prioritaires et aujourd’hui on est en mesure de définir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain naîtra du croisement de multiples sources et si vos premiers choix sont trop réducteurs, vous serez moins réactif.

A l’heure où dans votre espace digital privé vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de définir la liste des « domaines » réservés à l’analyse. Certes la confidentialité doit toujours être gérée (et c’est le cas) mais les défis sont de pouvoir rapidement écouter les flux manipulés par l’entreprise pour qu’à n’importe quelle étape on puisse retrouver et analyser des données. Au rythme toujours incessant des nouveautés dans le Big Data les choix initiaux ne sont pas simples mais néanmoins pas neutres.

 

 

 

 

Data intégration & Big Data: Interview with CISCO

La semaine dernière, j’ai eu l’occasion avec Eric Debray de chez Cisco France de présenter comment l’ETL Pentaho Data Integration peut jouer un rôle majeur dans vos projets Big Data.

Pentaho-hadoop-summit-223x300

En effet il n’est pas évident de penser ETL lorsqu’on se lance dans des développements MapReduce sur Hadoop. Et pourtant pour les non « puriste » développeur Java il s’avère très utile de pouvoir développer graphiquement comme on le fait pour une alimentation de DWH. Certes certains pense que justement on a plus besoin de DWH et donc plus besoin d’ETL mais c’est un peu précoce comme raisonnement. En effet si vous avez déjà un existant BI vous allez en effet plus facilement pouvoir choisir ce que vous mettrez dans votre DWH ou ce que vous laisserez sur vos File System HDFS. C’est le concept que l’on nomme « Optimisation DWH ».

 

Or Hadoop s’accompagne d’un ensemble de plusieurs composants. Alors PDI pourra jouer le rôle d’ordonnanceur pour orchestrer tous les traitements. Vous souhaitez plutôt utiliser Sqoop que le connecteur Hive de Pentaho? Pas de souçis et si vous avez un groupe de tables volumineuses vous avez parfaitement raison. Mais en pilotant depuis PDI votre chargement Sqoop vous aurez tout dans le même traitement.

 

 

 

Donc en résumé les avantages ETL Pentaho avec Hadoop:

  • Visual MapReduce  =  Développer graphiquement et sans erreur de code vos traitements MapReduce qui s’exécuteront bien nativement dans votre cluster Hadoop
  • Orchestration de vos process Hadoop  =  du chargement au MR jusqu’au chargement de vos éventuels entrepôts cibles, tout en un
  • Big Data Layer  =  Vous utilisez le Hadoop d’Apache et envisager peut être de passer prochainement sur MapR, Horton, Cloudera, … Pas de souçis tous vos développements seront opérationnels immédiatement sur votre nouveau cluster sans redéveloppement ou recompilation. Nous sommes agnostiques de la plateforme et compte tenu que nous ne générons pas de codes exécutables avec PDI, pas besoin de livrer sur votre cluster voire tous les nodes vos exécutables

Vous pouvez désormais vous reposer en visualisant l’interview:

CiscoInterview

 

Voici également le blog complet d’Eric:  gblogs.cisco.com/fr-datacenter/…

A+

Le Big Data chez le coiffeur!

Bel article de chez OCTO sur le buzz du Big Data…mais avec des points techniques intéressant : quelques mythes !

blog.octo.com/big-data-quelq…

datasciencevenn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Il permet de bien communiquer sur le fait que pour de nombreux projets Big Data il ne s’agit pas seulement de disposer de connecteurs pour extraire ou charger les environnements Hadoop ou NoSql mais réellement d’être en mesure de développer les process devant s’exécuter dans votre cluster.

de là on voit les extensions sur biensûr les traitements batch MapReduce mais aussi les nouveautées temps réels comme Storm, Mahout ou encore Spark désormais.

Inutile de vous rappeler que Pentaho est la parfaite « glue » pour gérer ces process de manière efficiente en vous accompagnant également sur la visualisation.

A+

 

qfdqfdf

Pentaho & Yarn

Depuis plusieurs années, comme tout bon ETL, il est possible de créer un cluster avec Pentaho Data Integration (Kettle).
Ainsi en utilisant le shell « Carte » vous pouvez utiliser tous vos serveurs disponibles, sans installer un lourd programme sur chacun, pour paralléliser une interface d’intégration Pentaho et obtenir de meilleurs temps de traitement et surtout exploiter votre infrastructure qui dort!

PDI_YARNAvec YARN vous allez pouvoir utiliser votre Cluster Hadoop pour optimiser les temps de traitements de vos interfaces ETL.De part sa conception (ce n’est pas un générateur de code) n’importe quelle étape de PDI, et donc pas seulement des interfaces de type MapReduce, vont pouvoir s’exécuter au sein de votre cluster Hadoop.  Plus rien à installer nulle part, notre architecture Pentaho se fondant avec celle d’Hadoop, c’est bien votre cluster Hadoop qui va se charger de distribuer les librairies Java utiles à vos traitements. Et ceci quel que soit votre distribution Hadoop grâce à notre module Big Data Layer (vidéo) qui vous permet d’être indépendant de la version du Cluster.

Quand on prend en compte le coût des infrastructures pour construire un Cluster Hadoop (faible au regard de l’achat d’un monstre de guerre chez les gros constructeurs), on voit bien ici les bénéfices du Big Data sur la gestion de nos infrastructures. YARN issu de Hadoop est fait pour distribuer des process sur une ferme de serveur, et vu que Pentaho est fait de la même veine, tous vos traitements ETL vont pouvoir bénéficier de ce type d’infra.

Tout cela est déjà en phase de dernier contrôle au sein de nos Pentaho Labs et sera délivré à nos clients dans la version 5.1 de Pentaho avant cet été.

Pensez-y!

 

The Evolution of the EDW, Starring Hadoop

‘NewSql company’ could be #Pentaho sure

The Evolution of the EDW, Starring Hadoop

flip.it/EMjex

Interesting paper but it’s incredible to see how big IT companies were confused on how to integrate Hadoop.
The best way is not to select the best distribution or to recreate a distribution, is to accept it’s really a new concept and at this time we need to be complaint with all solutions.
AdaptiveLayer at Pentaho allow you to use Hadoop performances without to have to definitly make a choice on which distribution to use.

 

RT @RobertsPaige RT @Data_Informed: