DATA LAKE IS NOT ONLY SQL

Read it in English

Pour les plus de 40 ans 😉 Oracle a toujours Ă©tĂ© la rĂ©fĂ©rence du stockage que ce soit pour le transactionnel ou l’analytique.

Depuis la mouvance Big Data et aprÚs sa plus grande compréhension, de nombreux projets se lancent enfin concrÚtement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considÚre comme une problématique assez fréquente.

datalakeComme depuis toujours on souhaite avoir des performances pour que toutes requĂȘtes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’Ă©cosystĂšme Big Data mais revĂȘt 2 pivots essentiels en terme de choix, Hadoop et NoSql.

Pour moi le premier est un cluster de traitement de la donnĂ©e et le file systĂšme idĂ©al qui remplace entre autres nos anciennes staging area. Aujourd’hui ce stockage brut massif se dĂ©nomme Data Lake lorsqu’on ne l’applique plus exclusivement aux donnĂ©es destinĂ©es Ă  ĂȘtre traitĂ©es par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’ĂȘtre un espace de stockage universel bien au-delĂ  du pĂ©rimĂštre des responsables dĂ©cisionnels. C’est un espace centralisĂ© ou nativement le hardware permet dĂ©jĂ  de retrouver un grand nombre d’informations par les seules metadata initiales stockĂ©es au moment de leur ingestion.
De plus son mode cluster en mode distribuĂ©, comme d’autres, est un gĂ©nĂ©rateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.

NoSql offre dans le mĂȘme temps des modes de modĂ©lisation des donnĂ©es trĂšs souple et Ă©volutif tout en conservant d’excellente performance en terme de requĂȘte car le maĂźtre mot reste « base de donnĂ©es ». Mais quelque soit la souplesse de ces modĂšles dont le plus en vogue est la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribuĂ©.

Au temps de l’IoT cette conceptualisation est moins prĂ©sente car l’urgence est de collecter et stocker pour rendre disponible Ă  tout moment si besoin. Dans ce domaine Hadoop poursuit son rĂšgne. Cela n’interdit pas d’alimenter des processus temps rĂ©els avec des orchestration de Apache Kafka qu’il supporte. Au delĂ  vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.

Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient Ă  mon sens Ă  s’interdire de futur projet analytique. Si ces solutions rĂ©pondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi Ă©conomiser sur toutes les Ă©volutions que vous souhaitez apporter Ă  un outil transactionnel ou de reporting dĂ©diĂ©. Si vous souhaitez ajouter une information, ou mĂȘme dĂ©multiplier une information existante en plusieurs attributs, NoSql vous aidera largement a rĂ©aliser cela quasi instantanĂ©ment. Mais Ă  mon sens, NoSql ne peut pas ĂȘtre confondu avec une architecture Data Lake.

Ces Big questions trĂšs familiĂšres au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donnĂ©e. On a commencé par faire de l’analyse sur des projets prioritaires et aujourd’hui on est en mesure de dĂ©finir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain naĂźtra du croisement de multiples sources et si vos premiers choix sont trop rĂ©ducteurs, vous serez moins rĂ©actif.

A l’heure oĂč dans votre espace digital privĂ© vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de dĂ©finir la liste des « domaines » rĂ©servĂ©s Ă  l’analyse. Certes la confidentialitĂ© doit toujours ĂȘtre gĂ©rĂ©e (et c’est le cas) mais les dĂ©fis sont de pouvoir rapidement Ă©couter les flux manipulĂ©s par l’entreprise pour qu’Ă  n’importe quelle Ă©tape on puisse retrouver et analyser des donnĂ©es. Au rythme toujours incessant des nouveautĂ©s dans le Big Data les choix initiaux ne sont pas simples mais nĂ©anmoins pas neutres.

 

 

 

 

BioMe – Application analytique Big Data

Read it in english

Je partage avec vous aujourd’hui une vidĂ©o en Français ! d’une des fonctionnalitĂ©s phare de Pentaho.

Labellisée Streamline Data Refinery en interne, ce concept est une présentation de méthode de livraison des données Big Data à vos utilisateurs. Ce scénario se déroule en 3 étapes:

1/ Sélection des données souhaitées
PrĂ©senter Ă  l’utilisateur un Dashboard contenant des Kpi’s gĂ©nĂ©rique de vos Data. Cela lui permet de dĂ©finir les principaux Ă©lĂ©ments du pĂ©rimĂštre cible de son analyse.
Il peut compléter ses choix avec autant de critÚres que vous lui proposerez.

2/ Préparation des données
Pentaho Data Integration (PDI) va prendre en compte les paramĂštres de l’utilisateur et dynamiquement filtrer les datasets utiles Ă  rechercher dans votre Datalake on dans toutes sources de donnĂ©es imaginables.
Par la suite vous pouvez « automatiquement » annoter les donnĂ©es c’est Ă  dire rĂ©ellement crĂ©er un Metadata lisible pour votre utilisateur. Il s’agit bien ici d’un ETL qui va crĂ©er un dictionnaire de donnĂ©es pour qualifier vos hiĂ©rarchies d’axes d’analyse et vos principaux indicateurs et leurs attributs.

3/ Publication des données 
En fin de traitement, PDI va publier le nouveau Metadata sur la console utilisateur Pentaho et dans le cas prĂ©sent alerter l’utilisateur depuis son application BioMe de la disponibilitĂ© des donnĂ©es.
Celui-ci pourra alors utiliser l’outil de discovery de Pentaho, Pentaho Analyzer qui est dans cet exemple « embarquĂ© » dans l’application BioMe.

Enjoy!

100% Cloud guy!

Since 3 months now, I’ve experienced a full Cloud concept.

All my data, personal AND professional are host in the cloud. Sure you can say « Bhaaa nothing special ! » but when i say that,  its mean that my house could burn (cross fingers 😉 or i can crash my business computer, I’m sure I can access to all my data.

It was not a 100% safe story. I remind some morning in the train, just few minutes before a meeting, « oh xxxx, where is my file? »
I’ve tried to use many of major cloud solution: GoogleDrive, OneCloud, Dropbox, Box and HCPAnywhere.

Some of them only replicate your online data anywhere you want but don’t make any upload synchronization. So its why i stop using Box & Drop for this purpose. They just could be used to deliver access to files to your friends. In the same time I use Google only for personal usage. So today I manage all my personal files on Drive.

Where it’s more complex, it’s when I have to define my better tool for business usage. I’m travelling all times and use a full online solution was the not the right answer.

So I’ve tried OneCloud! But in this case you need at the end to create all your docs from Office365, so online. If you try to use your local Office, it will make synchronization for you,….. but when ! Their synchronization tool was not persistent in my case. I’ve some colleague who used full Office365 but in my case it take me sometimes 3 to 5 min to save a file, waiting checking and pseudo synchronization.

hcpAt the end my choice come to ….. Hitachi ! Sure it’s my new holding company but they have a public tool named HCPAnywhere that you can used online. By this way I can really use large local folder and create and update files using any software and be sure that everything is online without to wait long time. At the end you understand it’s my new tool and I can only encourage you to test it.

Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncĂ© pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport Ă  la v5. Sur la console c’est Analyzer qui Ă©volue et permet dĂ©sormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collĂšgues. CreatemeasureAutre astuce notoire est le fait de pouvoir gĂ©rer dans les rĂŽles le droit de crĂ©er des Metadata avec le Datasource Wizard sans nĂ©cessairement ĂȘtre administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le dĂ©veloppement des Clusters Hadoop. Le marchĂ© rĂ©pond clairement que ce n’est plus une nĂ©cessitĂ©. De notre DWH ont gĂ©nĂ©raient des Datamart. DĂ©sormais le concept est de gĂ©nĂ©rer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart Ă  la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez dĂ©jĂ  un DWH l’objet n’est pas de le supprimer et il restera utile pour les donnĂ©es Corporate Ă  mettre Ă  disposition de vos plus grands consommateurs de donnĂ©es. Tachez nĂ©anmoins de valider qu’il peut se mettre Ă  jour en NearRealTime.

Pipeline

Le Data Pipeline est quant Ă  lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de donnĂ©es, traditionnelles ou Big Data et de les mettre Ă  disposition de vos users en mode gouvernance des donnĂ©es (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une Ă©tape de votre Transformation PDI et crĂ©ation d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et dĂ©finissez une source de donnĂ©es en sĂ©lectionnant l’option « Pentaho Data Services ». Vous organisez les donnĂ©es et dĂ©finissez des formats par dĂ©faut si vous le souhaitez et vous ĂȘtes prĂȘt Ă  utiliser Analyzer sur votre source de donnĂ©es PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de maniÚre générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. CÎté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiĂ©s les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intĂ©gration pourra alors s’effectuĂ©e en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu dĂ©finir un cluster PDI pour parallĂ©liser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maßtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter Ă  cela les algorithmes prĂ©parĂ©s par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider Ă  gĂ©nĂ©rer de l’alerting dans des contextes de maintenance prĂ©dictive ou encore vous aider Ă  identifier les jeux de donnĂ©es devant retenir votre attention en prioritĂ© au regard de vos objectifs mĂ©tiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en Ɠuvre sur la base de la plateforme analytique Pentaho.

Blending your data

Si vous regarder ce whiteboard (zoom is your friend) et que vous vous posez certaines questions, je serai heureux de vous apporter des complĂ©ments d’information:

blending

  • Ne dĂ©truisez pas votre chaĂźne dĂ©cisionnelle existante
  • Soyez capable simplement de profiter graphiquement de nouveaux flux de data
  • Sachez opĂ©rer avec l’Ă©co-systĂšme Big data sans avoir Ă  recruter une nouvelle Ă©quipe
  •  Proposer Ă  votre Business de choisir lui-mĂȘme quelles datas il veut analyser en toute autonomie tout en Ă©tant capable d’en assurer la gouvernance – STOP A CHACUN SON INDICATEUR !
  • Ne construisez pas un nouveau silo et croisez vos Big et Traditional Data – Blending

See you

Pentaho 2015

Au delĂ  de cette invitation au prochain Pentaho World ce mois d’octobre 2015 Ă  Orlando, une envie de vous informer de ce que je considĂšre comme de bonnes nouvelles.

Comme vous pouvez le constater, Pentaho se focalise sur l’analyse des Big Data et de l’analyse embarquĂ©e. Ces prochains mois, Ă  travers notre version 5.4 et notre majeure de l’annĂ©e la v6.0 de cet automne , vous dĂ©couvrirez une nouvelle gĂ©nĂ©ration de concepts.

Comme Ă©voquĂ© sur de nombreux blogs, le Big Data n’est vraiment plus rĂ©servĂ© qu’aux grandes entreprises. TrĂšs souvent elles transforment cela en un projet d’infrastructure alors que comme tout l’IT l’important est le temps gagnĂ© et la simplicitĂ©. Oui j’ai bien dit la simplicitĂ©!

Aujourd’hui vous prenez du temps Ă  modĂ©liser, et je ne vous dirais pas que ce n’est pas important, mais dĂ©sormais vous pouvez modĂ©liser autant de fois que vous le souhaitez. Une erreur dĂ©tectĂ©e aprĂšs quelques semaines? Rien de grave, avec les solutions NoSql, enrichissez votre modĂšle au rythme de vos besoins. Avec Hadoop rĂ©gĂ©nĂ©rer vos outputs Ă  votre envie. Ne vous relancez pas dans un cycle long d’interface de rechargement!

Cet ODS que vous ne respectiez pas toujours est désormais natif à travers les solutions Big Data qui vous offre un Data Lake quasi sans limite, permanent et auto sécurisé.

Alors lĂ  oui vous travaillerez main dans la main avec votre administrateur Hadoop de l’Ă©quipe Infra pour le convaincre d’ajouter des Nodes. En fait il aura dĂ©jĂ  anticipĂ© cette action sans avoir Ă  se prĂ©occuper des projets impactĂ©s.

Pentaho vous permet d’utiliser tous ces outils simplement Ă  travers le plus que gĂ©nial Pentaho Data Integration. Vous le dĂ©couvrirez bientĂŽt encore plus joli! et encore plus simple Ă  Clusteriser pour dispatcher vos traitements sur diffĂ©rents serveurs ou parallĂ©liser une action massive.Spoon2015

Alors vous serez en mesure avec Analyzer de proposer une interface Ă  vos analystes. Vous pourrez customiser votre console comme autant d’applications souhaitĂ©es.
Why not un projet = une console… mais chacun partageant les mĂȘmes Metadata sĂ©curisĂ©es si vous le souhaitez.
Bien entendu nos API de plus en plus riches, vous permettent Ă©galement de positionner vos meilleures analyses directement dans l’application mĂ©tier de vos utilisateurs facilitant la conduite du changement.

Car changement oui il en a un. Vous le percevez tous dans votre vie quotidienne et l’AppleWatch, que je ne n’adore pas, utilise un concept qui lui a de beaux lendemains. C’est ce que l’on appelle l’internet des objets. Une nouvelle Ă©tape qui comme toutes celles que nous vivons en ce moment va se dĂ©ployer comme une traĂźnĂ©e de poudre. C’est pourquoi Hitachi Data System est un excellent choix pour nous. L’infrastructure et le logiciel d’analyse de donnĂ©es. Ce mix permettra Ă  Pentaho de bĂ©nĂ©ficier d’encore plus de moyens sans renier son ADN open-source.

Car Oui, vu que la liste des invitĂ©s au jeu de l’analyse de donnĂ©es s’Ă©largie (tous les constructeurs d’objets!) il n’a jamais Ă©tĂ© aussi important de partager au delĂ  des standards des objets ouverts facilitant les interconnexions.

Ne remettez pas en cause votre architecture BI, optimisez la! Encapsulez-la Ă  l’image du Cloud et des Big Data et comme toujours concentrez-vous sur les datas 😉

Pentaho_HDS_4

Seb @opentoile

Streamline Data Refinery

Dans un environnement Big Data la rĂ©plication des donnĂ©es peut ĂȘtre lourde de consĂ©quence. Aussi il est nĂ©cessaire de pouvoir exploiter les donnĂ©es directement depuis leurs sources et de produire des solutions d’analyses Ă  vos « clients ».

Le concept de « Streamline Data Refinery » de Pentaho rĂ©pond Ă  ces besoins. Nous vous proposons en effet de prĂ©parer Ă  l’avance des interfaces pouvant accĂ©der facilement Ă  telle ou telle information reprĂ©sentant un indicateur ou des axes d’analyses innovants.

SDR

L’utilisateur pourra ainsi sĂ©lectionner librement Ă  travers un formulaire les informations qu’ils souhaitent analyser ponctuellement. Celles-ci seront combinĂ©es ensemble par la gĂ©nĂ©ration d’un schĂ©ma d’analyse Mondrian, et automatiquement publiĂ©es sur l’écran de l’utilisateur Ă  travers notre outil Ad’Hoc Pentaho Analyzer.

On parle donc bien lĂ  de proposer Ă  l’utilisateur de gĂ©nĂ©rer un cuble Olap d’analyse Ă  la demande! 

Bien entendu les donnĂ©es proposĂ©es peuvent avoir plusieurs sources distinctes (DWH, Fichiers HDFS, NoSql, …) .

Data Lake on demand