Pour les plus de 40 ans đ Oracle a toujours Ă©tĂ© la rĂ©fĂ©rence du stockage que ce soit pour le transactionnel ou l’analytique.
Depuis la mouvance Big Data et aprÚs sa plus grande compréhension, de nombreux projets se lancent enfin concrÚtement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considÚre comme une problématique assez fréquente.
Comme depuis toujours on souhaite avoir des performances pour que toutes requĂȘtes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’Ă©cosystĂšme Big Data mais revĂȘt 2 pivots essentiels en terme de choix, Hadoop et NoSql.
Pour moi le premier est un cluster de traitement de la donnĂ©e et le file systĂšme idĂ©al qui remplace entre autres nos anciennes staging area. Aujourd’hui ce stockage brut massif se dĂ©nomme Data Lake lorsqu’on ne l’applique plus exclusivement aux donnĂ©es destinĂ©es Ă ĂȘtre traitĂ©es par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’ĂȘtre un espace de stockage universel bien au-delĂ du pĂ©rimĂštre des responsables dĂ©cisionnels. C’est un espace centralisĂ© ou nativement le hardware permet dĂ©jĂ de retrouver un grand nombre d’informations par les seules metadata initiales stockĂ©es au moment de leur ingestion.
De plus son mode cluster en mode distribuĂ©, comme d’autres, est un gĂ©nĂ©rateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.
NoSql offre dans le mĂȘme temps des modes de modĂ©lisation des donnĂ©es trĂšs souple et Ă©volutif tout en conservant d’excellente performance en terme de requĂȘte car le maĂźtre mot reste « base de donnĂ©es ». Mais quelque soit la souplesse de ces modĂšles dont le plus en vogue est la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribuĂ©.
Au temps de l’IoT cette conceptualisation est moins prĂ©sente car l’urgence est de collecter et stocker pour rendre disponible Ă tout moment si besoin. Dans ce domaine Hadoop poursuit son rĂšgne. Cela n’interdit pas d’alimenter des processus temps rĂ©els avec des orchestration de Apache Kafka qu’il supporte. Au delĂ vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.
Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient Ă mon sens Ă s’interdire de futur projet analytique. Si ces solutions rĂ©pondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi Ă©conomiser sur toutes les Ă©volutions que vous souhaitez apporter Ă un outil transactionnel ou de reporting dĂ©diĂ©. Si vous souhaitez ajouter une information, ou mĂȘme dĂ©multiplier une information existante en plusieurs attributs, NoSql vous aidera largement a rĂ©aliser cela quasi instantanĂ©ment. Mais Ă mon sens, NoSql ne peut pas ĂȘtre confondu avec une architecture Data Lake.
Ces Big questions trĂšs familiĂšres au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donnĂ©e. On a commencé par faire de l’analyse sur des projets prioritaires et aujourd’hui on est en mesure de dĂ©finir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain naĂźtra du croisement de multiples sources et si vos premiers choix sont trop rĂ©ducteurs, vous serez moins rĂ©actif.
A l’heure oĂč dans votre espace digital privĂ© vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de dĂ©finir la liste des « domaines » rĂ©servĂ©s Ă l’analyse. Certes la confidentialitĂ© doit toujours ĂȘtre gĂ©rĂ©e (et c’est le cas) mais les dĂ©fis sont de pouvoir rapidement Ă©couter les flux manipulĂ©s par l’entreprise pour qu’Ă n’importe quelle Ă©tape on puisse retrouver et analyser des donnĂ©es. Au rythme toujours incessant des nouveautĂ©s dans le Big Data les choix initiaux ne sont pas simples mais nĂ©anmoins pas neutres.