Archives du mot-clé BigData

Pentaho 8.0

C’est l’heure d’une nouvelle version et donc pour moi de vous en parler.

Quelle fierté de faire partie de cette belle aventure qu’est Pentaho. C’est plus qu’un logiciel, c’est une manière de progresser tous les jours dans le métier de l’analyse des données. Pas de débat sur l’utilité du Big Data. si vous en doutez, lisez, observez vos concurrents, MAIS attention, vous allez peut-être vous dire, WHAOUH ils ont fait çà !

Chez HitachiVantara qui est notre nouvelle société juridique, la marque Pentaho a toute sa place. Elle est même le lien qui permet à une multinationale d’être le leader du marché de l’IoT.

Alors la v8 de Pentaho?

Si vous lisez les annonces trop vite vous allez peut-être apercevoir Spark, Kafka et vous dire, « Mais la v7.1 le faisait déjà! ». Oui c vrai en partie mais là aujourd’hui il s’agit réellement de permettre à tout le monde de le faire et de bénéficier de l’apport d’Hitachi. Pour cela vous avez désormais des étapes entreprise qui vous donnerons le pouvoir de proposer à vos Boss de l’analyse en temps réels:

  • Kafka + MetadataInjection = Ingérer des données en temps réels
  • Spark + ML = Transformer et Enrichir en temps réels

Il ne vous reste donc plus qu’à trouver vos clients et/ou utilisateurs temps réels 😉

Les éléments de la v8:

Ingérer vos datas sous forme de message.
Avec Pentaho Kafka Enterprise vous allez pouvoir choisir plus finnement la tranche de messages que vous voulez traiter.
De plus vous pourrez créer vos propres flux depuis une Transformation PDI avec la nouvelle étape 
Voici donc un nouveau dossier dans votre librairie PDI:

 

Rappelez-vous que PDI n’est pas un générateur de code. Et là en v8 vous allez pouvoir scaler vos process en temps réels sur votre cluster Hadoop? Oui biensûr vous le faites déjà mais là vous allez pouvoir faire la même chose sur vos serveurs Pentaho!

Avec notre fonction WorkerNodes, adieu les « slaves server » et vive la répartition dynamique sur vos machines les plus dispos.

.

 

Encore et encore aider tout le monde à faire du Big Data. C’est donc PDI qui s’enrichi avec ses fonctions de visualisations. Vous pourrez dé-dupliquer, filtrer, supprimer les valeurs aberrantes et remplacer les null encore plus facilement.

Oui vous avez deviné, les nouveaux utilisateurs de PDI sont les DataScientist mais la bonne nouvelle est que vous aussi vous allez pouvoir devenir un DataScientist !

 

Tous les détails sont sur http://www.pentaho.com/product/version-8-0 MAIS il faudra attendre le 16 Novembre pour télécharger le v8.

Préparez-vous messieurs les fans, le logo Hitachi est très présent mais pour le bonne cause, pour être encore plus fort sur ce marché.

DATA LAKE IS NOT ONLY SQL

Read it in English

Pour les plus de 40 ans 😉 Oracle a toujours été la référence du stockage que ce soit pour le transactionnel ou l’analytique.

Depuis la mouvance Big Data et après sa plus grande compréhension, de nombreux projets se lancent enfin concrètement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considère comme une problématique assez fréquente.

datalakeComme depuis toujours on souhaite avoir des performances pour que toutes requêtes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’écosystème Big Data mais revêt 2 pivots essentiels en terme de choix, Hadoop et NoSql.

Pour moi le premier est un cluster de traitement de la donnée et le file système idéal qui remplace entre autres nos anciennes staging area. Aujourd’hui ce stockage brut massif se dénomme Data Lake lorsqu’on ne l’applique plus exclusivement aux données destinées à être traitées par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’être un espace de stockage universel bien au-delà du périmètre des responsables décisionnels. C’est un espace centralisé ou nativement le hardware permet déjà de retrouver un grand nombre d’informations par les seules metadata initiales stockées au moment de leur ingestion.
De plus son mode cluster en mode distribué, comme d’autres, est un générateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.

NoSql offre dans le même temps des modes de modélisation des données très souple et évolutif tout en conservant d’excellente performance en terme de requête car le maître mot reste « base de données ». Mais quelque soit la souplesse de ces modèles dont le plus en vogue est la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribué.

Au temps de l’IoT cette conceptualisation est moins présente car l’urgence est de collecter et stocker pour rendre disponible à tout moment si besoin. Dans ce domaine Hadoop poursuit son règne. Cela n’interdit pas d’alimenter des processus temps réels avec des orchestration de Apache Kafka qu’il supporte. Au delà vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.

Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient à mon sens à s’interdire de futur projet analytique. Si ces solutions répondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi économiser sur toutes les évolutions que vous souhaitez apporter à un outil transactionnel ou de reporting dédié. Si vous souhaitez ajouter une information, ou même démultiplier une information existante en plusieurs attributs, NoSql vous aidera largement a réaliser cela quasi instantanément. Mais à mon sens, NoSql ne peut pas être confondu avec une architecture Data Lake.

Ces Big questions très familières au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donnée. On a commencé par faire de l’analyse sur des projets prioritaires et aujourd’hui on est en mesure de définir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain naîtra du croisement de multiples sources et si vos premiers choix sont trop réducteurs, vous serez moins réactif.

A l’heure où dans votre espace digital privé vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de définir la liste des « domaines » réservés à l’analyse. Certes la confidentialité doit toujours être gérée (et c’est le cas) mais les défis sont de pouvoir rapidement écouter les flux manipulés par l’entreprise pour qu’à n’importe quelle étape on puisse retrouver et analyser des données. Au rythme toujours incessant des nouveautés dans le Big Data les choix initiaux ne sont pas simples mais néanmoins pas neutres.

 

 

 

 

BioMe – Application analytique Big Data

Read it in english

Je partage avec vous aujourd’hui une vidéo en Français ! d’une des fonctionnalités phare de Pentaho.

Labellisée Streamline Data Refinery en interne, ce concept est une présentation de méthode de livraison des données Big Data à vos utilisateurs. Ce scénario se déroule en 3 étapes:

1/ Sélection des données souhaitées
Présenter à l’utilisateur un Dashboard contenant des Kpi’s générique de vos Data. Cela lui permet de définir les principaux éléments du périmètre cible de son analyse.
Il peut compléter ses choix avec autant de critères que vous lui proposerez.

2/ Préparation des données
Pentaho Data Integration (PDI) va prendre en compte les paramètres de l’utilisateur et dynamiquement filtrer les datasets utiles à rechercher dans votre Datalake on dans toutes sources de données imaginables.
Par la suite vous pouvez « automatiquement » annoter les données c’est à dire réellement créer un Metadata lisible pour votre utilisateur. Il s’agit bien ici d’un ETL qui va créer un dictionnaire de données pour qualifier vos hiérarchies d’axes d’analyse et vos principaux indicateurs et leurs attributs.

3/ Publication des données 
En fin de traitement, PDI va publier le nouveau Metadata sur la console utilisateur Pentaho et dans le cas présent alerter l’utilisateur depuis son application BioMe de la disponibilité des données.
Celui-ci pourra alors utiliser l’outil de discovery de Pentaho, Pentaho Analyzer qui est dans cet exemple « embarqué » dans l’application BioMe.

Enjoy!

Dashboard MongoDB & Pentaho

Vous avez succombé aux charmes de MongoDB ?
Vous aimeriez bien visualiser vos données aisément ?

Voici un exemple de Dashboard réalisé en 20min sans compter la création des collections Mongo
MAIS SANS DEPLACER LES DONNEES
Tout s’affiche directement depuis votre base magique = MongoDB+Pentaho!

MongoTweetDash

 

 

I’m on the Map !

Le point indiquant Marseille
représente mes tweets signés
opentoile 😉

 

Définition de « Big Data »

Vous cherchez la définition de « Big Data » ?

= Toutes vos données

Pentaho a la réponse « All your Data » #PWorld2014

 

 

 

 

——- PETITE HISTOIRE DE L’ANALYSE DES DONNÉES ——–

  • On a commencé par ajouter des codes analytiques dans les ERP comptable
  • On a ajouté derrière de beaux Datawarehouse et des outils de reporting
  • On s’est concentré sur les services ayant de l’argent = La finance
  • On a frustré les autres services
  • On s’est dit on va étendre le périmètre!
    • Ah mince tous les services ne bénéficient pas de code analytiques référencés dans l’ERP!
    • Ah mince ça coûte cher d’étendre le Datawarehouse
  • On nous a dit qu’il y avait des Appliances pour cela
    • Euh en fait on l’a dit qu’aux grosses compagnies car les autres étaient censés ne pas être intéressés ou ne pas avoir le budget adéquat
    • Euh en fait ils ne peuvent traiter que ce qui est déjà dans votre ERP
  • Les spécialistes des réseaux sociaux (Facebook & Co …) n’y trouvaient pas leur compte
  • Ces nouveaux géants ont donc travailler sur des projets OpenSource
  • Ils ont crées ce que l’on nomme aujourd’hui le BIG DATA
  • Les spécialistes de l’analyse de données OpenSource ont été des acteurs privilégiés pour adapter leurs solutions à ces nouveaux éco-systèmes
    • Certains ont focalisés seulement sur le collaboratif, le InMemory, …
    • Mais les besoins des utilisateurs n’ont pas changés, ce qu’ils veulent c’est pouvoir analyser toutes leurs données
  • C’est pourquoi aujourd’hui Pentaho propose le concept de RAFFINERIE DE DONNEES
    • Stockage = Hadoop et/ou NoSql
      • Economique et puissant (ScaleUp / ScaleDown)
      • Un dynamisme OpenSource ultra dynamique laissant les timides à la traine
    • Sélection de vos thématiques de recherche = Pentaho Stream Data Refinery
      • Une véritable interface Web à la « Google » pour identifier vos besoins
      • Un moyen pour tous de rechercher les données qui les interesse
    • Préparation et modélisation de vos données = Pentaho Data Integration
      • Lecture en directe des données utiles depuis Hadoop
      • Stockage en mode décisionnel dans une base analytique de votre choix (Attention je parle de vraie base en colonne et pas d’un énième système propriétaire qui doit pré-calculer ses index magiques)
    • Visualisation de vos données avec Pentaho Analyzer OU directement dans votre application préférée
      • Une interface Web 100%HTML5 utilisable par votre assistante si vraiment vous êtes frileux mais je dirai que l’on est jamais mieux servi que par soi-même (Après tout vous avez bien réussi à vous servir d’Excel!)
      • Vous utilisez majoritairement une application dans votre entreprise?, alors embarquons Pentaho Analyzer directement dans votre applicatioon préférée

 

TOUTES LES DONNÉES pour TOUS LES UTILISATEURS (pas de licence nommée!)

ROLAP sans modèle en étoile!

ROLAP sans modèle en étoile avec #Pentaho et #MongoDB

Bq_ixrdCUAEKwMo

 

Vos Collections transactionnelles dans MongoDB vont pouvoir générer une nouvelle collection MongoDB toujours.
Vous repositionnez logiquement vos Items en starmodel et le tour est joué!

Une base distribuée pour vos transactions et votre BI.
Plus de limite d’espace,
Plus de limite de query,
Et un outil graphique pour « designer » et « visualiser »…avec Pentaho