Archives pour la catégorie BI

Réponse à Philippe Nieuwbourg « L’innovation est-elle en panne dans la BI ? »

Philippe Nieuwbourg a publié ce 20 mai 2019 un article sur Decideo intitulé « Business Intelligence : L’innovation est-elle en panne ? »

Je vous invite à le lire et par la suite consulté mes éléments de réponses ci-dessous.

« Je partage ce point de vue sur le coup de mou des solutions BI. Mais avant la suppression des analystes, je discerne quelques sujets qui devraient encore occuper le marché de la BI.

Pour les acquis de la dernière décennie, et plus particulièrement l’intégration de l’analyse prédictive dans la BI, ce sujet n’est pour moi pas encore bien stable.
Certes le rôle de l’analyste BI analysant des KPIs et prenant des décisions est définitivement complété aujourd’hui par de la valeur additionnelle ajoutée quasi-automatiquement par les algorithmes analytiques. Mais ce processus a besoin d’encore plus de data en entrée et recentre le sujet sur la data intégration. Celle-ci doit surmonter le critère temps et tenir compte des dernières data générées, temps réel. Les modèles analytiques quant à eux doivent évoluer en toute autonomie face à l’accroit de ces data supplémentaires (plus uniquement mes mesures opérationnelles mais également des « sentiments » extraits d’autres sources comme les réseaux sociaux …etc…). Alors, le machine Learning doit-il être inclus dans la BI ou dans la Data Intégration ? Chacun prêche pour sa paroisse. En tout état de cause je dirai que cette pratique est encore en évolution aujourd’hui et que des fusions/absorptions devraient se jouer soit entre des acteurs DI ou BI et les nombreuses « data-agency » nées de l’analyse prédictive qui auront prouvées leur leadership.

Pour la gouvernance des données et plus particulièrement les nouvelles régulations sur la confidentialité, c’est un chapitre qui s’ouvre et qui doit en effet solutionner la problématique des analyses BI disséminées et non inventoriées dans l’entreprise. Là je rentre dans mon domaine, la Data Privacy, mais le lien avec la BI est que de nombreux acteurs s’efforcent de gérer la confidentialité au niveau de l’outil de BI, c’est à dire au niveau de l’utilisateur. Or plus de 60% des fuites de données proviennent des salariés des entreprises elle-même, donc de personnes qui ont accès aux données. Ainsi il semble préférable de dissocier la sécurité définie pour un utilisateur et l’anonymisation des données utilisées au sein de l’entreprise. Quelles-sont les analyses BI que vous réalisez pour lesquelles vous avez besoin d’autant de données sensibles concernant les personnes ?
Je pense ainsi que nous allons apprendre à faire de la BI et de l’analyse prédictive sur la base de données qui auront été anonymisées au préalable en conservant bien entendu leur utilité et leur intégrité. Si vous découvrez que le client ABC doit être particulièrement soigné et qu’on doit lui suggérer d’acheter le produit XYZ, alors si vous en êtes autorisé par l’entreprise, ces informations seront re-identifées et vous en connaitrez les identités précises. Ce scénario, qui peut paraître futuriste à certains, est déjà mis en place dans de nombreuses entreprises souhaitant protéger au maximum leur réputation.

Enfin, autre mouvement en cours, et présent à tous les niveaux, le Cloud. Pourquoi n’est-il pas évoqué dans votre article ?
Certes il ne s’agit que d’infrastructure qui au lieu d’être en locale sont dans le nuage, mais ce mouvement accélère l’utilisation de nombreux nouveaux logiciels y compris dans la BI. Comme mentionné les types de stockage se multiplient (RDBMS, Hadoop, NoSql, Stream, …) mais nous restons avec des outils BI qui ne connaissent quasiment que le SQL comme langage de requête. Aussi aujourd’hui ils utilisent tous leurs « drivers JDBC » magiques mais dans ce domaine on devrait constater des évolutions. J’observe une communauté,  Apache Druid,  qui permet de conserver les structures de ce langage mais qui l’enrichie afin de pouvoir mixer dans une même requête des sources s’appuyant chacune sur des technologies distinctes et qui sont lues comme des tables. Je ne sais pas si cette logique s’imposera (elle est déjà utilisée par de nombreuses Licornes), mais c’est définitivement un sujet qui peut soulager les outils BI de devoir stocker une énième version des données et d’être ainsi directement consommateur des données sources. Cela rejoint le sujet du langage de requête.

Le machine learning, la data privacy et l’évolution du langage sont donc pour moi des sources d’innovation qui n’ont pas encore dis leurs derniers mots. A suivre… »

Bye bye DI & BA?

Hello,

I recently stop working for Pentaho aka Hitachi Vantara. Due to my career it could be surprising as i’ve always talk and be passsionate by analytics. Sure since Hitachi acquired Pentaho, the roadmap change a lot and now it will be more focused on big industry around IoT use cases to increase productivity and implement predictive maintenance mainly.

But at the end i havent leave Pentaho for that. It’s more related to market evolution. Today you can have in front of you 2 types of Big Data customers:
– « Profit focus » customer how expect to use Big Data to not only increase but to shoot up their revenues. Its not easy and not free so they want to see quickly big ROI in new services
– « Technical feature » customer where new technology really allowed to simplify or increase quality services

But in all case, many time Deciders are not enthusiastic that a small team of Data Scientist get access to sensitive datasets. And Machine Learning need details rows to optimize their models. So what’s happen?
Data scientist are difficult to hire so many times you are in front of freelance people or subcontractors or even new data agencies. So if you start a long exchange on « Can we share or not these details? » you get a long Go/NoGo session, and at the end you do only a small pourcentage of your initial requirements.

So what to do?
Avoid analytics? Not possible because in that case somebody else will do and will be the leader in your market.

So it’s why i’m convince we need to help companies to manage data privacy and then allowed them to do Big Analytics.

Today on Data Privacy, if you just applied basic encryption you will get plenties data flows using each one a specific methodology to hide sensitive data. So in that case:
– How to solve consistencies between your datasets?
– How to protect your datasets against linkage attack?
– How to manage all your data privacy from one repository?
Answer is that you need a platform to manage our Data Privacy.

So its exactly why i move to Privitar and expect to meet you again to help you doing analytics serenely using any type of data.

 

logoPrivitar

SQL is not dead ! Welcome streaming SQL

calcite

Quel plaisir de lire ce slide deck de Julian Hide, manager du projet Apache Calcite. Il réalise une présentation technico-fonctionnelle de notre aisance à penser SQL tout en pouvant interagir avec toutes les nouvelles formes de stockage. attention on est bien ici dans du query-réponse type base de données. Mais ce projet prend également en compte les usages sur les critères de période analysée ou la structure de la réponse qui doit être appropriée pour pouvoir facilement alimenter des graphiques ou encore conserver les fonctions de l’analyse multi-dimensionnelle. N’oublions pas que Julian est le responsable de Mondrian, le meilleur outil ROLAP.

Toutes les slides ne sont pas aisées et vous utiliserez quelques fois la fonction retour pour relire la précédente mais vous découvrirez un projet « ouvert ». On me demande fréquemment si ce que je présente est open ou pas. Ici est parfaitement représenté le concept de l’ouverture par laquelle ce projet s’interconnecte avec des bases de stockage chacune ayant leurs spécificités de performance. Le stream vous apporte le courant, le traditionnel vous apporte l’historique et le window vous donne des photos d’un ensemble de données.

Au regard de nos besoins nous pourrons implémenter tous les modules ou au contraire, pour alléger des apps analytique, avoir la possibilité d’utiliser les seuls modules utiles à votre projet.

Le développement des NoSql est réel et parfaitement utile pour la souplesse de modélisation et la scalabilité. On voit ainsi qu’un query croisant des sources Splunk et MySql n’est pas dénué de sens. Le pouvoir est dans le fait de pouvoir exprimer sa demande dans un langage universel et d’utiliser le meilleur des offres de stockage au regard du type de données.

Je n’ai pas encore testé Calcite qui est en version 1.7 actuellement mais je suis sûr de recroiser le chemin de ce projet. Pentaho Data Integration me permettra de transformer les retours pour répondre à des demandes fonctionnelles et les Inputs seront performant en suivant les conseils de Julian.

See you soon !

Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncé pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport à la v5. Sur la console c’est Analyzer qui évolue et permet désormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collègues. CreatemeasureAutre astuce notoire est le fait de pouvoir gérer dans les rôles le droit de créer des Metadata avec le Datasource Wizard sans nécessairement être administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le développement des Clusters Hadoop. Le marché répond clairement que ce n’est plus une nécessité. De notre DWH ont généraient des Datamart. Désormais le concept est de générer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart à la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez déjà un DWH l’objet n’est pas de le supprimer et il restera utile pour les données Corporate à mettre à disposition de vos plus grands consommateurs de données. Tachez néanmoins de valider qu’il peut se mettre à jour en NearRealTime.

Pipeline

Le Data Pipeline est quant à lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de données, traditionnelles ou Big Data et de les mettre à disposition de vos users en mode gouvernance des données (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une étape de votre Transformation PDI et création d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et définissez une source de données en sélectionnant l’option « Pentaho Data Services ». Vous organisez les données et définissez des formats par défaut si vous le souhaitez et vous êtes prêt à utiliser Analyzer sur votre source de données PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de manière générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. Côté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiés les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intégration pourra alors s’effectuée en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu définir un cluster PDI pour paralléliser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maîtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter à cela les algorithmes préparés par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider à générer de l’alerting dans des contextes de maintenance prédictive ou encore vous aider à identifier les jeux de données devant retenir votre attention en priorité au regard de vos objectifs métiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en œuvre sur la base de la plateforme analytique Pentaho.

Streamline Data Refinery

Dans un environnement Big Data la réplication des données peut être lourde de conséquence. Aussi il est nécessaire de pouvoir exploiter les données directement depuis leurs sources et de produire des solutions d’analyses à vos « clients ».

Le concept de « Streamline Data Refinery » de Pentaho répond à ces besoins. Nous vous proposons en effet de préparer à l’avance des interfaces pouvant accéder facilement à telle ou telle information représentant un indicateur ou des axes d’analyses innovants.

SDR

L’utilisateur pourra ainsi sélectionner librement à travers un formulaire les informations qu’ils souhaitent analyser ponctuellement. Celles-ci seront combinées ensemble par la génération d’un schéma d’analyse Mondrian, et automatiquement publiées sur l’écran de l’utilisateur à travers notre outil Ad’Hoc Pentaho Analyzer.

On parle donc bien là de proposer à l’utilisateur de générer un cuble Olap d’analyse à la demande! 

Bien entendu les données proposées peuvent avoir plusieurs sources distinctes (DWH, Fichiers HDFS, NoSql, …) .

Data Lake on demand

Dashboard MongoDB & Pentaho

Vous avez succombé aux charmes de MongoDB ?
Vous aimeriez bien visualiser vos données aisément ?

Voici un exemple de Dashboard réalisé en 20min sans compter la création des collections Mongo
MAIS SANS DEPLACER LES DONNEES
Tout s’affiche directement depuis votre base magique = MongoDB+Pentaho!

MongoTweetDash

 

 

I’m on the Map !

Le point indiquant Marseille
représente mes tweets signés
opentoile 😉

 

Définition de « Big Data »

Vous cherchez la définition de « Big Data » ?

= Toutes vos données

Pentaho a la réponse « All your Data » #PWorld2014

 

 

 

 

——- PETITE HISTOIRE DE L’ANALYSE DES DONNÉES ——–

  • On a commencé par ajouter des codes analytiques dans les ERP comptable
  • On a ajouté derrière de beaux Datawarehouse et des outils de reporting
  • On s’est concentré sur les services ayant de l’argent = La finance
  • On a frustré les autres services
  • On s’est dit on va étendre le périmètre!
    • Ah mince tous les services ne bénéficient pas de code analytiques référencés dans l’ERP!
    • Ah mince ça coûte cher d’étendre le Datawarehouse
  • On nous a dit qu’il y avait des Appliances pour cela
    • Euh en fait on l’a dit qu’aux grosses compagnies car les autres étaient censés ne pas être intéressés ou ne pas avoir le budget adéquat
    • Euh en fait ils ne peuvent traiter que ce qui est déjà dans votre ERP
  • Les spécialistes des réseaux sociaux (Facebook & Co …) n’y trouvaient pas leur compte
  • Ces nouveaux géants ont donc travailler sur des projets OpenSource
  • Ils ont crées ce que l’on nomme aujourd’hui le BIG DATA
  • Les spécialistes de l’analyse de données OpenSource ont été des acteurs privilégiés pour adapter leurs solutions à ces nouveaux éco-systèmes
    • Certains ont focalisés seulement sur le collaboratif, le InMemory, …
    • Mais les besoins des utilisateurs n’ont pas changés, ce qu’ils veulent c’est pouvoir analyser toutes leurs données
  • C’est pourquoi aujourd’hui Pentaho propose le concept de RAFFINERIE DE DONNEES
    • Stockage = Hadoop et/ou NoSql
      • Economique et puissant (ScaleUp / ScaleDown)
      • Un dynamisme OpenSource ultra dynamique laissant les timides à la traine
    • Sélection de vos thématiques de recherche = Pentaho Stream Data Refinery
      • Une véritable interface Web à la « Google » pour identifier vos besoins
      • Un moyen pour tous de rechercher les données qui les interesse
    • Préparation et modélisation de vos données = Pentaho Data Integration
      • Lecture en directe des données utiles depuis Hadoop
      • Stockage en mode décisionnel dans une base analytique de votre choix (Attention je parle de vraie base en colonne et pas d’un énième système propriétaire qui doit pré-calculer ses index magiques)
    • Visualisation de vos données avec Pentaho Analyzer OU directement dans votre application préférée
      • Une interface Web 100%HTML5 utilisable par votre assistante si vraiment vous êtes frileux mais je dirai que l’on est jamais mieux servi que par soi-même (Après tout vous avez bien réussi à vous servir d’Excel!)
      • Vous utilisez majoritairement une application dans votre entreprise?, alors embarquons Pentaho Analyzer directement dans votre applicatioon préférée

 

TOUTES LES DONNÉES pour TOUS LES UTILISATEURS (pas de licence nommée!)

Après l’ETL & l’ELT découvrez l’ETR!

Pentaho propose de repenser l’alimentation de vos visualisations.

Régulièrement le fer de lance d’un projet est un Dashboard qui vous permet de communiquer avec efficacité vers vos cibles et de leur proposer du contenu rapide et ergonomique.
C’est pour cela que Pentaho met en avant le concept d’ETR, Extract Transform Report

ETR

ETR

  • Extraire depuis n’importe quelles sources
  • Transformer et mélanger avec d’autres données dans un gestionnaire de flux
  • Utiliser dans un tableau de bord, des rapports ou des analyses.

Commentaires:

  • Le modèle ETR est très flexible car non lié à la modélisation du DWH
  • Peut utiliser des schémas NoSQL comme MongoDB par exemple
  • Les process de transformation peuvent augmenter indépendamment de ceux de stockage
  • Gérer l’alimentation des reports en mode graphique
    • C’est là un point essentiel car avec notre « Dashboard Framework » vous pouvez librement gérer toutes les spécificités Web de votre ou vos pages Dashboard
    • Utiliser nos nombreux composants « Ready to use » ou si besoin incorporer un composant spécifique
    • ET UTILISER n’importe quelle source de donnée au regard de l’ensemble des sources accessibles via notre ETL  Pentaho Data Integration = Fini les scripts SQL perdus au fin fond de plusieurs pages de code!

Au final, tous les pros dev web ne seront pas dépaysés et tous les pros BI verront là une solution idéale pour rendre « joli » l’affichage des KPIs.

A+