Tous les articles par opentoile

Réponse à Philippe Nieuwbourg « L’innovation est-elle en panne dans la BI ? »

Philippe Nieuwbourg a publié ce 20 mai 2019 un article sur Decideo intitulé « Business Intelligence : L’innovation est-elle en panne ? »

Je vous invite à le lire et par la suite consulté mes éléments de réponses ci-dessous.

« Je partage ce point de vue sur le coup de mou des solutions BI. Mais avant la suppression des analystes, je discerne quelques sujets qui devraient encore occuper le marché de la BI.

Pour les acquis de la dernière décennie, et plus particulièrement l’intégration de l’analyse prédictive dans la BI, ce sujet n’est pour moi pas encore bien stable.
Certes le rôle de l’analyste BI analysant des KPIs et prenant des décisions est définitivement complété aujourd’hui par de la valeur additionnelle ajoutée quasi-automatiquement par les algorithmes analytiques. Mais ce processus a besoin d’encore plus de data en entrée et recentre le sujet sur la data intégration. Celle-ci doit surmonter le critère temps et tenir compte des dernières data générées, temps réel. Les modèles analytiques quant à eux doivent évoluer en toute autonomie face à l’accroit de ces data supplémentaires (plus uniquement mes mesures opérationnelles mais également des « sentiments » extraits d’autres sources comme les réseaux sociaux …etc…). Alors, le machine Learning doit-il être inclus dans la BI ou dans la Data Intégration ? Chacun prêche pour sa paroisse. En tout état de cause je dirai que cette pratique est encore en évolution aujourd’hui et que des fusions/absorptions devraient se jouer soit entre des acteurs DI ou BI et les nombreuses « data-agency » nées de l’analyse prédictive qui auront prouvées leur leadership.

Pour la gouvernance des données et plus particulièrement les nouvelles régulations sur la confidentialité, c’est un chapitre qui s’ouvre et qui doit en effet solutionner la problématique des analyses BI disséminées et non inventoriées dans l’entreprise. Là je rentre dans mon domaine, la Data Privacy, mais le lien avec la BI est que de nombreux acteurs s’efforcent de gérer la confidentialité au niveau de l’outil de BI, c’est à dire au niveau de l’utilisateur. Or plus de 60% des fuites de données proviennent des salariés des entreprises elle-même, donc de personnes qui ont accès aux données. Ainsi il semble préférable de dissocier la sécurité définie pour un utilisateur et l’anonymisation des données utilisées au sein de l’entreprise. Quelles-sont les analyses BI que vous réalisez pour lesquelles vous avez besoin d’autant de données sensibles concernant les personnes ?
Je pense ainsi que nous allons apprendre à faire de la BI et de l’analyse prédictive sur la base de données qui auront été anonymisées au préalable en conservant bien entendu leur utilité et leur intégrité. Si vous découvrez que le client ABC doit être particulièrement soigné et qu’on doit lui suggérer d’acheter le produit XYZ, alors si vous en êtes autorisé par l’entreprise, ces informations seront re-identifées et vous en connaitrez les identités précises. Ce scénario, qui peut paraître futuriste à certains, est déjà mis en place dans de nombreuses entreprises souhaitant protéger au maximum leur réputation.

Enfin, autre mouvement en cours, et présent à tous les niveaux, le Cloud. Pourquoi n’est-il pas évoqué dans votre article ?
Certes il ne s’agit que d’infrastructure qui au lieu d’être en locale sont dans le nuage, mais ce mouvement accélère l’utilisation de nombreux nouveaux logiciels y compris dans la BI. Comme mentionné les types de stockage se multiplient (RDBMS, Hadoop, NoSql, Stream, …) mais nous restons avec des outils BI qui ne connaissent quasiment que le SQL comme langage de requête. Aussi aujourd’hui ils utilisent tous leurs « drivers JDBC » magiques mais dans ce domaine on devrait constater des évolutions. J’observe une communauté,  Apache Druid,  qui permet de conserver les structures de ce langage mais qui l’enrichie afin de pouvoir mixer dans une même requête des sources s’appuyant chacune sur des technologies distinctes et qui sont lues comme des tables. Je ne sais pas si cette logique s’imposera (elle est déjà utilisée par de nombreuses Licornes), mais c’est définitivement un sujet qui peut soulager les outils BI de devoir stocker une énième version des données et d’être ainsi directement consommateur des données sources. Cela rejoint le sujet du langage de requête.

Le machine learning, la data privacy et l’évolution du langage sont donc pour moi des sources d’innovation qui n’ont pas encore dis leurs derniers mots. A suivre… »

Control my world

This morning I’m learning that at the other end of the world, an employee is likely to listen to what is being said at home!
Amazon Workers Are Listening to What You Tell Alexa (Bloomberg)

We were accustomed to being tracked on the web through advertisements, we are increasingly aware that our feelings are analyzed by the algorithms to interact with us at the best time, but that our home is in the viewfinder; STOP or at least not without compensation.

In our best interest, LOL, we are sometimes full of kindness and we accept that our actions are analyzed for the purpose of improving the service. Each one is free, but note that in this case, the option was active by default. So, Amazon employees listen to sound recordings from some home boxes. It is clear that’s a pure privacy violation.

And the Data Privacy then!

While live technologies to replace words in a soundtrack are not yet mature, I would like to know if at least the employee in question was able to link these records and final customer identification. Because here, there are solutions.

I name this #ChangeAnalytics. In many indirect uses, businesses still use sensitive data to carry out their Data Driven strategy. If they have obtained consent for this specific use, very well, but my experience shows that this is very rarely the case. I remind you that in this regard, a contract of non-disclosure of information is not enough. Indeed, in this case the company takes the risk of a security breach that could expose sensitive data outside. Data Privacy allows you to De-Identify datasets transmitted to the Data Scientists so that it keeps useful data (a good solution of Data Privacy will not only encrypt the data), which allows them to extract business values.

Offer me privacy features to make sure that my name, my address, the color of my girlfriend’s eyes, do not end up on your servers. Clearly let me manage my DE-IDENTIFICATION, the data of my own world. I will be more faithful to your services and you and I will sleep better. Be both considerate and innovative by associating with your approach, not to only get my consent, because if you practice Data Privacy this is no longer systematically necessary, but to allow me the owner of the data, browse, delete or analyze them in my turn.

Security is not enough, I have the right to control my data, control my world!

Contrôler mon monde !

Ce matin j’apprends qu’à l’autre bout du monde, un employé est susceptible d’écouter ce qui se dit chez moi !  Amazon Workers Are Listening to What You Tell Alexa

On était habitué d’être traqué sur le web à travers les publicités, on est de plus en plus informé que nos sentiments sont analysés par les algorithmes afin d’interagir avec nous au meilleur moment, mais que notre chez nous soit dans le viseur ; STOP ou à minima pas sans contrepartie.

Dans notre plus grand intérêt LOL, on est quelquefois plein de bonté et on accepte que nos actions soient analysées à des fins d’amélioration du service. Chacun est libre, mais notons que dans le cas présent, l’option était active par défaut. Donc des employés d’Amazon écoutent (ou ont écouté) des enregistrements sonores issus de certaines home Box. Il est clair que l’on est là dans une pure violation de la confidentialité.

Et la Data Privacy alors !

Certes les technologies permettant en live de remplacer des mots dans une bande son ne sont pas encore mature, mais j’aimerai savoir si à minima, l’employé en question était en mesure de faire le lien entre ces enregistrements et l’identification du client final. Car là les solutions existent.

Je nomme cela #ChangeAnalytics. Dans de nombreux usage indirects les entreprises utilisent encore des données sensibles pour mener à bien leur stratégie Data Driven. Si elles ont obtenu le consentement pour cette usage spécifique, très bien, mais mon expérience montre que c’est très rarement le cas et je vous rappelle qu’à ce sujet un contrat de non divulgation d’informations n’est pas suffisant. En effet dans cette hypothèse l’entreprise prend le risque d’une faille de sa sécurité qui pourrait exposer les données sensibles vers l’extérieur. La Data Privacy vous permet de De-Identifier les données transmises aux Data Scientistes afin qu’il conservent des données utiles (une bonne solution de Data Privacy ne se contentera pas de chiffrer les données), qui leur permettent d’en extraire de la valeur business.

Offrez-moi des fonctions de confidentialité pour m’assurer que mon nom, mon adresse, la couleur des yeux de ma copine ne se retrouvent pas sur vos serveurs. En clair permettez-moi de gérer ma DE-IDENTIFICATION, les données de mon monde à moi. Je serai plus fidèle à vos services et, vous et moi dormirons mieux. Soyez à la fois prévenant et innovant en m’associant à votre démarche, non pas pour obtenir mon consentement, car si vous pratiquerez la Data Privacy cela n’est plus systématiquement nécessaire, mais bien pour me permettre à moi le propriétaire des données de les parcourir, les supprimer ou les analyser à mon tour.

La sécurité de suffit pas, j’ai le droit de maîtriser mon monde à moi, de le contrôler!

Change the [analytic] world!

I spent a lot of time in my career on analytics. All time, the goal is to extract value from any data. I like it and I don’t want to stop to do that. But…

Now with IoT and deep-learning companies continue to ingest and analyze a huge volume of data about you. Why? Because if they have a maximum of information about you or your systems, they can predict what you are expecting in the next 2 seconds. That’s fine because if it helps you to be more protected when you are on the road or if it’s helps you to anticipate some activities to be done to reach a target, it’s positive. So, when analytic models are used in real-time and just make the link between actual events and predictive facts, they don’t impact my privacy. But to train all these analytic models, all data driven companies use too many information about me without taking care of my Privacy.

At a world economic level, we cry against Trump but at the same time we destroy Europe day by day, Asia continues to move from a manufacturing to a services business, Africa is leader in mobile banking, Russia in hacking, …. In France we are confronted with the “Gilets Jaunes” who manifest for no tax, initially a typical rich people requirement. They want revolution to change the world and get more money. That’s fine, but at the same time they make intense use of Facebook, the more intrusive social network. If you don’t practice social graph, meaning manage different profiles/logins, nearly everybody can know what you think about this political issue. Even about your life, so many times you want to cry out your feeling, but you don’t do it on internet because you don’t want your neighbor to discover what you think about him. So, you invent many faces of yourself. One profile for business, one for family and friends, one for each country, …. Why do you do this? Because you want to protect your privacy. You’re great and you are on the right way.

Now how can Data Privacy help us?

Imagine that automatically, each time you generate data, these data will be yours. Financial organizations work that way using blockchain technology. So, it means that nobody can access a certain level of details without your validation. It’s great for banking, but from a GAFA point of view, you kill the advertising business. In our world, companies need ads to push you to buy their products. We can perhaps change that, but it will take more time ;-). Anyway, these new features are only about data access protection, what we call Security in IT. Privacy and specifically, Data Privacy, is something different.

So now imagine another story. Each time you generate data, these data will be “Privitazed”. There will be all information about what you buy, what you think, BUT, without any links to your identity. So, all data driven companies can use it to know:

  • What? What works fine and what is never consumed, but unrelated to something specific to your identity.
  • Where? Where is usage more frequent, but not related to your detailed location or usual trip.
  • Why? Why and how do you consume that just after some specific events, but not any of your personal events.
  • When? When do you generate data, but never with the real date from operational system.
  • Who? Here it’s a little different as it will be you as a member of a population so never you with your name. Sure, we still search how to privatize DNA, why not tomorrow?

In Data Privacy it’s exactly what we always have in mind. Protect your identity in any type of second usage of your data. Second usage mean we are not claiming that all production system needs to be anonymized, you have to be clear with your security access for that. Our goal is to protect your Privacy from all re-usage of your data, and sure, Analytic is big part of that.

And you know what? There are already many teams who build some wonderful analytic models using anonymized data, what we name “Privitazed” data. And that works! If you need my data to learn about it, you don’t need to know my name Sebastien.

Coming back to “Gillets jaunes”, it’s great to see that new technology help them to federate. But if you want to use THEIR data to run any analytic, you can’t, you don’t respect their privacy. I’m not sure great political leader (G20, …) care about that because they do spying and by default it’s another question than privacy.

Data is the greatest asset today BUT not all our detailed data needs to be out there.

Analytics need to respect privacy to keep end-customer trust.

We can build a better world using data privacy.

Confidentialité des données, enfin une nouveauté !

Historique

Nous vivons depuis plus de 20 ans avec des applications mobiles autour de nous. Chaque jour nous acceptons lors d’un téléchargement des règlements sans prendre le temps de les lire dans leur intégralité. On préfère profiter des services gratuits qui y sont associés. Si vous inventoriez les apps sur votre mobile, entre celles que vous payées ou non, le 2ème ensemble sera certainement le plus conséquent. On a donc des données personnelles engrangées par ces applications et très souvent revendues ou analysées avec des tiers même si cela est peut-être mentionné dans la petite clause en bas du contrat du téléchargement. Aujourd’hui après des questionnements sur cette situation c’est une loi qui vient régir les conditions d’utilisation de ces données personnelles, la GDPR.

Le changement légal

Il s’avère qu’au-delà des méthodologies et outils qui vont être nécessaires aux sociétés pour respecter cette loi, le fait de gouverner la confidentialité de ces données est une nouveauté. Depuis plusieurs années, et démultiplié ces derniers temps avec le développement du Big Data et le machine learning, l’objectif est d’extraire une valeur d’utilité pour les clients finaux et de rentabilité pour les possédants de la data. Aujourd’hui doit être ajouté des notions de consentements de renoncements et de lisibilité. Ces suppléments d’âmes dans l’analytique importent que l’on doive définir en quoi ces actions sont bénéfiques pour le client. En quoi cette nouvelle valeur va pouvoir améliorer la relation client mais également bien entendu en quoi ces données personnelles sont mises en danger. Etes-vous prêt à expliquer toutes vos stratégies marketing? Non alors bienvenu dans le monde des données confidentielles.

Notre relation avec la confidentialité digitale

On obtient 2 risques majeurs vu du client :

  • On utilise mes données pour des raisons que je ne partage pas
  • On met mes données en péril en les exposant à des tiers voir par négligence dans le domaine publique, la toile !

On tient là une occasion unique de réconcilier les personnes avec l’intelligence artificielle.

Combien de fois avez-vous entendu dans votre entourage des plaintes concernant cette sensation d’être traqué, observé ? L’exemple le plus flagrant est généralement les publicités ciblées. Personnellement je préfère visionner des publicités digitales que manquer un virage par saturation de messages en pleine nature. D’ailleurs ces affichages sont désormais réglementés et on ne peut que s’en réjouir.

Au regard de la confidentialité des données, nos jeunes ont souvent des vues différentes des nôtres. Partageant en permanence des moments de vies privées, affichant fièrement l’appartenance à tel ou tel mouvement de pensée, les moins de 20 ans ne positionnent pas la confidentialité au même niveau que leur parent. Sont-ils drogués des services mobiles et conscient qu’un retour de manivelle est logique ? Non ce sont des consommateurs. Hier on se différenciait par la marque de sa voiture dans le jardin alors qu’aujourd’hui c’est au nombre de « Likes » sur votre profil du dernier réseau social à la mode. Mais ils ont acquis dès leur début digital la multi-identité. Un pseudo et une histoire associé à chaque profil. Il s’agit là d’une gestion de confidentialité.

Ce qui restera sur le web à leur vie adulte ne les importe peu et ils ont raison. Lorsque j’étais étudiant on me sensibilisait sur les photos laissées sur internet qui pourrait s’avérer gênante lors d’un futur recrutement. Aujourd’hui les algorithmes des ressources humaines qualifieraient cela de point bonus reconnaissant ainsi une personne à l’aise avec son image digitale 😉

Ces données sont bien là et même si un mouvement de rejet se fait entendre elles ne vont pas diminuer ni s’amoindrir. Toutefois elles sont aujourd’hui réglementées par différents textes dans différentes parties du globe.

« Data Driven » et « Data Privacy »

Le « Data Driven » ne s’arrêtera pas et ne doit pas s’arrêter car il est source de nombreux services business mais également sociaux. Anticiper un besoin ou un risque permet d’apporter une meilleure prestation au client final et nos comportements montrent que l’on s’y fait très bien.

Maintenant afin de mener un projet d’analyse nous n’avons pas forcément besoin d’une image parfaite et exacte de la réalité. On doit pouvoir regrouper des tendances pour donner de la valeur aux données au-delà de leurs valeurs intrinsèques. J’ai besoin de savoir que si mon client subit tel évènement et a telle caractéristique, j’ai intérêt à lui proposer tel service. Si 2 de mes clients ont le même attribut X, je dois transmettre cette information aux analystes mais la valeur de leur modèle ne sera en rien perturbé si je leur transmets cette information sous la forme « attribut Y » et non X. Bien entendu je dois être en mesure de pousser une valeur Y consistante. Cela signifie qu’à chaque fois que la valeur X se présentera je la traduirais toujours avec la valeur Y.

Aujourd’hui face à la pression juridique on se concentre sur la protection de l’identité des personnes. Les attributs concernés seront donc les noms, adresses, téléphones, … etc… .

Pour toutes ces informations on se contente aujourd’hui trop souvent de ne seulement appliquer des algorithmes de chiffrement. On remplace la valeur d’origine par une méthode de « hashing », le remplacement par une constante ou tout simplement une suppression pure et simple.

Et bien il y a du nouveau !

Tout d’abord en ce qui vous concerne. Finalement votre richesse intérieure n’est peut pas aussi normale que cela. Avec vos goûts, vos habitudes, les lieux géographiques que vous parcourez, je sais peut-être qui vous êtes? J’entends par là à quelle cible je dois envoyer quel message. Vous connaître intimement est bien entendu un autre sujet.

Aujourd’hui il existe des outils proposant une ergonomie adaptée aux rôles métiers « DPO » (Délégué à la Protection des Données) ou « RSSI » (Responsable Sécurité des Systèmes d’Information). Ces acteurs et bien d’autres ont désormais une interface à partager avec les « DSI » (Direction des Systèmes d’Information). Chacun a la possibilité de créer et administrer des stratégies de confidentialité des données prêtes à être exécutées sur des plateformes standard de traitement des données déjà connus et maîtrisées par l’IT, les centres de « compute » (Hadoop, Stream, …).

Bienvenu dans la « Data Privacy ».

Les pseudos-identifiants

Et bien certes si on se contente de démocratiser les outils de chiffrement, on fait un pas, mais un pas insuffisant pour protéger réellement l’identité des personnes. Le risque afférent est celui du croisement des fichiers. Vous me transmettez un fichier dit « confidentiel » mais en croisant son contenu avec d’autres informations que je possède ou auquel j’ai accès, je suis en mesure de découvrir l’identité des personnes contenues dans le fichier soi-disant « confidentiel ».

Vous devez donc désormais être en mesure de gérer les « pseudo-identifiants ».

Il est courant d’indiquer qu’avec votre date de naissance, votre code postal et votre genre, si vous êtes majeur et résident aux USA, un « tracker » peut vous identifier dans 80% des cas. La raison est la disponibilité publique des listes électorales aux USA dans lesquelles le nom-prénom est associé avec les 3 pseudo-identifiants ci-dessus évoqué. Bien entendu cela peut être le cas dans de nombreuses autres situations.

D’un point de vue analytique, ces pseudo-identifiants sont ce que l’on nomme les dimensions d’analyse en BI. Dans un contexte de Data Privacy vous devez donc veiller à ce qu’un enregistrement ne soit pas trop exotique et ne possède pas une combinaison de clefs trop rare.

« Ah mais bien sûr, je le reconnais c’est Jacques il habite là et a exactement ces caractéristiques ! »

Bienvenue dans la « k-anonymity ». Cette règle de protection de la confidentialité assure que pour chaque combinaison de clefs, votre jeu de données contient au moins « k » enregistrements.

Quoi de neuf pour l’analytique ?

Et bien pas de panique les feux sont toujours au vert. Les principaux textes réglementaires indiquent qu’à partir du moment où vous travailler avec des données anonymisées vous n’êtes plus soumis à la réglementation. Même si des interprétations distinctes demeurent quand on parle de « pseudo-anonymisation » (il existe un moyen de re-identifier les données), le « Data Driven » n’est pas remis en cause.

Il reste à être en mesure de rendre les données anonymes et quand le faire ? A l’entrée du Data Lake dans le processus d’ingestion ou seulement lorsque vous faites des extractions vers des tiers ?

Ce domaine reste neuf mais fort de la réglementation on peut être assuré qu’il va évoluer rapidement.

Le Datawahouse était une base distincte ne réalisant aucune action « transactionnelle » avec le client. On s’en servait pour connaitre les données et prendre de bonne décision. Aujourd’hui ce n’est plus le cas et les plateformes analytiques sont couplées avec de véritable processus digitaux commerciaux dénommés « Data Driven ».

Demain on ne recueillera pas le consentement du client en lui expliquant que l’analyse de SES données vont permettre de réaliser des ventes envers lui ou d’autres. On peut en déduire que pour rester innovant on se devra de travailler sur des données pseudo-anonymisées. Cela conduit vers une architecture dans laquelle la confidentialité des données sera gérée à l’entrée des entrepôts analytiques. Mais la privatisation des données a besoin de données propres et qualifiées.

On trouve alors l’équation : 1-DataIngestion + 2-DataQuality = 3-DataPrivacy.

Conclusion

Le Big Data a été et est un mouvement fort. Je reste trop souvent surpris devant le peu de déploiement français en production. Au delà des technologies impliquées les fonctions de digitalisation apportées sont majeures et inévitables. Ceux qui ne prennent pas le virage risquent de se faire accaparer leur marché par de nouveaux acteurs qui collectent et utilisent les données.

Néanmoins il est réconfortant que la Data Privacy rentre dans la danse. Cela apporte de la confiance aux acteurs doutant de la légalité de certains processus. Ces acteurs sont aussi bien des entrepreneurs prudents que des clients/utilisateurs finaux qui ne veulent plus se faire voler la valeur de leurs données. Sans compter que de nombreuses « data-agency » sont de la partie et qu’il est grand temps que vous soyez confiant dans vos échanges car il est fort de constater que les alliances sont courantes dans le mouvement de l’analytique.

Pour cela il existe aujourd’hui des outils performants de « Data Privacy ». Très prochainement ces outils pourront également s’intégrer dans vos outils de reportings « query » et ainsi s’assurer que vos règles de privatisation des données s’appliqueront également en temps réels aux utilisateurs de requêtes.

Bye bye DI & BA?

Hello,

I recently stop working for Pentaho aka Hitachi Vantara. Due to my career it could be surprising as i’ve always talk and be passsionate by analytics. Sure since Hitachi acquired Pentaho, the roadmap change a lot and now it will be more focused on big industry around IoT use cases to increase productivity and implement predictive maintenance mainly.

But at the end i havent leave Pentaho for that. It’s more related to market evolution. Today you can have in front of you 2 types of Big Data customers:
– « Profit focus » customer how expect to use Big Data to not only increase but to shoot up their revenues. Its not easy and not free so they want to see quickly big ROI in new services
– « Technical feature » customer where new technology really allowed to simplify or increase quality services

But in all case, many time Deciders are not enthusiastic that a small team of Data Scientist get access to sensitive datasets. And Machine Learning need details rows to optimize their models. So what’s happen?
Data scientist are difficult to hire so many times you are in front of freelance people or subcontractors or even new data agencies. So if you start a long exchange on « Can we share or not these details? » you get a long Go/NoGo session, and at the end you do only a small pourcentage of your initial requirements.

So what to do?
Avoid analytics? Not possible because in that case somebody else will do and will be the leader in your market.

So it’s why i’m convince we need to help companies to manage data privacy and then allowed them to do Big Analytics.

Today on Data Privacy, if you just applied basic encryption you will get plenties data flows using each one a specific methodology to hide sensitive data. So in that case:
– How to solve consistencies between your datasets?
– How to protect your datasets against linkage attack?
– How to manage all your data privacy from one repository?
Answer is that you need a platform to manage our Data Privacy.

So its exactly why i move to Privitar and expect to meet you again to help you doing analytics serenely using any type of data.

 

logoPrivitar

Pentaho 8.0

C’est l’heure d’une nouvelle version et donc pour moi de vous en parler.

Quelle fierté de faire partie de cette belle aventure qu’est Pentaho. C’est plus qu’un logiciel, c’est une manière de progresser tous les jours dans le métier de l’analyse des données. Pas de débat sur l’utilité du Big Data. si vous en doutez, lisez, observez vos concurrents, MAIS attention, vous allez peut-être vous dire, WHAOUH ils ont fait çà !

Chez HitachiVantara qui est notre nouvelle société juridique, la marque Pentaho a toute sa place. Elle est même le lien qui permet à une multinationale d’être le leader du marché de l’IoT.

Alors la v8 de Pentaho?

Si vous lisez les annonces trop vite vous allez peut-être apercevoir Spark, Kafka et vous dire, « Mais la v7.1 le faisait déjà! ». Oui c vrai en partie mais là aujourd’hui il s’agit réellement de permettre à tout le monde de le faire et de bénéficier de l’apport d’Hitachi. Pour cela vous avez désormais des étapes entreprise qui vous donnerons le pouvoir de proposer à vos Boss de l’analyse en temps réels:

  • Kafka + MetadataInjection = Ingérer des données en temps réels
  • Spark + ML = Transformer et Enrichir en temps réels

Il ne vous reste donc plus qu’à trouver vos clients et/ou utilisateurs temps réels 😉

Les éléments de la v8:

Ingérer vos datas sous forme de message.
Avec Pentaho Kafka Enterprise vous allez pouvoir choisir plus finnement la tranche de messages que vous voulez traiter.
De plus vous pourrez créer vos propres flux depuis une Transformation PDI avec la nouvelle étape 
Voici donc un nouveau dossier dans votre librairie PDI:

 

Rappelez-vous que PDI n’est pas un générateur de code. Et là en v8 vous allez pouvoir scaler vos process en temps réels sur votre cluster Hadoop? Oui biensûr vous le faites déjà mais là vous allez pouvoir faire la même chose sur vos serveurs Pentaho!

Avec notre fonction WorkerNodes, adieu les « slaves server » et vive la répartition dynamique sur vos machines les plus dispos.

.

 

Encore et encore aider tout le monde à faire du Big Data. C’est donc PDI qui s’enrichi avec ses fonctions de visualisations. Vous pourrez dé-dupliquer, filtrer, supprimer les valeurs aberrantes et remplacer les null encore plus facilement.

Oui vous avez deviné, les nouveaux utilisateurs de PDI sont les DataScientist mais la bonne nouvelle est que vous aussi vous allez pouvoir devenir un DataScientist !

 

Tous les détails sont sur http://www.pentaho.com/product/version-8-0 MAIS il faudra attendre le 16 Novembre pour télécharger le v8.

Préparez-vous messieurs les fans, le logo Hitachi est très présent mais pour le bonne cause, pour être encore plus fort sur ce marché.

Un cas métier IoT

Je vous propose de visionner mon intervention à l’occasion de la conférence IDC « Du Big Data aux systèmes Cognitifs ».

A cette occasion avec mon collègue Bertrand Le Quellec de HDS, nous avons présenté le projet « Rail UK ». Je parle de l’architecture analytique de ce projet à compte de 7’50 »

http://relaiswebcasting.mediasite.com/mediasite/Play/b517b696181d49b89f3125f46fa944e21d?catalog=244646f6-6d20-4631-a915-066b8b1d16eb
View Full Screen

A bientôt

Pentaho v7 « Une nouvelle route »

A l’occasion de Pentaho v7 et comme à l’accoutumé, je souhaite partager avec vous au delà des nouvelles fonctionnalités ma vision de cette nouvelle route pour Hitachi-Pentaho.

En effet lors de notre rachat par Hitachi, nombre d’entre vous ont eu des doutes sur l’avenir communautaire de Pentaho. Pedro Alves qui est au « board » de Pentaho et qui s’occupe de la défense des intérêts de la communauté ne peut pas être mieux placé pour cela. Et il a joué un rôle majeur sur cette nouvelle version.
Dans le même temps c’est un nouveau virage pour Pentaho. La version v7 propose essentiellement des nouvelles fonctionnalités disponibles en version Enterprise seulement.
= Une organisation qui innove

La plus importante est basé sur l’analyse graphique (et donc pas seulement en mode tabulaire) des données à TOUTES les étapes de PDI (ETL de Pentaho). Cette nouvelle fonction majeure est classée « Enterprise » car elle n’intercède en rien le fait de transformer une donnée avec PDI mais bien qu’elle permet de nouveau processus au sein des entreprises. Il s’agit d’optimiser le « Time To Market » en donnant aux préparateurs de données tous les moyens d’analyser et de modéliser (au niveau logique) les données avant même de les mettre à disposition du business. etlvizDans l’ETL, une visualisation sous forme d’histogramme permet par exemple de plus facilement se rendre compte de l’absence de données sur une certaine période de temps par exemple. La vision tabulaire proposée par la concurrence ne permet que de vérifier qu’une donnée à bien été transformée comme vous le souhaitiez. Si le préparateur souhaite faire valider son analyse, il lui est possible de la publier sur la console utilisateur afin d’obtenir la validation d’un acteur métier.
= Un ETL tourné vers les métiers

Avec Pentaho v7 on poursuit notre démarche permettant de mieux s’organiser face à notre métier qui évolue rapidement. Comment pourrions-nous accompagner tous les nouveaux cas d’usage Big Data en conservant les mêmes relations entre l’IT et les métiers?

De plus sachez que prochainement vous pourrez utiliser notre ETL en mode client Web!  Cela permettra certainement de définir des nouveaux groupes d’utilisateurs métiers ayant par exemple une liste prédéfinie de connecteur et leur permettant de développer tous les processus « basique ».
= Un ETL accessible aux métiers

etlbusiness
Notre groupe Hitachi intègre également les solutions Pentaho dans son offre Lumada destinée aux industriels. Aussi on discutera de plus en plus facilement avec les machines.

Pentaho v7 est donc la poursuite de nos innovations mais également j’en suis persuadé une orientation forte vers une nouvelle route Hitachi-Pentaho pour accompagner nos mutations technologiques.
Pentaho v7 est déjà une plateforme analytique complète intégrant les fonctions:
– Ingestion/Collecte (nombreux connecteurs et fonction Metadata Injection)
– Transformation/Enrichissement prédictif (Weka, R, Python, Scala)
– Modélisation logique/Sécurité (y compris avec Hadoop)
– Publication vers les métiers (Datamart As A Service, Data As A Service)
– Console utilisateur/Analyse embarquée dans vos applications (API, OEM, Multi-tenant)
= Une plateforme analytique complète

pipeline

Mais comme vous l’avez compris, au delà de vous fournir les fonctions que vous attendez, Pentaho v7 est une plateforme d’avenir qui tout en restant ouverte et modulable vous accompagnera demain vers les solutions analytique que ni vous ni moi ne connaissons encore.

Cette nouvelle route est la démonstration d’une stratégie analytique pour vous aider à construire vos propres stratégies.

SQL is not dead ! Welcome streaming SQL

calcite

Quel plaisir de lire ce slide deck de Julian Hide, manager du projet Apache Calcite. Il réalise une présentation technico-fonctionnelle de notre aisance à penser SQL tout en pouvant interagir avec toutes les nouvelles formes de stockage. attention on est bien ici dans du query-réponse type base de données. Mais ce projet prend également en compte les usages sur les critères de période analysée ou la structure de la réponse qui doit être appropriée pour pouvoir facilement alimenter des graphiques ou encore conserver les fonctions de l’analyse multi-dimensionnelle. N’oublions pas que Julian est le responsable de Mondrian, le meilleur outil ROLAP.

Toutes les slides ne sont pas aisées et vous utiliserez quelques fois la fonction retour pour relire la précédente mais vous découvrirez un projet « ouvert ». On me demande fréquemment si ce que je présente est open ou pas. Ici est parfaitement représenté le concept de l’ouverture par laquelle ce projet s’interconnecte avec des bases de stockage chacune ayant leurs spécificités de performance. Le stream vous apporte le courant, le traditionnel vous apporte l’historique et le window vous donne des photos d’un ensemble de données.

Au regard de nos besoins nous pourrons implémenter tous les modules ou au contraire, pour alléger des apps analytique, avoir la possibilité d’utiliser les seuls modules utiles à votre projet.

Le développement des NoSql est réel et parfaitement utile pour la souplesse de modélisation et la scalabilité. On voit ainsi qu’un query croisant des sources Splunk et MySql n’est pas dénué de sens. Le pouvoir est dans le fait de pouvoir exprimer sa demande dans un langage universel et d’utiliser le meilleur des offres de stockage au regard du type de données.

Je n’ai pas encore testé Calcite qui est en version 1.7 actuellement mais je suis sûr de recroiser le chemin de ce projet. Pentaho Data Integration me permettra de transformer les retours pour répondre à des demandes fonctionnelles et les Inputs seront performant en suivant les conseils de Julian.

See you soon !