OBJECTIFS
Ce parcours de formation très pratique permettra aux candidats d’apprendre le métier de consultant big data. Ils apprendront les bases de Linux et du langage Java, la logique des SGBD ainsi que l’intégration et l’analyse des volumétries massives de données. Ils verront comment mettre en place et utiliser les applications et technologies big data.
PROGRAMME
>
Les fondamentaux des réseaux et de TCP/IP/Linux, mise en œuvre
-
Notions fondamentales. Architecture et normalisation.
-
Services et protocoles. Mécanismes de communication.
-
Mode de transfert. Fiable et non fiable, connecté ou non connecté.
-
Le démarrage d'un système Linux.
-
L'environnement de travail.
-
L'environnement graphique.
-
Gestion des fichiers. Gérer les processus.
Travaux pratiques
Construire un réseau TCP-IP à partir de stations Ethernet, configurer les équipements. Avec un analyseur, visualiser les phases d'un échange TCP. Le démarrage commenté d'un système Linux en mode "pas à pas". Personnalisation de son environnement de travail (prompt, alias, PATH, .bashrc...).
>
Bases de données, modélisation et choix techniques
-
Logique des SGBD.
-
Techniques de modélisation.
-
Modèle logique de données.
-
Implémentation avec SQL.
-
Paramètres clés pour le choix d'un serveur.
Travaux pratiques
Création d'un utilisateur, attributions de droits, transaction, interrogation d'une base de données. Études de plusieurs cas réels, modélisations Merise et UML à l'aide d'un outil. Étude de cas réels, exercices de normalisation et dénormalisation, génération de schémas à l'aide d'un outil.
>
Initiation à la programmation avec Python/Programmation Objet/Java
-
Qu'est-ce qu'un programme informatique ?
-
Genèse d'un premier programme.
-
Règles de programmation.
-
Les variables.
-
Opérateurs et expressions.
-
Aspects syntaxiques, types et expressions.
-
Méthodes et instructions.
-
Utilisation de l'abstraction.
-
Utilisation de l'héritage.
-
Développement de classes.
Travaux pratiques
Présentation de différents langages. Écriture d'un premier algorithme en pseudo-langage. Écriture, compilation et exécution d'un premier programme Python.
>
Big data, méthodes et solutions pratiques pour l'analyse des données
-
Comprendre les concepts et les enjeux du big data.
-
Les technologies du big data.
-
Gérer les données structurées et non structurées.
-
Technique et méthodes big data analytics.
-
Data visualisation et cas d'usage concrets.
Exercice
Installation d'une plateforme big data Hadoop (via Cloudera QuickStart ou autre). Implémentation de flux de données massives. Mise en place d'analyses avec un des outils étudiés. Installation et utilisation d'un outil de data visualisation pour constituer des analyses dynamiques.
>
Elasticsearch, Logstash et Kibana : indexation, recherche et visualisation de données
-
Présentation et installation d'Elasticsearch, logstash et Kibana.
-
Fonctionnement d'Elasticsearch.
-
Possibilités offertes par Elasticsearch.
-
Indexer, chercher et visualiser des données et des documents.
Travaux pratiques
Stockage de données dans Elasticsearch. Premières requêtes de recherche simples. Manipulation et modification de l'indexation de données avec Elasticsearch. Mise en œuvre de requêtes, de filtrage et de tri de résultats. Recherche de données avancées avec Elasticsearch.
>
Talend Open Studio/Hadoop/MongoDB,
-
Modéliser le besoin, concevoir un premier job.
-
Optimiser le développement des jobs.
-
Le big data.
-
Collecte de données et application de Map Reduce.
-
Le stockage des données avec HBase.
-
Introduction à MongoDB.
-
Connexion et utilisation de MongoDB.
-
Modélisation et indexation.
Exercice
Développement d'un job assurant le tri d'une source CSV, le filtrage de données et le stockage du résultat dans un fichier XML. Gérer la collecte d'informations clientèles par Map Reduce. Configuration de l'implémentation YARN.
>
Apache Storm/Apache Spark
-
Introduction au projet Apache Storm.
-
Scalabilité horizontale.
-
Traitement des messages garantis.
-
Développement de services pour le cloud.
-
Présentation d'Apache Spark.
-
Programmer avec les Resilient Distributed Dataset (RDD).
-
Manipuler des données structurées avec Spark SQL.
Travaux pratiques
Utiliser l'API Storm pour gérer les enregistrements d'utilisateurs. Gérer la montée en charge via l'augmentation des serveurs web. Installation et configuration de Spark. Exécution d'un premier exemple avec le comptage de mots.
>
Data Clustering, organiser les données du big data
-
Introduction au clustering de données.
-
Clustering simple et clustering hiérarchique.
-
Techniques de clustering.
-
Outils pratiques et algorithmes pour le clustering de données.
-
Mesures Qualité et Performance.
-
Clustering de données à partir d'un réseau lexical.
-
Clustering de documents.
Travaux pratiques
Application de K-means sur un jeu de données. Application de l'algorithme hiérarchique CAH. Mesure de la qualité sur un jeu de données. Mise en œuvre d'algorithmes de clustering sur un réseau lexical et sur des documents web, PDF...
>
Statistiques/environnement R
-
Traitement statistique des données à une dimension.
-
Variables aléatoires.
-
Statistique descriptive à deux dimensions : les tableaux de contingence.
-
Objets et notions de programmation R.
-
Création et utilisation de fonctions.
-
Génération, gestion et visualisation des données.
-
Analyses statistiques.
Exercice
Étude de la problématique du statisticien : repérage des différences entre des produits standardisés et d'autres présentant un aléa. Installation de l'environnement d'analyse. Création de scripts. Manipulation des types d'objets.
>
Comprendre le rôle de consultant
-
Les principes de la relation client.
-
Le cadre de la relation contractuelle, ses atouts et ses limites.
-
Les rôles de consultant et de salarié.
-
Les qualités nécessaires au rôle de consultant.
Travaux pratiques
Auto-évaluation sur la gestion de la relation client. Jeux de prise de conscience des principes de base de la communication. Jeux, entrainement filmés et débriefés. Jeux de rôles sur l'assise du charisme et de la légitimité d'une autorité non hiérarchique.
PARTICIPANTS
Toute personne souhaitant devenir consultant big data.
PRÉ-REQUIS
Être motivé et attiré par les nouvelles technologies, titulaire d’un diplôme de niveau bac +3/5 de filière scientifique (mathématiques, physique, biologie, chimie, électronique…) ou informatique.
VALIDATION DES ACQUIS
Les apprenants réaliseront un projet de fin de parcours
qu’ils présenteront lors d’une soutenance. Cette dernière
étape permettra d’évaluer les connaissances acquise
tout au long du parcours.
POSTULER
Aucune annonce actuellement