Permettre aux Data Engineers et / ou Scientists d’acquérir les bases de développement avec Apache Spark et de créer des applications distribuées permettant de préparer, transformer et enrichir efficacement des volumes importants de données.
Exécution de l’action
Modalités d’évaluation des résultats (ou acquisition des compétences)
Méthodes et outils pédagogiques
Eléments matériels de la formation
Compétences des formateurs
Informations complémentaires
Possibilité d’adapter les supports de formation et les lieux de formation en fonction des handicaps. Etude au cas par cas.
Public visé : Salarié, Manager
Format : Présentiel
Pré-requis : Aucun
Modalités et délai d'accès : Questionnaire de recueil des besoins, Délai d'inscription : au plus tard 15 jours avant le démarrage de la formation, Délai d'accès : environ 15 jours à réception des documents contractuels signés
Modalités d'évaluation : Etude de cas, Questionnaire
Rythme : Temps plein
Niveau de Formation : D - Autre formation professionnelle
Tarif formation HT : 1600,00 €Tarif HT par personne. Pour les formations en intra, nous consulter. Eligible OPCO
2.0 jour(s)
14.0 heure(s)
Résumé du programme
1. Big Data et Apache Spark a. Introduction au paradigme « Big Data » b. Apache Spark, à l’aide ! 2. Environnement de développement a. Environnement de développement (VSCode) b. Console interactive PySpark c. « Hello World » en Spark 3. Spark, DataFrames et Transformations a. Découverte de Spark SQL b. Création et évaluation des DataFrames c. Opérations de transformations 4. Architecture Spark a. Architecture et composants Spark b. Optimisation des requêtes c. Partitionnement des données 5. Structured Streaming a. Requête en flux continu b. Aggrégation des flux 6. Bonus : Machine Learning avec Spark MLlib a. Aperçu de Spark MLlib : notions de pipeline et modèle de Machine Learning