In deze cursus leert u oplossingen voor batchgegevensanalyse te bouwen met behulp van Amazon EMR, een beheerde Apache Spark- en Apache Hadoop-service op bedrijfsniveau. Je leert hoe Amazon EMR integreert met open-sourceprojecten zoals Apache Hive, Hue en HBase, en met AWS-services zoals AWS Glue en AWS Lake Formation. De cursus behandelt het verzamelen, opnemen, catalogiseren, opslaan en verwerken van componenten voor gegevensverwerking in de context van Spark en Hadoop. U leert EMR Notebooks te gebruiken om zowel analyse- als machine learning-workloads te ondersteunen. Je leert ook om best practices op het gebied van beveiliging, prestaties en kostenbeheer toe te passen op de werking van Amazon EMR. Module A: Overzicht van data-analyse en de datapijplijnGebruiksscenario's voor gegevensanalyseDe gegevenspijplijn gebruiken voor analysesModule 1: Inleiding tot Amazon EMRAmazon EMR gebruiken in analyseoplossingenArchitectuur van Amazon EMR-clustersInteractieve demo 1: Lancering van een Amazon EMR-clusterStrategieën voor kostenbeheersingModule 2: Pijplijn voor gegevensanalyse met behulp van Amazon EMR: opname en opslagOpslagoptimalisatie

Building Batch Data Analytics Solutions on AWS (GK7378)