Data Engineering on Google Cloud Platform
Seminar / Firmentraining
Zielgruppe
Dieser Kurs richtet sich an erfahrene Entwickler, die für die Verwaltung von Big-Data-Transformationen verantwortlich sind, zum Beispiel:
- Daten extrahieren, laden, transformieren, bereinigen und validieren
- Pipelines und Architekturen für die Datenverarbeitung entwerfen
- Modelle für maschinelles Lernen und Statistik erstellen und warten
- Datasets abfragen, Abfrageergebnisse visualisieren und Berichte erstellen
Voraussetzungen
Für maximale Lernerfolge sollten die Teilnehmer folgende Voraussetzungen erfüllen:
- Abgeschlossener Kurs Google Cloud Fundamentals: Big Data and Machine Learning (GCF-BDM) oder gleichwertige Kenntnisse
- Grundkenntnisse in gängigen Abfragesprachen wie SQL
- Kenntnisse in Datenmodellierung, Extraktion, Transformation und Ladeaktivitäten
- Kenntnisse im Entwickeln von Anwendungen mit einer gängigen Programmiersprache wie Python
- Vertrautheit mit maschinellem Lernen und/oder Statistik
Inhalte
Kursziel
Dieser Kurs vermittelt den Teilnehmern die folgenden Kompetenzen:
- Datenverarbeitungssysteme auf der Google Cloud Platform entwickeln
- Batch- und Streamingdaten durch die Implementierung von Autoscaling-Datenpipelines auf Cloud Dataflow verarbeiten
- Mit Google BigQuery Geschäftsinformationen aus extrem großen Datasets ableiten
- Modelle des maschinellen Lernens mit TensorFlow und Cloud ML trainieren, auswerten und mit ihnen Vorhersagen treffen
- Unstrukturierte Daten mit Spark und ML-APIs auf Cloud Dataproc nutzen
- Sofortige Informationsgewinnung aus Streamingdaten ermöglichen
Kursinhalt
- Module 1: Introduction to Data Engineering
- Module 2: Building a Data Lake
- Module 3: Building a Data Warehouse
- Module 4: Introduction to Building Batch Data Pipelines,
- Module 5: Executing Spark on Cloud Dataproc
- Module 6: Serverless Data Processing with Cloud Dataflow
- Module 7: Manage Data Pipelines with Cloud Data Fusion and Cloud Composer
- Module 8: Introduction to Processing Streaming Data
- Module 9: Serverless Messaging with Cloud Pub/Sub
- Module 10: Cloud Dataflow Streaming Features
- Module 11: High-Throughput BigQuery and Bigtable Streaming Features
- Module 12: Advanced BigQuery Functionality and Performance
- Module 13: Introduction to Analytics and AI
- Module 14: Prebuilt ML model APIs for Unstructured Data
- Module 15: Big Data Analytics with Cloud AI Platform Notebooks
- Module 16: Production ML Pipelines with Kubeflow
- Module 17: Custom Model building with SQL in BigQuery ML
- Module 18: Custom Model building with Cloud AutoML