Data Engineering on Google Cloud Platform

Seminar / Firmentraining

Zielgruppe

Dieser Kurs richtet sich an erfahrene Entwickler, die für die Verwaltung von Big-Data-Transformationen verantwortlich sind, zum Beispiel:

  • Daten extrahieren, laden, transformieren, bereinigen und validieren
  • Pipelines und Architekturen für die Datenverarbeitung entwerfen
  • Modelle für maschinelles Lernen und Statistik erstellen und warten
  • Datasets abfragen, Abfrageergebnisse visualisieren und Berichte erstellen

Voraussetzungen

Für maximale Lernerfolge sollten die Teilnehmer folgende Voraussetzungen erfüllen:

  • Abgeschlossener Kurs Google Cloud Fundamentals: Big Data and Machine Learning (GCF-BDM) oder gleichwertige Kenntnisse
  • Grundkenntnisse in gängigen Abfragesprachen wie SQL
  • Kenntnisse in Datenmodellierung, Extraktion, Transformation und Ladeaktivitäten
  • Kenntnisse im Entwickeln von Anwendungen mit einer gängigen Programmiersprache wie Python
  • Vertrautheit mit maschinellem Lernen und/oder Statistik

Inhalte

Kursziel

Dieser Kurs vermittelt den Teilnehmern die folgenden Kompetenzen:

  • Datenverarbeitungssysteme auf der Google Cloud Platform entwickeln
  • Batch- und Streamingdaten durch die Implementierung von Autoscaling-Datenpipelines auf Cloud Dataflow verarbeiten
  • Mit Google BigQuery Geschäftsinformationen aus extrem großen Datasets ableiten
  • Modelle des maschinellen Lernens mit TensorFlow und Cloud ML trainieren, auswerten und mit ihnen Vorhersagen treffen
  • Unstrukturierte Daten mit Spark und ML-APIs auf Cloud Dataproc nutzen
  • Sofortige Informationsgewinnung aus Streamingdaten ermöglichen

Kursinhalt

  • Module 1: Introduction to Data Engineering
  • Module 2: Building a Data Lake
  • Module 3: Building a Data Warehouse
  • Module 4: Introduction to Building Batch Data Pipelines,
  • Module 5: Executing Spark on Cloud Dataproc
  • Module 6: Serverless Data Processing with Cloud Dataflow
  • Module 7: Manage Data Pipelines with Cloud Data Fusion and Cloud Composer
  • Module 8: Introduction to Processing Streaming Data
  • Module 9: Serverless Messaging with Cloud Pub/Sub
  • Module 10: Cloud Dataflow Streaming Features
  • Module 11: High-Throughput BigQuery and Bigtable Streaming Features
  • Module 12: Advanced BigQuery Functionality and Performance
  • Module 13: Introduction to Analytics and AI
  • Module 14: Prebuilt ML model APIs for Unstructured Data
  • Module 15: Big Data Analytics with Cloud AI Platform Notebooks
  • Module 16: Production ML Pipelines with Kubeflow
  • Module 17: Custom Model building with SQL in BigQuery ML
  • Module 18: Custom Model building with Cloud AutoML