Rozšířené vyhledávání

M20775 Data Engineering na Microsoft HDInsight Tisk

Hlavním cílem školení je naučit studenty naplánovat a implementovat big data workflow pomocí HDInsight.

Kurz akreditovaný pro DVPP

Délka kurzu: 4 dny

Termíny

TermínMístoJazykCena (bez DPH)Dostupnost
4. 2. 2019 - 7. 2. 2019 Praha cs 25 000 Kč Volný termín
1. 4. 2019 - 4. 4. 2019 Praha cs 25 000 Kč Volný termín
17. 6. 2019 - 20. 6. 2019 Praha cs 25 000 Kč Volný termín
PDF ke stažení Rozbalit všeSbalit vše
  • Absolvent kurzu bude umět

    • Nasadit HDInsight Clustery
    • Autorizace uživatelů a přístup ke zdrojům
    • Nahrávání dat do HDInsight
    • Odstraňování potíží HDInsight
    • Implementace dávkového zpracování
    • Návrh ETL řešení pomocí Big Data a Spark
    • Analýza dat pomocí Spark SQL
    • Analýza dat pomocí Hive a Phoenix
    • Popsat Stream Analytics
    • Implementace Spark Streaming pomocí DStream API
    • Vývoj Big Data Real-Time Processing řešení pomocí Apache Storm
    • Tvorba řešení pomocí Kafka a HBase
  • Požadavky pro absolvování kurzu

    • Zkušenosti s jazykem a balíčky R (kurz M20773)
    • Znalost základních statistických a analytických metod
    • Základní znalost Microsoft Windows operačních systémů a jejich funkcionality
    • Znalost relačních databází
  • Kurz určen pro

    Primárně je kurz určen pro data analytiky, data architekty, and data developery, kteří plánují nasadit big data engineering workflow na HDInsight.

  • Literatura

    Všichni účastníci školení obdrží originál studijních certifikovaných materiálů Microsoft.

  • Technické vybavení

    Prostorné učebny jsou vybaveny nadstandardními počítači s možností přístupu na Internet, včetně bezdrátového přístupu.

  • Osnova

    Modul 1: Úvod do HDInsight

    • Kapitola 1: Co jsou Big Data?
    • Kapitola 2: Úvod do Hadoop
    • Kapitola 3: Práce s MapReduce funkcemi
    • Kapitola 4: Úvod do HDInsight
    • Cvičení: Práce s HDInsight

    Modul 2: Nasazení HDInsight clusterů

    • Kapitola 1: HDInsight typy clusterů
    • Kapitola 2: Správa HDInsight clusterů pomocí Azure portálu
    • Kapitola 3: Správa HDInsight clusterů Pomocí Azure PowerShell
    • Cvičení: Správa HDInsight clusterů

    Modul 3: Ověření uživatelů a přístup ke zdrojům

    • Kapitola 1: Non-domain clustery
    • Kapitola 2: Konfigurace domain-joined HDInsight clusterů
    • Kapitola 3: Správa domain-joined HDInsight clusterů
    • Cvičení: Ověřování uživatelů a přístup ke zdrojům

    Modul 4: Nahrávání dat do HDInsight

    • Kapitola 1: Ukládání dat v HDInsight
    • Kapitola 2: Využití data loading nástrojů
    • Cvičení: Nahrávání dat do Azure

    Modul 5: Troubleshooting HDInsight

    • Kapitola 1: Analýza HDInsight logů
    • Kapitola 2: YARN logy
    • Kapitola 3: Operations management suite
    • Cvičení: Troubleshooting HDInsight

    Modul 6: Implementace Batch řešení

    • Kapitola 1: Apache Hive uložiště
    • Kapitola 2: HDInsight data dotazy pomocí Hive a Pig
    • Kapitola 3: Operationalize HDInsight
    • Cvičení: Implementace Batch řešení

    Modul 7: Návrh ETL řešení pro big data pomocí Spark

    • Kapitola 1: Co je Spark?
    • Kapitola 2: ETL pomocí Spark
    • Kapitola 3: Spark performance
    • Cvičení: Návrh ETL řešení pro big data pomocí Spark

    Modul 8: Analýza dat pomocí Spark SQL

    • Kapitola 1: Implementace interaktivních dotazů
    • Kapitola 2: Provádění datových analýz
    • Cvičení: Provádění datových analýz s využitím interaktivních dotazů

    Modul 9: Analýza dat pomocí Hive a Phoenix

    • Kapitola 1: Implementace interaktivních dotazů pro big data pomocí hive
    • Kapitola 2: Provádění datových analýz pomocí Hive
    • Kapitola 3: Provádění procesování pomocí Apache Phoenix
    • Cvičení: Analýza dat pomocí Hive a Phoenix

    Modul 10: Stream Analytics

    • Kapitola 1: Stream analytics
    • Kapitola 2: Streaming dat pro stream analytics
    • Kapitola 3: Správa stream analytics jobů
    • Cvičení: Implementace Stream Analytics

    Modul 11: Implementace Streaming řešení pomocí Kafka a HBase

    • Kapitola 1: Nasazení Kafka Cluster
    • Kapitola 2: Publikace a procesing dat pomocí Kafka Cluster
    • Kapitola 3: Využití HBase k ukládání Query Dat
    • Cvičení: Implementace Streaming řešení pomocí Kafka a HBase

    Modul 12: Tvorba řešení pro zpracování velkých dat v reálném čase pomocí Apache Storm

    • Kapitola 1: Stream dat pomocí Storm
    • Kapitola 2: Tvorba Storm topologií
    • Kapitola 3: Konfigurace Apache Storm
    • Cvičení: Tvorba řešení pro zpracování velkých dat v reálném čase pomocí Apache Storm

    Modul 13: Tvorba Spark Streaming aplikací

    • Kapitola 1: Práce se Spark Streaming
    • Kapitola 2: Tvorba Spark Structured Streaming aplikací
    • Kapitola 3: Trvanlivost a vizualizace
    • Cvičení: Tvorba Spark Streaming aplikací
  • Návaznosti

    Business Intelligence

    Business Intelligence

    Cloud a virtualizace

    Cloud a virtualizace
OKsystem a.s.
Tento web používá k poskytování služeb a analýze návštěvnosti soubory cookie. Používáním těchto stránek s tím souhlasíte.