Wszystkie kursy | Podyplomowe

Egzamin końcowy - ed.14 (23L)

Prowadzący: Robert Bembenik

Pozyskiwanie danych i przetwarzanie strumieniowe - ed.14 (23L)

Prowadzący: Robert Bembenik
Prowadzący: Tomasz Romanowski

Programowanie zorientowane na dane - ed.14 (23L)

Nauczysz się:

Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python, wykorzystania kolekcji oraz dedykowanych bibliotek do efektywnego przetwarzania danych takich jak NumPy, Pandas i Matplotlib.

Wykorzystywane technologie:

Python

Główny prowadzący:

Piotr Nazimek

Prowadzący: Robert Bembenik
Prowadzący: Piotr Nazimek

Projektowanie rozwiązań Big Data - ed.14 (23L)

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

Prowadzący: Robert Bembenik
Prowadzący: Damian Warszawski

Przetwarzanie Big Data z wykorzystaniem chmur obliczeniowych (CBD) - ed.14 (23L)

Nauczysz się:

Słuchacze nauczą się implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Amazon Web Services. Poznają podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska AWS.

Wykorzystywane technologie:

AWS (EC2, EMR, S3, Athena, Lambda, Glue, SageMaker, usługi kognitywne i AI) przeglądowo Google, Azure

Główne zagadnienia:

Wprowadzenie do chmur obliczeniowych. Wprowadzenie do AWS. Pierwsze kroki. Podstawowe usługi. Big Data i analityka danych. Sztuczna Inteligencja. Serverless. Bazy danych. Wyszukiwanie. Data Warehouse & Business Intelligence. ETL. Integracja. Strumienie danych. Konteneryzacja. Zarządzanie. Przegląd innych rozwiązań dostępnych w chmurze publicznej.

Główny prowadzący:

Radosław Szmit

Prowadzący: Robert Bembenik
Prowadzący: Radosław Szmit

Przetwarzanie Big Data za pomocą Apache Hadoop i Spark (HBD) - ed.14 (23L)

Moduł Hadoop - nauczysz się:

W trakcie zajęc słuchacze poznają w praktyce Hive, będą tworzyli tabele partycjonowane oraz kubełkowane, jak również będą przetwarzać rozproszone dane przy pomocy silników MapReduce oraz Tez. Słuchacze zapoznają się także z najważniejszymi poleceniami rozproszonego systemu plików Hadoop Distributed File System (HDFS), dowiedzą się czym jest YARN oraz jak używać zarządzanych przez niego zasobów oraz zdobęda umiejętności z zakresu tworzenie workflowów w Oozie.

Wykorzystywane technologie:

HDFS, Hive, Yarn, MapReduce, Tez, Oozie, Zeppelin

Główny prowadzący:

Radek Szmit

Moduł Spark - nauczysz się:

W ramach przedmiotu słuchacze zapoznają się z Apache Spark w sposób prakatyczny i kompleksowy. Poznają problemy w rozwiązaniu których pomaga ta technologia. Uczestnicy nauczą się pracować z danymi wsadowymi i strumieniowymi. Posiądą praktyczną umiejętność przetwarzania dużych danych w sposób szybki i wydajny pisząc zwięzłe i klarowne aplikacje.

Wykorzystywane technologie:

Spark (RDD, DF, streaming), Jupyter, Kafka, EMR i S3

Główne zagadnienia:

Apache Spark. RDD. DataFrame. Streaming.

Główny prowadzący:

Patryk Pilarski

Prowadzący: Robert Bembenik
Prowadzący: Arkadiusz Cacko
Prowadzący: Patryk Pilarski

Uczenie maszynowe w rozwiązaniach Big Data - ed.14 (23L)

W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

Prowadzący: Robert Bembenik
Prowadzący: Waldemar Kołodziejczyk

Wprowadzenie do baz NoSQL - ed.14 (23L)

Moduł Cassandra - nauczysz się:

Uczestnicy w trakcie zajęć poznają rozwiązanie Apache Cassandra - pokrewne Google Bigtable lub Amazon Dynamo. Zarówno na poziomie czysto praktycznym - jak również zagłębiając się w architekturę systemów rozproszonych i analizując jak konieczność zapewnienia wysokiej dostępności wpływa na cały proces modelowania danych.

Wykorzystywane technologie:

Cassandra, Docker, Python / Jupyter notebooks

Główny prowadzący:

Tomasz Fortuna

Moduł Mongo - nauczysz się:

Po przeprowadzonych zajęciach słuchacze zdobędą umiejętności pozwalające na samodzielną instalacje oraz konfigurację bazy MongoDB. Zostaną zapoznani z hierarchicznym modelem danych oraz jego obsługą poprzez wbudowany w MongoDB język zapytań. Uczestnicy zdobędą umiejętności z zakresu używania Aggregation Framework, który pozwoli im na manipulacje na dużych zbiorach danych. Po zakończonych zajęciach słuchacze zdobędą również wiedzę pozwalająca im na rozpraszanie zbioru danych MongoDB za pomocą replikacji oraz shardingu.

Wykorzystywane technologie:

MongoDB, JSON, JavaScript, Robomongo

Główny prowadzący:

Rafał Kaszczuk

Prowadzący: Robert Bembenik
Prowadzący: Tomasz Fortuna
Prowadzący: Rafał Kaszczuk

Wprowadzenie do technologii Big Data - ed.14 (23L)

Nauczysz się:

Słuchacze poznają historię oraz definicję zagadnienia Big Data, ekosystem stosowanych narzędzi oraz powszechnie wykorzystywanych języków programowania, podział ról i obowiązków spotykany w rozwiązaniach Big Data, różnice pomiędzy przetwarzaniem wsadowym a strumieniowym oraz ich zastosowania.

Główny prowadzący:

Patryk Pilarski

Prowadzący: Robert Bembenik
Prowadzący: Rafał Kaszczuk
Prowadzący: Waldemar Kołodziejczyk
Prowadzący: Patryk Pilarski