W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

SAS Viya to otwarta platforma analityczna umożliwiająca superszybkie obliczenia dla operacji na danych, eksploracji oraz zaawansowanej analityki. Sercem platformy jest silnik SAS Cloud Analytics Services (CAS) przetwarzający dane in-memory. Pozwala wielu użytkownikom jednocześnie na bezpieczną pracę z tymi samymi danymi, dzięki czemu unika się redundancji danych a zasoby klastra są optymalniej wykorzystane. Serwer obsługuje zarówno mniejsze zbiory danych jak i duże wolumeny o rozmiarach przekraczających dostępną pamięć RAM. CAS zapewnia wsparcie dla Hadoop Distributed File System (HDFS) jako źródła danych i miejsca do ich zapisu. Otwarte API pozwala użytkownikom na pracę z CAS za pomocą języków Python, Java, Lua czy R co znacznie skraca czas nauki tej technologii.

Nauczysz się:

Jednego z najlepszych komercyjnych rozwiązań chmurowych na rynku typu Enterprise do zaawansowanej analityki dla Big Data.

Wykorzystasz:

Server Cloud Analytics Services do eksploracji, przygotowania i analizy danych oraz język Python do komunikacji z CAS.

Moduł Cassandra - nauczysz się:

Uczestnicy w trakcie zajęć poznają rozwiązanie Apache Cassandra - pokrewne Google Bigtable lub Amazon Dynamo. Zarówno na poziomie czysto praktycznym - jak również zagłębiając się w architekturę systemów rozproszonych i analizując jak konieczność zapewnienia wysokiej dostępności wpływa na cały proces modelowania danych.

Wykorzystywane technologie:

Cassandra, Docker, Python / Jupyter notebooks

Główny prowadzący:

Tomasz Fortuna


Moduł Mongo - nauczysz się:

Po przeprowadzonych zajęciach słuchacze zdobędą umiejętności pozwalające na samodzielną instalacje oraz konfigurację bazy MongoDB. Zostaną zapoznani z hierarchicznym modelem danych oraz jego obsługą poprzez wbudowany w MongoDB język zapytań. Uczestnicy zdobędą umiejętności z zakresu używania Aggregation Framework, który pozwoli im na manipulacje na dużych zbiorach danych. Po zakończonych zajęciach słuchacze zdobędą również wiedzę pozwalająca im na rozpraszanie zbioru danych MongoDB za pomocą replikacji oraz shardingu.

Wykorzystywane technologie:

MongoDB, JSON, JavaScript, Robomongo

Główny prowadzący:

Rafał Kaszczuk


Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

Nauczysz się:

Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python, wykorzystania kolekcji oraz dedykowanych bibliotek do efektywnego przetwarzania danych takich jak NumPy, Pandas i Matplotlib.

Wykorzystywane technologie:

Python

Główny prowadzący:

Piotr Nazimek

Nauczysz się:

Słuchacze nauczą się implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Amazon Web Services. Poznają podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska AWS.

Wykorzystywane technologie:

AWS (EC2, EMR, S3, Athena, Lambda, Glue, SageMaker, usługi kognitywne i AI) przeglądowo Google, Azure

Główne zagadnienia:

Wprowadzenie do chmur obliczeniowych. Wprowadzenie do AWS. Pierwsze kroki. Podstawowe usługi. Big Data i analityka danych. Sztuczna Inteligencja. Serverless. Bazy danych. Wyszukiwanie. Data Warehouse & Business Intelligence. ETL. Integracja. Strumienie danych. Konteneryzacja. Zarządzanie. Przegląd innych rozwiązań dostępnych w chmurze publicznej.

Główny prowadzący:

Radosław Szmit

Moduł Hadoop - nauczysz się:

W trakcie zajęc słuchacze poznają w praktyce Hive, będą tworzyli tabele partycjonowane oraz kubełkowane, jak również będą przetwarzać rozproszone dane przy pomocy silników MapReduce oraz Tez. Słuchacze zapoznają się także z najważniejszymi poleceniami rozproszonego systemu plików Hadoop Distributed File System (HDFS), dowiedzą się czym jest YARN oraz jak używać zarządzanych przez niego zasobów oraz zdobęda umiejętności z zakresu tworzenie workflowów w Oozie.

Wykorzystywane technologie:

HDFS, Hive, Yarn, MapReduce, Tez, Oozie, Zeppelin

Główny prowadzący:

Radek Szmit


Moduł Spark - nauczysz się:

W ramach przedmiotu słuchacze zapoznają się z Apache Spark w sposób prakatyczny i kompleksowy. Poznają problemy w rozwiązaniu których pomaga ta technologia. Uczestnicy nauczą się pracować z danymi wsadowymi i strumieniowymi. Posiądą praktyczną umiejętność przetwarzania dużych danych w sposób szybki i wydajny pisząc zwięzłe i klarowne aplikacje.

Wykorzystywane technologie:

Spark (RDD, DF, streaming), Jupyter, Kafka, EMR i S3

Główne zagadnienia:

Apache Spark. RDD. DataFrame. Streaming.

Główny prowadzący:

Patryk Pilarski

Nauczysz się:

Słuchacze poznają historię oraz definicję zagadnienia Big Data, ekosystem stosowanych narzędzi oraz powszechnie wykorzystywanych języków programowania, podział ról i obowiązków spotykany w rozwiązaniach Big Data, różnice pomiędzy przetwarzaniem wsadowym a strumieniowym oraz ich zastosowania.

Główny prowadzący:

Patryk Pilarski