- Prowadzący: Robert Bembenik
- Prowadzący: Robert Bembenik
- Prowadzący: Tomasz Romanowski
Nauczysz się:
Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python, wykorzystania kolekcji oraz dedykowanych bibliotek do efektywnego przetwarzania danych takich jak NumPy, Pandas i Matplotlib.
Wykorzystywane technologie:
Python
Główny prowadzący:
Piotr Nazimek
- Prowadzący: Robert Bembenik
- Prowadzący: Piotr Nazimek
Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.
Nauczysz się:
Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu
Wykorzystasz:
Apache Hadoop, Apache Spark
- Prowadzący: Robert Bembenik
- Prowadzący: Damian Warszawski
Nauczysz się:
Słuchacze nauczą się implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Amazon Web Services. Poznają podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska AWS.
Wykorzystywane technologie:
AWS (EC2, EMR, S3, Athena, Lambda, Glue, SageMaker, usługi kognitywne i AI) przeglądowo Google, Azure
Główne zagadnienia:
Wprowadzenie do chmur obliczeniowych. Wprowadzenie do AWS. Pierwsze kroki. Podstawowe usługi. Big Data i analityka danych. Sztuczna Inteligencja. Serverless. Bazy danych. Wyszukiwanie. Data Warehouse & Business Intelligence. ETL. Integracja. Strumienie danych. Konteneryzacja. Zarządzanie. Przegląd innych rozwiązań dostępnych w chmurze publicznej.
Główny prowadzący:
Radosław Szmit
- Prowadzący: Robert Bembenik
- Prowadzący: Radosław Szmit
Moduł Hadoop - nauczysz się:
W trakcie zajęc słuchacze poznają w praktyce Hive, będą tworzyli tabele partycjonowane oraz kubełkowane, jak również będą przetwarzać rozproszone dane przy pomocy silników MapReduce oraz Tez. Słuchacze zapoznają się także z najważniejszymi poleceniami rozproszonego systemu plików Hadoop Distributed File System (HDFS), dowiedzą się czym jest YARN oraz jak używać zarządzanych przez niego zasobów oraz zdobęda umiejętności z zakresu tworzenie workflowów w Oozie.
Wykorzystywane technologie:
HDFS, Hive, Yarn, MapReduce, Tez, Oozie, Zeppelin
Główny prowadzący:
Radek Szmit
Moduł Spark - nauczysz się:
W ramach przedmiotu słuchacze zapoznają się z Apache Spark w sposób prakatyczny i kompleksowy. Poznają problemy w rozwiązaniu których pomaga ta technologia. Uczestnicy nauczą się pracować z danymi wsadowymi i strumieniowymi. Posiądą praktyczną umiejętność przetwarzania dużych danych w sposób szybki i wydajny pisząc zwięzłe i klarowne aplikacje.
Wykorzystywane technologie:
Spark (RDD, DF, streaming), Jupyter, Kafka, EMR i S3
Główne zagadnienia:
Apache Spark. RDD. DataFrame. Streaming.
Główny prowadzący:
Patryk Pilarski
- Prowadzący: Robert Bembenik
- Prowadzący: Arkadiusz Cacko
- Prowadzący: Patryk Pilarski
W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.
Nauczysz się:
Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych
Wykorzystasz:
Apache Mahout, Spark MLib
- Prowadzący: Robert Bembenik
- Prowadzący: Waldemar Kołodziejczyk
Moduł Cassandra - nauczysz się:
Uczestnicy w trakcie zajęć poznają rozwiązanie Apache Cassandra - pokrewne Google Bigtable lub Amazon Dynamo. Zarówno na poziomie czysto praktycznym - jak również zagłębiając się w architekturę systemów rozproszonych i analizując jak konieczność zapewnienia wysokiej dostępności wpływa na cały proces modelowania danych.
Wykorzystywane technologie:
Cassandra, Docker, Python / Jupyter notebooks
Główny prowadzący:
Tomasz Fortuna
Moduł Mongo - nauczysz się:
Po przeprowadzonych zajęciach słuchacze zdobędą umiejętności pozwalające na samodzielną instalacje oraz konfigurację bazy MongoDB. Zostaną zapoznani z hierarchicznym modelem danych oraz jego obsługą poprzez wbudowany w MongoDB język zapytań. Uczestnicy zdobędą umiejętności z zakresu używania Aggregation Framework, który pozwoli im na manipulacje na dużych zbiorach danych. Po zakończonych zajęciach słuchacze zdobędą również wiedzę pozwalająca im na rozpraszanie zbioru danych MongoDB za pomocą replikacji oraz shardingu.
Wykorzystywane technologie:
MongoDB, JSON, JavaScript, Robomongo
Główny prowadzący:
Rafał Kaszczuk
- Prowadzący: Robert Bembenik
- Prowadzący: Tomasz Fortuna
- Prowadzący: Rafał Kaszczuk
Nauczysz się:
Słuchacze poznają historię oraz definicję zagadnienia Big Data, ekosystem stosowanych narzędzi oraz powszechnie wykorzystywanych języków programowania, podział ról i obowiązków spotykany w rozwiązaniach Big Data, różnice pomiędzy przetwarzaniem wsadowym a strumieniowym oraz ich zastosowania.
Główny prowadzący:
Patryk Pilarski
- Prowadzący: Robert Bembenik
- Prowadzący: Rafał Kaszczuk
- Prowadzący: Waldemar Kołodziejczyk
- Prowadzący: Patryk Pilarski