Big Data - przetwarzanie i analiza dużych zbiorów danych

SAS Viya to otwarta platforma analityczna umożliwiająca superszybkie obliczenia dla operacji na danych, eksploracji oraz zaawansowanej analityki. Sercem platformy jest silnik SAS Cloud Analytics Services (CAS) przetwarzający dane in-memory. Pozwala wielu użytkownikom jednocześnie na bezpieczną pracę z tymi samymi danymi, dzięki czemu unika się redundancji danych a zasoby klastra są optymalniej wykorzystane. Serwer obsługuje zarówno mniejsze zbiory danych jak i duże wolumeny o rozmiarach przekraczających dostępną pamięć RAM. CAS zapewnia wsparcie dla Hadoop Distributed File System (HDFS) jako źródła danych i miejsca do ich zapisu. Otwarte API pozwala użytkownikom na pracę z CAS za pomocą języków Python, Java, Lua czy R co znacznie skraca czas nauki tej technologii.

Nauczysz się:

Jednego z najlepszych komercyjnych rozwiązań chmurowych na rynku typu Enterprise do zaawansowanej analityki dla Big Data.

Wykorzystasz:

Server Cloud Analytics Services do eksploracji, przygotowania i analizy danych oraz język Python do komunikacji z CAS.

W ramach przedmiotu słuchacze rozwiną umiejętności związane z przetwarzaniem i analizą danych.

Nauczysz się:

Obsługi najważniejszych poleceń oraz narzędzi w systemie Linux, struktury i składni języka programowania Python lub Java, wykorzystania kolekcji danych, obsługi wątków i współbieżnego przetwarzania danych, wykorzystania dedykowanych bibliotek do efektywnego przetwarzania danych.

Przedmiot prowadzony jest w dwóch wersjach: Python dla osób bez lub z niewielkim doświadczeniem programistycznym oraz Java dla osób programujących. Zakres tematyczny materiału realizowanego w obydwu grupach jest taki sam. Uczestnicy w jednakowym stopniu zrealizują założone cele zajęć oraz przygotują się do udziału w kolejnych przedmiotach. Podział na grupy przeprowadzany jest na podstawie wypełnionych ankiet.

Wykorzystasz:

Java lub Python

Słuchacze zapoznają się ze specyfiką projektowania rozwiązań Big Data. Przedstawiony zostanie szereg konkretnych technologii z rodziny Big Data, zarówno klastrowych jak i chmurowych, odpowiednich do różnego rodzaju problemów. Poruszona zostanie również integracja systemów Big Data z istniejącymi systemami i oprogramowaniem.

Nauczysz się:

Projektować i dobierać odpowiednie rozwiązania Big Data do zadanego problemu

Wykorzystasz:

Apache Hadoop, Apache Spark

W ramach przedmiotu zostaną przedstawione podstawowe typy usług na chmurach obliczeniowych oraz zastosowania wirtualnych instancji, w tym wykorzystanie rozwiązań platformowych do składowania i przetwarzania danych. Ponadto słuchacze poznają zagadnienia związane z architekturą w oparciu o chmurę oraz z analityką i uczeniem maszynowym w chmurach.

Nauczysz się:

Implementować infrastrukturę jako kod, przetwarzać dane wsadowe i strumieniowe używając usług chmurowych Google Cloud. Poznasz podstawowe techniki projektowania architektury z użyciem usług chmurowych na przykładzie środowiska Google Cloud.

Wykorzystasz:

Google Cloud

W ramach przedmiotu przedstawiony zostanie podstawowy zbiór problemów Big Data i ich rozwiązania z pomocą narzędzi rodziny Apache Spark oraz Apache Hadoop. Słuchacze będą świadomi zalet i wad tych narzędzi w podejściu do rozwiązania problemów biznesowych.

Nauczysz się:

Formułować zadania algorytmiczne w tym paradygmacie MapReduce, projektować i zaimplementować aplikację z wykorzystaniem Apache Hadoop i Spark, analizować i interpretować dane za pomocą Apache Spark i Apache Hive, przetwarzać dane wsadowe i strumieniowe

Wykorzystasz:

Apache Hadoop, Apache Spark, Hive, Kafka

W ramach przedmiotu omawiana jest problematyka uczenia maszynowego w kontekście dużych zbiorów danych, paradygmatu Map Reduce oraz technologii Apache Hadoop i Spark.

Nauczysz się:

Dobierać odpowiednie podejścia do rozwiązywania problemów uczenia maszynowego w kontekście dużych zbiorów danych

Wykorzystasz:

Apache Mahout, Spark MLib

Słuchacze zdobędą ogólną wiedzę dotyczącą baz typu NoSQL, ich funkcjonalnościach, zastosowaniach i ograniczeniach. Dzięki temu będą mogli wybrać właściwą bazę danych dla swoich projektów.

Nauczysz się:

Model danych BigTable oraz jego realizację w bazie Cassandra, struktura przechowywania danych i poziom fizycznego dostępu do nich, mechanizmy zapewniające wysoką dostępność i wydajność oraz kompromisy jakie się z tym wiążą

Wykorzystasz:

Baza Cassandra, baza HBase

Słuchacze zdobędą podstawową wiedzę dotyczącą problemów skali Big Data.

Nauczysz się:

Podejścia do problemów skali Big Data, algorytm MapReduce, koncepcja BigTable, NoSQL oraz rozproszone systemy plikowe HDFS

Wykorzystasz:

Apache Hadoop