Data Science – algorytmy, narzędzia i aplikacje dla problemów typu Big Data

Celem zajęć jest przybliżenie podstaw wnioskowania statystycznego, a w szczególności budowy modelu statystycznego, estymacji punktowej i przedziałowej, teorii weryfikacji hipotez oraz metod badania zależności między cechami.

Nauczysz się:

Metody i narzędzia eksploracji danych. Podstawowe rozkłady prawdopodobieństwa. Metody konstrukcji estymatorów punktowych i badania ich własności. Przedziały ufności. Podstawowe testy parametryczne. Testowanie zgodności i niezależności cech. Podstawy analizy regresji.

Wykorzystasz:

Język R, RStudio

W ramach przedmiotu omawiane są następujące zagadnienia: wprowadzenie do BigData, skalowalne systemy baz danych na przykładzie Apache Cassandra, składowanie plików na przykładzie Hadoop File System, analiza danych przy użyciu Hadoop Map-Reduce i Apache Spark, zarządzane zasobami, harmonogramowanie i zarządzanie danymi, bezpieczeństwo, integracja.

Nauczysz się:

Ekosystem Hadoopa, HDFS, Formaty plików: text,sequence files, RC, ORC, Parquet, Key-value stores: HBase, Accumulo, Cassandra, In-memory stores: Tachyon, Ignite, Paradygmat MapReduce, Hive, Spark, Kafka

Wykorzystasz:

Hadoop, MapReduce, Cassandra, HBase, Spark, Hive, Kafka

Przedmiot obejmuje przegląd metod eksploracji danych. W szczególności są tu prezentowane metody odnajdywania zbiorów częstych i reguł asocjacyjnych, metody klasyfikacji, znajdowania wzorców sekwencyjnych i grupowania (clustering). Funkcjonowanie poszczególnych klas prezentowanych metod eksploracji jest badane w trakcie zajęć laboratoryjnych.

Nauczysz się:

Odkrywanie zbiorów częstych przy użyciu algorytmu Apriori, Wyznaczanie reguł asocjacyjnych na podstawie zbiorów częstych, Klasyfikacja z użyciem drzew decyzyjnych, Klasyfikacja z użyciem naiwnego klasyfikatora Bayesowskiego, Klasyfikacja z użyciem wzorców kontrastowych, Ocena jakości klasyfikatora, Wzorce sekwencyjne, Grupowanie gęstościowe, Grupowanie hierarchiczne

Wykorzystasz:

Język R, RStudio

Przedmiot obejmuje przegląd gałęzi sztucznej inteligencji i oferowanych przez nie metod przetwarzania dużych zbiorów danych. Działanie poszczególnych klas metod jest badane w trakcie zajęć laboratoryjnych.

Nauczysz się:

Algorytmów ewolucyjnych i genetycznych, metod przeszukiwania przestrzeni stanów, działania sieci neuronowych i konstrukcji systemów eksperckich.

Wykorzystasz:

Język R, RStudio

Przedmiot obejmuje wprowadzenie do środowiska programistycznego R oraz narzędzia niezbędne do pracy (RStudio), zapoznanie z podstawowymi strukturami i typami danych, podstawy programowania w języku R, podstawowe zagadnienia związane z analizą danych ilościowych i jakościowych, wizualizację danych.

Nauczysz się:

Podstawowe typy i struktury danych, Elementy programowania w R (operacje zwektoryzowane jako główna cecha tego języka, instrukcje sterujące przepływem kodu, tworzenie własnych skryptów i funkcji), Podstawy analizy danych, Graficzna prezentacja wyników, Wybrane zaawansowane zagadnienia związane z programowaniem w R

Wykorzystasz:

Język R, RStudio

Oprogramowanie SAS Enterprise Miner stanowi uniwersalny framework, który pozwala na łatwe wykorzystanie szeregu metod analitycznych przy budowie liniowych i nieliniowych modeli predykcyjnych oraz technik segmentacyjnych. Tworzone modele wspierają proces podejmowania decyzji z następujących obszarów: prawdopodobieństwo zajścia zdarzenia, oczekiwana wartość zdarzenia oraz szacowany czas wystąpienia zdarzenia.

Nauczysz się:

Supervised learning: Rodzaje modelowania ze względu na charakter zmiennej objaśnianej, Metody selekcji zmiennych, Techniki imputacji braków danych, Transformacje zmiennych, Drzewa decyzyjne, Regresja, Podstawy sieci neuronowych, Klasyfikacja modeli, Proces scoringu, Wykorzystanie zewnętrznych modeli, np.: R. Unsupervised learning: Techniki klasteryzacji danych, Profilowanie segmentów

Wykorzystasz:

SAS® Enterprise Miner

Przedmiot obejmuje przegląd metod automatycznego przetwarzania danych tekstowych. W szczególności są tu prezentowane zagadnienia z zakresu parsowania i struktury języka, analizy statystycznej, analizy gramatycznej, kategoryzacji i grupowania dokumentów, automatycznego tłumaczenia, budowania ontologii, analizy dokumentów hipertekstowych.

Nauczysz się:

Parsing i struktura języka(text corpora, słowa i zdania, tokenization, fleksja), Analiza statystyczna (modele dokumentów, modele języka, collocations, word sense disambiguation), Analiza gramatyczna (POS tagging, parsing, PCFG), Wyszukiwanie informacji, Kategoryzacja i grupowanie dokumentów, Streszczanie dokumentów, Tłumaczenie automatyczne, Wykrywanie słów kluczowych, Budowanie ontologii, Analiza dokumentów hipertekstowych (page rank, SEO), Profilowanie użytkowników, analiza sieci społecznościowych, Analiza zachowania użytkowników (sentiment analysis)

Wykorzystasz:

Język R, RStudio

Przedmiot obejmuje zagadnienia dotyczące najlepszych praktyk wizualizacji danych. W trakcie zajęć omawianych jest 8 typów wizualizacji danych: (i) porównanie części do całości, (ii) analiza w czasie, (iii) analiza relacji, (iv) analiza korelacji, (v) analiza porównawcza, (vi) dystrybuanta, (vii) analiza hierarchii, (viii) analiza przepływu. Rozważane są najczęściej popełniane błędy w wizualizacji danych oraz aktualne trendy w Business Intelligence, między innymi Self-Service Analytics. Podczas zajęć duży nacisk jest kładziony na omówienie najważniejszych koncepcji psychologicznych mających zastosowanie w wizualizacji danych, takich jak: psychologia poznawcza, psychologia Gestalt, prawo Hicksa, psychologia koloru, dopasowanie wzorców, rozpoznawanie twarzy, wpływ społeczny, progresywne ujawnianie, hierarchia potrzeb Maslowa, brzytwa Ockhama, efekt von Restorff. W trakcie zajęć są wyjaśniane pojęcia sygnałów biznesowych (Outliers) oraz koncepcja opowiadania historii przy użyciu danych (Storytelling).

Nauczysz się:

Jak w prosty i zrozumiały sposób pokazać to, co ważne i ukryć to, co nieistotne; Budować dashboard tak, aby użytkownik szybko dotarł do najważniejszych informacji; Dobierać odpowiednie wizualizacje w zależności od typu analizy w oparciu o zasady User Experience Design, Koncepcji wizualizacji danych.

Wykorzystasz:

Tableau®