Celem zajęć jest przybliżenie podstaw wnioskowania statystycznego, a w szczególności budowy modelu statystycznego, estymacji punktowej i przedziałowej, teorii weryfikacji hipotez oraz metod badania zależności między cechami.

Nauczysz się:

Metody i narzędzia eksploracji danych. Podstawowe rozkłady prawdopodobieństwa. Metody konstrukcji estymatorów punktowych i badania ich własności. Przedziały ufności. Podstawowe testy parametryczne. Testowanie zgodności i niezależności cech. Podstawy analizy regresji.

Wykorzystasz:

Język R, RStudio

W ramach przedmiotu omawiane są następujące zagadnienia: wprowadzenie do BigData, skalowalne systemy baz danych na przykładzie Apache Cassandra, składowanie plików na przykładzie Hadoop File System, analiza danych przy użyciu Hadoop Map-Reduce i Apache Spark, zarządzane zasobami, harmonogramowanie i zarządzanie danymi, bezpieczeństwo, integracja.

Nauczysz się:

Ekosystem Hadoopa, HDFS, Formaty plików: text,sequence files, RC, ORC, Parquet, Key-value stores: HBase, Accumulo, Cassandra, In-memory stores: Tachyon, Ignite, Paradygmat MapReduce, Hive, Spark, Kafka

Wykorzystasz:

Hadoop, MapReduce, Cassandra, HBase, Spark, Hive, Kafka

Przedmiot obejmuje przegląd metod eksploracji danych. W szczególności są tu prezentowane metody odnajdywania zbiorów częstych i reguł asocjacyjnych, metody klasyfikacji, znajdowania wzorców sekwencyjnych i grupowania (clustering). Funkcjonowanie poszczególnych klas prezentowanych metod eksploracji jest badane w trakcie zajęć laboratoryjnych.

Nauczysz się:

Odkrywanie zbiorów częstych przy użyciu algorytmu Apriori, Wyznaczanie reguł asocjacyjnych na podstawie zbiorów częstych, Klasyfikacja z użyciem drzew decyzyjnych, Klasyfikacja z użyciem naiwnego klasyfikatora Bayesowskiego, Klasyfikacja z użyciem wzorców kontrastowych, Ocena jakości klasyfikatora, Wzorce sekwencyjne, Grupowanie gęstościowe, Grupowanie hierarchiczne

Wykorzystasz:

Język R, RStudio

Przedmiot obejmuje przegląd gałęzi sztucznej inteligencji i oferowanych przez nie metod przetwarzania dużych zbiorów danych. Działanie poszczególnych klas metod jest badane w trakcie zajęć laboratoryjnych.

Nauczysz się:

Algorytmów ewolucyjnych i genetycznych, metod przeszukiwania przestrzeni stanów, działania sieci neuronowych i konstrukcji systemów eksperckich.

Wykorzystasz:

Język R, RStudio

Programowanie w R

Przedmiot koncentruje się na zaprezentowaniu słuchaczom składni języka R, zaczynając od zagadnień podstawowych, a na średniozaawansowanych kończąc. W trakcie zajęć omawiane będą zarówno tematy ogólnoprogramistyczne, znajdujące zastosowanie w różnych językach programowania, jak również zagadnienia specyficzne dla języka R. Zajęcia poruszać będą również kluczowe kwestie związane z przetwarzaniem danych w R, przy wykorzystaniu najczęściej stosowanej do tego celu biblioteki dplyr.

Nauczysz się:

Wykorzystywać w swojej pracy wszystkie kluczowe elementy składniowe języka R (m.in. zmienne, operatory, typy oraz struktury danych, instrukcje warunkowe, pętle, funkcje). Wydajnie korzystać z języka R, wykorzystując jego specyficzne cechy, takie jak wektoryzowanie operacji, czy wykorzystywanie funkcji „apply” zamiast pętli. Pracować z pakietem dplyr, najpopularniejszym pakietem R, wykorzystywanym podczas przetwarzania danych.

Wykorzystasz:

Język R, środowisko RStudio, bibliotekę tidyverse (tibble, dplyr, readr, stringr).


Programowanie w Python

Przedmiot skupia się na omówieniu kluczowych, z punktu widzenia pracy w Data Science, aspektów składni języka Python. Porusza ponadto najważniejsze zagadnienia związane z przetwarzaniem oraz analizą danych, przy wykorzystaniu najpopularniejszej biblioteki Pythona przeznaczonej do tego celu, czyli Pandas.

Nauczysz się:

Korzystać z najważniejszych elementów składniowych języka Python (m.in. zmiennych, operatorów, prostych i złożonych typów danych, instrukcji warunkowych, pętli, funkcji, klas i obiektów). Programować w sposób funkcyjny oraz obiektowy. Wykorzystywać możliwości biblioteki Pandas podczas przetwarzania oraz analizy danych.

Wykorzystasz:

Python, dystrybucję Anaconda, bibliotekę Pandas.

Przedmiot obejmuje przegląd metod automatycznego przetwarzania danych tekstowych. W szczególności są tu prezentowane zagadnienia z zakresu parsowania i struktury języka, analizy statystycznej, analizy gramatycznej, kategoryzacji i grupowania dokumentów, automatycznego tłumaczenia, budowania ontologii, analizy dokumentów hipertekstowych.

Nauczysz się:

Parsing i struktura języka(text corpora, słowa i zdania, tokenization, fleksja), Analiza statystyczna (modele dokumentów, modele języka, collocations, word sense disambiguation), Analiza gramatyczna (POS tagging, parsing, PCFG), Wyszukiwanie informacji, Kategoryzacja i grupowanie dokumentów, Streszczanie dokumentów, Tłumaczenie automatyczne, Wykrywanie słów kluczowych, Budowanie ontologii, Analiza dokumentów hipertekstowych (page rank, SEO), Profilowanie użytkowników, analiza sieci społecznościowych, Analiza zachowania użytkowników (sentiment analysis)

Wykorzystasz:

Język R, RStudio

Przedmiot obejmuje zagadnienia dotyczące najlepszych praktyk wizualizacji danych. W trakcie zajęć omawianych jest 8 typów wizualizacji danych: (i) porównanie części do całości, (ii) analiza w czasie, (iii) analiza relacji, (iv) analiza korelacji, (v) analiza porównawcza, (vi) dystrybuanta, (vii) analiza hierarchii, (viii) analiza przepływu. Rozważane są najczęściej popełniane błędy w wizualizacji danych oraz aktualne trendy w Business Intelligence, między innymi Self-Service Analytics. Podczas zajęć duży nacisk jest kładziony na omówienie najważniejszych koncepcji psychologicznych mających zastosowanie w wizualizacji danych, takich jak: psychologia poznawcza, psychologia Gestalt, prawo Hicksa, psychologia koloru, dopasowanie wzorców, rozpoznawanie twarzy, wpływ społeczny, progresywne ujawnianie, hierarchia potrzeb Maslowa, brzytwa Ockhama, efekt von Restorff. W trakcie zajęć są wyjaśniane pojęcia sygnałów biznesowych (Outliers) oraz koncepcja opowiadania historii przy użyciu danych (Storytelling).

Nauczysz się:

Jak w prosty i zrozumiały sposób pokazać to, co ważne i ukryć to, co nieistotne; Budować dashboard tak, aby użytkownik szybko dotarł do najważniejszych informacji; Dobierać odpowiednie wizualizacje w zależności od typu analizy w oparciu o zasady User Experience Design, Koncepcji wizualizacji danych.

Wykorzystasz:

Tableau®

Oprogramowanie SAS Viya, Visual Data Mining and Machine Learning - stanowi uniwersalny framework, który pozwala na łatwe wykorzystanie szeregu metod analitycznych przy budowie liniowych i nieliniowych modeli predykcyjnych oraz technik segmentacyjnych. Tworzone modele wspierają proces podejmowania decyzji z m.in. następujących obszarów: prawdopodobieństwo zajścia zdarzenia, oczekiwana wartość zdarzenia oraz szacowany czas wystąpienia zdarzenia.

Nauczysz się:

Supervised learning: Rodzaje modelowania ze względu na charakter zmiennej objaśnianej, Metody selekcji zmiennych, Techniki imputacji braków danych, Transformacje zmiennych, Drzewa decyzyjne, Regresja, Podstawy sieci neuronowych, Klasyfikacja modeli, Proces scoringu, Wykorzystanie zewnętrznych modeli, np.: R. Unsupervised learning: Techniki klasteryzacji danych, Profilowanie segmentów

Wykorzystasz:

SAS®Viya