Opis przedmiotu
Zajęcia obejmują podstawowe techniki związane z analizą danych. Są to metody zarówno statystyczne, oparte na modelach probabilistycznych, jak i wywodzące się z dziedziny eksploracji danych (data mining). Celem wykładu jest zapoznanie uczestników z podstawowymi pojęciami, intuicjami oraz prostymi technikami analitycznymi, w stopniu wystarczającym do praktycznego ich wykorzystania. Przedstawione zostaną zalety, możliwości i ograniczenia poszczególnych metod.
Wymagania wstępne
- Matematyka dyskretna, statystyka - podstawy kombinatoryki i rachunku prawdopodobieństwa.
- Analiza matematyczna - znajomość podstaw rachunku różniczkowego i całkowego.
- Narzędzia szucznej inteligencji - podstawy działania sieci neuronowych, techniki optymalizacyjne.
Tematy wykładów
-
Podstawowe pojęcia. Podejście statystyczne, metodologia eksploracji danych i KDD.
-
Zmienne losowe i ich rozkłady gęstości, graficzna prezentacja danych, histogramy.
-
Wskaźniki położenia i rozproszenia. Wstęp do estymacji parametrycznej.
-
Prawo wielkich liczb, centralne twierdzenie graniczne. Estymatory. Zasada największej wiarogodności.
-
Zależności wielowymiarowe danych w próbce. Regresja liniowa. Dyskryminacja liniowa.
-
Estymacja przedziałowa.
-
Testowanie hipotez statystycznych.
-
Probabilistyczne metody klasyfikacji. Naiwny klasyfikator bayesowski.
-
Schematy testowania klasyfikatorów: cross-validation, leave-one-out. Estymacja rozkładu metodą najbliższych sąsiadów.
-
Drzewa decyzyjne. Entropia.
-
Reguły decyzyjne i ich parametry. Algorytm AQ i CN2.
-
Reguły asocjacyjne, algorytm Apriori.
-
Metody grupowania (analiza skupień). Algorytm k-means, centroidów, minimalnego drzewa rozpinającego.
-
Proces KDD, znaczenie wstępnej obróbki danych. Problem indukcji i selekcji cech.
Organizacja przedmiotu, zaliczenia
Podstawową formą zapoznawania się z przedmiotem są umieszczone w sieci wykłady. Wszelkie wątpliwości można rozstrzygać na cotygodniowym chacie (konsultacjach), a także (w dowolnym terminie) na forum, w wątku dotyczącym odpowiedniego wykładu. Ponadto część zajęć odbędzie się w gmachu uczelni.
Ocena będzie obejmowała aktywność i wykazaną wiedzę na zajęciach na uczelni (mini-projekty), testy z wiadomości wykładowych (zdalnie) oraz wynik teoretycznego egzaminu końcowego.
Literatura
- J. Koronacki, J. Mielniczuk: Statystyka, WNT 2001.
- P. Cichosz: Systemy uczące się, WNT 2000.
- A. Webb: Statistical Pattern Recognition, Wiley 2002.
- S. Osowski: Sieci neuronowe w ujęciu algorytmicznym, WNT 1997.