Hĺbková analýza dát
Vzhľad
(Presmerované z Dolovanie dát)
Hĺbková analýza dát[1] (iné názvy: hĺbková analýza údajov[2], vyťažovanie údajov/dát[3][4], dolovanie údajov/dát[5][6], dolovanie v údajoch/dátach[7], data mining; angl. data mining) je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tisícok polí v relačných databázach.
Využíva metódy štatistiky, matematiky (matematické modelovanie = klasifikačné pravidlá alebo stromy, regresia, zhluková analýza), umelej inteligencie (neuronové siete, rozpoznávanie, samoučiace sa algoritmy), nástroje OLAP (on-line analytické spracovanie)[8] a strojového učenia.
Typy modelov
[upraviť | upraviť zdroj]- Predikčné modely – cieľom je na základe historických dát predpovedať budúcnosť
- Segmentačné modely – cieľom je roztriediť množstvo dát na zvládnuteľný počet homogénnych skupín
Aplikácia v praxi
[upraviť | upraviť zdroj]- Propensity to buy - cross-sell (predaj ďalších produktov existujúcim zákazníkom) a up-sell (zvýšenie spotreby daného produktu, doplnky)
- Credit risk - modelovanie pravdepodobnosti nesplácania úveru
- Fraud - identifikácia podvodov
- Churn - identifikácia zákazníkov náchylných na prechod ku konkurencii
- Segmentácia - zoskupovanie do homogénnych skupín
- Market basket analysis - analýza nákupného koša
- Diagnostické modely
- Modely analýzy časových radov
- Text mining
Delenie
[upraviť | upraviť zdroj]Metodológie
[upraviť | upraviť zdroj]Typické oblasti využitia
[upraviť | upraviť zdroj]- marketing, podpora pri výbere klientov do marketingových kampaní (cross-sell, up-sell)
- poisťovníctvo, identifikácia podvodov, churn
- bankovníctvo, manažment rizika (credit risk, fraud)
- medicína, podpora pri stanovení pravdepodobnosti danej diagnózy
- telekomunikácie, cross-sell, up-sell, churn, fraud
- maloobchod, analýza nákupného koša, cross-sell, up-sell
- štátna správa, fraud
Algoritmy
[upraviť | upraviť zdroj]- Lineárna regresia
- Logistická regresia
- Diskriminačná analýza
- Faktorová analýza
- Zhluková analýza
- Neurónové siete
- Support vector machines
- Rozhodovacie stromy
- Naivný Bayesov klasifikátor
- Bayesove siete
- Algoritmus k najbližších susedov (KNN)
- Kohonenove mapy
- Asociačné pravidlá
- Analýza sekvencií
- Analýza časových radov
Softvér
[upraviť | upraviť zdroj]- DOCKitIN
- SAS
- SPSS Clementine, SPSS
- Statistica
- SQL Server
- Oracle Data miner
- IBM DB2 Intelligent Miner
- R (slobodný softvér)
- Weka (slobodný softvér)
- RapidMiner, pred 2007-05-27 pod menom YALE (slobodný softvér)
- MATLAB
Referencie
[upraviť | upraviť zdroj]- ↑ EU v Bratislave - Projekt predmetu SK [1]
- ↑ Terek, M., Horníková, A., Labudová, V.: Hĺbková analýza údajov (Data Mining). Bratislava: Iura Edition 2010
- ↑ http://eur-lex.europa.eu/legal-content/SK/ALL/?uri=CELEX:52008IP0561
- ↑ Archivovaná kópia [online]. [Cit. 2016-09-29]. Dostupné online. Archivované 2016-10-01 z originálu.
- ↑ Archivovaná kópia [online]. [Cit. 2016-09-29]. Dostupné online. Archivované 2016-05-15 z originálu.
- ↑ Archivovaná kópia [online]. [Cit. 2016-09-29]. Dostupné online. Archivované 2016-10-02 z originálu.
- ↑ Krammer, P.: Dolovanie v údajoch so zameraním na interpretovateľnosť modelov. Dizertačná práca, FIIT STU,. Bratislava, 2015
- ↑ Kučerová, Helena. data mining. In KTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2003- [cit. 2011-05-15]. Dostupné z WWW: [2].
Iné projekty
[upraviť | upraviť zdroj]- Commons ponúka multimediálne súbory na tému Hĺbková analýza dát