Objavovanie znalostí v databázach
Tomuto článku alebo sekcii chýbajú odkazy na spoľahlivé zdroje, môže preto obsahovať informácie, ktoré je potrebné ešte overiť. Pomôžte Wikipédii a doplňte do článku citácie, odkazy na spoľahlivé zdroje. |
Objavovanie znalostí v databázach (iné názvy: objavovanie poznatkov/vedomostí v databázach, získavanie znalostí/poznatkov/vedomostí z databáz/v databázach; angl. Knowledge Discovery in Databases, z toho skr. KDD) je data mining a súvisiace prípravné a vyhodnocovacie procesy.
Výška údajov zozbieraných v databázach dnes ďaleko presahuje naše schopnosti znižovať a analyzovať dáta bez používania automatických techník analýzy. Získavanie vedomostí je definované ako netriviálna extrakcia implicitných, neznámych a potenciálne užitočných informácií.
KDD je rýchlo sa rozvíjajúca oblasť. Predpokladá sa, že komerčné databázové systémy budú v budúcnosti obsahovať KDD schopnosti v podobe inteligentných databázových rozhraní.
Techniky KDD
[upraviť | upraviť zdroj]Existuje veľa rôznych prístupov. Existujú kvantitatívne prístupy - napríklad pravdepodobnostné a štatistické prístupy. Existujú prístupy, ktoré využívajú zobrazovacie metódy. Taktiež poznáme aj klasifikačné prístupy, ako sú Bayesovské klasifikácie. Ostatné prístupy zahŕňajú odchýlky, genetické algoritmy, neurónové siete a hybridné prístupy, ktoré kombinujú dve alebo viac techník.
Je sporné, ako by konkrétne techniky mali byť klasifikované. Napríklad: bayesovský prístup môže byť logicky zoskupený s pravdepodobnostnými prístupmi.
Štatistický prístup
[upraviť | upraviť zdroj]Štatistický prístup používa pravidlo objavovania a vychádza z údajov a rôznych vzťahov. Online Analytical Processing (OLAP) je príkladom na štatisticky-orientovaného prístupu. Automatizované štatistické nástroje sú k dispozícii aj vo verejnej sfére.
Príkladom štatistického prístupu je určenie, že všetky transakcie predaja v databáze, ktoré začínajú s uvedením kódu, sú peňažné transakcie predaja.
Klasifikácia
[upraviť | upraviť zdroj]Klasifikácia je pravdepodobne najstaršia a najbežnejšie používaná metóda pre všetky prístupy KDD. Existuje veľa typov klasifikačných techník a veľa automatizovaných nástrojov, ktoré sú k dispozícii.