Дата Мининг - шта је то, дефиниција и концепт

Преглед садржаја:

Anonim

Ископавање података је процес претраживања великих база података ради проналажења корисних информација које се могу користити за доношење одлука. Такође се користи и енглески термин „дата мининг“.

Може се разумети као технологија и софтвер који се користе за проналажење образаца понашања у бази података. Основна основа за ово је да ови обрасци помажу у доношењу одлука. На пример, то може помоћи компанијама да разумеју обрасце понашања својих купаца. На такав начин да би олакшао успостављање стратегија за повећање продаје или смањење трошкова.

Предности претраживања података

Основна предност овог поступка анализе података је велики број пословних сценарија на које се може применити, као пример имамо:

  • Предвиђање: Прогноза продаје компаније.
  • Вероватноћа: Избор најбољих клијената за директан контакт телефоном или е-поштом.
  • Анализа секвенце: Анализа производа које су купци купили и проверавање међусобне повезаности међу њима.

Фазе рударења подацима

У оквиру процеса рударења података можемо пронаћи пет фаза:

  • Циљ и прикупљање података: Прво је усредсредити се на то коју врсту информација желимо добити. Замислимо пример да супермаркет жели да зна које је доба дана тамо где је највише посетилаца. То би био циљ и информације које трговина жели да добије у овом случају.
  • Обрада података и управљање њима: Једном када знамо податке које желимо да прикупимо, стављамо их на посао. Ово је можда најтежа фаза процеса. Па, потребан је одабир репрезентативног узорка на којем ће се спровести анализа. Једном када је узорак изабран, мора се анализирати која врста променљивих или регресиони модел ће се спровести на узорку.
  • Избор модела: Уско је повезан са претходном фазом. Ради се о стварању модела или алгоритма који нам даје најбољи могући резултат. Да би се то постигло, мора се извршити исцрпна анализа променљивих које ће бити укључене у модел. Ово постаје сложен задатак, јер ће зависити од врсте информација које се анализирају. Стога рудари података врше различита испитивања алгоритма као што су: линеарна регресија, стабло одлучивања, временске серије, неуронска мрежа итд.
  • Анализа и преглед резултата: У основи је анализа резултата како би се видело да ли дају логично објашњење. Објашњење које олакшава доношење одлука на основу информација датих у резултатима.
  • Ажурирање модела: Последњи корак процеса био би ажурирање модела. Веома је важно да се то ради током времена како не би застарело. Варијабле модела могу постати безначајне и стога је потребна периодична контрола модела.