Adatelemzés és adatfeldolgozás

Adatokból valódi értéket, információt előállítani nem egyszerű.  Az alábbi ábra illusztrálja, hogy ehhez milyen sokrétű szaktudásra van szükség:

Az adatelemzéshez és adatfeldolgozáshoz szükséges ismeretek

 

Számítástudomány: Az adatok hatékony feldolgozásához szükséges ismeretek.

Mesterséges  intelligencia és gépi tanulás: Az adatok modellezéséhez – ill. ahhoz, hogy a számítógép tanulni tudjon a meglevő és új adatokból –  szükséges szaktudás.

Matematika és statisztika: Magas szintű matematikai és statisztikai ismeretek nélkül nem lehet hasznos információt előállítani nyers adatokból.

A szakterülete ismerete: Alapvető, hogy  az adatelemzők kellő mélységben értsenek ahhoz a szakterülethez, ahonnan az ügyfél adatai származnak.  A meglevő, vagy a projekt során megszerzett, szakismeretek segítségvel felfedezzük és elemezzük a nyers adatokat, a fentiek segítségével.

Adatelemzés

Az adatigény elemzése:  Először meg kell határoznunk – az ügyfél speciális igényeinek megfelelően -, hogy milyen adatokból dolgozzunk majd.

Adatgyűjtés: Az adatokat sokféle forrásból, sokféle módon lehet gyűjteni.  A probléma abban áll, hogy hogyan találjuk meg és gyűjtsük össze az ügyfél problémájának megoldásához szükséges összes adatot.

Adatfeldolgozás: Az összegyűjtött adatokat az adatelemzéshez előbb rendezni kell, majd pedig fel kell dolgozni őket. Az adatok kezdeti létrehozása, új adatok beillesztése, megváltoztatása, ill. lekérdezése mind, mind gondos tervezést igényel, hogy ezen feladatokat hatékonyan el is tudjuk végezni. Nagy mennyiségű adatot nem könnyű kezelni.

Adattisztítás: Az adatok rendezése és tárolása után  még mindig sok felesleges adat, ill. formailag vagy tartalmilag hibás adat lehet a feldolgozásra váró adatok között. Minőségi eredmények eléréséhez szükség van az adattisztítás fontos műveletére és ez akár sok munkát is igényelhet.

Kísérleti adatelemzés: Ekkor kezdünk hozzá az adatok elemzéséhez. Ilyenkor derülhetnek ki olyan problémák, amelyek megoldása további adattisztítást vagy további adatok beszerzését igénylik. Bonyolult adatmegjelenítési technikákra lehet szükség, hogy megértsük az adathalmazok tulajdonságait.

Matematikai modellezés és algoritmusok: Matematikai képletek és algoritmusok szükségesek ahhoz, hogy hasznos információkat lehessen a nyers adatokból nyerni és használható előrejelzéséket lehessen tenni. Ilyenkor olyan eljárásokat használunk, mint pl. a lineáris regresszió, a klasszikus idősorelemzési modellek vagy mondjuk a klaszteranalízis hasonlóan viselkedő ügyfelek megtalálására.

Szoftvermegoldás: Végül kell egy informatikai rendszer is, amely igény szerint előállítja majd az ügyfél adataiból a kívánt információkat. Ebben a fázisban a mások által is ismert, használt és bevált informatikai technikákat használunk az adattárolási és adatfeldolgozási feladatok megoldására.

English