Adatok kezelése

Adatok forrása

Adatok forrásai lehetnek webáruházak adatbázisai, különböző szenzorok, közösségi médiás platformok által naplózott tevékenységek, de akár mesterségesen is generálhatták azokat. Érdemes mindig ismerni az adatok eredetét és gyűjtési módszerét azok elemzése során. Elengedhetetlen az adatok gyűjtésénél tájékoztatni az adott szituációban értelmezett résztvevőket adataik gyűjtésének tényéről, különben adatvédelmi aggályok merülhetnek fel. Az adatok felhasználása és értékesítése megegyezés nélkül bűn.

Overfitting

Előfordulhat, hogy a nem megfelelő adathalmaz miatt az elkészült modell látszólag magas pontossággal bír, de aztán a valós tesztek során rosszul teljesít. Ha például lovakat kell felismerni, de az adathalmaz minden mintájában a mezőn, kék ég előtt, szemmagasságból csináltak fényképeket a lovakról, a modell nem lesz képes jól felismerni egy erdőben, ködös időben készült képet. A modell túltanult, nem elég általános.

Kiegyensúlyozott adathalmaz

Amellett, hogy egy jó adathalmaz változatos, fényképek esetén különböző kivágással, különböző szögekből és fényviszonyok között tartalmaz mintákat, az is fontos, hogy az egyes osztályokból nagyjából azonos számban legyenek minták. Ettől lesz egy adathalmaz kiegyensúlyozott, amely szintén hozzájárul a pontossághoz.

Adathalmaz felosztása

Tanítás előtt három csoportra kell osztani az adatokat. A tanító adathalmaz a legnagyobb, ennek segítségével számolja újra folyamatosan a súlyokat az algoritmus tanulás közben. A kisebb méretű validációs adathalmaz arra szolgál, hogy tanulás közben egy külön csoporton is mérni lehessen a pontosságot. A harmadik csoport a teszteléshez van elkülönítve, az algoritmus tanulás közben ezeket nem látja. Elég lehet osztályonként néhány mintát elkülöníteni tesztelésre, a maradék adatból pedig körülbelül 20% részt szokás szánni validációra.

Confusion matrix

A teszt adathalmaz eredményei könnyen bemutathatók egy mátrixon, ahol az egyes osztályok kapnak helyet a vízszintes és függőleges tengelyen egyaránt. A sorokban a helyes, az oszlopokban a modell által prediktált osztályok vannak, a mátrix elemei az egyes kombinációk száma. Magyarosított neve az igazságmátrix.