A CNIL, a francia adatvédelmi hatóság több kérdéssort állított össze az adatkezelők számára, hogy minél gyorsabban és egyszerűbben tudják a mesterséges intelligencia megfelelést tanúsítani. Ehhez az alábbi kérdéssort és leírást állította össze – de még mielőtt rátérnénk, fontos tisztázni:
Ne felejtsük el: a GDPR az alap, az AI Act (a mesterséges intelligenciáról szóló uniós rendelet) tovább szigorítja a magas kockázatú rendszerek adatminőségi és kormányzási elvárásait. Ez a kérdéssor tehát segít „két legyet ütni egy csapásra”.
Íme a checklist 1. része.
Ellenőrző lista a mesterséges intelligencia tanulási adatainak jogszerű kezeléséhez
1. Az adatok forrása és eredete
- A tanulási adatok korábbról már rendelkezésre állnak (például belső vagy nyilvánosan elérhető adatbázisból származnak, esetleg vásárolt adatok), vagy kifejezetten erre a célra gyűjtötték őket?
- Újrafelhasználás esetén: Az adatbázis összeállítása az adatvédelmi jogszabályoknak megfelelően történt?
- Nyilvánosan elérhető adatok használata esetén: Megvizsgálták-e az adatbázist, különös tekintettel az abban rejlő esetleges torzításokra (bias)?
2. Jogalap és különleges adatok
- Mi a tanulási adatok kezelésének jogalapja?
- Szenzitív adatok (pl. egészségügyi adatok, bűnügyi nyilvántartások stb.) kezelésére kizárólag a GDPR 9. cikkében rögzített kivételek egyike esetén van lehetőség. Relevancia esetén ezen kivételek melyikére alapozzák az adatkezelést?
3. Megfelelőség és kockázatkezelés
- Hogyan történik a tanulási adatok kezelésének megfelelőségi ellenőrzése (pl. készült-e adatvédelmi hatásvizsgálat (DPIA), végeztek-e elemzést az újbóli azonosítás kockázatairól)?
4. Adattakarékosság és védelem
- Megfelel-e az adattakarékosság elvének a tanuláshoz használt adatbázisok előállításának módja?
- Anonimizálták az adatokat? Ha igen, milyen módszerrel?
- Alkalmaztak álnevesítést (pszeudonimizálást)? Ha igen, hogyan?
- Értékelték-e az érintettek újbóli beazonosításának (re-identifikáció) kockázatait?
5. Szükségesség és arányosság
- Indokolható-e a gyűjtött adatok mennyisége a tanítási feladat bonyolultságához képest?
- Valóban szükséges az összes vizsgált változó a modell tanításához?
- Elkerülhető lenne-e bizonyos adatok gyűjtése, ha azokról bebizonyosodik, hogy nem hasznosak a tanulási folyamathoz (különösen, ha szenzitív adatokról van szó)?
- Amennyiben bizonyos értékek gyűjtése elkerülhetetlen, megoldható-e ezen adatok törlése vagy maszkolása a folyamat későbbi szakaszában?
A további kérdéseket keresd a blog következő megjelenéseiben!
