Előző blogcikkemben írtam, hogy az EU Mesterséges Intelligencia rendelete, egy újabb adatvédelmi szabályozás, amely minden adatkezelő számára kötelezően alkalmazandó. A hivatalos dátum: 2026. augusztus 1. Ennek felkészítését segíti az alábbi cikksorozat.
Az előző rész tartalmából: „A CNIL, a francia adatvédelmi hatóság több kérdéssort állított össze az adatkezelők számára, hogy minél gyorsabban és egyszerűbben tudják a mesterséges intelligencia megfelelést tanúsítani. „
A felkészítő. kérdéssor második része. Ezek a kérdéssorok már mélyebbre ásnak a technikai megvalósításban, különösen az adatok minősége és az algoritmikus elfogultság (bias) terén.
A nyers adatoktól a minőségi tanulási adatbázisig
Az algoritmus kimenetének minősége közvetlenül függ a tanítási adatok minőségétől. Bizonyos kritériumokat kötelező ellenőrizni, hogy csökkentsük a hibák kockázatát – különösen akkor, ha az AI döntéseinek közvetlen hatása van az emberek életére.
Adatminőség és annotálás
- Ellenőrizték az adatok pontosságát?
- Ha használtak annotálási (címkézési) módszert, annak folyamatát felügyelik?
- Amennyiben az annotálást emberek végzik: kaptak ehhez megfelelő képzést?
- Folyamatosan ellenőrzik az általuk végzett munka minőségét?
Reprezentativitás és módszertan
- A használt adatok valóban reprezentálják a valós környezetben előforduló eseteket?
- Milyen módszertannal biztosították ezt a reprezentativitást? Készült erről formális dokumentáció vagy tanulmány?
- Federált tanulás (federated learning) esetén: Ellenőrizték, hogy a különböző központokban használt adatok függetlenek és azonos eloszlásúak (IID)? Ha nem, milyen lépéseket tettek az ebből fakadó torzítások kiküszöbölésére?
Folyamatos tanulás és monitoring
- Folyamatosan tanuló (continuous learning) AI rendszereknél milyen mechanizmus biztosítja a beérkező adatok állandó minőségét?
- Vannak-e rendszeres ellenőrzések az adatminőség romlásának vagy az adateloszlás megváltozásának (data drift) kiszűrésére?
A harmadik, egyben záró rész is érkezik hamarosan…
