Údaje a správa údajov
1. Vysokorizikové systémy AI, ktoré využívajú techniky zahŕňajúce trénovanie modelov AI s údajmi, sa musia vyvíjať na základe súborov trénovacích, validačných a testovacích údajov, ktoré spĺňajú kritériá kvality uvedené v odsekoch 2 až 5, a to vždy, keď sa takéto súbory údajov používajú.
2. Na súbory trénovacích, validačných a testovacích údajov sa vzťahujú postupy správy a riadenia údajov vhodné na zamýšľaný účel vysokorizikového systému AI. Tieto postupy sa týkajú najmä:
|
a) |
príslušných dizajnových rozhodnutí; |
|
b) |
procesov zberu údajov a pôvodu údajov a v prípade osobných údajov pôvodného účelu zberu údajov; |
|
c) |
príslušných spracovateľských operácií prípravy údajov, ako je anotácia, označovanie, čistenie, aktualizácia, obohacovanie a agregácia; |
|
d) |
formulovania predpokladov, najmä pokiaľ ide o informácie, ktoré majú údaje merať a reprezentovať; |
|
e) |
posúdenia dostupnosti, množstva a vhodnosti potrebných súborov údajov; |
|
f) |
preskúmania z hľadiska možnej zaujatosti, ktorá môže mať vplyv na zdravie a bezpečnosť osôb, negatívny vplyv na základné práva alebo môže viesť k diskriminácii zakázanej právom Únie, najmä ak výstupy údajov ovplyvňujú vstupy pre budúce operácie; |
|
g) |
vhodných opatrení na odhaľovanie, prevenciu a zmierňovanie možnej zaujatosti identifikovanej podľa písmena f); |
|
h) |
identifikácie relevantných medzier alebo nedostatkov v údajoch, ktoré bránia súladu s týmto nariadením, a spôsobu, akým možno tieto medzery a nedostatky odstrániť. |
3. Súbory trénovacích, validačných a testovacích údajov musia byť relevantné, dostatočne reprezentatívne a v čo najväčšej možnej miere bez chýb a úplné vzhľadom na zamýšľaný účel. Musia mať primerané štatistické vlastnosti, a to prípadne aj pokiaľ ide o osoby alebo skupiny osôb, vo vzťahu ku ktorým sa má vysokorizikový systém AI používať. Uvedené charakteristiky súborov údajov sa môžu splniť na úrovni jednotlivých súborov údajov alebo na úrovni ich kombinácie.
4. Súbory údajov musia, pokiaľ si to vyžaduje zamýšľaný účel, zohľadňovať charakteristiky alebo prvky, ktoré sú špecifické pre konkrétne geografické, kontextuálne, behaviorálne alebo funkčné podmienky, v ktorých sa má vysokorizikový systém AI používať.
5. Pokiaľ je to nevyhnutne potrebné na účel zabezpečenia odhaľovania a nápravy zaujatosti v súvislosti s vysokorizikovými systémami AI v súlade s odsekom 2 písm. f) a g) tohto článku, poskytovatelia takýchto systémov môžu výnimočne spracúvať osobitné kategórie osobných údajov pod podmienkou primeraných záruk pre základné práva a slobody fyzických osôb. Okrem ustanovení uvedených v nariadeniach (EÚ) 2016/679 a (EÚ) 2018/1725 a v smernici (EÚ) 2016/680 na to, aby došlo k takémuto spracúvaniu, musia byť splnené všetky tieto podmienky:
|
a) |
odhalenie a nápravu zaujatosti nemožno účinne dosiahnuť spracúvaním iných údajov vrátane syntetických alebo anonymizovaných údajov; |
|
b) |
osobitné kategórie osobných údajov podliehajú technickým obmedzeniam opakovaného použitia osobných údajov a najmodernejším bezpečnostným opatreniam a opatreniam na zachovanie súkromia vrátane pseudonymizácie; |
|
c) |
osobitné kategórie osobných údajov podliehajú opatreniam na zabezpečenie toho, aby spracúvané osobné údaje boli zabezpečené, chránené, podliehali primeraným zárukám vrátane prísnych kontrol a dokumentácie prístupu, aby sa zabránilo zneužitiu a zabezpečilo, aby k týmto osobným údajom mali prístup len oprávnené osoby s primeranými povinnosťami zachovávania dôvernosti; |
|
d) |
osobitné kategórie osobných údajov sa nesmú zasielať, prenášať ani inak sprístupňovať iným stranám; |
|
e) |
osobitné kategórie osobných údajov sa vymažú po náprave zaujatosti alebo uplynutí obdobia uchovávania osobných údajov, podľa toho, čo nastane skôr; |
|
f) |
záznamy o spracovateľských činnostiach podľa nariadení (EÚ) 2016/679 a (EÚ) 2018/1725 a smernice (EÚ) 2016/680 obsahujú dôvody, prečo bolo spracúvanie osobitných kategórií osobných údajov nevyhnutne potrebné na odhaľovanie a nápravu zaujatosti a prečo uvedený cieľ nebolo možné dosiahnuť spracúvaním iných údajov. |
6. Pri vývoji vysokorizikových systémov AI, pri ktorých sa nevyužívajú techniky zahŕňajúce trénovanie modelov AI, sa odseky 2 až 5 vzťahujú len na testovacie súbory údajov.