Data a správa dat
1. Vysoce rizikové systémy AI, které využívají techniky zahrnující trénování modelů AI obsahujících data, jsou vyvíjeny na základě souborů trénovacích, validačních a testovacích dat, které splňují kritéria kvality uvedená v odstavcích 2 až 5, a to kdykoli se tyto datové soubory používají.
2. Soubory trénovacích, validačních a testovacích dat podléhají příslušným postupům v oblasti správy a řízení dat, jež jsou pro zamýšlený účel vysoce rizikového systému AI vhodné. Tyto postupy se týkají zejména:
|
a) |
příslušných možností návrhu; |
|
b) |
postupů při sběru dat a původu dat a v případě osobních údajů původního účelu jejich sběru; |
|
c) |
příslušných operací zpracování přípravy dat, jako jsou anotace, označování, čištění, aktualizace, obohacování a agregace; |
|
d) |
formulace předpokladů, zejména s ohledem na informace, které mají daná data měřit a představovat; |
|
e) |
posouzení dostupnosti, množství a vhodnosti potřebných souborů dat; |
|
f) |
přezkoumání s ohledem na potenciální zkreslení, která by mohla ovlivnit zdraví a bezpečnost osob, mít nepříznivý dopad na základní práva nebo vést k diskriminaci, která je podle práva Unie zakázána, zejména pokud výstupy dat ovlivňují vstupy pro budoucí operace; |
|
g) |
vhodná opatření k odhalení, prevenci a zmírnění případných zkreslení zjištěných podle písmene f); |
|
h) |
identifikace relevantních nedostatků nebo chyb v datech, které brání dodržování tohoto nařízení, a způsobu, jak tyto nedostatky a chyby vyřešit. |
3. Soubory trénovacích, validačních a testovacích dat jsou s ohledem na svůj zamýšlený účel relevantní, dostatečně reprezentativní a v maximální možné míře bez chyb a úplné. Mají náležité statistické vlastnosti, a to i případně rovněž s ohledem na osoby nebo skupiny osob, v souvislosti s nimiž má být daný vysoce rizikový systém AI používán. Tyto vlastnosti souborů dat lze splnit na úrovni jednotlivých souborů dat nebo na úrovni jejich kombinací.
4. Soubory trénovacích, validačních a testovacích dat zohledňují v rozsahu nezbytném pro jejich zamýšlený účel vlastnosti nebo prvky, které jsou specifické pro konkrétní zeměpisné, kontextuální, behaviorální nebo funkční prostředí, ve kterém má být daný vysoce rizikový systém AI používán.
5. Pokud je to nezbytně nutné pro zajištění detekce a oprav zkreslení ve vztahu k vysoce rizikovým systémům AI v souladu s odst. 2 písm. f) a g) tohoto článku, mohou poskytovatelé těchto systémů výjimečně zpracovávat zvláštní kategorie osobních údajů s výhradou vhodných záruk týkajících se základních práv a svobod fyzických osob. Kromě ustanovení nařízení (EU) 2016/679 a (EU) 2018/1725 a směrnice (EU) 2016/680musí být ve vztahu k takovému zpracování naplněny všechny tyto podmínky:
|
a) |
detekce a opravy zkreslení nelze účinně provést zpracováním jiných údajů, včetně syntetických nebo anonymizovaných údajů; |
|
b) |
zvláštní kategorie osobních údajů podléhají technickým omezením opakovaného použití osobních údajů, jakož i nejmodernějším bezpečnostním opatřením a opatřením v oblasti ochrany soukromí, včetně pseudonymizace; |
|
c) |
zvláštní kategorie osobních údajů podléhají opatřením, která zajistí, aby zpracovávané osobní údaje byly zabezpečeny a chráněny a aby se na ně vztahovaly vhodné záruky, včetně přísných kontrol a dokumentace přístupu, s cílem zabránit zneužití a zajistit, aby k těmto osobním údajům měly přístup pouze oprávněné osoby s odpovídajícími povinnostmi zachování důvěrnosti; |
|
d) |
zvláštních kategorie osobních údajů nejsou přenášeny, převáděny nebo jinak zpřístupněny jiným stranám; |
|
e) |
zvláštních kategorie osobních údajů se vymažou, jakmile je zkreslení opraveno nebo jakmile u těchto údajů uplyne doba uchovávání, podle toho, co nastane dříve; |
|
f) |
záznamy o činnostech zpracování podle nařízení (EU) 2016/679 a (EU) 2018/1725 a směrnice (EU) 2016/680 obsahují důvody vedoucí k tomu, že bylo zpracování zvláštních kategorií osobních údajů nezbytně nutné k odhalení a nápravě zkreslení a že tohoto cíle nemohlo být dosaženo zpracováním jiných údajů. |
6. Pro vývoj vysoce rizikových systémů AI, které nevyužívají techniky zahrnující trénování modelů AI, se odstavce 2 až 5 použijí pouze na soubory testovacích dat.