Tisková zpráva
Praha 7. července 2023 – Členové Sdružení pro internetový rozvoj (SPIR), které zastupuje největší české online vydavatele a také vyhledávač Seznam.cz, vytvořili návrh standardizované komunikace, pomocí které se mohou majitelé práv automatizovaně vymezit (nastavit tzv. opt-out) proti vytěžování svých textů a dalších dat. Cílem je nastavit transparentnější a předvídatelnější obchodní prostředí pro vývojáře umělé inteligence, provozovatele webových stránek i samotné autory.
Návrh standardizované komunikace, pomocí které se mohou majitelé práv automatizovaně vymezit (nastavit tzv. opt-out) proti vytěžování svých textů a dalších dat učinili členové SPIR v souvislosti se stále rostoucím využíváním umělé inteligence (AI). Ta ke svému učení potřebuje tréninková data, která slouží k vývoji převážné většiny velkokapacitních modelů umělé inteligence (např. velké jazykové modely či generativní AI). K vytěžování dat, která vytvořil člověk, autor, a jsou chráněna autorským právem, nicméně dochází zpravidla bez poskytování jakékoliv formy kompenzace.
Článek 4 směrnice Evropského parlamentu a Rady (EU) 2019/790 ze dne 17. dubna 2019 o autorském právu a právech s ním souvisejících na jednotném digitálním trhu a o změně směrnic 96/9/ES a 2001/29/ES obsahuje pravidla pro výjimky a omezení pro vytěžování textů a dat (v širokém slova smyslu – textových, obrazových či zvukových děl). Vůči tomuto vytěžování se však dle čl. 4 odst. 3) směrnice lze z pozice nositele práv vymezit (nastavit tzv. opt-out): "Výjimka nebo omezení podle odstavce 1 se použijí pod podmínkou, že si nositelé práv výslovně nevyhradili užití děl a jiných předmětů ochrany podle uvedeného odstavce vhodným způsobem, jako jsou strojově čitelné prostředky v případě obsahu zpřístupněného veřejnosti online."
Vzhledem k tomu, že k vytěžování textů dochází celoevropsky i celosvětově, je vhodné nalézt jednotný standard, díky kterému bude snadné určit, zda provozovatel dané internetové stránky opt-out nastavil. Aby bylo možné efektivně, transparentně a automaticky komunikovat s internetovými crawlery – programy, které systematicky procházejí internet a vytvářejí index dat – a dalšími formami automatizovaného sběru dat, navrhuje SPIR upravit soubor robots.txt ("Robots Exclusion Protocol", IETF RFC 9309, poslední aktualizace standardu v září 2022), který se pro obdobnou automatizovanou komunikaci již používá. Tím dojde k vytvoření transparentnějšího a předvídatelnějšího obchodní prostředí pro vývojáře umělé inteligence a zdroje dat, která AI vytěžuje, a autoři tím získají větší kontrolu nad obsahem, který vytvářejí.
Doplnění do souboru robots.txt:
User-agent: MachineLearning
Disallow: /
Vzorový text do patičky internetové stránky:
Automatické vytěžování textů a dat z této internetové stránky ve smyslu čl. 4 směrnice 2019/790/EU je bez souhlasu <majitel autorských práv> zakázáno.