Z punktu widzenia efektów funkcjonowania, modele generatywnej sztucznej inteligencji stanowią pewien rodzaj systemów sztucznej inteligencji. Są one zdolne do wytwarzania kompleksowych tekstów, obrazów, dźwięków, form audiowizualnych, etc. Z uwagi na swój dynamiczny rozwój, który nie jest całkowicie pozbawiony kontrowersji, to właśnie one skupiają na sobie uwagę społeczeństwa, w tym prawnych komentatorów.
Zbiory danych jako podstawa generatywnej AI
U podstaw zdolności modeli generatywnej sztucznej inteligencji znajdują się olbrzymie zbiory danych, które stanowią dla zaawansowanych algorytmów materiał treningowych. Choć istnieje wiele modeli generujących treści, które mogą różnić się między sobą sposobem trenowania oraz generowania wyników, ich wspólnym mianownikiem jest bazowanie na zawartości informacyjnej znajdującej się („zaszytej”) we wskazanych bazach danych. Wyekstrahowanie owej zawartości (knowledge discovery), niczym wyciśnięcie soku z cytryny, następuje poprzez zastosowanie zautomatyzowanej techniki analitycznej (tzw. eksploracji tekstów i danych, text-data-mining, TDM). Umożliwia ona przeanalizowanie zebranych danych pod kątem występujących w ich prawidłowości, korelacji, zależności. Choć na co dzień nie zdajemy sobie z tego sprawy, funkcjonujemy i tworzymy wedle określonych wzorców i prawidłowości, które są odczytywane przez zaawansowane algorytmy. Właśnie na takiej zasadzie działają wyuczone modele językowe: w odpowiedzi na zadane pytanie (prompt) dobierają one określone słowa na podstawie statystycznego prawdopodobieństwa. Podobnie funkcjonują graficznie modele: zagospodarowują one przestrzeń określonymi kształtami wygenerowanymi na podstawie ich odpowiedników zawartych w danych treningowych.
Eksploracja tekstów i danych – uzasadnienie dla generatywnej AI?
Pochodząca z 2019 r. dyrektywa o prawie autorskim na jednolitym rynku cyfrowym (na marginesie, jeszcze nie wprowadzona do polskiego porządku prawnego) dopuszcza trenowanie algorytmów AI na zbiorach cudzych danych. W przypadku podmiotów badawczo-edukacyjnych jest ono właściwie nieograniczone (art. 3 dyrektywy). W odniesieniu do podmiotów działających komercyjnie podmioty uprawnione mają możliwość zakazania takiego korzystania (opt-out), przynajmniej w sytuacji braku ustalenia należnej rekompensaty (art. 4 dyrektywy).
Podczas prac nad dyrektywą aż do momentu jej wejścia w życie w 2019 r. wiedza o fenomenie i możliwościach generatywnej sztucznej inteligencji nie wychodziła poza wąską grupę gigantów technologicznych. Zwraca uwagę, że ani w tekście dyrektywy, ani w dokumentach jej towarzyszących, nie znajdzie się sformułowań nawiązujących właśnie do tego rodzaju AI. Czy zawarte w niej przepisy obejmują zatem specyfikę generatywnej odnogi AI, skoro prawodawca nie był świadomy jej istnienia w okresie stanowienia prawa? To zagadnienie jest przedmiotem dyskusji prawników.
Generowanie treści z poszanowaniem prawa autorskiego
Zdolność algorytmów do generowania treści maszynowych w oparciu o treści stworzone ludzką ręką tworzy liczne problemy nie tylko na etapie uczenia modeli AI (input), ale również na etapie wytwarzania treści (output). Może się przecież zdarzyć, że w wygenerowanym obrazie ten czy inny autor odnajdzie całość lub fragment swojego utworu, który był wykorzystany przez producenta systemu AI w fazie uczenia. Takie jest sedno zarzutów podnoszonych przez artystów wobec spółek technologicznych w licznych sporach prawnoautorskich zawisłych w Stanach Zjednoczonych. Dostawcy AI zwykli w takich sytuacjach przekonywać, że przypadki wiernych zwielokrotnień całości lub części danych treningowych są marginalne, a i tak ich liczba powinna maleć wraz z postępującym rozwojem technologicznym. Zobaczymy, jak będzie.
Znaczenie AI Aktu
Generatywna sztuczna inteligencja została dostrzeżona na finalnym etapie pracy nad aktem ws. sztucznej inteligencji. Na podstawie tej regulacji dostawcy modeli zdolnych do generowania treści będą zobowiązani do udostępnienia informacji dotyczących sposobu trenowania swoich modeli oraz zbiorów danych służących za substrat treningowy. Będą oni ponadto zobowiązani do tworzenia polityk respektowania przepisów prawa autorskiego (AI policy). Zawarte w tym akcie szczątkowe regulacje z pewnością nie wyczerpują kompleksowej kwestii, jaką jest tworzenie i funkcjonowanie modeli generatywnej sztucznej inteligencji z pełnym poszanowaniem zasad ochrony prawnoautorskiej. Według medialnych zapowiedzi ten niełatwy temat ma być przedmiotem szczególnego zainteresowania Komisji Europejskiej nowej kadencji jeszcze w 2024 r.
Odpowiedzialne korzystanie z generatywnej sztucznej inteligencji
Wyjątkowe zainteresowanie generatywną sztuczną inteligencją wynika nie tylko z fascynacji jej postępującymi zdolnościami. Wytwarzany przez maszyny output wprost konkuruje z twórczymi zdolnościami człowieka i dlatego prowokuje do postawienia fundamentalnych pytań np. o przyszłość i celowość dalszego kształcenia artystów, bądź ogólnospołeczne konsekwencje związane z prawdziwym zalewem maszynowymi wytworami. Niebagatelne ryzyka i pułapki są także związane z nęcącą perspektywą korzystania z takich modeli przy realizowaniu zawodowych zadań.
Czy należy oznaczać teksty wygenerowane przy użyciu algorytmów?
Tak, powinniśmy, co wynika zarówno z elementarnej uczciwości, jak i transparentności. Generalnie, im większe jest znaczenia autorstwa tekstu dla odbiorcy, tym większą wagę powinniśmy przywiązywać do oznaczania pochodzenia treści.
Czy bezpieczna jest praca nad poufnymi tekstami wrzuconymi do narzędzia w tym czy innym celu?
Nie, powinniśmy unikać powierzania maszynie treści w jakikolwiek sposób wrażliwych.
Czy możemy bezkrytycznie wykorzystywać treści wygenerowane w odpowiedzi na nasze zapytanie?
Nie, nie możemy ślepo polegać na rzetelności czy prawdziwości wygenerowanych treści, zwłaszcza tekstów. Uciekając się do metafory, systemy maszynowe są znakomite w nadawaniu formy, lecz wciąż kiepskie w podbudowaniu je treścią. I właśnie to ostatnie może być szczególnie krzepiące, ponieważ jest to jeden z ostatnich bastionów supremacji ludzkiego umysłu nad matematyczną sprawnością maszyn.