La ekesto de artefaritaj artistoj

[figure] — “Bauhaus style dog house.” (de Midjourney)

Artefaritaj intelektoj (AI) kiel DALL-E, Midjourney, kaj Stable Diffusion, kiuj kreas bildojn el teksto, ricevas multe da atento lastatempe pro siaj kapabloj krei unikajn kaj belegajn artaĵojn. Tamen la atento ne estas tute pozitiva. Multaj homoj timas pri la rezultoj de la teknologio, precipe, ke ĝi ŝtelos laboron de homaj artistoj. Estas ankaŭ diversaj etikaj, juraj, kaj sociaj zorgoj. Tiuj estas gravaj, ĉar la teknologio pliboniĝas rapide, kaj ĝia akcepto fariĝas pli kaj pli vasta.

Kiel funkcias programoj por fari bildojn el teksto?

La celo estas krei bildojn surbaze de tekstaj priskriboj, ekzemple, “duetaĝa rozkolora domo kun blanka barilo”. La programoj dependas de speciale trejnitaj AI-modeloj por kompreni la priskribojn. Esence, la modeloj estas kreitaj per granda kvanto da datumoj, per kiuj ili agordas reton de interligitaj nodoj. La nodoj agas kiel filtriloj, rekonante specifajn trajtojn. Kun sufiĉe da tempo, datumoj, kaj bonŝanco, modelo konverĝas al formo kapabla doni la celitajn rezultojn.

Imagu, ke vi volas filtri akvon por purigi ĝin. Vi povas uzi serion de filtriloj, ĉiu kun malsama grandeco aŭ formo, por kapti diversajn specojn de etaj malpuraĵoj. Kiam akvo trapasas la filtrilojn, pli kaj pli da malpuraĵoj estas forigitaj, ĝis restas nur pura akvo. Tiel funkcias bild-kreiloj kiel Stable Diffusion. Oni trejnas la modelon per sufiĉe da datumo por ke ĝi kapable rekonu specifajn trajtojn, ekzemple de hundo, kato, domo, arbo, ktp. Poste oni prezentas al la modelo bildon de hazarda signalo (“blanka bruo”) kaj uzante tekstan priskribon, ĝi provas elfiltri ĉion, kio ne konformas al la priskribo.

Artistoj maltrankviliĝas

Ofta timo estas, ke pli vasta uzo de artefaritaj bildoj rezultos en malpli da laboro por homaj artistoj. Estas ankaŭ timoj, ke oni uzos AI-programojn por krei bildojn laŭ la stilo de konataj artistoj, endanĝerigante ties intelektan proprieton. Ekzemple, en la retejo Lexica.art, kiu registras pli ol 10 milionojn da bildoj faritaj per Stable Diffusion, aperas 93 000 faritaj el priskriboj kun la vortoj “style of Greg Rutkowski” por imiti artiston konatan pro siaj fantaziaj verkoj.

Cetere, estas zorgoj pri privateco kaj pri regado de datumoj, kiujn oni uzis por trejni la AI-modelojn. Iuj artistoj malkontentas, ke la trejnado uzis iliajn verkojn senpermese, prenitajn ekzemple el sociaj komunikiloj. La baza modelo de Stable Diffusion estis trejnita per la datumaro LAION-5B, kiu konsistas el kvin miliardoj da bild-tekst-paroj kolektitaj el Interreto. Sendependa analizo de la datumoj malkovris, ke proksimume 47% el la bildoj venis de nur 100 interretaj domajnoj, el kiu la plejmulto (8.5%) venis el Pinterest, kun malpli el WordPress, Blogspot, Flickr, DeviantArt, kaj Wikimedia Commons. Ni scias tion ĉar StableDiffusion estas malfermitkoda projekto. Kontraste, DALL-E kaj Midjourney estas fermitaj, do la publiko ne precize scias, kiujn datumojn ili uzis.

Mi intence ne traktas la uzon de AI-modeloj por krei t.n. “deepfakes”, realismajn falsaĵojn. La teknologio por krei ilin estas jam facile havebla en aliaj iloj kiel Photoshop, kiuj estas eĉ pli facile uzeblaj. Tiaj falsaĵoj estas longdaŭra problemo en multaj industrioj, sed ne pro tiu ĉi teknologio.

Malfacilaĵoj kaj limigoj

Unu el la plej gravaj problemoj por tekst-al-bildaj sistemoj estas la alta kosto de trejnado, kiu postulas multege da komputila povo kaj memoro. Kvankam Stable Diffusion povas krei bildojn pli-malpli rapide per ordinara, surtabla komputilo, la modelo bezonis 150 000 horojn da laborado de specialaj grafikaj procesoroj (Nvidia A100), je tuta kosto de 600 000 USD.

Eblas ankaŭ “troadapti” modelojn dum trejnado; tio okazas kiam oni trejnas per tro specifa datumaro, kaj la modelo ne povas sukcese ĝeneraligi tion, kion ĝi lernis. La rezulto estas malbona rendimento kaj malaltkvalitaj bildoj.

Bona trejnado bezonas ankaŭ altkvalitajn datumojn. Okazos problemoj, se la datumoj ne bone reprezentas la diversecon de tio, kion ĝi devas rekoni aŭ filtri. Ekzemple, se oni trejnas modelon por rekoni homojn, sed uzas plejparte bildojn de nur blankuloj, la modelo ne povos rekoni nek krei bildojn de aliaj etnoj. Same, se en la bildoj aperas ĉefe virinoj, kiuj konformas al nur unu normo de beleco, ankaŭ la rezultoj sekvos la saman normon. Tia mistrejnado povas enradikigi stereotipojn.

Alia limigo: la kreitaj bildoj dependas entute de tekst-priskriboj, kaj estas malfacile elpensi priskribon por krei ĝuste la deziratan bildon. Miaj plej sukcesaj provoj kun tiuj programoj okazas per mallongaj kaj simplaj priskriboj. Estas mirinde, kion la programo kapablas krei per minimuma enigo. Sed kiam mi volas bildon de io specifa, estas tre defie gvidi la modelon al ĝi.

Cetere, eĉ kiam mi sukcese ricevas bildon unuavide akcepteblan, pli atenta rigardo montras, ke ankoraŭ restas elementoj ne tute ĝustaj. Ekzemple, mano eble havus ses fingrojn. Aŭ nazo malhavus naztruojn. Necesas interveno de artisto por havi bonan bildon, kaj tio limigas la utilon de tiaj sistemoj. Ili plej utilas nur por tiuj, kiuj bone scias, kiel verki priskribojn kaj volas dediĉi tempon al la afero. Ĝenerale, ne eblas iri rekte de koncepto al rezulto tiel facile, kiel asertas la propagandistoj. Por ĉiu bela majstraĵo afiŝita en Interreto, ekzistas centoj da aĉaĵoj forĵetitaj.

Konkludo

La teknologio por krei bildojn el tekstaj priskriboj prezentas novajn eblojn por artistoj, donante al ili kapablon krei novajn formojn de arto kaj aŭtomatigi diversajn aspektojn de artfarado. Ĝi povus ankaŭ konduki nin al novaj specoj de kunlaborado inter homoj kaj maŝinoj. Sed la teknologio estas ankoraŭ en siaj fruaj tagoj, kaj jam leviĝas multaj etikaj, juraj kaj sociaj zorgoj. Estas grave, ke ni traktu tiujn zorgojn serioze, ĉar la teknologio daŭre pliboniĝos kaj fariĝos pli vaste uzata.