2022-10-08

The sad truth about machine learning

Smutna prawda o nauczaniu maszynowym

Back to index / Powrót do indeksu

English

The following text may contain inaccaracies, as I am still learning the technology behind machine learning, you have been warned.

Artificial (psuedo-)intelligence has been a hot topic lately; many prominent magazines and newspapers covered the topic of AI-generated imagery when several new models and tools emerged in 2022. Somebody even won an art competition with an image that was fully AI-generated, which got the attention of many mainstream media.

I recently got interested in how machine learning works and wanted to learn more about it, maybe even train my own model, so I went looking for resources on-line and learned that the company OpenAI, which has "open" in its name does not provide most of the resources they use for download and you can only acces them on their server using an API.

I went looking further and found something called LAION, a German organization whose stated goal is "to make large-scale machine learning models, datasets and related code available to the general public". They provide text-to-image datasets that have been used to train tools like Stable Diffusion, a latent diffusion text-to-image model, that makes its source available, but with a not-so-small catch: the license it uses does not respect Freedom 0 by prohibiting the user from using the software to use the software "In any way that violates any applicable national, federal, state, local or international law or regulation", "For the purpose of [...] attempting to exploit or harm minors in any way", "For any use intended to [...] [discriminate] against or [...] [harm] individuals or groups based on [...] behavior or [...] personality characteristics", or "To generate or disseminate information for the purpose to be used for administration of justice, law enforcement, immigration or asylum processes, such as predicting an individual will commit fraud/crime commitment (e.g. by text profiling, drawing causal relationships between assertions made in documents, indiscriminate and arbitrarily-targeted use).".

While the restrictions on use are quite severe, the other three freedoms are mostly recognized and protected in the license which is why I decided to partially support this model. It is not perfect, and the licensing makes it much worse, but at least the code is available and you can run it on your own machine, unlike DALL-E and Midjourney, the two most popular models that can only be accessed through a Web GUI or an API.

I really do hope that the people shift toward free-as-in-freedom/open-source, or at least source-available solutions instead of relying on "cloud-based" services, so that everyone can run and control software on his computer.

Polski*

Automatycznie przetłumaczone z angielskiego, ponieważ nie chciało mi się tego samemu robić, przepraszam.

Poniższy tekst może zawierać nieścisłości, ponieważ wciąż uczę się technologii stojącej za uczeniem maszynowym, zostałeś ostrzeżony.

Sztuczna (psuedo)inteligencja jest ostatnio gorącym tematem; wiele znanych czasopism i gazet zajmowało się tematem obrazów generowanych przez AI, gdy w 2022 r. pojawiło się kilka nowych modeli i narzędzi. Ktoś nawet wygrał konkurs artystyczny z obrazem w pełni generowanym przez AI, co przyciągnęło uwagę wielu mediów głównego nurtu.

Ostatnio zainteresowałem się, jak działa uczenie maszynowe i chciałem dowiedzieć się więcej na ten temat, może nawet wyszkolić własny model, więc poszedłem poszukać zasobów przez Internet i dowiedziałem się, że firma OpenAI, która ma w nazwie „open” nie udostępniają większość zasobów, których używają do pobierania, a dostęp do nich można uzyskać tylko na ich serwerze za pomocą API.

Poszedłem dalej i znalazłem LAION, niemiecką organizację, której celem jest „udostępnienie szerokiej publiczności modeli uczenia maszynowego na dużą skalę, zestawów danych i powiązanego kodu”. Dostarczają oni zestawy danych text-to-image, które były używane do trenowania narzędzi, takich jak Stable Diffusion, model latencyjnej dyfuzji teext-to-image, który ma dostępny kod, ale jest pewien problem: licencja, z której korzysta nie szanuje Wolności 0 poprzez zakazanie użytkownikowi korzystania z oprogramowania „W jakikolwiek sposób, który narusza jakiekolwiek obowiązujące przepisy lub regulacje krajowe, federalne, stanowe, lokalne lub międzynarodowe”, „W celu [...] wykorzystywania lub szkodzenia nieletnim w jakikolwiek sposób", "W przypadku jakichkolwiek zastosowań mających na celu [...] [dyskryminację] lub [...] [szkodzenie] osobom lub grupom w oparciu o [...] zachowanie lub [...] cechy osobowości” lub „W celu tworzenia lub rozpowszechnianie informacji w celu wykorzystania ich w procesach wymiaru sprawiedliwości, egzekwowania prawa lub imigracji, takich jak przewidywanie, że dana osoba popełni oszustwo/przestępstwo (np. poprzez analizę tekstu, wyciąganie związków przyczynowych między twierdzeniami zawartymi w dokumentach do dalszego użytku).".

O ile ograniczenia użytkowania są dość surowe, pozostałe trzy wolności są w większości uznawane i chronione w licencji, dlatego zdecydowałem się częściowo poprzeć ten model. Nie jest doskonały, i licencjonowanie znacznie go pogarsza, ale przynajmniej kod jest dostępny i można go uruchomić na własnym komputerze, w przeciwieństwie do DALL-E i Midjourney, dwóch najpopularniejszych modeli, do których można uzyskać dostęp tylko przez Webowe GUI lub API.

Naprawdę mam nadzieję, że ludzie przesuną się w stronę rozwiązań typu Free Software/open-source, albo chociaż rozwiązań "source available", zamiast polegać na usługach „cloud-based”, tak aby każdy mógł uruchamiać i kontrolować oprogramowanie na swoim komputerze.