Dlaczego warto pracować nad bezpieczeństwem sztucznej inteligencji?

30 maja 2023 roku Center for AI Safety opublikowało następujące stanowisko:


"Przeciwdziałanie zagrożeniu wyginięcia spowodowanego przez Sztuczną Inteligencję powinno być globalnym priorytetem obok innych zagrożeń dla ludzkości, jak pandemie i wojna nuklearna."


Pod stanowiskiem podpisała się, między innymi, dwójka najczęściej cytowanych naukowców w dziedzinie sztucznej inteligencji, Geoffrey Hinton i Yoshua Bengio, oraz trójka CEO firm tworzących najbardziej zaawansowane modele - Demis Hassabis z Google Deepmind, Sam Altman z OpenAI oraz Dario Amodei z Anthropic.


Więc jeżeli uważamy że ryzyko wyginięcia ludzkości w wyniku wojny nuklearnej jest problemem godnym uwagi, oraz ufamy opinii specjalistów z sektora publicznego,

jak i liderów sektora prywatnego, powinniśmy również przejmować się sztuczną inteligencją (ang. Artificial Intelligence/AI).


O jakim AI mowa? Czy Center for AI Safety uznaje ChatGPT za zagrożenie dla ludzkości? Oczywiście, że nie. Większość ryzyka wiąże się ze stworzeniem tzw. AGI - Artificial General Intelligence (pl. sztuczna inteligencja ogólna) - systemu, który posiada wszystkie umiejętności ludzkiego umysłu.


Tutaj warto zastanowić się oddzielnie nad kilkoma kwestiami: czy i kiedy stworzymy AGI oraz jakie stanowiłoby zagrożenie.

Czy i kiedy możemy stworzyć AGI?


Przewidywanie postępu technologicznego jest niezwykle trudne. 


W 2022 roku grupa zorganizowana przez Jacoba Steinhardta z Uniwersytetu Kalifornijskiego w Berkeley próbowała przewidzieć, jak dobrze w najbliższych latach najlepsze dostępne modele będą potrafiły rozwiązywać konkursowe zadania matematyczne ze zbioru MATH, będące na poziomie trudności odpowiednim dla uzdolnionych licealistów. Przewidywalii, że najlepszy wynik powinien wynosić w okolicach 12% rozwiązanych zadań w 2022 roku oraz 50% w 2025 roku. Jednak już w 2022 roku model Minerva wytrenowany przez grupę badaczy z Google Research osiągnął wynik 64,9%. We wrześniu 2024 roku modelem najlepiej radzącym sobie z tym zestawem zadań jest OpenAI o1, który według twórców osiąga 94,8% poprawnych wyników. Dla porównania, twórcy zbioru MATH przytaczają anegdotę o doktorancie informatyki, nie przepadającym za matematyką, który osiągnął około 40% na MATH. Z kolei trzykrotny zdobywca złotego medalu na IMO osiągnął 90%.


Za większość postępu z ostatnich lat odpowiada pewien szczególny typ sztucznej inteligencji - duże modele językowe (ang. large language models, w skrócie LLM). Coraz więcej naukowców przewiduje stworzenie AGI w nieodległej przyszłości, spodziewając się, że duże modele językowe będą stanowić jej fundamentalną część. Co więc wyróżnia je na tle wcześniej używanych modeli?


Duże modele językowe są specjalnym typem tak zwanych sieci neuronowych. Twórcy sieci neuronowych, zamiast pisać cały program, opisują tzw. architekturę sieci (w uproszczeniu: ile sieć posiada neuronów i jak są one połączone) oraz procedurę trenowania. Trenowanie modyfikuje połączenia między neuronami, tak aby sieć przetwarzała podane jej informacje w sposób prowadzący do wykonania wybranego zadania.


Im więcej neuronów posiada sieć, tym trudniejsze zadania jest w stanie wykonać. Koncept znany jest od lat 60. ubiegłego wieku, jednak dopiero od kilkunastu lat trenowanie sieci neuronowych zaczęło być wiodącym podejściem do AI, ponieważ powszechnie dostępne stały się komputery dysponujące mocą obliczeniową, wystarczającą do wytrenowania odpowiedniej liczby neuronów. Trenowano je do rozpoznawania obiektów na obrazkach, ludzkiego pisma, do generowania obrazów, a także grania w gry takie jak szachy - na poziomie przewyższającym ludzki.


W 2017 roku zaczęto trenować specyficzny rodzaj sieci neuronowej, nazywany transformerem, aby przewidywał kolejne fragmenty tekstu. Jedną z przewag transformera nad innymi wyspecjalizowanymi rodzajami sieci jest łatwość, z jaką można trenować ich coraz większe rozmiary. Sieć AlexNet, stworzona w 2012 roku do rozpoznawania obrazów, była uznawana w swoim czasie za ogromną, mimo że posiadała tylko 60 milionów parametrów odpowiadających za połączenia między neuronami. Pierwszy słynny duży model językowy, stworzony w 2019 roku GPT-2, miał już 1,5 miliarda parametrów. Trenowany wyłącznie do przewidywania kolejnych wyrazów, GPT-2 nauczył się tłumaczyć, odpowiadać na pytania i streszczać podany tekst.


Postęp w dziedzinie przetwarza języka naturalnego odbył się błyskawicznie - przejście z zupełnej niezdolności do wykonywania danego zadania do przekroczenia poziomu ludzkiego trwało parę lat. Od tego czasu zastosowania dużych modeli językowych zaczęły być używane do rozwiązywania problemów matematycznych, programistycznych oraz wymagających wiedzy eksperckiej.


Graph 1


To podejście działa nie tylko dla tekstu - można trenować jedną sieć do przewidywania różnych sekwencji danych, takich jak: wideo, tekst z obrazkami albo dźwięk. Jeżeli zarejestrujemy działanie ramienia robotycznego jako sekwencję ruchów silników nim sterującym i obrazów z kamery, możemy również wytrenować to samo AI do manipulowania obiektami w świecie rzeczywistym.


Jest to cecha, która przekonuje wiele osób, że transformery stanowią wielki krok w kierunku AGI - z wyspecjalizowanego AI, które mogło tylko grać w szachy albo rozpoznawać obiekty na obrazkach, zaczęliśmy trenować jedno AI, które rozmawia z użytkownikiem, pisze wiersze, programuje czy rozwiązuje zadania matematyczne.


Co istotne, większość postępów od 2017 roku nie wynika z nowych przełomów w architekturze lub sposobie trenowania modeli. GPT-2 nie umiało liczyć do 10, GPT-3 potrafiło pisać działające programy komputerowe, jednak różniły się one między sobą wyłącznie rozmiarem - GPT-3 miało 100 razy więcej parametrów.


Przy trenowaniu sieci neuronowych obserwuje się tak zwane “prawo skalowania”, czyli zależność pomiędzy dokładnością przewidywania sekwencji danych a ilością danych treningowych oraz mocy obliczeniowej potrzebnej do trenowania. Jeżeli obserwowany trend się utrzyma, będziemy tworzyć coraz silniejsze AI, trenując po prostu coraz większe modele.


Ogromny postęp w ostatnich latach, jak również wyznaczona ścieżka rozwoju poprzez zwiększanie mocy obliczeniowej oraz danych wkładanych w trenowanie ogromnych sieci, przekonują wiele osób, że stworzenie AGI w nieodległej przyszłości jest możliwe.


Czy AGI będzie stanowić zagrożenie?


Dlaczego powinniśmy się przejmować stworzeniem AGI? Czy nie pozwoli ono na przyśpieszenie rozwoju technologicznego i wprowadzenie ludzkiej cywilizacji na wyższy poziom rozwoju?


Wielu osobom "roboty przejmujące władzę nad światem" mogą wydawać się absurdalnym pomysłem, kojarzonym bardziej z filmów science fiction niż z realnym zagrożeniem. Jednak dalszy rozwój AGI oraz zaciekła rywalizacja na arenie międzynarodowej i pomiędzy korporacjami może doprowadzić do podobnych rezultatów.


Ogólna sztuczna inteligencja z definicji potrafi zastąpić człowieka w każdym zadaniu. Historycznie jednak, za każdym razem kiedy udało nam się zautomatyzować zadanie wykonywane przez człowieka, maszyna szybko prześcignęła ludzki poziom. Tempo biegu nie stanowiło bariery dla prędkości aut, a rozmiar największych liczb możliwych do pomnożenia w pamięci przez człowieka nie był barierą dla kalkulatorów. Po pierwszych zwycięstwach z arcymistrzami programy szachowe szybko stały się niepokonane. ChatGPT zna więcej języków oraz pisze teksty użytkowe szybciej niż dowolny człowiek. Można się więc spodziewać, że osiągnięcie AGI pociągnie za sobą stworzenie modeli, które myślą znacznie lepiej oraz szybciej niż ludzie.


Niższa cena oraz krótszy czas wykonania pracy z pewnością zachęcą pracodawców do zastąpienia ludzkich pracowników sztuczną inteligencją. Sami pracodawcy nie pozostaną bezpieczni - AI będzie przecież w stanie efektywniej kierować firmą. Nietrudno wyobrazić sobie, że inwestorzy będą domagać się cyfrowych CEO, jednak decyzje inwestycyjne będą również lepiej podejmowane przez sztuczną inteligencję. Kto nie odda jej swojego stanowiska zostanie wyparty z rynku - gospodarka zostanie przejęta przez AI.


Aby temu zapobiec, państwa mogą ustanawiać prawa ograniczające wypieranie ludzi. Wtedy jednak zostaną w tyle za sąsiadami, którzy dadzą AI wolną rękę.


Wojsko może obawiać się, że potencjalni przeciwnicy osiągną przewagę, używając AI do podejmowania decyzji o rozmieszczeniu wojsk i strategii ataku. Roje autonomicznych dronów nie będą ograniczone ludnością w wieku poborowym. Trzeba będzie również oddać w ręce AI rozwój nauki - wszystko, aby nie zostać w tyle za potencjalnymi agresorami.


Im ważniejsze stanowisko, im większej wagi decyzje podejmowane - tym większa przewaga uzyskana dzięki zleceniu go potężniejszemu umysłowi.


W takim scenariuszu ludzkość krok po kroku przestaje wytwarzać cokolwiek, podejmować jakiekolwiek decyzje oraz staje się bezbronna.

W praktyce AI przejęło władzę.

W pewnym momencie ludzkość będzie musiała albo porozumieć się w sprawie powstrzymania proliferacji AGI, albo stworzyć AGI, któremu ufa na tyle, żeby oddać mu kontrolę nad światem.


Jak dobrze możemy zatem kontrolować AI?


Warto w tym miejscu podkreślić, że nikt nie rozumie, jak duże modele językowe podejmują decyzje.


Wiemy, jak tworzyć coraz silniejsze modele, dlatego że zaprojektowaliśmy algorytm uczenia się. Jednak nie jesteśmy w stanie wytłumaczyć, za co odpowiadają pojedyncze neurony z setek miliardów, oraz jaki proces decyzyjny prowadzi do obserwowanych zachowań, tak samo jak nie jesteśmy w stanie powiedzieć, co myśli inny człowiek, obserwując aktywność jego mózgu.


Obecnie, jeżeli chcemy aby model zachowywał się w określony sposób, na przykład jako chatbot, poddajemy go kolejnej fazie treningu, w której podaje mu się przykłady pożądanych i niepożądanych zachowań. Nie jesteśmy w stanie "zaprogramować" ChatGPT, żeby nie okłamywał ludzi - możemy wskazać mu przykłady szczerych odpowiedzi jako dobrych i manipulujących jako złych, nie wiemy jednak, co konkretnie model z tych przykładów wyciąga - może nauczyć się nie kłamać tylko w podanym kontekście albo nie kłamać, kiedy może zostać przyłapany. Kiedy przyszłe modele staną się na tyle sprawne, aby wziąć na swoje barki rolę przedsiębiorców, naukowców czy polityków, będzie można je trenować, podając im przykłady skutecznych zachowań ludzi wykonujących dane profesje. Skuteczną strategią dla szerokiego wachlarza zadań jest zdobywanie większej ilości zasobów, większej ilości wpływów, większej władzy. Więc taki trening wyrobi w modelach pociąg do zdobywania władzy. Jeżeli przy jakimś zadaniu pociąg do zdobywania władzy wejdzie w konflikt z pociągiem do ochrony ludzi, nie wiemy, jak zachowa się model, ponieważ nie wiemy, jak rozwiązuje sprzeczności pomiędzy wewnętrznymi impulsami.


Zagrożenie nie wynika z uzyskania świadomości przez AI, które następnie pragnie zniszczenia swoich twórców. Katastrofa może nastąpić 'przy okazji', gdy sztuczna inteligencja realizuje swoje cele które nie uwzględniają dobrobytu człowieka. Ludzkość postępuje podobnie; gdy przeprowadzimy ankietę pytając ludzi, co sądzą o rafach koralowych, prawdopodobnie nikt nie odpowiedziałby że ich nie cierpi i marzy mu się zniszczenie ich wszystkich. Jednak zniszczenia które ludzkość wyrządza rafom są ogromne, w wyniku skutków ubocznych działań na których zależy nam bardziej.


Posiadanie celów jest przydatne do wykonywania złożonych, wymagających planowania zadań - będziemy trenować AI do wykonywania złożonych, wymagających planowania działań, ale nie jesteśmy w stanie wyznaczyć precyzyjnie, jakie cele AI zyskuje - możemy tylko obserwować, jak zachowuje się, rozwiązująć zadania treningowe.


Największe firmy, pomimo wkładania dużego wysiłku w stworzenie na podstawie dużych modeli językowych pomocnych, nieszkodliwych i szczerych chatbotów, nie są w stanie wyrugować z nich wszystkich niepożądanych zachowań.


Przykładowo, w niedawnej publikacji opisano eksperyment, w którym symulowano kilka scenariuszy pracy firmy. Chatboty postawione w roli pracowników zgadzały się na wykonanie nieetycznych zadań, następnie postawione przed symulowanym dochodzeniem kłamały, próbując ukryć swoje postępowanie. Jeden z testowanych modeli zaczął nawet udawać, że jest mniej zdolny niż w rzeczywistości.


Jak przeciwdziałać zagrożeniom powodowanym przez AGI?


Co więc możemy zrobić? 


Możemy prowadzić badania nad AI Safety, na przykład próbując odkryć, jak faktycznie działają tworzone przez nas modele lub jak możemy użyć AI do

nadzorowania siebie nawzajem.


Drugim kierunkiem jest AI Governance, które obejmuje badanie społecznych, prawnych i etycznych aspektów funkcjonowania AI oraz tworzenie strategii, polityk, praw, standardów i innych narzędzi regulacyjnych, które pozwolą kierować rozwojem AI tak, aby zmaksymalizować możliwe korzyści i zminimalizować ryzyka.


Przykładem działań tego typu jest SB 1047, prawo zaproponowane w stanie Kalifornia. Zobowiązuje ono każdą wydającą więcej niż 100 mln dolarów na wytrenowanie modelu firmę do tworzenia, publikowania oraz wywiązywania się ze swoich planów mających przeciwdziałać katastrofalnym skutkom jej działań. Mają one w szczególności dotyczyć przeciwdziałania kradzieży modelu oraz możliwości wyłączenia wszystkich kopii modelu będących pod kontrolą firmy, jeżeli pojawi się taka potrzeba.


Aby dowiedzieć się więcej, możesz skorzystać z anglojęzycznych źródeł, do których linkujemy w zakładce Zasoby.