Popularyzacja i gwałtowny rozwój sztucznej inteligencji, pozwalają rozważać nie tylko filozoficzne, ale także techniczne aspekty ogólnej sztucznej inteligencji, silnej sztucznej inteligencji, AGI czy też superinteligencji. Jakby tego nie nazywać, kierunek rozwoju jest ten sam i w dłuższej perspektywie nie widać zbyt wiele fundamentalnych przeszkód do osiągnięcia tego celu. Właściwym pytaniem nie jest „czy”, ale „jak” i „kiedy” duże modele językowe (a może w obliczu multi-modalności – po prostu modele) osiągną ten poziom rozwoju. Nie jestem w stanie powiedzieć kiedy to nastąpi, ale widzę dwa trendy, które jasno wskazują drogę do celu.
Wyzwania związane z rozwojem sztucznej inteligencji
Wyzwań jest oczywiście bardzo wiele, zarówno na poziomie technicznym, jak i organizacyjnym. Zaczynając od gigantycznej mocy obliczeniowej potrzebnej do treningu wiodących dużych modeli językowych, przez wybór odpowiedniej architektury sieci neuronowych, cały gigantyczny obszar związany z bezpieczeństwem oraz wiele innych.
Natomiast im większe modele językowe tworzymy, tym bardziej widoczne są dwie rzeczy. Po pierwsze jasne jest, że do trenowania modeli potrzeba jest olbrzymiej ilości danych. Już pojawiły się westchnienia, że wszystkie książki stworzone przez ludzkość jesteśmy w stanie zapisać na jednym twardym dysku. A do tego dochodzą jeszcze coraz większe problemy z dostępem do danych, po tym jak ludzie zorientowali się, jakie są one obecnie cenne, a także związana z tym coraz większa batalia o prawa autorskie w procesie uczenia AI.
Drugą rzeczą jest kosztowny i spowalniający rozwój udział człowieka w procesie treningowym. Aby zachować odpowiednią jakość modelu konieczna jest ocena wyników. Powszechnie stosuje się do tego tzw. uczenie ze wzmocnieniem na podstawie informacji zwrotnej człowieka (RLHF – Reinforcement Learning from Human Feedback). Człowiek ocenia czy wynik, który zwraca sztuczna inteligencja jest tym oczekiwanym czy nie.
I właśnie odpowiednie podejście do powyższych wyzwań może pozwolić przejść na kolejny poziom.
Dane syntetyczne
Tak, dane syntetyczne urastają do rangi Świętego Grala całego AI. O co tyle szumu? Czym są te mityczne dane syntetyczne. To po prostu dane, które nie powstały na podstawie wydarzeń świata rzeczywistego, tylko zostały wygenerowane sztucznie – fikcyjne (te są mniej przydatne dla nauki AI), tworzone na podstawie jakichś reguł/algorytmu lub wygenerowane przez sztuczną inteligencję. Brzmi zupełnie niewinnie, prawda? Zacznijmy jednak od początku – od gry w go.
Go to gra, w której człowiek utrzymywał dominację bardzo długo. Było tak za sprawą jej złożoności, czy bardziej obrazowo – dużej liczby rozgałęzień lub inaczej możliwości wykonania kolejnego ruchu. W związku z tym tradycyjne algorytmy przeszukujące sprawdzały się gorzej niż w innych grach. Za przełom uznaje się rok 2016, kiedy program AlphaGo, oparty o sieci neuronowe i uczenie maszynowe pokonał mistrza Lee Sedola. Natomiast prawdziwy przełom nastąpił rok później, wraz z nadejściem AlphaGo Zero. Do jego treningu nie użyto danych z historycznych partii rozegranych przez ludzi. Zamiast tego AlphaGo Zero grał sam przeciw sobie i na podstawie tych partii się uczył. Poziom wersji, która pokonała Lee Sedola AlphaGo Zero przekroczył w zaledwie trzy dni. Po tym czasie Zero wygrywał z poprzednią wersją sto do zera.
Zaledwie kilka miesięcy później później DeepMind stworzył AlphaZero – generalną wersję, która po zaledwie 24 godzinach nauki tylko na własnych partiach, bez innych wejściowych danych, pobiła poziom człowieka w go, shogi i szachy… Bijąc przy okazji na głowę wszystkie wcześniejsze programy grające w te gry. To był spektakularny pokaz potęgi danych syntetycznych.
AlphaZero stał się bazą dla poważniejszych zastosowań, jak chociażby AlphaFold, który służył do przewidywania budowy białek na podstawie sekwencji aminokwasów.
Osoby, które interesują się sztuczną inteligencją zapewne słyszały już AMIE (Articulate Medical Intelligence Explorer). Jest to projekt Google Research, dzięki któremu powstał chatbot, którego celem było diagnozowanie potencjalnych chorób tylko na podstawie rozmowy z pacjentami. To co mnie najbardziej uderzyło, gdy pierwszy raz usłyszałem o projekcie, to nie to, że mechaniczny doktor był lepszy w diagnozie, ale że ludzie przegrywają rywalizację w kategorii „empatia”. Natomiast gdy dokładnie zainteresowałem się tematem, to okazało się dodatkowo, że AMIE oparta jest na danych syntetycznych.
Początkowo opierano się wyłącznie na transkrypcjach audio z wizyt u lekarza. Okazało się jednak, że nie są to dane idealne, ze względu na brak całego spektrum schorzeń, nieprecyzyjne odpowiedzi oraz niejasny język – slang, żargon, sarkazm, niegramatyczne odpowiedzi. W związku z tym oparto się na danych syntetycznych i rozmowach generowanych przez agentów AI – lekarza i pacjenta. Tak wygenerowane dialogi opierały się na bazie schorzeń medycznych, dzięki czemu zapewniono kompleksowy zestaw chorób. I właśnie zastosowanie danych syntetycznych, generowanych przez AI było w stanie zapewnić trening modelu, który był w stanie osiągnąć znacznie lepszą trafność w diagnozie niż lekarz pierwszego kontaktu.
Piętą achillesową dużych modeli językowych nie od dziś jest matematyka. Wydaje się, że przez pewne niedoskonałości we wnioskowaniu logicznym modeli, trudno jest osiągnąć dobre rezultaty. Natomiast kolejną granicę udało się pokonać także dzięki danym syntetycznym. Pokazany ostatnio przez DeepMind, AlphaGeometry jest w stanie konkurować ze zwycięzcami olimpiad matematycznych, przynajmniej w dziedzinie geometrii. W przypadku AlphaGeometry do treningu użyto 100 milionów przypadków wygenerowanych specjalnie dla procesu nauki. Nie ma wątpliwości, że tutaj także dane syntetyczne pozwoliły osiągnąć mistrzowski poziom, chociaż oczywiście nie była to jedyna innowacja tego projektu.
No dobrze, ale można powiedzieć, że to są bardzo specjalistyczne przypadki, gdzie stosunkowo łatwo wyobrazić sobie generowanie danych syntetycznych. Przy treningu, który miałby nam przynieść superinteligencję potrzebowalibyśmy danych bardzo ogólnych, z różnych dziedzin wiedzy. Można sobie wyobrazić sytuację, że sztuczna inteligencja generuje dane, na podstawie których potem się uczy, natomiast te dane generowane byłyby przecież na podstawie wiedzy, którą model już ma. Czy nie jest to błędne koło?
Cóż, na początku może się tak wydawać. Natomiast zastanówmy się, ile z naszej wiedzy, doświadczeń, możliwości intelektualnych wynika tylko z wiedzy zewnętrznej, a jaka część została zdobyta dzięki własnym przemyśleniom, systematyzowaniu i analizie wiedzy, którą już mamy, rozwiązywaniu złożonych problemów czy zadań matematycznych. Na ile nasza wiedza, zachowania byłyby takie same, gdybyśmy przeczytali tysiące książek nie zastanawiając się nad ich przekazem? Czy z tego punktu widzenia dane syntetyczne mają więcej sensu?
Samoucząca się sztuczna inteligencja
Każdy kto zastanawiał się nad przyszłością sztucznej inteligencji, musiał zadać sobie choć raz pytanie – czy AI może stworzyć sztuczną inteligencję doskonalszą od siebie? Intuicyjne często zaprzeczamy takiej możliwości, a przynajmniej wielu sceptyków tak robi. Gdyby nie byłoby to możliwe, to właściwie należałoby przyjąć również, że człowiek nie jest w stanie stworzyć superinteligencji.
Tydzień temu ukazało się badanie na temat Self-Rewarding Language Models. Jak nazwa wskazuje, opisuje ono samonagradzający się model językowy, czyli taki, który sam ocenia swoje wyniki w procesie uczenia. W tym wypadku jest on oparty na Llamie 2 70B. Znowu, intuicyjnie może nam się wydawać, że nie ma to sensu, bo człowiek jest potrzebny aby zapobiec wzmacnianiu niedoskonałości modelu. Przecież nikt nie powinien być sędzią w swojej sprawie, prawda? A przynajmniej nie zachowa obiektywizmu.
Otóż okazuje się, że prawdopodobnie nie jest to prawda. Autorzy eksperymentu dowodzą, że trzecia iteracja modelu, wytrenowanego z użyciem samooceny, osiąga wyraźnie lepsze rezultaty. Prawie 63% odpowiedzi jest uznawanych za trafniejsze niż modelu bazowego, podczas gdy odwrotna sytuacja ma miejsce w zaledwie niecałych 10% przypadków. Wyraźnie też widać, że porównanie z generacji na generację także wypada zawsze korzystnie.
Zapytacie, skąd się wzięły te procenty? I słusznie, tu pojawia się moim zdaniem jedyna istotna wątpliwość. Ocena jest oparta na AlpacaEval, czyli modelu oceniającym trafność odpowiedzi modeli językowych. Oczywiście może być tak, że wybór benchmarku wpływa na bardzo pozytywne rezultaty, natomiast wiele wskazuje na to, że to jednak dobra droga.
Dokąd nas to zaprowadzi?
Wiele prac, które wymieniłem jest bardzo świeżych, więc trudno wnioskować z całą pewnością. Moim zdaniem wszystko wskazuje jednak na to, że już rozpoczęliśmy proces, w którym sztuczna inteligencja sama udoskonala siebie. Zgadza się, na razie w tym procesie jest potrzebny duży udział człowieka, na razie są to też eksperymenty. Można jednak przypuszczać, że kolejną generację sztucznej inteligencji rozwinie ona sama. My zapoczątkowaliśmy proces i będziemy twórcami pierwszej generacji, natomiast przy tworzeniu kolejnych sama sztuczna inteligencja będzie bardziej efektywna od nas.
Droga wydaje się już wyznaczona, a dane syntetyczne i mechanizmy samooceny w procesie szkolenia są tym, co będzie nam na niej potrzebne. A właściwie, to tak nie do końca nam…