Page 1Rectangle 52 Przejdź do treści
Gideon Lewis-Kraus

Budowniczowie wieży Googel

rys. Marek Raczkowski
 Budowniczowie wieży Googel
Budowniczowie wieży Googel

Prolog

„Jesteś tym, co przeczytałeś”

Pewnego piątkowego wieczoru na początku listopada 2016 r. prof. Jun Rekimoto z Uniwersytetu w Tokio, wybitny specjalista w dziedzinie interakcji między człowiekiem a komputerem, przeglądał Internet, przygotowując się do wykładu. Nagle jego uwagę przyciągnęły powtarzające się wpisy w mediach społecznościowych. Wynikało z nich, że Tłumacz Google, najpopularniejszy serwis internetowy, został nagle i w niezwykłym stopniu udoskonalony. Rekimoto postanowił sam z nim poeksperymentować. Był zaskoczony. Powinien iść już spać, ale nie był w stanie oderwać się od Tłumacza.

Wstępne wnioski opublikował natychmiast na swoim blogu. Na początek porównał kilka zdań z dwóch przekładów powieści Wielki Gatsby – dokonanego przez Takashiego Nozakiego z 1957 r. i, ostatniego, Harukiego Murakamiego – a następnie sprawdził, co wyrzuci nowa wersja Tłumacza Google. Tekst Murakamiego jest napisany staranną japońszczyz­ną i, jak Rekimoto tłumaczył mi później w e-mailu, charakterystycznym dla Murakamiego stylem. Z kolei tłumaczenie Google, mimo drobnych niedociągnięć, okazało się „bardziej przejrzyste”.

W dalszej kolejności Rekimoto postanowił przetestować serwis pod kątem tłumaczenia z japońskiego na angielski. Sklecił na szybko włas­ny przekład pierwszego akapitu opowiadania Ernesta Hemingwaya Śniegi Kilimandżaro, a następnie przepuścił go z powrotem przez Tłumacza Google. Opublikował tę wersję na swoim blogu obok oryginalnego fragmentu i poprosił internautów, żeby odgadli, który tekst został napisany przez maszynę 1).

 

Przekład 1

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.

Przekład 2

Kilimanjaro is a mountain of 19,710 feet covered with snow ­
and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
2).

 

Nawet dla osób, które posługują się angielskim od dziecka, jedynym dowodem na to, że drugi przekład został stworzony przez maszynę, był brak przedimka „the” przed słowem „leopard”. Podobieństwo obu tekstów wydało się Rekimoto zdumiewające, zwłaszcza że dość dobrze znał on możliwości poprzedniej wersji Tłumacza. Zaledwie
24 godziny wcześniej Google przetłumaczyłby ten sam fragment z japońskiego w następujący sposób:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, “Ngaje Ngai” in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

rys. Marek Raczkowski
rys. Marek Raczkowski


Wpis Rekimoto dotarł do ponad 100 tys. osób, które śledzą jego konto na Twitterze. W ciągu następnych kilku godzin tysiące internautów udostępniły wyniki własnych testów na Tłumaczu. Niektóre okazały się udane, w przypadku innych – efekt był komiczny. Gdy w Tokio nastał ranek, serwis tłumaczeniowy był już
najpopularniejszym tematem na Twitterze, wyprzedził nawet pewien kultowy serial anime i długo wyczekiwany singiel znanej grupy muzycznej. Wszyscy się zastanawiali, jak to było możliwe, że Tłumacz Google stał się tak niesamowicie inteligentny.

Cztery dni później kilkuset dziennikarzy, przedsiębiorców i reklamodawców z całego świata przyjechało do siedziby Google’a w Londynie na specjalną konferencję prasową. Goście zostali powitani ciasteczkami z wróżbą, na których widniało logo serwisu. Po jednej stronie karteczki wydrukowano frazę w obcym języku (ja dostałem zdanie po norwesku), a po drugiej – zachętę do zainstalowania Tłumacza na urządzeniach mobilnych. Stoły były zastawione tacami z ciastkami i koktajlami opatrzonymi etykietkami zachwalającymi smak w języku niemieckim (zitrone), portugalskim (baunilha) i hiszpańskim (manzana). Po chwili wszyscy zostali zaproszeni do ciemnej, eleganckiej sali projekcyjnej.

Sadiq Khan, burmistrz Londynu, wygłosił krótkie powitanie. „Mój znajomy – zaczął – powiedział mi niedawno, że przypominam mu Google. Zapytałem, czy to dlatego, że znam odpowiedzi na wszystkie pytania. »Nie – odparł. – Dlatego, że zawsze próbujesz kończyć za mnie zdanie«”. Przez salę przebiegł stłumiony chichot, a Khan zaprosił na scenę prezesa Google’a Sundara Pichai.

Pichai przyjechał na otwarcie nowego budynku firmy, który ma się stać centrum „dzielnicy wiedzy” powstającej w okolicy King’s Cross, a także by ogłosić zakończenie wstępnej fazy restrukturyzacji firmy, zapowiedzianej rok wcześniej. Jak mówił przy różnych okazjach, przyszły Google będzie „A.I. first”. Czyli „sztuczna inteligencja przede wszystkim”. Teoretycznie to dosyć skomplikowane i wywołało lawinę spekulacji. A w praktyce? Jeśli się uda, to już niedługo każdy produkt firmy nie będzie owocem tradycyjnego programowania, ale właśnie „uczenia maszynowego”.

W 2011 r. powstał w firmie niewielki dział Google Brain. Jego tworzeniu przyświecała myśl, że sztuczne „sieci neuronowe”, które poznają świat metodą prób i błędów, tak jak to robią raczkujące niemowlaki, mogą osiągnąć elastyczność zbliżoną do ludzkiej. To nie jest nowa idea­
– sięga początków ery komputerowej, czyli lat 40. – ale większość naukowców traktowała ją jako coś podejrzanego, jako mistykę.

Od 2011 r. Google Brain udowadnia, że takie podejście do sztucznej inteligencji może rozwiązać wiele problemów, na które napotykano przez dziesięciolecia prac tradycyjnymi metodami. Na przykład komputerowe rozpoznawanie mowy nie dawało się zadowalająco rozwiązać, dopóki nie zabrał się do tego Google Brain. Zastosowanie modelu uczenia maszynowego sprawiło, że na platformie mobilnej Google’a, Androidzie, działa ono prawie tak dobrze, jak transkrypcja dokonywana przez człowieka. Podobnie jest w przypadku rozpoznawania obrazów. Przed rokiem Google Brain zaczął więc gruntownie przebudowywać cały swój system i właśnie tej nocy świętowano niezwykłe efekty wykonanej pracy.

Tłumacz Google powstał w 2006 r. i w ciągu kilku lat stał się jednym z najpopularniejszych serwisów firmy. Miesięcznie korzysta z niego ponad 500 mln użytkowników, którzy dziennie wpisują 140 mld słów w różnych językach. Funkcjonuje nie tylko jako samodzielna aplikacja, lecz także jako integralna część takich usług, jak poczta Gmail czy wyszukiwarka Chrome. Jest zawsze pod ręką i stał się naturalną częścią naszej cyfrowej konsumpcji.

Jednak dopiero kryzys uchodźczy – mówił Pichai – uświadomił firmie znaczenie geopolityczne Tłumacza. Na ekranie za jego plecami pojawił się wykres. W ostatnim czasie nastąpił pięciokrotny wzrost liczby tłumaczeń między językiem arabskim a niemieckim. (To temat szczególnie mu bliski. Pichai dorastał w Indiach, podzielonych na dziesiątki języków). Zespół Tłumacza stopniowo uzupełniał serwis o języki i funkcjonalności, ale w ciągu kolejnych czterech lat nie udało się znacznie poprawić jakości tłumaczenia.

Do dzisiaj. Tydzień wcześniej Tłumacz Google został bowiem przestawiony na system oparty na sztucznej inteligencji – odczuli to użytkownicy w Stanach Zjednoczonych, w Europie i Azji. Na razie to tłumaczenia między językiem angielskim a językami: hiszpańskim, francuskim, portugalskim, niemieckim, chińskim, japońskim, koreańskim i tureckim. Do końca 2017 r. Google planuje uwzględnić pozostałe ponad 100 języków, które obsługuje Tłumacz – po osiem języków miesięcznie. Nowy system, ku zaskoczeniu samych projektantów, udało się ukończyć zaledwie w dziewięć miesięcy. A poprawa jakości, właściwie z dnia na dzień, przewyższyła wszystko, co osiągnięto od początku istnienia serwisu.

Pichai ma słabość do literackich anegdot. Miesiąc wcześniej w swoim biurze w Mountain View w Kalifornii mówił mi, że Tłumacz Google powstał między innymi dlatego, że nie każdy człowiek jest jak fizyk Robert Oppenheimer, który nauczył się sanskrytu, by czytać w oryginale Bhagawadgitę.

W Londynie, na pasku monitora za plecami Sundara Pichai przewijał się cytat z Borgesa: „Uno no es lo que es por lo que escribe, sino por lo que ha leído”. („Nie jesteś tym, co piszesz, lecz tym, co przeczytałeś”).

Pichai uśmiechnął się i przeczytał na głos niezgrabne tłumaczenie tych słów na angielski, które wygenerowała stara wersja Tłumacza: „One is not what is for what he writes, but for what he has read”.

Obok wyświetliło się nowe tłumaczenie: „You are not what you write, but what you have read”.

Sentencja była jak najbardziej na miejscu. Nowy Tłumacz Google został uruchomiony na maszynach, które w pewnym sensie pierwsze w historii uczyły się czytać.

Decyzja Google’a, by skoncentrować się na sztucznej inteligencji, była pierwszą zapowiedzią wyścigu, w który wkrótce włączyła się cała branża. W ciągu czterech lat do poszukiwania talentów w dziedzinie sztucznej inteligencji wystartowało sześć firm: Google, Facebook, Apple, Amazon, Microsoft i chińska spółka Baidu. Korporacyjne oferty wielkich możliwości i wolności badawczej skusiły wielu i najlepsze wydziały na uniwersytetach się przerzedziły.

W Dolinie Krzemowej każdy wiedział, że Mark Zuckerberg, prezes Facebooka, osobiście nadzoruje polowanie na najbardziej uzdolnionych absolwentów, wydzwaniając do nich z komplementami. Kandydatom nierzadko oferowano na start siedmiocyfrowe wynagrodzenie roczne. Na najważniejsze konferencje akademickie przyjeżdżało czterokrotnie więcej uczestników. Stawką nie było wprowadzenie pojedynczych innowacji, lecz zdobycie przewagi konkurencyjnej i stworzenie zupełnie nowej platformy obliczeniowej opartej na wszechobecnej A.I.

Określenia „sztuczna inteligencja” używa się tak, jakby jego znaczenie było oczywiste, tymczasem od początku wywoływało ono nieporozumienia i było źródłem kontrowersji. Wyobraź sobie, czytelniku, że cofasz się do lat 70., zatrzymujesz kogoś na ulicy i pokazujesz mu w swoim smartfonie Mapy Google. Jeśli udałoby ci się przekonać tę osobę, że nie jesteś jakimś dziwnym czarodziejem, a to, co wyciągnąłeś z kieszeni, nie jest magicznym amuletem, tylko małym komputerem – potężniejszym niż ten, który nadzorował misje Apollo, to Mapy Google wydałyby się jej przekonującym przykładem „sztucznej inteligencji”. W pewnym sensie tak właśnie jest. Aplikacja posługuje się mapą podobnie jak człowiek, np. może poprowadzić cię z hotelu na lotnisko, tyle że dużo szybciej i skuteczniej. Może również robić to, czego człowiek nie potrafi: ocenić ruch na ulicy, zaplanować najlepszą trasę i wskazać kierunek, jeśli zabłądziłeś.

W praktyce nikt jednak nie użyłby dzisiaj nobilitującego określenia „sztuczna inteligencja” do Map Google, jesteśmy przywiązani do pojęcia inteligencji i nie lubimy go nadużywać. Wierzymy, że sztuczna inteligencja musi być czymś, co odróżnia komputer HAL z książki Arthura C. Clarke’a 2001: Odyseja kosmiczna od krosna tkackiego czy taczki. Kiedy automatyzujemy jakieś zadanie, redukujemy określoną umiejętność do zwykłego mechanizmu. Mapy Google przypominają dzisiaj robota (w negatywnym sensie tego słowa) – po prostu przyjmują określone polecenia (poprowadzenie z jednego miejsca do drugiego) i starają się je wykonać tak dobrze, jak to możliwe. Oczekiwania, jakie mamy wobec „sztucznej inteligencji”, ciągle się zatem zwiększają.

Przy każdej okazji Pichai stara się rozróżniać obecne zastosowania sztucznej inteligencji od ostatecznego celu, jakim jest „ogólna sztuczna inteligencja” (ang. artificial general intelligence – AGI). Istotą sztucznej inteligencji typu AGI nie jest dokładne wykonywanie określonych instrukcji, lecz interpretowanie i wyciąganie wniosków. ­Będzie ona wszechstronnym narzędziem wykorzystywanym do bardzo różnych ­celów w bardzo różnych kontekstach.

Pichai jest przekonany, że przyszłość jego firmy zależy właśnie od takiego narzędzia. Wyobraź sobie, że możesz powiedzieć Mapom Google: „Chciałbym udać się na lotnisko, ale po drodze kupić prezent dla siostrzeńca”. Przekształcony serwis byłby czymś w rodzaju nieodstępującego cię na krok asystenta, podobnego do tego, w którego wcieliła się Scarlett Johansson w filmie Spike’a Jonze’a Ona. Wiedziałby wszystko, co wie o tobie bliski przyjaciel albo gorliwy podwładny: znałby wiek twojego siostrzeńca, wysokość sumy, którą jesteś w stanie wydać na prezent, a także lokalizację najbliższego otwartego sklepu. Niewykluczone, że naprawdę inteligentne Mapy wiedziałyby również rzeczy, których nie wie przyjaciel, np. jaka moda panuje w przedszkolu albo – co ważniejsze – o czym marzą dzieci w tym wieku. Jeśli inteligentna maszyna umiałaby rozpoznać pewne skomplikowane prawidłowości w danych dotyczących naszego dotychczasowego zachowania, mogłaby wykorzystać tę wiedzę do przewidywania naszych przyszłych potrzeb, nawet jeśli sami ich jeszcze nie znamy.

Nowa fala asystentów wyposażonych w sztuczną inteligencję – Siri od Apple’a, M od Facebooka, Echo od Amazona – to wytwory uczenia maszynowego, zbudowane w podobnym celu. Ale korporacyjne marzenia o uczeniu maszynowym nie kończą się na przewidywaniu zachowań konsumenckich. Należący do Samsunga instytut diagnostyki obrazowej ogłosił w tym roku, że jego nowe urządzenia ultradźwiękowe są w stanie wykryć raka piersi. Komputer, należący do firmy DeepMind, którą ­Google przejął w 2014 r., pokonał mistrza gry planszowej Go, choć zakładano, że będzie to możliwe dopiero za 10 lat.

W słynnym eseju Technika obliczeniowa a inteligencja z 1950 r. Alan Turing zaproponował test na ogólną sztuczną inteligencję – komputer, który podczas pięciominutowej wymiany informacji tekstowych z człowiekiem potrafi go oszukać, że jest istotą ludzką. Kiedy maszyna zacznie płynnie tłumaczyć z jednego języka na drugi, będzie to pierwszy krok do skonstruowania komputera, który pewnego dnia na tyle dobrze „zrozumie” ludzki język, że będzie nie do odróżnienia od człowieka w rozmowie z człowiekiem. Pracownicy Google Brain, którzy pomagali przekształcać Tłumacza, wierzą, że taka maszyna zacznie w końcu służyć jako cyfrowy asystent o ogólnej inteligencji i szerokich kompetencjach.

Opowiem teraz historię o tym, jak daleko posunął się w tym kierunku zespół badaczy i inżynierów Google’a. Zaczęło się od jednego człowieka, potem dołączył następny i jeszcze kolejny, a w końcu było ich ponad 100. Jest to historia z różnych względów nieoczywista, i to nie tylko dlatego, że wymyka się schematom, do jakich przyzwyczaiła nas Dolina Krzemowa. Jej bohaterami są ludzie, którzy wcale nie myślą, że w przyszłości świat zmieni się za sprawą jakiegoś majsterkowicza pracującego po nocach w swoim garażu. Albo że technologia rozwiąże wszystkie nasze problemy. Albo że postęp technologiczny musi prowadzić do apokalipsy. Nie jest to również opowieść o jakimś przełomie, a w każdym razie nie w tym sensie, w jakim zwykle używamy tego słowa.

Tak naprawdę są to trzy zazębiające się historie, których zwieńczeniem było udane przekształcenie Tłumacza Google w system oparty na sztucznej inteligencji. Jedna z nich dotyczy technologii, druga – instytucji, a trzecia – idei. Pierwsza opowiada o małym zespole, który pracował nad pewnym produktem w pewnej firmie, któremu udało się udoskonalić, przetestować i wdrożyć zupełnie nową wersję starego produktu cztery razy szybciej, niż ktokolwiek – włącznie z nimi – się spodziewał. Druga dotyczy pracowników małej wpływowej grupy zajmującej się sztuczną inteligencją oraz procesu, w którym ich intuicyjna wiara w dawne, niesprawdzone i niepopularne teorie programowania wywróciła zasady działania większości firm w branży. Bohaterami trzeciej historii są kognitywiści, psycholodzy i niepokorni inżynierowie, o których mało kto słyszał. Ich z pozoru irracjonalne przekonania ostatecznie doprowadziły do zmiany naszego paradygmatu rozumienia nie tylko technologii, lecz także – przynajmniej teoretycznie – samej świadomości.

Pierwsza historia obejmuje okres dziewięciu miesięcy. Opisuje wydarzenia w Mountain View i transformację tłumaczenia maszynowego. Druga zaś obejmuje pięć lat. Opowiada o narodzinach Google Brain, jego licznych konkurentach, o Dolinie Krzemowej i przemianach, jakie zaszły w tej społeczności. Z kolei trzecia to opowieść o procesie tzw. głębokiego uczenia [deep learning – jedna z najnowocześ­niejszych metod uczenia maszynowego wykorzystująca sieci neuronowe – red.], związana z tym, co przez 70 lat działo się w laboratoriach w Szkocji, Szwajcarii, Japonii, ale przede wszystkim w Kanadzie. Możliwe, że z jej powodu zrewidujemy nasze przekonanie, że jesteśmy jedynymi istotami, które myślą.

Wszystkie te opowieści dotyczą sztucznej inteligencji. Trzecia z nich jest o tym, czego od niej oczekujemy. Druga – o tym, do czego można ją będzie wykorzystać w najbliższej przyszłości. Pierwsza – o tym, co oferuje nam dzisiaj. Te trzy historie dowodzą, że cała koncepcja ma sens. A to dopiero początek.


Część I. Ucząca się maszyna

1 Narodziny Google Brain


Choć Jeff Dean ma tytuł zaledwie starszego doradcy, tak naprawdę to on kieruje projektem ­Google Brain. Wysportowany, spokojny, o długiej, wąskiej twarzy i głęboko osadzonych oczach. Odznacza się żarliwością i energią, które są charakterystyczne dla uczestników zawodów w jeździe na byle czym. Jego rodzice zajmowali się antropologią i epidemiologią. Dean dorastał w różnych miejscach na świecie – w Minnesocie, na Hawajach, w Bostonie, Arkansas, Genewie, Ugandzie, Somalii i Atlancie. W szkole średniej i na studiach tworzył oprogramowanie dla Światowej Organizacji Zdrowia.

Z Google’em jest związany od 1999 r. i jako jeden z pierwszych 25 pracowników współtworzył oprogra­mowanie do najważniejszych projektów w firmie. Popularnością ­w Google’u cieszą się tzw. Fakty Jeffa Deana, które przypominają słynną serię memów o Chucku Norrisie, np.: „PIN Jeffa Deana to ostatnie cztery cyfry rozwinięcia liczby pi”, „Kiedy Aleksander Graham Bell wynalazł telefon, zobaczył nieodebrane połączenie od Jeffa Deana”, „Jeff Dean dotarł do 11. poziomu w systemie 10-poziomowym” (to akurat prawda).

Pewnego dnia na początku 2011 r. Dean wkroczył do jednej z „mikrokuchni” w kampusie Google’a, by spotkać się z Andrew Ng, młodym profesorem informatyki ze Stanford, zatrudnionym przez firmę w charakterze konsultanta. Słowo „mikrokuchnia” w żargonie „Googley” odnosi się do pomieszczeń rekreacyjnych znajdujących się na większoś­ci pięter w kompleksie budynków w Mountain View. Ng opowiedział mu o projekcie Marvin (nazwanym tak na cześć pioniera sztucznej inteligencji Marvina Minsky’ego). Pomógł uruchomić to przedsięwzięcie, by eksperymentować z sieciami neuronowymi, czyli elastycznymi matrycami cyfrowymi luźno wzorującymi się na budowie ludzkiego mózgu.

Dean miał styczność z prymitywną wersją tej technologii jeszcze podczas studiów na University of Minnesota w 1990 r., kiedy przez krótki czas cieszyła się popularnością. Teraz sytua­cja się zmieniła. W ostatnich pięciu latach liczba naukowców pracujących nad sieciami neuronowymi wzrosła z kilku do kilkudziesięciu osób. Ng powiedział Deanowi, że działania w ramach projektu Marvin, prowadzonego przez funkcjonujące nieco na uboczu laboratorium Google X, zdążyły już przynieść pewne efekty.

Projekt na tyle zaintrygował Deana,­ że postanowił poświęcić mu swoje „20%” – to czas pracy, który każdy zatrudniony w Google’u powinien przeznaczyć na programy niezwiązane z jego głównymi obowiązkami. Szybko zasugerował też Ng, by zaangażowali do projektu kolegę, który znał się na neuronauce, Grega Corrado. (Corrado poznał tę technologię podczas studiów, ale raczej jako historyczną ciekawostkę. „Dobrze, że tego dnia uważałem akurat na zajęciach” – zażartował w rozmowie ze mną). Późną wiosną dołączyła kolejna osoba, jeden z najlepszych dyplomantów Ng. Quoc Le został pierwszym stażystą projektu.­ W tym czasie inżynierowie ­Google’a coraz częściej projekt Marvin nazywali Google Brain.

Odkąd ukuto termin „sztuczna inteligencja”, a stało się to podczas konwencji w Dartmouth latem 1956 r., większość badaczy była przekonana, że stworzenie takiej technologii wymaga napisania bardzo długiego, skomplikowanego programu, który uwzględni zarówno zasady logicznego myślenia, jak i odpowiednie informacje o świecie.

Jeśli na przykład chcielibyśmy przetłumaczyć tekst z angielskiego na japoński, musielibyśmy wprowadzić do komputera wszystkie zasady gramatyczne obowiązujące w języku angielskim, następnie definicje wszystkich pojęć ze słownika Oxford Dictionary, potem wszystkie zasady gramatyczne, które obowiązują w języku japońskim, wraz z definicjami terminów ze słownika japońskiego, i dopiero wtedy moglibyśmy skonstruować zdanie w języku źródłowym oraz poprosić program o stworzenie analogicznego zdania w języku docelowym.

Trzeba by więc dać maszynie mapę języka, która byłaby – jak u Borgesa – wielkości terytorium. Ta perspektywa nazywana jest często „symboliczną sztuczną inteligencją”, ponieważ sformułowana za jej pomocą koncepcja poznania opiera się na logice matematycznej (we wczesnej fazie nazywanej logiką symboliczną). Bywa też lekceważąco określana „starą, dobrą sztuczną inteligencją”.

Takie tradycyjne podejście stwarza przede wszystkim dwa problemy. Po pierwsze, zabiera ludziom mnóstwo czasu. Po drugie, tak naprawdę działa tylko w tych obszarach, w których można sformułować jasne reguły i definicje, np. w matematyce czy szachach. Tłumaczenie jest dziedziną, w której takie podejś­cie jest niezwykle zawodne, ponieważ słów nie da się sprowadzić do ich słownikowego znaczenia, a w językach naturalnych równie często jak zasady pojawiają się wyjątki. Zdarzało się, że system oparty na tradycyjnych rozwiązaniach tłumaczył wyrażenie „minister gospodarki” na „kapłan rolnictwa”. Mimo to doskonale sprawdzał się w matematyce i szachach, a zwolennicy „symbolicznej sztucznej inteligencji” bezkrytycznie zakładali, że nic tak dobrze nie oddaje „ogólnej inteligencji”, jak matematyka i szachy.

Taki system miał więc ograniczone zastosowania. W latach 80. pewien badacz zajmujący się robotyką w Carnegie Mellon zauważył, że łatwo zmusić komputery, by wykonywały zadania charakterystyczne dla dorosłych, ale właściwie nie da się ich nauczyć tego, co robi roczne dziecko, np. trzymania piłki czy rozpoznawania kotów. Do lat 90., mimo przytłaczającego postępu w szachach komputerowych, nie zbliżyliśmy się nawet odrobinę do „ogólnej sztucznej inteligencji”.

Zawsze istniała jednak inna wizja A.I. – sztucznej inteligencji, w której komputery powinny uczyć się raczej z dołu do góry (wychodząc od danych) niż z góry na dół (wychodząc od reguł). Koncepcja ta pochodzi z początku lat 40. ubiegłego wieku, kiedy badacze doszli do wniosku, że najlepszym modelem dla elastycznej, zautomatyzowanej sztucznej inteligencji jest ludzki mózg. Mózg to w końcu zbiór małych urządzeń – neuronów, które albo przewodzą ładunek elektryczny do swoich sąsiadów, albo go nie przewodzą. Istotne, że wszystkich powiązań między neuronami jest dużo więcej niż samych neuronów.

Ta struktura, dzięki swojej prostocie, zapewniła mózgowi ogromne możliwości adaptacyjne. Mózg potrafi funkcjonować w warunkach, w których informacja jest niepełna lub w ogóle jej nie ma. Działa i nie traci kontroli nawet wtedy, gdy zostanie znacznie uszkodzony. Przechowuje olbrzymie ilości informacji w niezwykle efektywny sposób. Jest również w stanie wyodrębniać wzorce, a jednocześnie zarządzać chaosem i radzić sobie z nieoczywis­tymi, ambiwalentnymi sytuacjami.

Postanowiono podjąć próbę odtworzenia tej struktury w formie elektronicznej i w 1943 r. wykazano, że układy prostych sztucznych neuronów mogą przeprowadzać podstawowe działania logiczne. Mogą również, przynajmniej teoretycznie, uczyć się w taki sposób, jak my. Za sprawą zdobywanego doświadczenia życiowego oraz działania metodą prób i błędów połączenia synaptyczne między dwoma prawdziwymi neuronami w mózgu stają się silniejsze lub słabsze. Sztuczna sieć neuronowa może funkcjonować w podobny sposób, dokonując – również na zasadzie prób i błędów – stopniowych zmian w numerycznych relacjach między sztucznymi neuronami. Taka sieć nie musi być zaprogramowana do działania według stałych reguł. Może natomiast sama się modyfikować w celu wykrycia związków w zbiorze danych, który wchłonęła.

To podejście do sztucznej inteligencji było bardziej ewolucyjne niż kreacjonistyczne. Jeśli dany mechanizm ma być elastyczny, musi umieć dostosowywać się do swojego otoczenia. A jeśli ma się dostosowywać, nie może być od początku ograniczony zasadami, które obowiązują w szachach. Trzeba mu zapewnić podstawowe umiejętności – percepcję i kontrolę motoryczną – licząc na to, że zaawansowane kompetencje powstaną w sposób organiczny. Ludzie nie uczą się języka przez wkuwanie na pamięć słowników i podręczników do gramatyki, czemu więc mielibyśmy oczekiwać tego od komputerów?

rys. Marek Raczkowski
rys. Marek Raczkowski

Google Brain był pierwszym dużym przedsięwzięciem komercyjnym, które zainwestowało w możliwości kryjące się w takim podejściu do sztucznej inteligencji. Na początku Dean, Corrado i Ng poświęcali na ten eksperyment tylko część swojego czasu, ale od razu osiągnęli spory postęp. Kiedy myśleli nad aspektami architektonicznymi projektu, korzystali zarówno z najnowszych teoretycznych pomysłów, jak i tych, które zrodziły się jeszcze w latach 80. i 90. Do dyspozycji mieli również bezcenne firmowe zasoby danych i potężną infrastrukturę informatyczną. Szkolili sieci na ogromnych bankach „etykietowanych” danych – m.in. plikach mowy z prawidłową ich transkrypcją – i odpowiedzi komputerów zaczęły coraz bardziej pasować do rzeczywistości.

„Ten moment ewolucji, w którym wykształciły się oczy zwierząt, był absolutnie przełomowy” – powiedział mi kiedyś Dean. Siedzieliśmy jak zwykle w sali konferencyjnej z białymi tablicami. Dean narysował krętą linię przedstawiającą ewolucję Google Brain w czasie wraz z odniesieniami do kluczowych momentów w najnowszej historii sieci neuronowych. „Teraz komputery mają oczy. Możemy je tworzyć w taki sposób, by rozumiały, co jest na zdjęciach. Roboty ulegną ogromnemu przeobrażeniu. Będą mogły działać w nieznanym środowisku i rozwiązywać złożone problemy”. Umiejętności, o których w tamtej chwili mówił, mogły wydawać się prymitywne, ale niosły daleko idące skutki.

2 Nietypowy stażysta

Przez pierwszy rok Google Brain przeprowadzał eksperymenty mające doprowadzić do skonstruo­wania maszyny o umiejętnościach rocznego dziecka, a ich wyniki – jak powiedział mi Dean – były niesamowite. Zespół rozpoznawania mowy wymienił część starego systemu na sieć neuronową i uzyskał, niemalże w mgnieniu oka, poprawę jakości niewidzianej od 20 lat. System rozpoznawania obiektów zwiększył swoje możliwości o cały rząd wielkości. Stało się tak nie dlatego, że pracownicy wpadli w ciągu jednego roku na jakieś nowe, zaskakujące pomysły, lecz dzięki temu, że Google skierował w końcu swoje zasoby­
– sprzęt i personel – na dziedzinę, którą nikt dotąd się nie zajmował.

Znaczną część tych zapomnianych koncepcji przywrócił angielski naukowiec i erudyta perypatetyk Geoffrey Hinton. W drugim roku istnienia Google Brain dołączył on do zespołu, już po tym jak opuścił go Andrew Ng. (W tej chwili Ng kieruje 1300-osobowym zespołem sztucznej inteligencji w chińskim Baidu). Hinton planował wrócić po trzech miesiącach na University of Toronto, więc z powodu zawiłych kontraktowych uwarunkowań musiał zostać zatrudniony jako stażysta. Podczas szkolenia dla stażystów prowadzący zwrócił się do niego: „Wprowadź swój LDAP” – login użytkownika – a on zapytał: „Co to jest LDAP?”. Ci inteligentni 25-latkowie, którzy wiedzieli, że „deep learning” jest warunkiem koniecznym sztucznej inteligencji, prychnęli: „Kim jest ten starszy facet? Dlaczego on nie wie, o co chodzi?”.

„Podczas lunchu – powiedział Hinton – ktoś w kolejce krzyknął: »Profesorze Hinton! Uczęszczałem na pana zajęcia. Co pan tu robi?«. Po tym zdarzeniu miałem już spokój”.

Kilka miesięcy później Hinton i jego dwaj studenci uzyskali zadziwiająco dobre wyniki w konkursie rozpoznawania obrazów organizowanym przez zespół open source’owy ImageNet. Zadanie polegało na tym, by komputer nie tylko umiał rozpoznać małpę, lecz także odróżnić małpę czepiaka od małpy wyjca, a ponadto nazwać niezliczone rasy kotów. Wkrótce Google złożył Hintonowi i jego studentom stałą ofertę, a oni ją przyjęli.

Rodzina Hintona należy do tych starych brytyjskich rodzin, które – podobnie jak ród Darwinów – słyną z aktywności intelektualnej w bardzo wielu dziedzinach i w których od każdego oczekuje się, że niezależnie od głównego zajęcia wniesie choćby drobny wkład w astronomię czy dynamikę płynów. Jego prapradziadkiem był George Boole, którego przełomowe prace z zakresu logiki matematycznej (algebra Boole’a) legły u podstaw nauki o komputerach. Drugi prapradziadek był znanym chirurgiem, ojciec – entomologiem, kuzyn ojca – badaczem w Los Alamos, a na nich ta lista się nie kończy.

Wykładał w Cambridge i Edynburgu, później uczył w Carnegie Mellon w USA, a w końcu w Toronto, gdzie wciąż spędza połowę swojego czasu. (Jego pracę hojnie wspiera kanadyjski rząd). Odwiedziłem go w jego tamtejszym biurze Google’a. Miał rozczochrane, na wpół blond, na wpół siwe włosy, zaczesane do przodu na wzór Noela Gallaghera. Luźna koszula w paski wciąż wyłaziła mu ze spodni, a okrągłe okulary zsunęły się na czubek wydatnego nosa. Wypowiadał się dowcipnie, nieco chao­tycznie i czasem rzucał uwagi w stylu: „Komputery szybciej zrozumieją sarkazm niż Amerykanie”.

Hinton pracował nad sieciami neuronowymi jeszcze podczas studiów w Cambridge pod koniec lat 60. i jest postrzegany jako intelektualny prekursor tej dziedziny. Gdy zabierał głos na temat uczenia maszynowego, ludzie patrzyli wtedy na niego tak, jakby mówił o sferach Ptolemeusza albo upuszczaniu krwi za pomocą pijawek.

Sieci neuronowe były traktowane jako coś dziwacznego i niepewnego, a to głównie za sprawą przereklamowanego projektu o nazwie Perceptron. Była to sztuczna sieć neuronowa, którą pod koniec lat 50. stworzył Frank Rosenblatt, psycholog z Cornell University. Według „New York Timesa” Marynarka Stanów Zjednoczonych, która sponsorowała urządzenie, oczekiwała, że maszyna „będzie chodziła, rozmawiała, patrzyła, pisała, rozmnażała się i będzie świadoma swojego istnienia”. Tymczasem nie potrafiła nawet w minimalnym stopniu wykonać którejkolwiek z tych czynności.

Marvin Minsky, jeden z najważniejszych badaczy sztucznej inteligencji w Stanach Zjednoczonych, zajmował się sieciami neuronowymi już w 1954 r. podczas przygotowywania pracy dyplomowej, ale zniechęcił się, gdy zobaczył, jak wysoko Rosenblatt – jego rówieśnik z elitarnej szkoły średniej Bronx Science – postawił w tej dziedzinie poprzeczkę. (Konkurowali również o dofinansowanie w Departamencie Obrony). Wspólnie z kolegą z Massachusetts Institute of Technology Minsky napisał książkę, w której wykazał, że Perceptron nie potrafiłby rozwiązać wielu banalnych problemów.

Krytyka, której podjął się Minsky, obejmowała tylko sieci jednowars­twowe, czyli takie, w których między tym, co zostaje dostarczone do maszyny, a tym, co ma ona zwrócić, znajduje się jedna warstwa sztucznych neuronów. Warto dodać, że jego późniejsze koncepcje były bardzo podobne do współczesnych teorii na temat „deep learning”.

Ale Hinton już wtedy rozumiał, że maszyna może wykonywać złożone zadania, jeśli wyposaży się ją w więcej niż jedną warstwę neuronów. Według najprostszej definicji sieć neuronowa to maszyna, która potrafi klasyfikować lub przewidywać dzięki umiejętności rozpoznawania prawidłowości w dostarczonych danych. Jedna warstwa pozwala dostrzegać tylko proste wzorce. Gdy jest ich więcej, maszyna umie znajdować wzorce wzorców.

Przyjrzyjmy się mechanizmowi rozpoznawania obrazów, który działa na zasadzie „splotowej sieci neuronowej” (ang. convolutional neural net). (Omawia to kluczowy artykuł z 1998 r., którego główny autor, pochodzący z Francji Yann LeCun, robił habilitację u Hintona w Toronto, a teraz zajmuje się sztuczną inteligencją w Facebooku). Pierwsza warstwa sieci uczy się identyfikować podstawowe wizualne tropy jako „krawędzie”, czyli zauważać nic (wyłączony piksel), po którym następuje coś (włączony piksel). Lub odwrotnie. Każda kolejna warstwa sieci szuka wzoru w obrębie poprzedniej. Zestaw krawędzi może się układać w okrąg lub prostokąt. Układ okręgów lub prostokątów może być twarzą. I tak dalej. Podobnie działa ludzkie oko. Informacje łączone są ze sobą w coraz bardziej abstrakcyjny sposób, gdy przesyłane są z receptorów w siatkówce do kory wzrokowej. Na każdym etapie od razu zostają odrzucone nieistotne szczegóły. Jeśli z kilku krawędzi i okręgów powstaje twarz, nie interesuje nas, w którym dokładnie miejscu w polu widzenia się znajduje. Ważne, że jest to twarz.

Problem z wielowarstwowymi „głębokimi” sieciami neuronowymi polegał na tym, że etap prób i błędów stawał się niesłychanie skomplikowany. W przypadku jednej warstwy sprawa jest prosta. Wyobraź sobie, że bawisz się z dzieckiem. Zwracasz się do niego: „Podnieś zieloną piłkę i włóż ją do pudełka A”. Dziecko podnosi zieloną piłkę i wkłada ją do pudełka B. Wtedy mówisz mu: „Spróbuj jeszcze raz. Włóż piłkę do pudełka A”. Tym razem dziecko wybiera właściwe pudełko. Brawo!

Teraz wyobraź sobie, że mówisz dziecku: „Podnieś zieloną piłkę, przejdź przez drzwi oznaczone liczbą 3 i włóż piłkę do pudełka A”. Dziecko podnosi czerwoną piłkę, otwiera drzwi z numerem 2 i wkłada ją do pudełka B. W jaki sposób spróbujesz poprawić dziecko? Nie możesz po prostu powtórzyć instrukcji, ponieważ dziecko nie wie, kiedy popełniło błędy. W prawdziwym świecie możesz zacząć od tego, że podniesiesz obie piłki i powiesz: „Ta jest zielona, a ta czerwona”. Tymczasem w przypadku uczenia maszynowego chodzi właśnie o to, by uniknąć instruowania wprost.

Hinton, wraz z kilkoma osobami, postanowił znaleźć rozwiązanie problemu z błędami warstwowymi (a raczej: wykorzystać jedno ze starych rozwiązań), dzięki czemu po jałowych latach 70. i 80. zainteresowanie sieciami neuronowymi wśród badaczy znowu wzrosło. „Ludzie ekscytowali się tym tematem – powiedział. – Ale przesadziliśmy z chwaleniem się”. Informatycy znów zaczęli uważać ludzi pokroju Hintona za dziwaków i mistyków.

Teoria zyskała jednak popularność wśród filozofów i psychologów, którzy nadali jej nazwę „konekcjonizm” albo „przetwarzanie równoległe i rozproszone”. „Obraz kilku osób podtrzymujących kaganek wiedzy to, niestety mit – powiedział mi Hinton. – To ładny mit, podtrzymywany przez kilka osób. Ta teoria sprawdziła się w przypadku sztucznej inteligencji. W psychologii nic z tego nie wyszło”. Nie wychodziło także Hintonowi mimo hojności rządu kanadyjskiego. „Zabrakło wystarczająco potężnego komputera lub odpowiednio dużo danych. Ludzie, którzy byli po naszej stronie, powtarzali: »Gdybyśmy mieli naprawdę potężne narzędzie, na pewno by się nam udało«. Nie był to przekonujący argument”.

3 Zgłębianie „deep learning”, głębokiego uczenia


Gdy Sundar Pichai powiedział, że w Google’u będzie „A.I. first”, miał na myśli nie tylko strategię biznesową przedsiębiorstwa. Związał los całej firmy z ideą, która dotychczas nie przynosiła zysków. Pichai przydzielił ludziom takim jak Dean zasoby tak wielkie, że mogli oni wreszcie zapewnić ludziom takim jak Hinton wystarczającą liczbę komputerów i danych.

Przeciętny mózg składa się z około 100 mld neuronów. Każdy neuron ma połączenia z 10 tys. innych neuronów, co oznacza, że liczba synaps oscyluje między 100 bilionami a 1000 bilionów. Stworzenie podobnego układu działającego na zasadzie sztucznej sieci neuronowej zaproponowanej w latach 40. było nie do pomyślenia. Wciąż jes­teśmy daleko od skonstruowania tak olbrzymiej sieci, ale inwestycja, jaką jest Google Brain, pozwoliła już stworzyć sztuczne sieci neuronowe porównywalne do mózgu myszy.

rys. Marek Raczkowski
rys. Marek Raczkowski

By zrozumieć, dlaczego skala jest tak istotna, trzeba przyjrzeć się kilku szczegółom technicznym związanym z procesem przetwarzania danych przez inteligentne maszyny. Wiele naszych obaw wobec sztucznej inteligencji wynika z podejrzenia, że maszyna chłonie informacje jak wpuszczony do biblioteki socjopatyczny geniusz i że pewnego dnia sztuczna inteligencja stworzona do produkcji spinaczy zacznie traktować ludzi jak mrówki albo sałatę. To nie tak. Maszyna przegląda jedynie zasoby, szukając podobieństw – najpierw prostych wzorów, a później bardziej skomplikowanych – i na tę chwilę największym niebezpieczeństwem jest to, że dane, które jej dostarczamy, są już w pewien sposób przefiltrowane, nie są obiektywne.

Jeśli to krótkie wyjaśnienie wydaje się satysfakcjonujące dla czytelnika nieobeznanego z technologicznymi szczegółami, może on już przejść do następnej części, która jest o kotach. Jeśli nie, to trzeba czytać dalej. (W tej części też będzie w sumie mowa o kotach).

Wyobraź sobie, że chcesz stworzyć rozpoznawacz kotów zaprojektowany według tradycyjnej koncepcji sztucznej inteligencji. Musiałbyś poświęcić długie dni na opracowanie wyczerpującej dosłownej definicji „kota”.

Wziąłbyś pod uwagę, że kot ma cztery nogi, spiczaste uszy, wąsy, ogon itd. Te wszystkie informacje zostałyby zapisane w specjalnej pamięci, która nazywałaby się Kot. Następnie pokazałbyś maszynie rysunek. W pierwszej kolejności musiałaby ona odróżnić poszczególne elementy na obrazku. Potem porównałaby je z danymi zapisanymi w pamięci. Jeśli (nogi = 4) i (uszy = spiczaste) i (wąsy = tak) i (ogon = tak) i (wyraz pyszczka = wyniosły), to (kot = tak). Ale co, jeśli pokazałbyś tej maszynie kota zwisłouchego, owo rozczulające stworzenie z defektem genetycznym w postaci zaokrąglonych i oklapniętych uszu? „Symboliczna sztuczna inteligencja” zatrzymałaby się na warunku (uszy = spiczaste) i potrząsnęła głową: „To nie jest kot”. Byłaby zbyt dosłowna. Nawet najgłupsze dziecko okazałoby się bystrzejsze.

Teraz wyobraź sobie, że zamiast ograniczać maszynę do zestawu sztywnych reguł, które będzie stosowała wobec danych zapisanych w jednym miejscu pamięci, pozwalasz jej działać na zasadzie sieci neuronowej. W jej pamięci nie ma jakiejś określonej przestrzeni na definicję „kota”. Jest tylko jeden wielki blob [binary large object, czyli „duży obiekt binarny" – red.], w którym znajdują się połączone ze sobą przełączniki, podobne do rozwidlających się ścieżek. Po jednej stronie zamieszczasz wejścia (obrazki), a po drugiej – odpowiadające im wyjścia (etykiety). Następnie wydajesz maszynie polecenie, by działała samodzielnie, kalibrując wszystkie przełączniki, nie­zależnie od tego, którą ścieżką zostaną przesłane dane, tak żeby wejścia były przypisane do odpowiednich wyjść.

Trening to proces polegający na wytwarzaniu najróżniejszych ścieżek, tuneli, które połączą dowolne wejście z właściwym wyjściem. Im więcej prób, tym większa liczba i zawiłość wydeptanych ścieżek. Kiedy takie szkolenie się kończy, blob zawiera na tyle dużo ścieżek, że potrafi już niezawodnie radzić sobie z danymi, z którymi nigdy wcześniej nie miał do czynienia. Proces ten nosi nazwę „uczenie nadzorowane”.

Sieć potrzebuje tak wielkiej liczby neuronów i danych, ponieważ działa jak demokracja maszynowa. Wyobraź sobie, że chcesz, aby komputer umiał rozróżnić pięć wybranych przedmiotów. Twoja sieć składa się z miliardów neuronów, które są „wyborcami”, a każdy z nich otrzymuje pięć różnych kart do głosowania: jedną – do głosowania na kota, drugą – na psa, trzecią – na czepiaka, czwartą – na łyżkę, i piątą – na defibrylator.

Pokazujesz swoim wyborcom zdjęcie i pytasz: „Czy na zdjęciu jest kot, pies, czepiak, łyżka czy defibrylator?”. Neurony, które zagłosowały w ten sam sposób, zbierają się w jednej grupie, a przewodniczący sieci spogląda z góry na swoich poddanych i podaje wybór większości: „Pies?”.

Ty odpowiadasz: „Nie, mistrzu. To kot. Spróbuj ponownie”.

Przewodniczący sieci wraca więc, żeby sprawdzić, którzy głosujący postawili na „kota”, a którzy nie. Następnym razem głos tych, którzy wybrali „kota”, będzie się liczył podwójnie, przynajmniej wtedy, gdy będą głosowali na „kota”. Muszą też udowodnić, że są tak samo dobrzy w identyfikowaniu psów i defibrylatorów. Tym, co sprawia, że sieć neuronowa działa w tak elastyczny sposób, jest fakt, że każda jednostka może się przyczynić do osiągnięcia pożądanych rezultatów. Bardziej niż pojedynczy głos liczy się bowiem układ głosów. Jeśli Joe, Frank i Mary głosują razem, wybierają psa, jeśli Joe, Kate i Jessica głosują razem, wybierają kota, a jeśli Kate, Jessica i Frank głosują razem, wybierają defibrylator.

Sieć neuronowa musi po prostu zarejestrować wystarczająco regularny sygnał, żeby można było powiedzieć: „Jest szansa, że ten konkretny układ pikseli przedstawia coś, co ludzie nazywają »kotem«”. Im więcej wyborców zaangażujesz i im częściej będą oni głosowali, tym lepiej sieć będzie rejestrowała nawet bardzo słabe sygnały. Jeśli do dyspozycji masz jedynie Joego, Franka i Mary, być może nauczą się tylko rozróżniać między kotem, psem i defibrylatorem. Ale jeśli będziesz miał miliony różnych wyborców, którzy mogą się kontaktować na miliardy sposobów, będziesz mógł nauczyć maszynę klasyfikować dane z niewiarygodną dokładnością. Twój wyszkolony zespół wyborców będzie mógł spojrzeć na nieopisany obrazek i mniej lub bardziej dokładnie rozpoznać, co się na nim znajduje.

Jedną z przyczyn niezyskania przez te idee uznania na wydziałach nauk komputerowych jest fakt, że na wyjściu otrzymujemy jedynie prog­nozę opartą na wzorcach wzorców. Wynik jest zawsze przybliżony, a maszyna nigdy nie będzie umiała wyjaś­nić, czym jest kot. Potrafi go tylko rozpoznać, gdy go widzi. Kluczowa jest właśnie owa zabawa w kotka i myszkę. Głosujące neurony umieją zidentyfikować zadowolonego kota wygrzewającego się w słońcu lub nastroszonego kota, który łypie zza brudnej kuwety, jeśli dostarczyliśmy im wcześniej miliony różnych obrazków z kotami.

Potrzebowalibyśmy więc całego mnóstwa głosujących – żeby mieć pewność, że jakaś część sieci potrafi wychwycić nawet nieznaczną regularność, np. kota zwisłouchego – a także odpowiedniej liczby „etykietowanych” danych, dzięki którym będzie wiadomo, że sieć poznała jak najszersze spektrum obiektów.

Warto jednak zauważyć, że skoro sieć neuronowa z natury działa na zasadzie prawdopodobieństwa, nie do każdego zadania będzie się nadawała. Nic złego się nie stanie, jeśli na 100 kotów nie rozpozna jednego albo raz na jakiś czas zaproponuje ci zły film do obejrzenia, ale na przykład od zautomatyzowanego samochodu oczekujemy już większej niezawodności. To nie jedyny wyjątek.

Nadzorowane szkolenie to seria prób i błędów oparta na etykietowanych danych. Maszyny mogą się uczyć, ale na początku zawsze potrzebują człowieka, który pomaga im kategoryzować informacje. Jeśli wśród danych znajduje się zdjęcie mężczyzny i kobiety w oficjalnych strojach i ktoś je opisał jako „kobieta ze swoim szefem”, to relacja między nimi zostanie uwzględniona na wszystkich kolejnych etapach rozpoznawania wzorców.

Etykietowanie, opisywanie danych stanowi więc problem, ponieważ ludzie, którzy się tym zajmują, popełniają błędy. Jeśli komputer zostanie poproszony o wskazanie potencjalnych kredytobiorców, może posłużyć się takimi danymi, jak wyrok sądowy, ale jeśli ktoś został skazany niesprawiedliwie – np. na podstawie dyskryminującego prawa antynarkotykowego – to rekomendacje dotyczące pożyczki okażą się błędne.

Maszyna służąca do rozpoznawania obrazów, jak nasz identyfikator kotów, to tylko jeden z możliwych wariantów „deep learning”. Jest jednak najczęściej przytaczanym przykładem, ponieważ każda wars­twa sieci robi coś, co przynajmniej w pewnym stopniu wydaje się ludziom zrozumiałe – najpierw rozpoznaje krawędzie, a potem okręgi i twarze. W tej dziedzinie usterki można zatem naprawiać.

Na przykład jeden z pierwszych programów Google’a do rozpoznawania twarzy zawierał osobliwy błąd. Otóż nie zawsze potrafił on ­zidentyfikować na obrazku sztangę, mimo że zespół uczył go za pomocą zdjęć przedstawiających różne ćwiczenia. Dzięki narzędziom do wizua­lizacji ekipa zrozumiała, że komputer nie nauczył się koncepcji „sztangi”, lecz koncepcji „sztangi wraz z ramieniem”, ponieważ wszystkie sztangi podczas treningu występowały w towarzystwie ramienia. Uzupełniono więc szkolenie o zdjęcia z samymi sztangami i problem został rozwiązany. Ale nie wszystko jest takie proste.

4 Artykuł o kotach


Mniej więcej po roku lub dwóch podejmowane przez zespół Google Brain próby, by stworzyć komputer o umiejętnościach rocznego dziecka, były na tyle obiecujące, że dział awansowano i funkcjonujące nieco na uboczu laboratorium X przekształciło się w większą placówkę badawczą. (Dyrektor
Google X przypomniał, że Brain ­pokrył wszystkie koszty zespołu X). Wciąż zatrudniali poniżej 10 osób i nie do końca wiedzieli, w którą stronę to wszystko zmierza. Zastanawiali się nad każdym następnym krokiem. Najpierw ludzki umysł uczy się rozpoznawać piłkę i przez chwilę to mu wystarcza, ale prędzej czy później będzie chciał zapytać o samą piłkę. I wtedy wkracza w obszar języka.

Pierwszym krokiem w tym kierunku był artykuł o kotach (Q.V.Le, M.A. Ranzato, R. Monga, M. Devin, K. Chen, G.S. Corrado, J. Dean, A.Y. Ng, Building High-level Features Using Large Scale Unsupervised Learning), który sprawił, że o zespole Google Brain zrobiło się głośno.

W artykule wykazano, że sieć neuronowa z liczbą „synaptycznych” połączeń przekraczającą jeden miliard – czyli 100 razy bardziej rozbudowana niż jakakolwiek sieć, o której informowano dotychczas, ale wciąż wiele rzędów wielkości mniejsza niż ludzki mózg – umiałaby na podstawie surowych, nieetykietowanych danych wytworzyć sobie koncepcję na wyższym, ludzkim poziomie. Badacze z Google Brain dostarczyli sieci miliony nieruchomych klatek z filmów na YouTubie. Z chaotycznych danych wyodrębniła ona trwały wzorzec, w którym każde dziecko i każda wiewiórka bez trudu rozpoznaliby pyszczek kota. Maszyna nie była wcześniej zaprogramowana jakąkolwiek wiedzą o kotach. Odniosła się bezpośrednio do świata i uchwyciła samą ideę. (Naukowcy wykorzystali w tym celu sieć neuronową działającą podobnie do aparatu rezonansu magnetycznego i wykazali, że zarys pyszczka kota zachęcił sztuczne neurony do kolektywnego „głosowania”).

Do tej pory uczenie maszyn ograniczała liczba opisanych danych. W artykule udowodniono, że komputery potrafią sobie radzić również z surowymi nieopisanymi danymi, których ludzie wcześniej nie rozpoznali. Wydaje się, że jest to jedno z najważniejszych osiągnięć nie tylko w badaniach nad mechanizmem rozpoznawania kotów, ale w ogóle w studiach nad sztuczną inteligencją.

Głównym autorem artykułu o kotach był Quoc Le. Jest niski, szczupły i elokwentny, tajemniczo się uśmiecha i nosi czarne mokasyny. Dorastał w Wietnamie, w okolicy miasta Hue. Jego rodzice uprawiali ryż, a w domu rodzinnym nie było prądu. Od wczes­nych lat wykazywał zdolności matematyczne, został więc wysłany do szkoły o profilu przyrodniczym. Pod koniec lat 90., jeszcze jako uczeń, chciał skonstruować chatbota, który rozmawiałby z człowiekiem. Zastanawiał się, jak trudne jest to zadanie.

„Teraz myślę – oznajmił mi z kamienną twarzą – że to bardzo trudne”.

Zostawił pola ryżowe, kiedy otrzymał stypendium na australijskim University of Canberra, gdzie zajmował się takimi zagadnieniami sztucznej inteligencji, jak umiejętność widzenia. Miał wrażenie, że dominująca wówczas metoda, która polegała na dostarczaniu komputerowi definicji takich obiektów, jak krawędzie, to zwykłe oszustwo. Le nie miał wtedy jeszcze pojęcia ­
– lub miał, ale mgliste – że na świecie było co najmniej kilkudziesięciu informatyków, którzy podobnie jak on przypuszczali, że komputer może się uczyć od podstaw.

W 2006 r. otrzymał posadę w In-sty­tucie Cybernetyki Biologicznej ­im. Maxa Plancka w Tybindze, średniowiecznym miasteczku uniwersyteckim w Niemczech. Podczas konwersatorium zetknął się tam z dwoma nowymi tekstami Geoffreya Hintona. Ludziom, którzy zaczynali zajmować się tą dyscypliną, zmiana perspektywy zajmowała zwykle dużo czasu. Kiedy Le przeczytał te artykuły, nagle przejrzał na oczy.

„Wybuchł między nami spór – powiedział mi. – Naprawdę duży spór”. Siedzieliśmy w małej sali konferencyjnej, z niskim sufitem – był w niej tylko mały stolik i dwie tablice. Le spojrzał na krzywą, którą wcześniej narysował na jednej z nich, i dodał po cichu: „Nigdy nie uczestniczyłem w tak dużym sporze”.

Stanął przed grupą i powiedział: „To jest przyszłość”. Jego poglądy nie spotkały się z aprobatą. Jego były doradca z Australii, z którym utrzymywał kontakt, zupełnie nie mógł pojąć podjętej przez niego decyzji. Zapytał go w e-mailu: „Dlaczego to robisz?”.

„Nie wiedziałem, co mu odpowiedzieć – stwierdził Le. – Byłem po prostu ciekawy. Mieliśmy sprawdzony paradygmat, ale zastanawiałem się, czy można stworzyć coś nowego. W 2006 r. niewiele robiono w tym kierunku”. Dołączył więc do Ng w Stanford i zaczął realizować pomysły Hintona. „Pod koniec 2010 r. wiedziałem już, że coś się niebawem wydarzy”.

A co się wydarzyło? Le dołączył wkrótce do projektu Google Brain jako pierwszy stażysta i kontynuował pracę nad doktoratem – w efekcie powstał artykuł o kotach. Przede wszystkim Le chciał się przekonać, czy komputer może się nauczyć samodzielnie decydować, które informacje na obrazku są najważniejsze. Pokazał sieci neuronowej kadr z serwisu YouTube. Następnie polecił jej, by odrzuciła jakieś informacje dotyczące obrazka, ale nie sprecyzował, jakie dokładnie. Maszyna zaczęła kasować informacje początkowo przypadkowo. Wtedy Le jej powiedział: „Żartowałem. Odtwórz pierwotny obrazek, ale tylko za pomocą tych informacji, które ci zostały”. To było tak, jakby prosił maszynę, by znalazła sposób na „podsumowanie” obrazka, a następnie na tej podstawie wywnioskowała, jak wyglądał oryginał.

Gdyby podsumowanie składało się z niepowiązanych danych – np. zawierałoby kolor nieba, a nie informację o wąsach – maszyna nie mogłaby prawidłowo przeprowadzić rekonstrukcji. Przypominałaby jaskiniowca, który z krótkiego spotkania z tygrysem szablozębnym zapamiętał jedynie cichy szelest trawy. Sieć neuronowa Le, w przeciwieństwie do jaskiniowca, mogła podjąć drugą próbę, a potem następną i jeszcze kolejną. Za każdym razem matematycznie rozstrzygała, które fragmenty informacji są istotniejsze, i robiła stopniowe postępy.

Z drugiej strony, sieć neuronowa była czymś w rodzaju czarnej skrzynki. Odgadywała wzory, ale nie zawsze były one intuicyjnie zrozumiałe dla obserwującego człowieka. Ta sama sieć neuronowa, która uchwyciła ideę kota, była gotowa zareagować z entuzjazmem na wzorzec wyglądający jak skrzyżowanie mebla i zwierzęcia, np. połączenie otomany z kozłem.

W ciągu tych kilku lat, które upłynęły pod znakiem kotów, Le nie postrzegał siebie jako badacza języka, zastanawiał się jedynie, jak połączyć to wszystko z dawnym pomysłem na chatbot. Po napisaniu artykułu o kotach zrozumiał, że jeśli można polecić maszynie, by podsumowała zdjęcie, można jej również rozkazać, by podsumowała zdanie. Tym problemem zajmował się przez kolejne dwa lata, a pomagał mu kolega z działu Google Brain Tomas Mikolov.

W tym czasie Google Brain zdążył przerosnąć sąsiednie działy w firmie. Przez pewien czas zespół pracował na piętrze, które dzielił z kadrą zarządzającą. Dostali kiedyś e-mail od administratora z prośbą, by nie pozwalali ludziom spać na kanapie naprzeciwko gabinetu prezesów Larry’ego Page’a i Sergeya Brina. Ich zachowanie niepokoiło ważnych gości, którzy przychodzili do firmy.

Dział został przeniesiony do budynku po drugiej stronie ulicy i teraz, spotykając się w mikrokuchni, nie musieli już trwonić czasu na kulturalne pogawędki z ludźmi w garniturach. Konkurencja próbowała wykorzystać ten przejściowy okres, by dogonić Google. (Le powiedział mi o swojej bliskiej współpracy z Tomasem Mikolovem. Wyraźnie poruszony, powtarzał w kółko jego nazwisko. W końcu nie wytrzymałem i zapytałem: „Czy on?…”. Le pokiwał głową: „Tak, przeszedł do Facebooka”).

Zespół próbował stworzyć sieć neuronową, która umiałaby sobie poradzić nie tylko z prostymi, nieruchomymi zdjęciami, lecz także ze złożonymi strukturami rozwijającymi się w czasie, np. językiem lub muzyką. Nad wieloma sieciami tego rodzaju pracowano już w latach 90., Le i jego koledzy postanowili więc odkurzyć te koncepcje i sprawdzić, czy się do czegoś nadają. Wiedzieli, że jeśli uda się skonstruować komputer, który potrafi odgadywać podstawowe struktury językowe, można będzie stawiać przed nim inne zadania, np. polecić mu, by odpowiedział na e-mail albo przewidział przebieg rozmowy. Być może niepostrzeżenie powstanie coś, co – przynajmniej z zewnątrz – będzie przypominało myślenie.

Część II. Maszyna językowa

5 Zwrot lingwistyczny


Czasem można odnieść wrażenie, że Google Brain nie jest działem wielkiej korporacji, tylko czymś w rodzaju klubu, stowarzyszenia albo międzygalaktycznej kantyny. Członkowie zespołu, który obecnie liczy mniej więcej 100 osób, w ciągu ostatnich lat stali się najbardziej podziwianymi pracownikami w firmie i zyskali największą swobodę działania.

W tej chwili zespół jest ulokowany w dwupiętrowym budynku, z dużymi, groźnie wyglądającymi, ciemnymi oknami, w zielonej, północno-zachodniej części kampusu. W mikrokuchni znajdują się piłkarzyki i perkusja, ale nie widziałem, by ktoś z tych sprzętów korzystał. Zdarzało mi się zobaczyć tylko osoby grające w Go. (Raz byłem świadkiem, jak pewien młody człowiek pokazywał kolegom dojrzały owoc chlebowca i rozdzierał jego kolczastą kulę jak indyka).

Gdy zacząłem odwiedzać siedzibę Google’a, a było to w czerwcu, zauważyłem całe rzędy pustych biurek. Większość była jednak oznaczona samoprzylepnymi karteczkami, na których widniały notatki, np. „Jesse, 6/27”. Teraz wszystkie są już zajęte. Na początku nie miałem problemu ze znalezieniem miejsca na parkingu. Najbliższe były zarezerwowane dla kobiet w ciąży i samochodów Tesli, ale poza tym parking świecił pustkami. Gdy w październiku pojawiłem się po 9.30, musiałem już parkować na ulicy.

Dean martwił się, czy poradzi sobie z rozrastającym się działem. Chciał uniknąć tego, co ­w Google’u­ jest nazywane „katastrofalnym sukcesem” – sytuacji, kiedy praktyka nie nadąża za teorią i firma nie jest w stanie wprowadzić produktu na rynek. Pewnego dnia wykonał nawet na szybko pewne obliczenia i zaprezentował ­
je na dwóch slajdach dyrekcji.

„Jeśli w przyszłości każdy będzie rozmawiał przez telefon z systemem Android 3 min. dziennie – powiedział – będziemy potrzebowali następującej liczby komputerów”. Okazało się, że musieliby podwoić albo potroić całą obecną moc obliczeniową.

„To brzmiało strasznie – podsumował, przełykając teatralnie ślinę. – Musielibyście – próbował wyobrazić sobie konsekwencje – postawić nowe budynki”.

Ale była też inna opcja: zaprojektować, a następnie wyprodukować na masową skalę i zainstalować we wszystkich centrach danych Google’a nowy chip, który sprawi, że wszystko będzie działało dużo szybciej. Te chipy nazwano TPU (ang. tensor processing unit), a ich najmocniejszą stroną – wbrew zdrowemu rozsądkowi – był fakt, że celowo wykonywały działania mniej precyzyjnie niż zwykłe chipy. Zamiast obliczać, ile to jest 12,246 × 54,392, podawały jedynie wynik iloczynu 12 × 54.

Jeśli zejść z poziomu metafor na poziom matematyki, sieć neuronowa to uporządkowany zbiór setek, tysięcy lub dziesiątków tysięcy kolejno przemnażanych macierzy i o wiele bardziej niż precyzja liczy się szybkość takiego procesu. „Zwykle – powiedział Dean – nie warto tworzyć sprzętu pod konkretne zadania. Takie rozwiązania sprawdzają się tylko wtedy, gdy chcemy przyspieszyć jakiś proces. Tymczasem sieć neuronowa, dzięki swoim właś­ciwościom, pozwala wykorzystać tego typu sprzęt do różnych celów”.

Kiedy kończono pracę nad chipem, Le i jego dwaj koledzy udowodnili w końcu, że sieci neuronowe można tak skonfigurować, by radziły sobie z językiem naturalnym. Wykorzystał metodę zwaną „reprezentacją wektorową słów” (ang. word embeddings), która jest znana od ponad 10 lat.

Kiedy tworzy się podsumowanie jakiegoś obrazka, można odgadnąć, co na nim jest na podstawie tego, jak wygląda każdy etap podsumowania – krawędź, okrąg itd. Kiedy w podobny sposób tworzy się podsumowania struktur językowych, w istocie buduje się wielowymiarowe, oparte na praktyce językowej, mapy odległości między danym słowem a każdym innym słowem w języku. Komputer nie „analizuje” danych tak jak my, za pomocą reguł gramatycznych, które pozwalają zidentyfikować niektóre z nich jako rzeczowniki, a inne jako czasowniki. Zamiast tego przesuwa, przekręca i odwraca słowa na mapie. Dwuwymiarowa mapa na nic się w tym przypadku nie przyda.

rys. Marek Raczkowski
rys. Marek Raczkowski

Na przykład pojęcie „kot” powinno się znaleźć w pobliżu pojęcia „pies”, ale również w bezpośrednim sąsiedztwie takich słów, jak „ogon”, „wyniosłość” i „mem”. Trzeba bowiem uwzględnić wszelkie możliwe relacje, zarówno mocne, jak i słabe, które zachodzą między „kotem” a innymi słowami. Mogą zachodzić równocześnie tylko wtedy, gdy relacje między wyrazem „kot” a innymi wyrazami zachodzą w różnych wymiarach. Trudno stworzyć mapę o 160 tys. wymiarów, ale okazuje się, że można stworzyć całkiem niezły model języka za pomocą około 1 tys. wymiarów – uniwersum, w którym każde słowo jest opisane za pomocą tysiąca liczb.

Długo musiałem prosić Le, by nakreślił mi jakiś obraz tych map. „Gideon – powiedział – nie bardzo mi się widzi wizualizowanie tysiąc­wymiarowych wektorów w przestrzeni trójwymiarowej”.

Okazało się, że niektóre wymiary w tej przestrzeni zdają się reprezentować typowo ludzkie kategorie, takie jak płeć czy względna wielkość. Jeśli wzięlibyśmy tysiąc liczb, które znaczą „król”, i dosłownie odjęli tysiąc liczb, które znaczą „królowa”, otrzymalibyśmy ten sam wynik co przy odejmowaniu liczb przypisanych „kobiecie” od liczb przypisanych „mężczyźnie”. Jeśli z kolei weźmiemy całą przestrzeń języka angielskiego i całą przestrzeń języka francuskiego, moglibyśmy – przynajmniej teoretycznie – wyszkolić sieć tak, by dla wybranego słowa z jednej przestrzeni umiała znaleźć odpowiednik z drugiej.

Musielibyśmy po prostu dostarczyć jej na wejściu dane w postaci miliardów zdań angielskich, a na wyjściu ich pożądane odpowiedniki w języku francuskim, po pewnym czasie sieć umiałaby rozpoznawać odpowiednie układy pośród słów, tak jak maszyna do identyfikowania obrazów znajdowała właściwe połączenia między pikselami. Można by wtedy dać jej zdanie po angielsku i poprosić, by przewidziała najlepszy francuski odpowiednik.

Między słowami a pikselami jest jednak taka różnica, że wszystkie piksele znajdują się od razu na obrazku, podczas gdy słowa pojawiają się kolejno w czasie. Musielibyśmy znaleźć sposób, by sieć „pamiętała” tę kolejność chronologicznie – całkowitą ścieżkę od pierwszego słowa do ostatniego.

W ciągu mniej więcej jednego tygodnia we wrześniu 2014 r. ukazały się trzy artykuły – jeden autorstwa Le i dwa napisane przez naukowców z Kanady i Niemiec – które w końcu dostarczyły wszystkich niezbędnych narzędzi teoretycznych. Dzięki tym pracom powstały otwarte projekty, takie jak Brain Magenta, którego zespół prowadzi badania nad tym, jak maszyny mogą generować obrazy i muzykę. Stworzyły również podstawę dla praktycznych rozwiązań, takich jak tłumaczenie maszynowe. Hinton powiedział mi, że był wtedy przekonany, że opracowanie takiego narzędzia zajmie jeszcze przynajmniej pięć lat.

6 Zasadzka na Tłumacza


Le wykazał w swoim artykule, że tłumaczenie neuronowe jest możliwe, ale wykorzystał względnie mały publiczny zbiór danych. (Mały jak na Google, ale właściwie była to największa tego rodzaju baza na świecie. Przez 10 lat istnienia starej wersji Tłumacza zgromadzono od 100 do 1000 razy więcej danych). Warto podkreślić, że model Le nie działał zbyt dobrze w przypadku zdań, które składały się z więcej niż siedmiu słów.

Pałeczkę przejął Mike Schuster, etatowy badacz w Google Brain. Wiedział, że jeśli firma nie znajdzie sposobu na przełożenie tych pomys­łów na poziom produkcyjny, zrobi to ktoś inny. Przez następne dwa lata pracował więc nad projektem. „Mogłoby się wydawać – powiedział Schuster – że aby coś przetłumaczyć, wystarczy wziąć dane i przeprowadzić trochę eksperymentów, ale to tak nie działa”.

Schuster to krzepki, skupiony mężczyzna w nieokreślonym wieku. Ma podłużną, opaloną twarz i wąs­kie ramiona. Nosi krótkie spodenki moro, wiązane pod kolanami, i jaskrawe zielone buty Nike Flyknits. Wygląda, jakby rano obudził się w pozycji lotosu, założył małe okulary bez oprawek z eliptycznymi szkłami, przyjął skromną porcję kalorii pod postacią konserwowanego żołędzia i w drodze do pracy zrobił na pustyni dziesięciobój.

Jak mi powiedział, jeździ jedynie na rowerze – 30 km w jedną stronę. Schuster dorastał w Duisburgu, w przemysłowej części byłego ­RFN-u. Potem studiował inżynierię elektryczną, a następnie wyjechał do Kioto, gdzie zajmował się pierwszymi sieciami neuronowymi. W latach 90. przeprowadzał eksperymenty z opartą na sieci neuronowej maszyną wielkości sali konferencyjnej. Kosztowała miliony dolarów i trzeba było szkolić ją tygodniami, żeby zrobiła to, co dzisiaj można zrobić w godzinę na komputerze domowym.

W 1997 r. opublikował artykuł, do którego w ciągu kolejnych 15 lat rzadko ktoś się odwoływał. Tylko w tym roku zacytowano ten tekst około 150 razy. Schuster nie jest pozbawiony poczucia humoru, ale bywa też szorstki – przypuszczam, że to połączenie niemieckiej powściągliwości z japońską powściągliwością.

Problemy, z którymi musiał zmierzyć się Schuster, były złożonej natury. Po pierwsze, kod – napisany przez Le – powstał na zamówienie i nie był kompatybilny z nową platformą uczenia maszynowego TensorFlow, którą Google wtedy tworzył na rozwiązaniach open source’owych. Jesienią 2015 r. do Schus­tera dołączyli – na polecenie Deana – dwaj inni inżynierowie: Yonghui Wu i Zhifeng Chen. Powtórzenie wyników Le w nowym systemie zajęło im dwa miesiące. Le był przez cały czas w pobliżu, ale nawet on nie do końca rozumiał, co do czego w ich programie służy.

Jak powiedział Schuster: „Niektóre elementy systemu tworzono bez pełnej świadomości. Sami nie do końca wiedzieli, dlaczego działały”.

W lutym dział badań Google’a, który zatrudnia około 1000 pracowników i zajmuje się poszukiwaniem nowych obszarów działalności oraz innymi, niedającymi się sklasyfikować sprawami, zorganizował dla kierowników spotkanie. Zjazd odbył się w hotelu Westin St. Francis przy Union Square w San Francisco. To obiekt nieco mniej luksusowy niż położone około półtora kilometra na wschód biura Google’a. Pierwsza część dnia upłynęła na krótkich prezentacjach dotyczących prowadzonych badań, a popołudnie zarezerwowano na nieoficjalne rozmowy między grupami badaczy. Zaciszne miejsce miało stworzyć okazję do nieprzewidzianej, niestandardowej wymiany informacji, podobnej do tych z laboratoriów Bell, które zapewniają rozwój dojrzałym firmom.

Podczas lunchu Corrado i Dean postanowili poszukać Macduffa ­Hughesa, dyrektora Tłumacza Google. Hughes jadł w samotności, dwóch pracowników Google Brain usiadło po obu jego bokach. Jak powiedział Corrado: „Wpadł w naszą zasadzkę”.

„No dobrze – Corrado zwrócił się do nieufnie nastawionego Hughesa i dla uzyskania efektu wstrzymał oddech. – Mamy ci coś do powiedzenia”.

Powiedzieli mu, że rok 2016 to dobry moment, żeby gruntownie przebudować Tłumacza i wymienić oprogramowanie, nad którym przez ponad 10 lat pracowały setki inżynierów, na sieć neuronową.

Stary system pracował w taki sposób, w jaki przez ponad 30 lat działały wszystkie systemy maszynowego tłumaczenia: wyodrębniał kolejne elementy zdania, sprawdzał znalezione wyrazy w specjalnej tabeli, która zawierała najczęściej występujące słownictwo, a na koniec przeprowadzał serię dodatkowych operacji, takich jak zamiana końcówek. W ten sposób całość zaczynała tworzyć sens. To podejście zwane jest „opartym na wyrażeniach statys­tycznym tłumaczeniem maszynowym”, ponieważ kiedy system dociera do kolejnej frazy, nie wie, jaka była poprzednia. To dlatego teksty przekładane przez Tłumacza wyglądały czasem jak zawartość potrząś­niętej torby z magnesami na lodówkę. Zmiana systemu zaproponowana przez członków zespołu Brain pozwoliłaby czytać i przetwarzać całe zdania za jednym zamachem. System odczytywałby kontekst – i chwytał coś w rodzaju sensu.

Stawka mogła wydawać się niska: Tłumacz Google generuje mały dochód i prawdopodobnie się to nie zmieni. Dla większości anglojęzycznych użytkowników nawet najbardziej radykalne zmiany nie byłyby niczym więcej jak tylko kolejną aktualizacją serwisu. Liczyło się coś innego. Tłumaczenie maszynowe zbliżone jakością do tłumaczenia ludzkiego to nie tylko doraźna konieczność poprawy jednego produktu, na dłuższą metę ma wielki potencjał transformacyjny. W najbliższej przyszłości jest to żywotnie ważne dla strategii biznesowej firmy.

Google szacuje, że połowa treści w Internecie jest w języku angielskim, którym mówi mniej więcej co piąty mieszkaniec planety. Jeśli firma chciałaby konkurować w Indiach albo na rynku chińskim – gdzie segment wyszukiwarek jest zdominowany przez jej konkurenta Baidu – sprawny system tłumaczenia maszynowego musiałby się stać integralną częścią jej całej infrastruktury. Sama firma Baidu poczyniła już pewne starania i w lipcu 2015 r. opublikowała własny przełomowy artykuł na temat neuronowego tłumaczenia maszynowego.

W dalszej perspektywie tłumaczenie maszynowe to prawdopodobnie pierwszy krok na drodze do stworzenia zaawansowanego narzędzia, które potrafi się posługiwać ludzkim językiem. Byłby to punkt zwrotny – być może najważniejszy – w rozwoju tego, co można by nazwać prawdziwą sztuczną inteligencją.

Większość ludzi pracujących w Dolinie Krzemowej była świadoma, że uczenie maszynowe to szybko zbliżający się horyzont, i Hughes też zdawał sobie z tego sprawę. Pozostawał jednak sceptyczny. Skromny, mocno zbudowany mężczyzna w średnim wieku, ze zmierzwionymi kasztanowatymi włosami siwiejącymi na skroniach, Hughes jest inżynierem w klasycznym stylu, i nawet gdyby firma stała nad przepaścią, jak ­Boeing w latach 70., on nie odszedłby na krok od swojej deski kreślarskiej.

Kieszenie jego dżinsów wyglądają tak, jakby wypełniały je dziwne narzędzia w rodzaju taśm mierniczych albo termoogniw. W przeciwieństwie do młodszych kolegów nie nosi ubrań związanych z produktami Google’a. Wiedział, że wiele osób w firmie i poza nią przez całe lata próbowało stworzyć mechanizm neuronowego tłumaczenia – nie w warunkach laboratoryjnych, lecz przemysłowych – ale wszystko z mizernym skutkiem.

Hughes wysłuchał Corrado i Dea­na, a potem ostrożnie zasugerował, że jeśli to wszystko wypali, to za jakieś trzy lata.

Dean był innego zdania. „Możemy się z tym uporać do końca roku, tylko każdy z nas musiałby wejść w to z głową”. Jednym z powodów, dla których Dean był tak bardzo lubiany i podziwiany, był fakt, że od dawna we wszystko „wchodził z głową”. Inna sprawa, że nie miał problemu z używaniem takich sformułowań jak „wchodzić z głową”.

Hughes był pewien, że w najbliższym czasie nie wymienią systemu, ale nie chciał osobiście stać się przeszkodą. „Nastawmy się na rok 2016 – powiedział po powrocie do swojego zespołu. – Nie zamierzam być tym, który będzie musiał oznajmić, że Jeff Dean nie zapewnił odpowiedniej prędkości”.

Miesiąc później przeprowadzili w końcu eksperyment, który pozwolił porównać nowy system Schus­tera ze starym systemem ­Hughesa. Schuster chciał wykonać tłumaczenie między językiem angielskim a francuskim, ale Hughes poradził mu, żeby zdecydował się na inną opcję. „Tłumaczenie z angielskiego na francuski – powiedział – jest tak dobre, że nie trzeba go poprawiać”.

Ale to było wyzwanie, któremu Schuster nie mógł się jednak oprzeć. Tłumaczenie maszynowe jest oceniane według punktacji BLEU, która porównuje je ze średnią wyciągniętą z różnych tekstów przetłumaczonych poprawnie przez człowieka. W tamtym czasie najlepsze wyniki w przekładach z angielskiego na francuski oscylowały w okolicy 20 punktów. Poprawa o 1 punkt była postrzegana jako spory sukces, poprawę o 2 punkty uważano za wybitną.

System neuronowy, który przetestowano na językach angielskim i francuskim, wykazał poprawę w stosunku do starego systemu o 7 punktów.

Hughes powiedział ludziom z zespołu Schustera, że w ciągu ostatnich czterech lat ich system nawet w częś­ci się tak nie poprawił.

W połowie marca Hughes wysłał do swoich pracowników e-mail.­ Wszystkie projekty prowadzone na starym systemie miały zostać natychmiast zawieszone.

7 Teoria zamienia się w produkt 


Do tej pory zespół tłumaczenia neuronowego liczył tylko trzy osoby – byli to Schuster, Wu i Chen – ale dzięki wsparciu ze strony ­Hughesa zespół zaczął się rozrastać. Spotykali się w czwartki o godz. 14.00 w narożnej sali budynku ­Google Brain, który nazywał się Quartz Lake (Jezioro Kwarcowe). Spotkania prowadził Schuster. W każdym uczestniczyli różni pracownicy, zwykle przychodziło ich kilkunastu. Kiedy pojawiali się Hughes lub Corrado, byli jedynymi, dla których angielski był językiem rodzimym. Inżynierowie mówili po chińsku, wietnamsku, polsku, rosyjsku, arabsku, niemiecku i japońsku, między sobą posługiwali się swoistym żargonem – zbitkami językowymi i językiem matematyki. W Google’u nie zawsze wiadomo, kto prowadzi spotkanie, ale w przypadku Schustera sprawa była oczywista.

Nikt tak naprawdę nie wiedział, jakie kolejne kroki trzeba podjąć. „To historia olbrzymich wątpliwoś­ci – wątpliwości przenikających cały proces – powiedział mi któregoś razu Schuster – oprogramowanie, dane, sprzęt, ludzie… To było – rozłożył swoje długie, smukłe ręce, lekko uginając je w łokciach – jak pływanie w wielkim morzu błota i – wyciągnął dłoń na odległość 20 cm od klatki piersiowej – tylko tyle byliśmy w stanie zobaczyć. Gdzieś jest nasz cel, być może właśnie tam”.

Większość sal konferencyjnych w Google’u ma sprzęt do wideo­konferencji. W trybie czuwania monitory pokazują wysokiej jakości zdjęcia z Google Plus, np. leśny kraj­obraz, zorzę polarną albo budynek Reichstagu. Schuster wskazał jeden­ z paneli, na którym znajdował się wyglądający jak kryształ pomnik Waszyngtona w nocy.

„Z zewnątrz wygląda to tak, jakby każdy z nas miał lornetkę i widział daleko przed siebie”.

Prowadzone dotąd badania były żmudne i wyczerpujące, ale przekształcenie teorii w realny produkt wcale nie okazało się łatwiejsze – to etap, kiedy naukowcy akademiccy zwykle machają ręką, bo nie chcą się zajmować „zwykłą” inżynierią. Przede wszystkim musieli mieć pewność, że pracują na dobrych danych. Miliardy słów, które były wykorzystywane przez Google do nauki „czytania”, w większości zostały wybrane z pełnych zdań średnio złożonych, takich jakie można znaleźć u Hemingwaya. Część jest w domenie publicznej, np. zbiór – który można nazwać kamieniem z Rosetty tłumaczeń maszynowych – milionów stron kompletnych dwujęzycznych (angielsko-francuskich) stenogramów udostępnionych przez parlament kanadyjski.

Wiele zaczerpnięto także z two­rzonej przez 10 lat bazy danych, która obejmowała tłumaczenia nad­syłane przez skwapliwych respondentów wolontariuszy. Zespół miał na swoich dyskach około 97 mln unikatowych „słów” w języku angielskim. Kiedy usunięto emotikony, błędy ortograficzne i powtórzenia, uzyskano słownik, który zawierał zaledwie około 160 tys. wyrazów.

Trzeba było też sprawdzić, co zwykli użytkownicy Tłumacza chcą właściwie tłumaczyć, bo często ma to niewiele wspólnego z rzeczywistym językiem. Wielu ludzi zagląda do serwisu nie po to, by tłumaczyć pełne, złożone zdania – przekładają raczej jakieś dziwne fragmenty. Jeśli miałaby powstać sieć radząca sobie ze strumieniem zapytań ze strony użytkowników, trzeba by ją w tę stronę ukierunkować. Sieć była bardzo wrażliwa na dane, na których ją szkolono. Jak zaznaczył któregoś razu Hughes: „System tłumaczenia neuronowego chłonie wszystko jak dziecko. »O, to jest słowo, które wypowiada tata, kiedy jest wściekły« ­
– zaśmiał się. – Trzeba uważać”.

Najbardziej jednak zależało im na tym, aby wszystko działało na tyle szybko i sprawnie, żeby użytkownicy nawet się nie zorientowali, że wprowadzono jakieś zmiany. W lutym przetłumaczenie zdania składającego się z 10 słów zajmowało 10 s. Nie chcieli uruchamiać tak powolnego narzędzia. Zespół Tłumacza po kryjomu zaczął przeprowadzać eksperymenty na wybranych użytkownikach i w sztuczny sposób wywoływać opóźnienia. Celem było sprawdzenie cierpliwości internautów. Badacze odkryli, że jeśli tłumaczenie trwa dwa, a nawet pięć razy dłużej, użytkownik tego nie zauważa. Ale przy ośmiokrotnym spowolnieniu już zauważy różnicę.

Nie musieli sprawdzać, czy ta reguła dotyczy wszystkich języków. W przypadku języków o dużym natężeniu ruchu w sieci, np. francuskiego lub chińskiego, nie mogli sobie pozwolić na spowolnienie. Jednocześ­nie zdawali sobie sprawę, że użytkownicy są gotowi nieco poczekać, jeśli jakość przekładu będzie lepsza. Zespół chciał uniknąć sytuacji, w której internauci zniechęcają się i odchodzą do konkurencji.

Schuster nie wiedział, czy kiedykolwiek będą w stanie stworzyć wystarczająco szybką sieć. Pamięta, jak kiedyś w kuchni zwrócił się do Chena: „Musi być coś, co pozwoliłoby zapewnić systemowi wystarczającą prędkość, ale nie mam pojęcia, co to mogłoby być”.

Wiedział jednak, że potrzebują więcej komputerów do uczenia – procesorów graficznych przekonfigurowanych na sieci neuronowe.

Hughes zwrócił się do Schustera z prośbą o opinię: „Czy powinniśmy poprosić o tysiąc procesorów graficznych?”. Schuster odpowiedział: „Dlaczego nie dwa tysiące?”.

Dziesięć dni później mieli już 2 tys. dodatkowych procesorów.

Do kwietnia 3-osobowy zespół rozrósł się do 30 osób – niektóre z nich, tak jak Le, przyszły z działu Google Brain, wiele innych – z Tłumacza. W maju Hughes przydzielił do każdej pary języków kogoś w rodzaju tymczasowego właściciela. Wprowadzali swoje wyniki do dużego wspólnego arkusza ocen. W każdej chwili co najmniej 20 osób przeprowadzało niezależne eksperymenty tygodniowe i rozwiązywało wykryte problemy. Pewnego dnia model bez wyraźnego powodu zaczął odrzucać znajdowane w zdaniach liczby. Przez całe miesiące system niedomagał. Jak powiedział Schuster: „Ludzie rwali sobie włosy z głowy”.

Pod koniec wiosny wszystko zaczęło się składać w całość. Zespół uruchomił narzędzia, które nazwano „modelem części” (ang. word-piece model), „doborem sekwencji” (ang. coverage penalty) i „regulatorem długości” (ang. length normalization). Każda z nich, jak mówił Schuster, poprawiała wyniki o zaledwie kilka punktów procentowych, ale razem dawały już znaczący efekt. Gdy model został ujednolicony, stał się raczej jednym wielojęzykowym modelem, który z czasem się udoskonalał, a nie 150 różnymi modelami używanymi przez Tłumacza.

Mimo to wciąż pozostawał do rozwiązania paradoks – narzędzie, które zostało zbudowane do automatyzacji uczenia maszynowego, cały czas wymagało ogromnego wkładu ludzkiego wysiłku i inwencji. Także i instynktowi. Z ilu neuronów w obrębie warstwy trzeba skorzystać? Z 1024 czy 512? Z ilu warstw? Ile zdań można przerobić za jednym razem? Jak długo szkolić maszynę?

„Przeprowadziliśmy setki eksperymentów – powiedział mi Schuster – zanim się zorientowaliśmy, że mogliśmy przerwać naukę po tygodniu. Nie wiedzieliśmy, kiedy się zatrzymać. I czy dotychczasowe próby wystarczą. Mechanizm uczenia maszynowego nigdy nie jest doskonały. Trzeba uczyć system i w pewnym momencie należy tę naukę zakończyć. To bardzo bolesny i trudny aspekt tej pracy. Bo to trochę jak w sztuce – bierzesz pędzel i poprawiasz, i poprawiasz, żeby było ładnie. Chodzi o sam akt. Jedni są w tym lepsi, a inni gorsi”.

W maju zespół Brain wiedział już, że jeśli system ma być wystarczająco szybki, by można było go wykorzystać w produkcji, musi działać na procesorach TPU, czyli na chipach, o których mówił Dean.

Jak ujął to Chen: „Nie wiedzieliśmy nawet, czy ten kod zadziała. Wiedzieliśmy jednak, że bez procesorów na pewno nie zadziała”. Ciąg­le chodził do Deana i błagał: „Proszę, zarezerwuj je dla nas”. I Dean zarezerwował. Procesory nie zadziałały jednak natychmiast. Przez dwa miesiące Wu razem ze specem z działu technicznego zastanawiali się, w czym problem. Szukali błędów nie tylko w modelu, również w chipie. Jeśli system tłumaczenia neuronowego by zadziałał, byłoby w końcu wiadomo, że infrastrukturalna zmiana w całej firmie ma sens.

rys. Marek Raczkowski
rys. Marek Raczkowski

Pewnej czerwcowej środy spotkanie w Quartz Lake zaczęło się od szeptanki na temat tekstu opublikowanego niedawno przez Baidu na branżowym forum internetowym. Schuster poprosił o spokój. „Tak, Bai­du opublikowało artykuł. Wygląda na to, że ktoś nam zerka przez ramię – podobna architektura, podobne wyniki”. W punktacji BLEU wyniki mieli dokładnie takie, jakie osiągnął ­Google w wewnętrznych testach przeprowadzanych w lutym i marcu. Le nie wydawał się wzburzony. Według niego był to znak, że Google zmierza w dobrym kierunku. „Mają system bardzo podobny do naszego” – przyznał z pewną aprobatą.

Zdawali sobie sprawę, że mog­li wcześniej opublikować wyniki i w ten sposób zdystansować konkurencję, ale jak mówił Schuster: „Najważniejsze, żeby wszystko działało. Niektórzy wołają »Hej, byliśmy pierwsi«, ale na końcu jakie to ma znaczenie?”.

Teraz wiedzieli już, że muszą uruchomić system, zanim zrobią to inni. I musi być lepszy. Hughesowi marzyło się, by w ogóle nie informować użytkowników o zmianie. Zespół po prostu czekałby i obserwował, jak media społecznościowe zaczynają huczeć od plotek, a internauci sami zauważają poprawę jakości.

„Nie chcemy jeszcze zdradzać, że to nowy system – powiedział mi o godz. 17.36, dwa dni po amerykańskim Święcie Pracy [pierwszy poniedziałek września], minutę przed tym, jak uruchomił tłumaczenia z chińskiego na angielski dla 10% użytkowników, nikomu o tym nie mówiąc. – Chcemy być pewni, że wszystko działa. Najlepiej byłoby, gdyby na Twitterze nagle zaczęły pojawiać się wpisy: »Spójrzcie, jak niesamowity stał się Tłumacz Google!«”.

8 Świętowanie


W Dolinie Krzemowej, gdzie pory roku prawie się od siebie nie różnią, są tylko dwa sposoby odmierzania czasu: po pierwsze, za pomocą sezonowych owoców w mikrokuchni – od śliwomoreli latem po azjatyckie gruszki i owoce persymony na początku jesieni – a po drugie, za pomocą wykresu przedstawiającego zmiany technologiczne. Pod koniec września zespół opublikował wreszcie swój artykuł. Podpisało się pod nim, co dosyć zabawne, 31 autorów. Następnego dnia pracownicy Tłumacza i Brain postanowili skromnie uczcić ten sukces w mikrokuchni w dziale Tłumacza. Sale w budynku Google Brain, prawdopodobnie z powodu długich zim, jakie u nich panują, noszą nazwy nawiązujące do Alaski. W budynku Tłumacza dominujący motyw to Hawaje.

W hawajskiej mikrokuchni wisi rozpikselowane zdjęcie plaży. Jest otoczony strzechą i girlandami blat, z wypchaną papugą na środku, u sufitu wiszą lampy, które robią za papierowe lampiony. Wzdłuż rozmieszczono dwa rzędy bambusowych pali, przypominające histogramy albo źle broniony fort. Za nimi widać szklane ściany i drzwi, za którymi znajdują się rzędy identycznych szarych biurek po obu stronach. Tego ranka z okazji 10-lecia Tłumacza do firmy przywieziono nowe bluzy z kapturami i wielu członków zespołu, którzy właśnie wstali od biurek, miało już je na sobie. Pretekstem do spotkania był fakt, że system, nad którym pracowali przez 10 lat, odchodzi właśnie na emeryturę. Być może w innej instytucji panowałaby atmosfera minorowa, ale inżynierowie i informatycy z obu zespołów wydawali się zadowoleni.

Tłumaczenie neuronowe stworzone przez Google w końcu zadziałało. Do czasu imprezy chińsko-angielski test zdążył przerobić 18 mln zapytań. Jeden z inżynierów z zespołu Tłumacza chodził w kółko ze swoim telefonem, próbując przełożyć całe zdania z chińskiego na angielski za pomocą konkurencyjnego Baidu. Podchodził rozradowany do kolejnych osób – „Zawiesza się, jeśli się wprowadza jednocześnie więcej niż dwa znaki!”. (Baidu twierdzi, że użytkownicy nigdy nie zgłosili takiego problemu).

Kiedy w ciągu następnych tygodni rozniosła się wieść, że Google uruchomił neuronowe tłumaczenie jedynie z chińskiego na angielski, wysuwano przypuszczenia, że tylko w przypadku tej pary języków udało się uzyskać zadowalające wyniki. Ale uczestnicy imprezy wiedzieli, że rzeczywisty rozmiar ich osiągnięcia świat pozna dopiero w listopadzie. Do tego czasu wielu z nich będzie już pracować przy innych projektach.

Hughes odchrząknął i stanął przed tiki barem. Miał na sobie wyblakłe zielone polo ze zmiętym kołnierzykiem i ciemnymi śladami potu w okolicach klatki piersiowej. Do ostatniej chwili borykali się z jakimiś problemami, a potem – z jeszcze innymi. Okazało się na przykład, że do artykułu wkradł się duży błąd pomiarowy. Z kolei w samym systemie znaleźli błąd związany z interpunkcją. Ale teraz wszystko już działało – lub przynajmniej działało zadowalająco na tę chwilę.

W sali zrobiło się cicho. Hughes prowadził zwykle efektywne i produktywne spotkania, nie pozwalając, by ich uczestnicy zbaczali z tematu, ale powaga chwili sprawiła, że wstrzymał głos. Przyznał na wstępie, że być może to, co powie, będzie dosyć metaforyczne. Chce jednak podkreślić, że projekt tłumaczenia neuronowego to wynik „współpracy między grupami, które mówią różnymi językami”.

„Projekt tłumaczenia neuronowego – kontynuował – to »funkcja przejścia na kolejny poziom«, czyli coś w rodzaju pionowego skoku, a nie łagodnego przejścia. Udało się przełożyć idee jednej grupy na język drugiej, a także – teorię na rozwiązania praktyczne”. Hughes podniósł plastikowy kieliszek wypełniony czymś, co wyglądało na drogiego szampana.

„Za komunikację – powiedział. ­
– I za współpracę!”

Zgromadzeni inżynierowie zaczęli wznosić toasty.

Jeff Dean stał mniej więcej w środkowej części mikrokuchni, z rękami w kieszeniach i ramionami lekko wysuniętymi przed siebie. Byli z nim Corrado i Schuster. Dean powiedział, że skoro atmosfera się rozluźniła, podzieli się pewną obserwacją. Zrobił to w charakterystyczny dla siebie sposób, szybko i zwięźle.

„Tak naprawdę udowodnili jedynie – oznajmił Dean – że potrafią robić dwie istotne rzeczy naraz: przeprowadzać badania i dzielić się nimi, bo ja wiem, z połową miliarda ludzi”.

Wszyscy się zaśmiali, ale nie dlatego, że przesadził. Raczej dlatego, że była w tym szczera prawda.

Epilog

Maszyny bez duchów

Prawdopodobnie najsłynniejsza historyczna krytyka sztucznej inteligencji, czy bardziej postulatów formułowanych na jej konto, implikuje pytania o tłumaczenia.

Amerykański filozof z Berkeley John Searle zaproponował tzw. argument chińskiego pokoju. W tym eksperymencie myślowym osoba władająca tylko językiem angielskim siedzi samotnie w celi. Niewidoczny strażnik podaje jej przez szczelinę w drzwiach kartki papieru, na których znajdują się chińskie znaki. Więzień otrzymuje zestaw tablic i instrukcji po angielsku, w jaki sposób powinien konstruować odpowiedzi. Na tyle udaje mu się opanować te reguły, że niebawem jego odpowiedzi „są zupełnie nieodróżnialne od tych, które formułują osoby biegle władające chińskim”.

Czy można powiedzieć o nieszczęsnym więźniu, że „rozumie” ten język? Searle uważał oczywiście, że nie. Ta metafora – twierdził – unieważnia głośną tezę, że „odpowiednio zaprogramowany komputer z właściwymi wejściami i wyjściami miałby umysł dokładnie w takim samym sensie, w jakim mają go ludzie”.

Dla członków zespołu Google Brain, lub może nawet dla każdego z Doliny Krzemowej, kto zajmuje się uczeniem maszynowym, ten pogląd mijał się z istotą problemu. Nie oznacza to, że całkowicie pomijają problem filozoficzny. Mają po prostu fundamentalnie inne wyobrażenie o umyśle.

W przeciwieństwie do Searle’a nie uważają, że „świadomość” jest jakimś wyjątkowym sakralnym atrybutem psychicznym – który filozof Gilbert Ryle nazywał „duchem w maszynie”. Według nich złożony zestaw umiejętności, który nazywamy „świadomością”, wyłonił się w przypadkowy sposób ze skoordynowanej aktywności wielu prostych mechanizmów. Wniosek jest taki, że to, co uznajemy za wyższe rejestry myśli, nie różni się od tego, co chcielibyśmy postrzegać jako niższe rejestry.

Rozumowanie logiczne jest w tym wypadku traktowane jako rodzaj korzystnej adaptacji, podobnie jak zdolność rzucania i łapania piłki. W sztucznej inteligencji nie chodzi o to, żeby skonstruować umysł, lecz by ulepszyć narzędzia, które pozwalają rozwiązywać problemy. Kiedy po raz pierwszy pojawiłem się w siedzibie Google’a, Corrado powiedział mi: „To nie jest kwestia zdobywania przez maszynę »wiedzy« lub »rozumienia« przez nią czegokolwiek, tylko tego, co ona »robi«, a co ważniejsze – czego jeszcze nie robi”.

Jeśli się zastanowić nad różnicą między „rozumieniem” a „działaniem”, pojęcia te są zakorzenione społecznie i kulturowo. Podczas imprezy Schuster podszedł do mnie, by wyrazić rozgoryczenie związane z tym, jak ich artykuł został odebrany przez media. „Widziałeś pierwsze reakcje dziennikarzy?” – zapytał. Wyrecytował poranny nagłówek, wyraźnie podkreślając każde słowo: „Google twierdzi, że tłumaczenia dokonane przez sztuczną inteligencję i przez człowieka są nierozróżnialne”. Zespół zmagał się z tym problemem w ciągu ostatnich tygodni prac nad artykułem. Schuster często powtarzał, że przesłanie artykułu jest następujące: „System tłumaczy o wiele lepiej niż dotąd, ale wciąż nie tak dobrze jak człowiek”. Chciał, by wszyscy zrozumieli, że Google nie chce zastąpić człowieka, lecz jedynie zapewnić mu wsparcie.

A jednak rozwój uczenia maszynowego sprawia, że jest nam coraz trudniej utrzymać wyjątkową pozycję człowieka. Jeśli ktoś myśli, podobnie jak Searle, że istnieje jakiś ludzki „pierwiastek”, to wyraźną linią odgraniczy to, co ludzkie, od tego, co mechaniczne. Jeśli ktoś zgadza się z przeciwnikami Searle’a, to wie, że wyznaczenie takiej granicy jest niemożliwe. Nic dziwnego, że tylu ludzi trzyma się kurczowo starej perspektywy. W 2015 r. podczas konferencji w Massachusetts Institute of Technology na temat korzeni sztucznej inteligencji zapytano Noama Chomskiego, co myśli o uczeniu maszynowym. Wyśmiał całe przedsięwzięcie i nazwał je zwykłym statystycznym przewidywaniem, wyniesioną na piedestał prognozą pogody.

Nawet jeśli tłumaczenie neuronowe osiągnęło etap, w którym działa doskonale, system nigdy nie sformułuje żadnego ważnego twierdzenia na temat natury języka. Nie będzie wiedział, czy zaimek jest w celowniku, czy w bierniku. Określi końcówki, ale nie odpowie na pytanie, dlaczego rzeczy dzieją się w taki sposób, w jaki się dzieją. Maszyna może już wykrywać guzy na kliszach rentgena lepiej niż radiolodzy, ale nie powie, co jest przyczyną nowotworu.

Z drugiej strony: czy radiolog to potrafi?

Diagnostyka medyczna jest dziedziną, w której zagrożenia związane z uczeniem maszynowym wydają się szczególnie duże. Radiolodzy to osoby doskonale wyszkolone i świetnie opłacane, a ich pracę uważamy za wyjątkową właśnie dzięki wyższym funkcjom umysłowym. W zeszłym roku badacze wykazali jednak, że sieci neuronowe nie tylko potrafią znajdować guzy na kliszach o wiele szybciej niż ludzie, lecz także mogą nawet stawiać diagnozy na podstawie raportu patologicznego. Okazuje się, że to, co robią radiolodzy, bardziej przypomina rozpoznawanie na podstawie dopasowania do wzoru niż logiczną analizę. Radiolodzy nie mówią, co wywołało raka. Jedynie stwierdzają, że dana osoba zachorowała.

Narzędzie stworzone do dopasowywania do wzorów może zostać wykorzystane do innych zadań. Pewien inżynier z zespołu Tłumacza przebudował sieć, która służyła do oceny dzieł malarskich, i wykorzystał ją do zdalnej nawigacji samochodu.

System, który został zbudowany do rozpoznawania kotów, może zostać przekonstruowany do badania skanów tomografii komputerowej – i do nieskończenie wielu innych celów, o których nie śniło się najlepszym lekarzom.

Sieć neuronowa, stworzona do tłumaczenia, mogłaby w ułamku sekundy przewertować miliony stron dokumentacji prawnej, co normalnie wymagałoby zatrudnienia najdroższych prawników.

Rodzaje prac wykonywanych przez automaty nie będą się już ograniczały do powtarzalnych zadań, które dotąd – trzeba podkreślić, że niesprawiedliwie – kojarzono z pozornie niższą inteligencją pracowników bez wykształcenia. Nie mówimy jedynie o 3,5 mln kierowców ciężarówek, którzy wkrótce mogą stracić pracę. Mowa o menedżerach magazynów, doradcach finansowych czy agentach nieruchomości. Sukces, osiągnięty w 9 miesięcy przez zespół Brain, to tylko przykład tego, jak szybko mała grupa osób w dużej firmie może zautomatyzować zadania, których dotąd nikt nie kojarzył z maszynami.

W Dolinie Krzemowej najważniejszy nie jest w tej chwili przełom, zmiana sposobu myślenia. Raczej tworzenie instytucji i łączenie sił – w skali i tempie, które w historii ludzkości nie mają precedensu.

Google Brain zatrudnia stażystów, stałych pracowników, a także zastępy „ninja”, którzy szkolą ludzi w innych działach. Wszędzie są kosze z kaskami rowerowymi, zielone parasole na te jedyne dwa dni deszczowe w roku, sałatki owocowe, kosze do drzemki, bieżnie, fotele masujące, kartoniki z najlepszymi ciastkami, punkty zbiórki na ubrania dla dzieci, dwupiętrowe ścianki wspinaczkowe, przy których o ustalonych porach pojawiają się instruktorzy, kółka czytelnicze, prelekcje o polityce firmy, a także różnorodne grupy wsparcia. Odbiorcy tych profitów – ponieważ to coś więcej niż dodatki dla cyfrowych górników z wirtualnej kopalni soli – zarządzają skomplikowaną siecią serwerów, które znajdują się w 13 centrach danych na czterech kontynentach, zużywających tyle energii elektrycznej, ile potrzeba do oświetlenia wielkich miast.

Fala automatyzacji nie ominie zapewne nawet tak wielkich firm, jak Google. Kiedy maszyny mogą uczyć się ludzkiego języka, zagrożeni są również programiści. Gdy impreza w tiki barze miała się ku końcowi, pewien inżynier z Tłumacza przyniósł laptopa, by pokazać coś Hughesowi. Na ekranie wirowała i pulsowała dynamiczna animacja niczym z kalejdoskopu. Jaskrawe, kolorowe obiekty krążyły po orbitach, co chwila pojawiając się i znikając pośród mgławic.

Hughes od razu odgadł, co było na animacji, ale ja musiałem podejść bliżej, by dostrzec wirujące nazwiska i nazwy plików. Animacja przedstawiała 10-letnią historię tworzenia kodu Tłumacza i odnotowywała każdy najmniejszy epizod. Hughes powoli przewinął animację z roku 2006 na 2008 i 2015, zatrzymując się czasem, by wspomnieć jakąś odległą kampanię, jakiś dawny triumf albo porażkę, która za moment ustępowała miejsca nowemu zdarzeniu lub po prostu znikała. Zwrócił uwagę, jak często pojawiało się nazwisko Jeffa Deana, tu i tam, pośród błyszczących sfer.

Hughes zawołał Corrado i stali jak zaczarowani. By przerwać tę melancholijną chwilę, Corrado, który miał trochę niewyraźną minę, podniósł wzrok i zapytał: „To jak? Kiedy to kasujemy?”.

„Nie martw się – odparł Hughes.­
­­– Nowy kod też się rozrośnie. Wszystko się rozrasta”.

 

Tłumaczył Marcin Orliński

Tekst ukazał się w wydaniu niedzielnym „New York Timesa” 18 grudnia 2016 r.

rys. Marek Raczkowski
rys. Marek Raczkowski

1) Tłumacz Google nie wprowadził jeszcze zmian, o których mowa w artykule, dla języka polskiego, dlatego zdecydowałem się zostawić przykładowe teksty w oryginale [przyp. tłum.].

2) „Kilimandżaro to pokryta śniegiem góra wysokości 19 710 stóp, o której powiadają, że jest najwyższa w Afryce. Szczyt zachodni znany jest pod nazwą ‚Ngàje Ngài’, czyli Dom Boga. Tuż pod zachodnim szczytem leży wyschnięty i zamarznięty szkielet lamparta. Nikt nie potrafił dotąd wytłumaczyć, czego mógł szukać lampart na tak wielkiej wysokości” (Ernest Hemingway, Śniegi Kilimandżaro, przeł. M. Michałowska, Państwowy Instytut Wydawniczy, Warszawa 1956).

Data publikacji: