Blog JSystems - uwalniamy wiedzę!

Szukaj

Rozmawiasz z AI jak z człowiekiem: zadajesz pytanie, dostajesz sensowną odpowiedź, czasem nawet żart. Ale po drugiej stronie nie siedzi żaden człowiek i nie kryje się tam żadna świadomość. Co więc naprawdę się dzieje? W tym artykule rozłożymy to na czynniki pierwsze i pokażemy Ci — obrazowo, bez wzorów i bez żargonu — jak model językowy (w skrócie LLM, od angielskiego large language model, czyli „duży model językowy”) zamienia Twoje pytanie w odpowiedź.

Jedno zastrzeżenie na start: kluczowe liczby i przykłady poniżej — podział zdania na tokeny, prawdopodobieństwa słów, mapa znaczeń czy mechanizm uwagi — pochodzą z prawdziwego modelu językowego, który uruchomiliśmy specjalnie na potrzeby tego artykułu. To nie są ilustracje „mniej więcej”, tylko jego autentyczne wyniki.

Z tego artykułu dowiesz się:

  • na czym polega „jedna sztuczka”, którą AI powtarza, żeby z Tobą rozmawiać;
  • czym są tokeny i dlaczego komputer nie widzi słów, tylko liczby;
  • jak słowa zyskują znaczenie i skąd AI „wie”, że pies przypomina kota, a nie samochód;
  • skąd bierze się cała wiedza modelu i dlaczego czasem pewnie zmyśla;
  • dlaczego rozmowa z AI do złudzenia przypomina rozmowę z człowiekiem.
Sześć etapów, przez które przechodzi Twoje pytanie w modelu LLM: tekst, tokeny, znaczenia, uwaga, prawdopodobieństwa i wybór słowa — powtarzane w pętli aż do gotowej odpowiedzi.
Cała droga od pytania do odpowiedzi w jednym obrazku. Każdy z tych etapów rozłożymy niżej na czynniki pierwsze.

Wielki sekret: AI nie „myśli” — zgaduje następne słowo

Zacznijmy od najważniejszej rzeczy, która zburzy część wyobrażeń o AI. Pod całą tą inteligencją kryje się jedna, zaskakująco prosta czynność: model patrzy na tekst, który ma do tej pory, i zgaduje, jakie słowo powinno paść jako następne. Potem dokłada to słowo i zgaduje kolejne. I jeszcze raz. I jeszcze raz, aż powstanie cała odpowiedź. To wszystko.

Brzmi znajomo? Bo tę samą sztuczkę masz w telefonie. Gdy piszesz wiadomość, klawiatura podpowiada następne słowo. LLM robi dokładnie to samo, tylko na zupełnie innym poziomie zaawansowania.

Animacja: klawiatura telefonu podpowiada następne słowo, użytkownik wybiera, pojawia się kolejna podpowiedź — tak słowo po słowie powstaje zdanie. LLM działa tak samo, tylko w gigantycznej skali.
Podpowiadarka w telefonie patrzy na ostatnie słowo. LLM bierze pod uwagę całą rozmowę i ogrom tekstów, które „przeczytał” — dlatego jego „podpowiedź” brzmi jak żywy człowiek.

Cała reszta tego artykułu to odpowiedź na jedno pytanie: jak to możliwe, że zwykłe „zgadywanie następnego słowa” daje coś, co potrafi napisać maila, wytłumaczyć trudny temat i odpowiedzieć na Twoje pytanie? Rozłóżmy to krok po kroku.

Krok 1: komputer nie widzi słów, tylko liczby (tokeny)

Pierwsza przeszkoda jest banalna, a kluczowa: komputer nie rozumie liter ani słów. Operuje wyłącznie na liczbach. Dlatego zanim model cokolwiek zrobi z Twoim pytaniem, musi pociąć je na kawałki i każdemu przypisać numer. Te kawałki to tokeny: czasem całe słowo, a czasem tylko jego fragment.

Animacja: zdanie 'Najlepsze szkolenia IT i AI tylko w JSystems!' zostaje pocięte na 14 kolorowych tokenów, każdy z własnym numerem ze słownika.
Prawdziwy podział tym samym tokenizatorem, którego używa ChatGPT. Zdanie rozpada się na 14 tokenów, a każdy dostaje swój numer.

Zwróć uwagę na ciekawą rzecz: token to nie zawsze całe słowo. Częste słowa (jak „i” czy „w”) bywają jednym tokenem, a rzadsze rozpadają się na kawałki. Słowo „Najlepsze” model widzi jako cztery osobne kawałki, a krótkie zdanie „Kot siedzi na macie” — jako siedem tokenów:

Zdanie 'Kot siedzi na macie' rozłożone na 7 tokenów z numerami: Kot, sied, zi, na, mac, ie, kropka. Słowo 'siedzi' to dwa tokeny, 'macie' też.
Cztery słowa, a siedem tokenów. „Siedzi” to sied + zi, a „macie” to mac + ie. Dla modelu to po prostu ciąg numerów.

Od tej chwili model nie ma już do czynienia ze słowami, tylko z ciągiem liczb. Cała magia, którą za chwilę zobaczysz, dzieje się właśnie na tych liczbach.

Krok 2: skąd słowa biorą znaczenie (mapa znaczeń)

Sam numer tokenu nic jeszcze nie znaczy — „Warszawa” mogłaby mieć numer 5, a „herbata” numer 6, choć nie mają ze sobą nic wspólnego. Dlatego model robi drugi, sprytny krok: każdemu tokenowi nadaje miejsce w ogromnej „przestrzeni znaczeń”. Mówiąc technicznie, zamienia go na długą listę liczb. Taką listę nazywamy wektorem (albo zanurzeniem, po angielsku embedding). Najważniejsze jest to, co z tego wynika: słowa o podobnym znaczeniu lądują blisko siebie.

Najlepiej zobaczyć to na mapie. Poniżej rzut tej przestrzeni na płaszczyznę: prawdziwe pozycje słów wyliczone przez model. Nikt mu nie powiedział, co to zwierzę czy kraj; sam ułożył tę mapę, czytając teksty:

Mapa znaczeń: prawdziwy rzut wektorów słów na płaszczyznę. Zwierzęta (kot, pies, koń) skupione po jednej stronie, kraje i miasta (Polska, Warszawa, Niemcy, Berlin) po drugiej, napoje (kawa, herbata) osobno.
Każde słowo to punkt. Zwierzęta zebrały się razem, kraje i miasta po swojej stronie, napoje osobno. Im bliżej dwa punkty, tym bardziej podobne znaczeniowo słowa.

To właśnie dzięki tej mapie model „wie”, że pies przypomina kota, a nie samochód. Bliskość da się nawet zmierzyć liczbą od 0 (zupełnie różne) do 1 (to samo). Oto kilka prawdziwych pomiarów. Zwróć uwagę, jak ładnie pasują do intuicji:

Wykres podobieństwa par słów: Warszawa i Polska 0.93, kot i pies 0.68, kawa i herbata 0.66 (blisko, podobne), kot i Warszawa 0.42, kawa i samochód 0.40 (daleko, różne).
„Warszawa” i „Polska” są niemal nierozłączne (0,93), „kot” i „pies” blisko, a „kot” i „Warszawa” już daleko. Tak właśnie wygląda „rozumienie” podobieństwa zapisane liczbami.

Skoro znaczenia to liczby, można je dodawać i odejmować

Teraz robi się naprawdę ciekawie. Skoro każde słowo to zestaw liczb, to te liczby można dodawać i odejmować jak w matematyce, a wychodzą z tego sensowne rzeczy. Zadaliśmy modelowi zagadkę: „czym dla Niemiec jest to, czym Warszawa jest dla Polski?”. W języku wektorów to po prostu Warszawa minus Polska plus Niemcy. Odpowiedź modelu, bez żadnej podpowiedzi z naszej strony:

Animacja: równanie na wektorach słów. 'król minus mężczyzna plus kobieta' daje w wyniku 'królowa' z podobieństwem 0.81. Wcześniej 'Warszawa minus Polska plus Niemcy' daje 'Berlin'.
Prawdziwy wynik na wektorach. „Warszawa - Polska + Niemcy” wskazuje Berlin, a „król - mężczyzna + kobieta” wskazuje królową. Nikt tego nie zaprogramował — to po prostu geometria mapy znaczeń.

To nie sztuczka ani przypadek. To pokazuje, że model naprawdę uchwycił coś z sensu słów: relacja „stolica swojego kraju” czy „żeńska wersja” jest w tej przestrzeni konkretnym kierunkiem, którym można się przesunąć.

Krok 3: skąd model wie, które słowo jest następne (prawdopodobieństwa)

Wróćmy do głównej sztuczki: zgadywania następnego słowa. Jak model dokonuje wyboru? Nie wskazuje jednego słowa. Zamiast tego każdemu możliwemu słowu nadaje szansę — liczbę mówiącą, jak bardzo tu pasuje. Potem losuje spośród nich, częściej sięgając po te z najwyższym wynikiem. Spójrz na prawdziwe szanse policzone przez model dla zdania „Stolicą Polski jest...”:

Animacja: słupki prawdopodobieństwa następnego słowa. Dla 'Stolicą Polski jest' wygrywa Warszawa 21,4%, dalej Wrocław 7%, Kraków 5,9%. Dla 'kubek gorącej' rywalizują herbaty, czekolady i kawy. Dla 'Kot siedzi na' pasuje wiele słów.
Prawdziwe prawdopodobieństwa z modelu. Czasem jedno słowo wygrywa zdecydowanie (Warszawa), czasem kilka jest równie dobrych (herbata, czekolada, kawa), a czasem pasuje cała masa słów i żadne nie dominuje.

To bardzo ważny obrazek, bo tłumaczy dwie rzeczy. Po pierwsze, model bywa pewny (po „Stolicą Polski jest” Warszawa wygrywa na głowę) albo niepewny (po „Kot siedzi na” pasuje krzesło, ławka, łóżko, kanapa, cała lista). Po drugie, skoro na końcu jest losowanie, to ten sam model na to samo pytanie może odpowiedzieć raz tak, raz nieco inaczej.

Pokrętło „temperatury”: pewność kontra kreatywność

Tym, jak bardzo model „ryzykuje” przy losowaniu, steruje jedno ustawienie zwane temperaturą. Niska temperatura: model niemal zawsze wybiera najbardziej prawdopodobne słowo, więc jest przewidywalny i powtarzalny. Wysoka temperatura: szanse się wyrównują, więc odpowiedzi bywają ciekawsze i bardziej zaskakujące, ale też bardziej losowe. To te same prawdopodobieństwa, tylko inaczej „spłaszczone”:

Animacja: to samo prawdopodobieństwo przy różnej temperaturze. Przy 0,4 herbata dominuje (53,7%), przy 1,5 szanse się wyrównują (herbata już tylko 22,8%, czekolada i kawa blisko).
Przy niskiej temperaturze faworyt wygrywa zdecydowanie. Przy wysokiej reszta słów dostaje realną szansę — stąd bardziej kreatywne, ale i mniej przewidywalne odpowiedzi.

Skąd ta cała wiedza? Trening to miliardy powtórek

Zostało najważniejsze pytanie: skąd model wie, że po „Stolicą Polski jest” pasuje „Warszawa”, a po „kubek gorącej” pasuje „herbata”? Nikt nie wpisuje mu reguł ani faktów. Cała wiedza bierze się z treningu, a trening to jedna gra powtarzana w kółko na gigantycznej ilości tekstu (książki, artykuły, duża część publicznego internetu): zasłoń słowo, każ modelowi je zgadnąć, sprawdź, czy trafił, i odrobinę popraw jego ustawienia. I tak biliony razy.

Animacja pętli treningu: czytaj tekst, zasłoń słowo, zgadnij, sprawdź z prawdą, popraw 'pokrętła' (parametry). Powtórz biliony razy, aż zgadywanie stanie się mistrzowskie.
Model ćwiczy jedno zadanie — zgadnij zasłonięte słowo — na ogromie tekstu. Każda pomyłka odrobinę przestawia jego wewnętrzne „pokrętła”.

Tych „pokręteł” — fachowo nazywamy je parametrami albo wagami — jest w nowoczesnym modelu miliardy. To one przechowują całą wiedzę: po bilionach powtórek tak się ustawiają, że model zaczyna trafiać po mistrzowsku. Nie ma tam żadnej osobnej „bazy faktów”. Jest tylko gigantyczny zestaw liczbowych ustawień, które razem dają zaskakująco trafne zgadywanie.

Krok 4: jak model łapie kontekst rozmowy (uwaga)

Żeby dobrze zgadnąć następne słowo, nie wystarczy patrzeć na ostatni wyraz, trzeba zrozumieć całe zdanie, a często całą rozmowę. Służy do tego mechanizm o nazwie uwaga (po angielsku attention). Działa to tak: przy każdym słowie model spogląda wstecz na wszystkie wcześniejsze słowa i waży, które z nich są teraz istotne.

Najlepiej pokazać to na zaimku. W zdaniu „Klient czekał na paczkę, więc napisał wiadomość z pytaniem o jej status” — do czego odnosi się słowo „jej”? Zobaczmy, na co naprawdę patrzy model:

Animacja mechanizmu uwagi: w zdaniu o kliencie i paczce słowo 'jej' kieruje 94% swojej uwagi na słowo 'paczkę'. Model trafnie połączył zaimek z rzeczownikiem, do którego się odnosi.
Prawdziwa „soczewka uwagi” modelu: słowo „jej” w 94% kieruje uwagę na „paczkę”. Model sam zrozumiał, że chodzi o status paczki, a nie wiadomości czy klienta.

To właśnie dzięki uwadze AI trzyma się tematu, pamięta, o czym była mowa pięć zdań wcześniej, i wie, kto jest kim w rozmowie. Bez tego mechanizmu odpowiedzi byłyby chaotyczne; z nim — spójne i „przemyślane”.

Dlaczego brzmi jak człowiek, skoro „tylko” zgaduje słowa?

Tu dochodzimy do sedna, które zaskakuje większość ludzi. Jak to możliwe, że proste „zgadywanie następnego słowa” daje coś, co brzmi mądrze i ludzko? Odpowiedź jest piękna w swojej prostocie: żeby naprawdę dobrze zgadywać następne słowo w dowolnym tekście, model musi — sam z siebie — nauczyć się mnóstwa rzeczy.

Infografika: żeby dobrze przewidywać następne słowo, model musi po drodze nauczyć się gramatyki, faktów, logiki, stylu, języków i powiązań między słowami. Rozumienie jest efektem ubocznym mistrzowskiego zgadywania.
Dobre zgadywanie słów wymusza prawdziwą wiedzę o języku i świecie. „Rozumienie” nie zostało wpisane — wyłoniło się samo, jako skutek uboczny.

Pomyśl: żeby trafnie dokończyć zdanie „Stolicą Polski jest...”, trzeba znać fakt. Żeby zdanie się kleiło, trzeba znać gramatykę. Żeby dokończyć rozumowanie, trzeba je w środku odtworzyć. Model nie dostał tych umiejętności wprost; „wyhodował” je, bo bez nich nie dałoby się dobrze zgadywać. I właśnie dlatego rozmowa z AI przypomina rozmowę z człowiekiem — choć pod spodem to wciąż ta sama, powtarzana sztuczka.

Dlaczego AI czasem pewnie zmyśla (halucynacje)

Skoro już rozumiesz, jak to działa, łatwo zrozumiesz też jego największą słabość. Model to maszyna prawdopodobieństwa, a nie baza danych z prawdą. Baza danych zapytana o coś, czego nie ma, powie „brak”. Model nigdy nie powie „brak”, zawsze dopowie najbardziej prawdopodobny ciąg słów. Zwykle trafia, ale czasem pewnym głosem podaje rzecz po prostu nieprawdziwą.

Infografika: porównanie. Baza danych szuka prawdy (pamięta zapisane fakty, mówi 'brak' gdy nie wie). LLM zgaduje co pasuje (składa to, co brzmi prawdopodobnie, i tak coś dopowie, brzmi pewnie nawet gdy się myli).
Dwie zupełnie różne rzeczy. To dlatego AI potrafi pewnie zmyślić nazwisko, datę albo kwotę — takie błędy nazywamy halucynacjami.
Praktyczny wniosek. Halucynacja to nie kłamstwo, to skutek tego, że zadaniem modelu jest „brzmieć prawdopodobnie”, a nie „mieć rację”. Dlatego wszystko, co dotyczy konkretnych danych — nazwiska, daty, kwoty, przepisy — traktuj jak pierwszy szkic i sprawdzaj u źródła. Jeśli zależy Ci, żeby AI odpowiadało na podstawie Twoich własnych dokumentów, a nie tylko tego, co „przeczytało” w treningu, są na to gotowe sposoby.

Od „przewidywacza słów” do pomocnego asystenta (dostrajanie)

Jest jeszcze jedna brakująca część układanki. Sam „przewidywacz słów” po treningu nie jest jeszcze grzecznym asystentem: zapytany o coś, równie chętnie dopisałby kolejne pytania, zamiast odpowiedzieć. Żeby zamienił się w czat, który odpowiada na polecenia, przechodzi dodatkowy trening z udziałem ludzi.

Infografika: cztery etapy. Surowy model (umie tylko dopisywać tekst), pokaz przykładów (ludzie pokazują pary polecenie-dobra odpowiedź), oceny ludzi (ludzie oceniają odpowiedzi lepsza/gorsza), gotowy asystent.
Najpierw ludzie pokazują modelowi tysiące przykładów dobrych odpowiedzi, potem oceniają jego propozycje. Ten etap (po angielsku RLHF, czyli uczenie na ocenach ludzi) zamienia surowy model w uprzejmego asystenta.

To dlatego AI, z którą rozmawiasz na co dzień, trzyma się tematu, odpowiada grzecznie i stara się być pomocna — tego zachowania nauczyli ją ludzie, oceniając tysiące jej wcześniejszych odpowiedzi.

Wszystko razem: od pytania do odpowiedzi

Połączmy teraz wszystkie elementy. Gdy zadajesz AI pytanie, w ułamku sekundy dzieje się ten ciąg zdarzeń — i co najważniejsze, powtarza się dla każdego kolejnego słowa odpowiedzi:

Animacja pełnej drogi: pytanie, tokeny, znaczenia, uwaga, szanse słów, wybór słowa — i pętla od nowa dla każdego kolejnego słowa, aż powstanie odpowiedź 'Stolicą Polski jest Warszawa'.
Te same etapy powtarzają się słowo po słowie. Model dopisuje jedno słowo, po czym całość liczy się od nowa — aż odpowiedź będzie kompletna.

Twoje pytanie zostaje pocięte na tokeny, te zamieniają się w punkty na mapie znaczeń, mechanizm uwagi wyławia z nich to, co istotne, model liczy szanse następnego słowa i jedno z nich wybiera. Potem dokłada je do tekstu i robi to samo jeszcze raz, aż powstanie pełna, sensowna odpowiedź.

Co z tego wynika w praktyce?

Ta wiedza nie jest tylko ciekawostką: bezpośrednio przekłada się na to, jak skutecznie korzystasz z AI:

  • Dobre polecenie daje lepszą odpowiedź. Skoro model „zgaduje” na podstawie kontekstu, to im więcej sensownego kontekstu mu podasz, tym lepszy wynik. To dlatego sposób, w jaki formułujesz polecenie, robi ogromną różnicę.
  • Zawsze sprawdzaj ważne fakty. Model potrafi pewnie się mylić. Świetnie nadaje się na pierwszy szkic, ale ostatnie słowo (i odpowiedzialność) zostaje po stronie człowieka.
  • Chcesz, żeby znało Twoje dane? Model zna tylko to, na czym go wytrenowano. Żeby odpowiadał na podstawie dokumentów Twojej firmy, trzeba mu je osobno udostępnić — służy do tego podejście zwane RAG.
  • To nie magia ani świadomość. To bardzo zaawansowane dopasowywanie wzorców. Gdy przestaniesz traktować AI jak wyrocznię, a zaczniesz jak błyskawicznego, czasem omylnego asystenta, zaczniesz wyciągać z niej znacznie więcej.

Najlepsza wiadomość jest taka, że żeby świetnie korzystać z AI, nie musisz umieć programować ani znać matematyki za tym wszystkim. Wystarczy zrozumieć, jak myśli ta maszyna — a tego właśnie uczymy na naszym szkoleniu.

Sztuczna inteligencja w codziennej pracy — szkolenie JSystems (Sebastian Koziatek)

Szkolenie „Sztuczna inteligencja w codziennej pracy” -->

A gdy już oswoisz AI w codziennej pracy, kolejny krok to nauczyć ją działać za Ciebie — samodzielnie wykonywać zadania jako agent:

Tworzenie agentów AI — szkolenie JSystems (Sebastian Koziatek)

Szkolenie „Tworzenie agentów AI” -->

Najczęściej zadawane pytania

Czy AI naprawdę rozumie, co do niej piszę?
Nie w taki sposób, jak rozumie człowiek. Pod spodem model robi jedno: przewiduje najbardziej pasujące następne słowo na podstawie wzorców, których nauczył się z ogromnej ilości tekstu. „Rozumienie” jest efektem ubocznym tego, że robi to bardzo dobrze — żeby trafnie zgadywać następne słowo, musi po drodze nauczyć się gramatyki, faktów i logiki.
Skąd AI wie, że stolicą Polski jest Warszawa?
Z treningu. Model „przeczytał” gigantyczną ilość tekstu, w którym ten fakt pojawia się tysiące razy, i nauczył się, że po słowach „Stolicą Polski jest” najbardziej pasuje „Warszawa”. To nie baza danych z faktami, tylko maszyna do przewidywania — dlatego przy faktach rzadkich lub zmieniających się potrafi się pomylić.
Dlaczego AI czasem pewnie zmyśla (halucynuje)?
Bo jego zadaniem jest „brzmieć prawdopodobnie”, a nie „mieć rację”. Zapytany o coś, czego nie wie, nie powie „brak danych” — i tak dopowie najbardziej pasujący ciąg słów, czasem zmyślony. To nie kłamstwo, tylko skutek mechanizmu. Dlatego ważne dane (nazwiska, daty, kwoty) zawsze trzeba sprawdzić u źródła.
Czym jest token?
Token to mały kawałek tekstu, na którym pracuje model — całe słowo albo jego fragment. Częste słowa bywają jednym tokenem, rzadsze rozpadają się na kilka. Na przykład „Najlepsze” to cztery tokeny (Naj, le, ps, ze). Model nie widzi liter — każdy token ma swój numer w słowniku i to na tych numerach operuje.
Czy AI myśli jak człowiek albo ma świadomość?
Nie. Pod spodem model wielokrotnie przewiduje następne słowo — i tyle. Nie ma intencji ani świadomości. Wrażenie rozmowy z człowiekiem bierze się stąd, że robi to na tyle dobrze, iż jego odpowiedzi trzymają się tematu, gramatyki i faktów. To bardzo zaawansowane dopasowywanie wzorców, nie myślenie w ludzkim sensie.

Komentarze (0)

Musisz być zalogowany by móc dodać komentarz. Zaloguj się przez Google

Brak komentarzy...