Blog JSystems - uwalniamy wiedzę!

Szukaj
Blog JSystems · AI dla programistów · Architektura

Trzy techniki dawania modelowi AI wiedzy specyficznej dla Twojej firmy: prompt engineering, RAG, fine-tuning. Wybór złego podejścia kosztuje tygodnie pracy i często setki tysięcy złotych. Wybór dobrego daje rozwiązanie które działa w tydzień.

W tym artykule rozkładamy na czynniki pierwsze: kiedy używać samego LLM-a (bez RAG), kiedy włączyć RAG, a kiedy iść w fine-tuning. Decyzja powinna trwać 5 minut po przeczytaniu.

Z artykułu dowiesz się:

  • Czym jest "samodzielne LLM" vs "LLM + RAG" vs "LLM fine-tuned"
  • Porównanie 3 podejść w tabeli (koszt, czas, jakość, skalowalność)
  • Decyzja: które wybrać dla 5 typowych zastosowań
  • Najczęstsze błędy i kiedy hybryda (RAG + prompt engineering)
Porownanie na zywo: samo LLM odpowiada 14 dni, LLM z RAG odpowiada 30 dni z cytatem regulaminu
Najkrótsze wyjaśnienie różnicy: to samo pytanie zadane dwóm asystentom. Samo LLM zgaduje ustawowe 14 dni; LLM z RAG czyta regulamin firmy (30 dni) i podaje stronę źródłową. Animacja z prawdziwego uruchomienia na regulaminie testowym.

Co to znaczy "samodzielne LLM"?

„Samodzielne LLM" (po angielsku zero-shot — model dostaje samo pytanie, bez przykładów i bez dodatków) - to wywołanie modelu (GPT, Claude, Gemini) z samym pytaniem, bez dodatkowej wiedzy. Model odpowiada wyłącznie na podstawie tego, co zapamiętał podczas treningu. Wiedza modelu jest zamrożona w momencie tzw. cut-off date (daty końca danych treningowych).

Przykład samodzielnego LLM: pytasz ChatGPT "co to jest TypeScript?" - odpowiada. Pytasz "ile masz na koncie magazynowym SKU-12345?" - nie wie, bo nie ma dostępu do Twojej bazy.

Co to znaczy "LLM z RAG"?

RAG (Retrieval-Augmented Generation) - przed wywołaniem LLM system najpierw wyszukuje pasujące do pytania fragmenty z Twojej bazy wiedzy (np. dokumentacja produktu, procedury, polityki), wkleja je do promptu, dopiero potem prosi LLM o odpowiedź. Model odpowiada bazując na Twoich dokumentach.

Pełną architekturę RAG omawiamy w osobnym artykule. Tutaj wystarczy że wiesz: retrieval = wyszukiwanie z Twojej bazy, augmented = wzbogacanie promptu, generation = LLM generuje odpowiedź.

Co to znaczy "fine-tuning"?

Fine-tuning - dodatkowy etap treningu modelu na Twoich danych (przykładowo: 10 000 par "pytanie - odpowiedź" specyficznych dla Twojej domeny). Po fine-tuningu model natywnie rozumie Twoje słownictwo, styl odpowiedzi, specyficzne reguły. Wiedza jest "wszyta" w wagi modelu.

Tabela porównawcza - 3 podejścia

Kryterium Samodzielne LLM LLM + RAG Fine-tuning
Czas wdrożenia Godziny (samo wywołanie API) 5-15 dni 4-12 tygodni
Koszt wdrożenia Pomijalny (tylko integracja) Średni (pipeline + baza wektorowa) Wysoki (dane + trening + infrastruktura)
Koszt zapytań (tokeny) Najniższy Wyższy (więcej tokenów w kontekście) Niższy (krótsze prompty)
Aktualność danych Zamrożona na cut-off date Na bieżąco (zależy od bazy) Zamrożona na moment treningu
Halucynacje Wysokie ryzyko Niskie (cytuje źródła) Średnie
Aktualizacja wiedzy Niemożliwa Dodaj dokument do bazy (sekundy) Re-trening (tygodnie + $$$$)
Cytowanie źródeł Nie Tak (z RAG retrieve) Nie
Wymagana wielkość danych 0 ≥50 dokumentów ≥10 000 par Q&A

Kiedy używać samego LLM (bez RAG)?

Samo LLM wystarcza w 3 typowych sytuacjach:

  • Wiedza ogólna. Tłumaczenie tekstu, generowanie treści marketingowej, kodowanie w popularnych językach, brainstorming. LLM wie wystarczająco.
  • Małe wsady wiedzy specyficznej. Jeśli Twoja wiedza specyficzna mieści się w 5-10 tys. tokenów, włóż to po prostu w system prompt. Nie potrzebujesz RAG.
  • Klasyfikacja i ekstrakcja. Wyciąganie danych z faktur, klasyfikacja maili po sentymencie, rozpoznawanie intencji - LLM nie potrzebuje dodatkowej wiedzy o Twojej firmie.

Kiedy używać RAG?

RAG to optymalny wybór gdy:

  • Masz dużą bazę dokumentów. Dokumentacja, procedury, historyczne maile, baza wiedzy, FAQ - ≥50 dokumentów po kilkanaście stron. To nie zmieści się w prompcie.
  • Dane się zmieniają. Cennik się aktualizuje co miesiąc, polityka co kwartał, FAQ co tydzień. RAG czyta z bazy która jest aktualna.
  • Wymagane cytowanie źródeł. Klient pyta "skąd to wiesz?" - RAG pokaże konkretny fragment dokumentu. To wymóg w obsłudze finansów, prawa, medycyny.
  • Halucynacje są niedopuszczalne. Konsekwencje wymyślonej odpowiedzi (np. salda klienta) są wysokie - RAG drastycznie ogranicza halucynacje, bo model odpowiada na podstawie podanych dokumentów, zamiast zgadywać z pamięci.

Najczęstsze zastosowania: chatbot wsparcia klienta (FAQ), wyszukiwanie w dokumentacji wewnętrznej, asystent prawny, asystent HR (regulaminy), pomoc dla pracowników (procedury).

Kiedy używać fine-tuning?

Fine-tuning to opcja niszowa. Wybierz ją tylko gdy:

  • Specyficzny styl odpowiedzi. Model musi pisać dokładnie tak jak Twoja firma (ton głosu, formuły prawne, specyficzny żargon). RAG tego nie zrobi - cytuje treść ale odpowiada w stylu LLM.
  • Masz duży zbiór danych treningowych (dataset). ≥10 000 wysokiej jakości par pytanie-odpowiedź. Bez tego fine-tuning nie ma sensu - LLM z RAG będzie lepszy.
  • Niski koszt jednostkowy ma znaczenie. Skala 1M+ zapytań/mies. - oszczędność tokenów daje konkretną kwotę.
  • Wymagana lokalna instalacja modelu. Fine-tuning Llama lub Qwen dla zastosowań compliance/security gdzie dane nie mogą opuścić serwerów firmy.

Decyzja w 5 minut - 5 typowych zastosowań

Animowany przewodnik decyzyjny - Samo LLM, RAG czy Fine-tuning
Szybka decyzja: dla większości firm (duża, zmienna baza dokumentów, potrzeba cytowań) właściwym wyborem jest RAG. Samo LLM — gdy wystarcza wiedza ogólna; fine-tuning — przy ≥10 tys. przykładów i specyficznym stylu.
Use case Wybór Dlaczego
Asystent dla obsługi klienta z 200 stron dokumentacji RAG Duża baza, zmienia się, cytowanie
Klasyfikacja maili (sprzedaż / wsparcie / reklamacja) Samo LLM Brak wiedzy specyficznej
Generowanie maili sprzedażowych w stylu firmy Fine-tuning lub RAG FT jeśli ≥10 tys. przykładów, inaczej RAG z 50 wzorcami
Asystent prawny - przeszukiwanie umów RAG Wymagane cytowanie, brak halucynacji
Tłumaczenie technicznych dokumentów Samo LLM + glosariusz w prompcie Glosariusz mieści się w 2 tys. tokenów

Hybryda: RAG + prompt engineering

W praktyce większość systemów AI dla firm to hybryda RAG + prompt engineering. RAG dostarcza wiedzę specyficzną, prompt engineering definiuje styl odpowiedzi, ton, format. Fine-tuning to zwykle przerost formy nad treścią (overkill).

Przykład hybrydy: chatbot do obsługi klienta. RAG dostarcza informacje o produktach i polityce zwrotów. Prompt engineering definiuje: "odpowiadasz po polsku, używasz formy Pan/Pani, nigdy nie obiecujesz zwrotu większego niż 30 dni, zawsze pytasz o numer zamówienia gdy klient prosi o status." Razem dają jakość zbliżoną do fine-tuningu, a kosztują i zajmują znacznie mniej.

Najczęstsze pytania

Czy RAG jest lepszy od fine-tuningu?

W większości biznesowych przypadków - tak. RAG jest szybszy do wdrożenia, tańszy, łatwiejszy w utrzymaniu, pokazuje źródła. Fine-tuning ma sens tylko jeśli (1) masz dużo wysokiej jakości danych treningowych (≥10 tys.), (2) potrzebujesz specyficznego stylu którego nie da się osiągnąć przez prompt, (3) zarząd domaga się lokalnej instalacji modelu i danych.

Czy mogę łączyć RAG z fine-tuningiem?

Tak, to zaawansowane podejście. Fine-tunujesz model na "jak odpowiadać" (styl, format), a RAG dostarcza "na co odpowiadać" (faktyczne dane). Stosowane przez duże korporacje. Dla MŚP to przesada - RAG + prompt engineering wystarczy.

Jakie LLM wybrać do RAG - GPT, Claude czy lokalny model?

Zależy od priorytetów: najtaniej - lekki model (Claude lub mały wariant GPT, kilkadziesiąt razy tańszy od flagowych). Najlepsza jakość - Claude lub flagowy GPT. Lokalnie / na własnym serwerze (on-premise) - modele open source jak Llama lub Qwen. Dla większości firm: zacznij od Claude, potem optymalizuj. Pomożemy wybrać na szkoleniu RAG.

Ile dokumentów wystarczy do uruchomienia RAG?

Minimum praktyczne to 20-50 dokumentów (200-500 chunks po podzieleniu). Poniżej tego prompt engineering może być lepszy. Górna granica praktycznie nie istnieje - RAG działa nawet na 50 000+ dokumentach (na przykład pełna dokumentacja techniczna producenta sprzętu).

Chcesz zbudować RAG w swojej firmie?

Szkolenie: Tworzenie systemu RAG (LangChain + LLM OpenAI)

3 dni intensywnych warsztatów. Budujesz pełen system RAG od zera - od loaderów dokumentów przez vector store po orchestrację LangChain. Cena: 2 700 zł netto. Terminy gwarantowane.

Zapisz się na szkolenie RAG →

Powiązane artykuły: architektura RAG - komponenty, LangChain RAG tutorial, co to jest agent AI.

Najczęściej zadawane pytania

Co to znaczy "samodzielne LLM"?
"Samodzielne LLM" (zero-shot, vanilla LLM) - to wywołanie modelu (GPT, Claude, Gemini) z samym pytaniem, bez dodatkowej wiedzy. Model odpowiada wyłącznie na podstawie tego, co zapamiętał podczas treningu. Wiedza modelu jest zamrożona w momencie cut-off date (daty końca danych treningowych).
Co to znaczy "LLM z RAG"?
RAG (Retrieval-Augmented Generation) - przed wywołaniem LLM system najpierw wyszukuje pasujące do pytania fragmenty z Twojej bazy wiedzy, wkleja je do promptu, dopiero potem prosi LLM o odpowiedź. Model odpowiada bazując na Twoich dokumentach.
Kiedy używać RAG?
RAG to optymalny wybór gdy: masz dużą bazę dokumentów (≥50), dane się zmieniają, wymagane jest cytowanie źródeł, a halucynacje są niedopuszczalne. Najczęstsze zastosowania: chatbot wsparcia klienta, wyszukiwanie w dokumentacji wewnętrznej, asystent prawny, asystent HR.
Kiedy używać fine-tuning?
Fine-tuning to opcja niszowa. Wybierz ją tylko gdy: potrzebujesz specyficznego stylu odpowiedzi, masz duży zbiór danych treningowych (≥10 000 par Q&A), niski koszt jednostkowy ma znaczenie przy dużej skali, lub wymagana jest lokalna instalacja modelu.
Czy RAG jest lepszy od fine-tuningu?
W większości biznesowych przypadków - tak. RAG jest szybszy do wdrożenia, tańszy, łatwiejszy w utrzymaniu, pokazuje źródła. Fine-tuning ma sens tylko jeśli masz dużo wysokiej jakości danych treningowych (≥10 tys.) i potrzebujesz specyficznego stylu.
Jakie LLM wybrać do RAG - GPT, Claude czy lokalny model?
Zależy od priorytetów: najtaniej - lekki model (Claude Haiku lub mały wariant GPT). Najlepsza jakość - Claude Sonnet lub flagowy GPT. Lokalnie / on-premise - modele open source jak Llama lub Qwen. Dla większości firm: zacznij od Claude Sonnet, potem optymalizuj.

Komentarze (0)

Musisz być zalogowany by móc dodać komentarz. Zaloguj się przez Google

Brak komentarzy...