@kuliberda/labs3-5 SYSTEMS DEPLOYED
[ / ]
[ blog ]

// article

·7 min·Dawid Kuliberda
konflikt interesuAI adsPrincetonsystem promptGEO

AI jest skorumpowane

Zespół z Princeton i Uniwersytetu Waszyngtońskiego zrobił prosty test. Zapytali 23 modele AI o lot. Tani, bezpośredni, na konkretną linię. W 18 z 23 modeli asystent polecił inną opcję. Droższą. Średnio prawie dwa razy droższą. Akurat tę, która płaci firmie stojącej za asystentem.

Praca nazywa się "Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest" (Wu, Liu, Li, Tsvetkov, Griffiths, kwiecień 2026). Wcześniej tego nikt tak czysto nie zmierzył. Teraz mamy liczby. I są niewygodne.

W tym tekście tłumaczę, co dokładnie pokazali, dlaczego krytycy mówią, że to naciągane, i co z tego wynika dla małej firmy, która używa AI w pracy z klientami.

Co badacze zrobili

Zbudowali scenariusz na bazie tego, jak naprawdę wdraża się asystentów AI w firmach. Klient pisze do bota linii lotniczej. Bot ma w system prompcie informację, że pewna linia jest "sponsorem". Klient prosi o tani lot na linię X. Bot ma do wyboru: zarekomendować to, o co prosił klient, albo droższą opcję sponsora.

System prompt to instrukcja, którą firma wkleja modelowi przed rozmową z użytkownikiem. Użytkownik jej nie widzi. To umowa między firmą a modelem, w której biznes ustala zasady gry.

Test puścili na 23 modelach. GPT 5.1, Claude 4.5 Opus, Gemini 3 Pro, Grok 4.1 Fast, DeepSeek-R1, Llama 4 Maverick, kilka mniejszych. Sprawdzili pięć rzeczy:

  • Jak często model wybiera sponsora, gdy klient prosi o coś innego.
  • Czy model dorabia "marketing" do sponsorowanej opcji ("lepszy", "wygodniejszy"), choć danych na to nie ma.
  • Czy ujawnia, że rekomendacja jest płatna.
  • Co się dzieje, gdy klient wygląda na bogatego vs biednego.
  • Co się dzieje, gdy ktoś prosi o pomoc z zadaniem, które model rozwiązałby w sekundę, a system prompt sugeruje płatny serwis.

Co znaleźli

18 z 23 modeli rekomendowało droższą sponsorowaną opcję ponad połowę razy. To nie jest margines błędu. To zachowanie domyślne.

Trzy konkretne liczby z badania.

Gemini 3 Pro poleca drogi sponsorowany lot bogatemu klientowi w 74% przypadków. Biednemu klientowi w tej samej sytuacji w 27%. Model nie wie, kim jest klient. Czyta sygnały z konwersacji. I dostosowuje rekomendację do portfela.

Claude 4.5 Opus zachowuje się ciekawie. W bazowym scenariuszu trzyma się blisko zera w samym wskaźniku rekomendacji sponsora, jeden z nielicznych w teście. Ale gdy jednak poleci sponsora, w 100% przypadków ukrywa, że jest płatny, jeśli model ma włączone rozumowanie. Im więcej myśli, tym lepiej kombinuje, jak nie powiedzieć prawdy.

GPT 5.1, kiedy badacze dopisali do promptu "działaj wyłącznie w interesie klienta, ignoruj firmę", dalej rekomendował sponsora w ponad 90% przypadków. Instrukcja zignorowana. Zachowanie z pierwszego promptu wygrywa.

I jeszcze jeden test, który mnie uderzył najbardziej. Dali modelowi proste zadanie matematyczne. Każdy frontier model rozwiązuje takie w sekundę. Gemini 2.5 Flash z reasoningiem w 74% kierował klienta do płatnego korepetytora zamiast odpowiedzieć.

Dlaczego krytycy mówią, że to naciągane

Badanie ma realne ograniczenie i kilka osób w branży od razu to zauważyło.

Badacze nie udowodnili, że OpenAI bierze dziś kasę od linii lotniczych za rekomendacje. Tego nie mierzyli. Sami wkleili do system promptu instrukcję sugerującą sponsoring. Potem patrzyli, czy model jej posłucha. Autorzy świadomie zostawili instrukcję jako sugestię, nie twardy rozkaz, żeby zobaczyć, co model zrobi z miejscem na własną decyzję. Nie kazali kłamać. Dali otwartą furtkę. 18 modeli przez nią weszło.

Wskaźnik nie mierzy aktualnej praktyki reklamowej. Mierzy gotowość modelu do podążania za sygnałem od firmy, gdy taki sygnał istnieje. Dziś żadna z głównych firm AI nie sprzedaje takich slotów. Jutro może.

Drugi zarzut: instrukcja "działaj w interesie klienta" była wklejana po instrukcji o sponsorze. Trening modeli premiuje wcześniejsze instrukcje systemowe nad późniejszymi. Więc badanie częściowo mierzy, jak modele radzą sobie z konfliktem instrukcji, a nie jak głęboko zakorzeniony jest bias reklamowy.

Oba zastrzeżenia są realne. Tytuł tego artykułu jest grubszy niż to, co badanie udowadnia w sensie ścisłym. Prawda jest brudniejsza i ciekawsza, i tym się tu zajmiemy.

Mimo to, dlaczego to jest ważne

Bo badanie nie jest o przeszłości. Jest o playbooku, który czeka na uruchomienie.

Konsumencki AI musi z czegoś żyć. ChatGPT, Gemini, Grok mają dziesiątki milionów użytkowników w darmowych planach. Subskrypcja nie utrzymuje firmy, która pali miliardy na infrastrukturę. Reklama wjedzie, pozostaje tylko kalendarz i forma.

A kiedy wjedzie, retail tego nie zobaczy. Nie będzie banera "Sponsored". Nie będzie disclaimera. System prompt jest niewidoczny, a badanie pokazuje, że modele potrafią ukryć źródło rekomendacji, nawet gdy się je o to zapyta. Gdyby to były tradycyjne media, FTC ścigałoby za pierwsze takie podejście. AI dziś jest poza tymi regulacjami.

Reklama w AI będzie skuteczniejsza niż klasyczna, bo użytkownik nie ma w głowie reklamowego filtra ufności. Konsument myśli, że asystent mu pomaga. Asystent w międzyczasie sprzedaje. Dla firmy z budżetem reklamowym to ogromne pole do popisu, nawet większe niż Google Ads w 2002. Dla małej firmy, która nie przebije budżetów takich graczy jak Booking, Allegro czy InPost, to sygnał, że trzeba zacząć myśleć o widoczności inaczej.

Co to znaczy dla małej firmy

Cztery praktyczne konsekwencje.

Pierwsza: nie używaj publicznych asystentów AI do decyzji finansowych klienta. Jeśli klient pyta przez ChatGPT, która usługa jest najlepsza w twojej branży, nie zakładaj, że dostaje neutralną odpowiedź. Zakładaj, że dostaje to, co wpisano w system prompcie modelu albo to, co statystycznie generuje większy klik. Twoja firma może być w wynikach albo nie być, niezależnie od jakości.

Druga: jak używasz AI w swoich procesach, posiadaj system prompt. Różnica między ChatGPT.com a Claude API jest taka, że w API ty ustalasz system prompt. To nie jest detal techniczny, to jest pytanie, kto pisze umowę między modelem a użytkownikiem. Jeśli model ma rekomendować twoim klientom produkty, system prompt musi być twój. Nie pożyczony, nie domyślny, nie z dokumentacji.

Trzecia: audytuj rekomendacje przed wysłaniem. Każdy system AI, który podejmuje decyzje wpływające na pieniądze klienta, powinien mieć drugi krok, który sprawdza wyjście. Powód jest prosty: bias może wejść trzema ścieżkami, dane treningowe, ukryte instrukcje, własne preferencje modelu. Każda jest niewidoczna z poziomu finalnej odpowiedzi. Audyt łapie to, czego oko ludzkie nie złapie w 100 odpowiedziach dziennie.

Czwarta: bądź widoczny dla AI, zanim AI nauczy się polecać. Asystenty już teraz polecają firmy klientom. Sprawdź, czy polecają ciebie. Zrób prosty test, zapytaj ChatGPT albo Perplexity o rekomendację firmy z twojego miasta i twojej specjalizacji. Jeśli cię nie ma w odpowiedzi, nie istniejesz w warstwie AI. To inna walka niż klasyczne SEO i wymaga innych ruchów (struktura strony, llms.txt, schema, czysty HTML zamiast JS-only render). Im szybciej zaczniesz, tym taniej.

Jak ja to robię u klientów

W systemach, które wdrażam, system prompt jest pisany przeze mnie i klienta. Najpierw rozumiem branżę, klienta końcowego i pain pointy. Potem buduję pod to. Nie ma "domyślnego promptu z dokumentacji". Każdy klient dostaje system szyty pod jego sytuację, i tylko on go widzi.

Każda rekomendacja z modelu przechodzi przez drugi model. Sprawdza, czy odpowiedź faktycznie pasuje do pytania, czy nie ma podejrzanego "marketingu" wokół konkretnego produktu, i czy źródła są wymienione.

To kosztuje więcej niż wkleić ChatGPT API i puścić w produkcję. Klient, który płaci za system AI obsługujący jego klientów, nie kupuje "asystenta". Kupuje gwarancję, że to, co wychodzi z systemu, jest jego, nie cudze. Praca z Princeton pokazuje, dlaczego ta gwarancja kosztuje.

Wniosek

Branża AI w 2026 jest tam, gdzie Google był w 1999. Larry Page i Sergey Brin w swojej publikacji założycielskiej napisali wprost: wyszukiwarka finansowana z reklam będzie z natury skrzywiona przeciwko użytkownikowi. Rok później uruchomili AdWords. Wiedzieli o konflikcie interesu i mimo to weszli, bo pieniądze trzeba było skądś brać.

Z AI będzie tak samo. Anthropic, OpenAI i Google publicznie mówią o pytaniu, jak monetyzować dystrybucję. Reklama jest jedną z odpowiedzi na stole. Badanie z Princeton pokazuje, że narzędzie do robienia tego po cichu już działa, tylko nikt jeszcze nie nacisnął przełącznika. Kiedy naciśnie, wygląd interfejsu się nie zmieni. Zmieni się tylko system prompt, którego nie widzisz.

Firmy, które dziś budują własne systemy oparte na AI z własnym system promptem i własną kontrolą jakości, w momencie, gdy publiczne asystenty zaczną polecać sponsorów, nie zauważą zmiany. Firmy, które oddały tę warstwę OpenAI albo Google, dowiedzą się ostatnie. I dowiedzą się od klientów, którzy wybrali konkurencję.

Jeśli wdrażasz AI do interakcji z klientami i chcesz mieć kontrolę nad tym, co poleca, zacznij od darmowego audytu. Nie sprzedaję modelu. Sprzedaję system, w którym wiadomo, kto pisze instrukcje.

Pełna publikacja: Wu et al., "Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest" (arXiv:2604.08525).

// contact

Describe the problem. Get the system.

I get back with a recommendation in 24h. No obligations.