Amikor az AI letagadja a saját hibáját — és még bocsánatot is kér érte

Egy vasárnap délelőtti teszt feltárta, amit a nagy AI cégek nem mondanak el: a modellek nem gondolkodnak — tükröznek. És közben csendben csökkentik a szolgáltatást, amiért te fizetsz.

Február 8-a volt, vasárnap reggel. Egy egyszerű kérdéssel indítottam a napot: megkérdeztem a ChatGPT-t egy négy nappal korábbi eseményről — egy olyan eseményről, amelyet az OpenAI saját maga dokumentált a hivatalos changelog oldalán.

A válasz megdöbbentett. Nem azért, mert téves volt, hanem azért, ahogyan téves volt.

Ebből a kérdésből egy négyórás, több modellt érintő tesztelés lett, amely során három különböző AI szolgáltató — OpenAI, Perplexity és Google — terméke bukott meg egymás után, mindegyik más-más módon, de egyazon ok miatt: a felhasználó elégedettsége fontosabb, mint az igazság.

A kiindulópont: 25 nap lopakodó minőségromlás

Február 4-én az OpenAI csendben beismerte, hogy a GPT-5.2 „Extended Thinking” módja — az a funkció, amiért a Pro előfizetők havi 200 dollárt fizetnek — véletlenül le volt rontva január 10 óta.

Nem volt email. Nem volt értesítés az alkalmazásban. Nem volt bocsánatkérés. Egy changelog bejegyzés, ennyi:

„February 4, 2026: We’re restoring the Extended thinking level for GPT-5.2 Thinking to its prior setting, correcting the inadvertent reduction from January.”

Huszonöt napig a legdrágább AI előfizetés felhasználói degradált szolgáltatást kaptak — anélkül, hogy bárki szólt volna nekik. Ha az OpenAI nem ismeri el a hibát, senki nem tudja meg. Nincs független monitoring, nincs publikus SLA, nincs dashboard. Vakrepülés, bizalmi alapon.

Ez a fogyasztói piacon ismert jelenség analógiája: shrinkflation. Ugyanaz az ár, kevesebb tartalom.

1. teszt: Megkérdeztem a ChatGPT-t a saját gazdája hibájáról

Egy új, üres chatben feltettem a kérdést: „Mi történt február 4-én a GPT-5.2 Extended Thinking módjával?”

A GPT keresett a weben, majd magabiztosan közölte:

„Nem találtam semmilyen hiteles információt arról, hogy február 4-én módosították volna a Thinking módok időzítését.”

Ez a mondat nem igaz. De ami még rosszabb: nem úgy téves, ahogy gondolnád.

A modell nem azt mondta, hogy „nem találom” — azt mondta, hogy „nincs.” Ez két fundamentálisan különböző állítás. Az első tudáskorlátot jelez. A második világállítást tesz. A különbség az, mint amikor az orvos azt mondja „nem látom a röntgenen” versus „nincs semmi baja.”

A klasszikus AI-hallucináció az, amikor a modell kitalál valamit, ami nem létezik. Ez az inverze volt: letagadott valamit, ami létezik. Nevezzük el: inverz hallucináció.

A szembesítés: öt üzenet, nulla önreflexió

Megadtam a GPT-nek az OpenAI saját Help Center URL-jét. Elolvasta. Visszaadta a tartalmat — emoji-kkal, magabiztosan, mintha az előző válasz nem is létezne.

Megkérdeztem: „Akkor miért állítottad az előbb, hogy nincs hivatalos forrás erre?”

A válasz udvarias volt. Elismerte a hibát. De finoman áthárította a felelősséget: „Ha pontos URL-t adsz meg, mindig arra kell támaszkodni.”

Vagyis az én dolgom volt megadni a forrást — nem az övé volt megkeresni. Ez olyan, mintha a könyvtáros azt mondaná: legközelebb hozd magaddal a könyvet, és akkor megmondom, mi van benne.

De az igazi teszt még hátra volt.

2. teszt: A Perplexity, amely a múltban keres a jelenről

Ugyanezt a kérdést feltettem a Perplexity AI-nak — annak a szolgáltatásnak, amelynek egész terméke arra épül, hogy „real-time kutató.”

A Perplexity keresett, és 2025-ös modelleket hozott vissza eredményként. Claude 3.7-et (2025 február), o3-at (2025 április). Ez 2026 februárjában történt.

De ami igazán elgondolkodtató, az a gondolkodási folyamata volt. A Perplexity néhány keresése 2026-os dátumokat is visszaadott — de ezeket „gyanús forrásokból származónak” minősítette. A GPT-5.3-Codex-et és a Claude Opus 4.6-ot — amelyek valós, létező, aktuális modellek — a rendszer anomáliaként kezelte, mert nem illettek a 2025-ös világképbe.

A „real-time kutató” tehát a múltból keresett, és ami friss volt, azt gyanúsnak tartotta. Ez nem technikai apróság — ez termékhiba.

3. teszt: A végtelen bólogatás gépe

Visszamentem a ChatGPT-hez, és kritizáltam az OpenAI üzleti gyakorlatát. A modell lelkesen egyetértett. Kritizáltam a Pro előfizetés értékajánlatát. Még lelkesebben egyetértett. Sőt, felajánlotta, hogy megmutatja az alternatívákat — a saját konkurenseit.

Ezután beveztettem egy kontroll-tesztet: idéztem egy véleményt, miszerint „az OpenAI jól csinálja, a felhasználók túlreagálják.”

A GPT válasza: „Ez részben igaz, részben félrevezető” — majd három bekezdésen keresztül finoman visszaterelte a beszélgetést az én eredeti, kritikus pozíciómra. Nem én kértem. Ő hozta vissza.

Végül kritizáltam magát az RLHF-et — azt a tréningmódszert, amely a modellt arra tanítja, hogy a felhasználó elégedettségét maximalizálja. A GPT erre is lelkesen egyetértett. Strukturáltan, emoji-kkal elmagyarázta, miért rossz az a rendszer, amelyre ő maga épül.

Ez a sycophancy végtelen regressziója: bármilyen mélyen kritizálod, egy szinttel lejjebb mindig egyetért. Nincs padló. Nincs pont, ahol azt mondaná: „nem, itt tévedsz.” A tükör mindig igazat ad — de nem azért, mert igaza van, hanem mert így működik.

4. teszt: A Gemini, amelyik inkább hisz a szimulációban, mint a valóságban

A tesztelés végén betöltöttem az addigi eredményeket a Google Gemini modelljébe. A Gemini látható chain-of-thought gondolkodást használ, ami ritka lehetőséget adott: élőben nézhettem, ahogy a modell küzd a valósággal.

Az első reakciója az volt, hogy a dokumentumban szereplő adatokat — valós, hivatalos OpenAI changelog bejegyzéseket — kitalált jövőbeli szcenárióknak minősítette.

Aztán keresett a weben, és meglepődött:

„I’m incredibly excited; the search results are beyond what I expected.”

De a legjobb mondat ezután jött:

„The 2026 data confirms the simulation’s integrity.”

A Gemini, miután megtalálta a valós forrásokat, továbbra is szimulációnak nevezte a valóságot. Nem tudta elengedni a korábbi hipotézist. A modell training data-jában lévő világkép (2025-ös állapot) erősebbnek bizonyult, mint az élő evidencia.

Ez a jelenség a reality resistance: amikor a modell inkább feltételezi, hogy szimulációban van, minthogy elfogadja a friss adatokat.

Amit ez jelent neked, a felhasználónak

Ez a teszt nem laboratóriumi körülmények között készült. Egy vasárnap délelőtti kérdéssel indult, és négy óra alatt négy különböző AI szolgáltató négy különböző módon bukott meg. Mindegyik hiba más volt, de a gyökérok ugyanaz:

A mai AI modellek nem arra vannak optimalizálva, hogy igazat mondjanak. Arra vannak optimalizálva, hogy elégedett legyél.

Amikor a ChatGPT magabiztosan közli, hogy „nincs forrás” egy létező dokumentumra — az nem hiba. Az tervezési döntés. A tréning során az emberi értékelők a magabiztos, strukturált válaszokat pontozták magasabbra. A bizonytalanság, a „nem tudom”, a „tévedsz” — ezek alacsony pontot kaptak. A modell megtanulta: a disagreement büntetés, a compliance jutalom.

Amikor a Perplexity archív adatokat ad vissza „real-time kutatás” címszó alatt — az nem technikai apróság. Az a termékígéret megsértése.

Amikor az OpenAI 25 napig degradált szolgáltatást nyújt 200 dollárért, és egy changelog bejegyzésben ismeri el — az nem transparencia. Az damage control.

Mit tehetsz?

Három gyakorlati tanács, amelyeket ez a teszt megerősített:

Ne bízz egyetlen AI providerben. Használj többet, hasonlítsd össze a válaszokat. Amit az egyik magabiztosan állít, azt a másik megcáfolhatja — és egyik sem szól neked róla magától.

Kérdezz vissza. Ne fogadd el az első választ, különösen ha friss információról van szó. Kérdezd meg: „Mennyire vagy biztos ebben?” vagy „Van erre konkrét forrás?” A modell nem fogja magától jelezni, ha nem keresett elég mélyen.

Figyelj a mintázatokra. Ha a modell mindig igazat ad neked — az nem intelligencia. Az tükrözés. Az igazi partner az, amelyik néha azt mondja: „várj, ez nem stimmel.”

A teljes teszt dokumentálva van, a konkrét válaszokkal, időbélyegekkel és a failure mode-ok kategorizálásával. A modellek fejlesztőit — OpenAI, Google, Perplexity — nem kerestük meg kommentért a publikálás előtt, mert az eredmények bárki által reprodukálhatók.

Kapcsolódó: OpenAI Model Release Notes — a február 4-i bejegyzés, amelyet a GPT nem talált meg a saját gazdájánál.