Segment zapytań przynoszący sklepowi największe straty przychodowe nie jest tym, w którym produkt nie istnieje — jest tym, w którym produkt jest, ale wyszukiwarka go nie znajduje. Gdy klient wpisuje "samodzielna ślepa paczka" zamiast branżowego "DIY blind box", tradycyjny mechanizm dopasowania oparty na indeksie odwróconym nie połączy tych fraz i wyświetli pustą stronę wyników lub kategorię nieistotnych produktów. Taobao, jedna z największych platform e-commerce świata, zidentyfikowała tę lukę jako strukturalny problem przychodowy i podjęła zakrojone na szeroką skalę badania nad jej usunięciem. Efektem prac jest framework BEQUE¹, który po czternastodniowym teście A/B na urządzeniach mobilnych przyniósł wzrost GMV o 18,66% w segmencie zapytań wcześniej zwracających znikome wyniki. Skala tego efektu dowodzi, że problem "few-recall" nie jest marginalną niedogodnością, lecz ukrytym rezerwuarem konwersji, który w każdym sklepie o obrotach powyżej dziesięciu milionów złotych przekłada się na dziesiątki lub setki tysięcy złotych utraconego przychodu miesięcznie.
Zjawisko semantycznej luki jest w literaturze dobrze opisane, jednak jego szczególnie złośliwa odmiana, czyli systematyczne zaniedbanie długiego ogona zapytań, wynika ze strukturalnej wady danych treningowych, a nie z samej architektury modeli. Systemy przepisywania zapytań trenowane na logach wyszukiwania uczą się na próbce, w której popularne frazy reprezentowane są tysiącami przykładów, a ogonowe zaledwie pojedynczymi lub żadnymi. Autorzy badania określają ten mechanizm efektem Mateusza w danych¹: im częstsze zapytanie, tym więcej sygnału uczącego, tym lepiej obsługiwane, i odwrotnie. Skutkiem jest model znakomicie obsługujący siedemdziesiąt procent ruchu, lecz bezradny wobec pozostałych trzydziestu, gdzie potrzeba semantycznej pomocy jest największa. Taobao definiuje te trzy segmenty precyzyjnie: zapytania "top" zwracają ponad 70% trafnych produktów, "torso" od 10% do 70%, a "tail" poniżej 10%¹. Właśnie ten ostatni segment jest docelowym obszarem interwencji systemu BEQUE, i to on generuje najbardziej dramatyczne wyniki w testach online.
Architektura BEQUE opiera się na trzech etapach, których kolejność odzwierciedla logikę narastającego doprecyzowania celu uczenia¹. W etapie pierwszym model językowy Qwen o siedmiu miliardach parametrów przechodzi fine-tuning nadzorowany na zbiorze 419 806 par zapytanie–przepisanie, wyselekcjonowanych z ponad dwudziestu milionów rekordów przez dwuetapowe próbkowanie odrzucające, czyli mechanizm wyodrębniający z surowych logów wyłącznie te przykłady, gdzie przepisanie jednocześnie zachowuje trafność względem pierwotnej intencji i rozszerza zbiór zwracanych produktów. Do zbioru treningowego dołączono dodatkowo 155 662 ręcznie annotowanych przykładów oraz 50 000 próbek z trzech zadań pomocniczych: klasyfikacji jakości przepisania, predykcji tytułu produktu i rozumowania krok po kroku. Ten ostatni element, polegający na zadaniu, w którym adnotatorzy musieli nie tylko zaproponować przepisanie, ale też opisać własny tok myślenia, okazał się szczególnie skuteczny w rozwijaniu zdolności modelu do obsługi zapytań, których semantyki nie można wyprowadzić wprost z popularnych wzorców¹.
Drugi i trzeci etap BEQUE rozwiązują problem, przed którym zatrzymują się wszystkie metody oparte wyłącznie na uczeniu ze wzmocnieniem: niepewność co do jakości modelu nagrody. Zamiast uczyć osobnego modelu, który oceniałby przepisania, autorzy podłączyli sam silnik wyszukiwania Taobao jako wyroczni jakości¹. Dla każdego próbkowanego zapytania model generuje pięć kandydatów metodą beam search; są one następnie przepuszczane przez offline'owy symulator wyszukiwarki, który zwraca trzy miary: trafność (relevance), przyrost zasięgu (increment) i uzupełnienie luki intencji (hitrate). Na podstawie tych miar kandydaci zostają uszeregowani, a uzyskany porządek częściowy staje się sygnałem uczącym dla metody PRO, czyli Preference Rank Optimization, kontrastywnego podejścia opartego na modelu Bradleya-Terry'ego, które kalibruje prawdopodobieństwa generowania tak, aby przepisania osiągające lepsze wyniki w wyszukiwarce były faworyzowane przez model¹. Kluczową implikacją architektoniczną jest tu eliminacja pośrednika: sygnał pochodzi bezpośrednio z zachowania rynku, a nie z modelu statystycznego, który rynek stara się odwzorować. Badanie dowodzi, że podejście RL trenowane na tych samych danych konsekwentnie ustępuje BEQUE, gdyż reward model wprowadza błędy systematyczne nieobecne w podejściu kontrastywnym¹.
Wyniki czternastodniowego testu A/B na platformie Taobao Mobile potwierdzają skuteczność podejścia na wielu poziomach granularności¹. Mierzony na całym ruchu przyrost GMV wyniósł 0,40%, co przy skali platformy oznacza miliony dolarów dodatkowego obrotu. Dla zapytań objętych przepisaniem, stanowiących 27% odsłon, wzrost GMV osiągnął 2,96%, liczba transakcji wzrosła o 1,36%, a liczba unikalnych odwiedzających o 1,22%. Najostrzejszy sygnał pochodzi jednak z segmentu "few-recall": wzrost GMV o 18,66%, liczby transakcji o 5,90% i odwiedzin o 6,25%¹. Interpretacja tych liczb wymaga precyzji: nie oznaczają one, że BEQUE wytworzył nowy popyt, lecz że popyt istniał i był systematycznie blokowany przez lukę semantyczną między językiem użytkownika a strukturą indeksu. Istnieje jednak ograniczenie skali: ze względu na wymagania latencyjne modele LLM działają wyłącznie w trybie offline, a ich przepisania przechowywane są w grafie klucz–wartość, co oznacza, że system obejmuje jedynie zapytania przewidziane w bazie, pozostawiając poza zasięgiem nowe, dotychczas niewidziane frazy¹.
