homechevron_rightMarketing i Strategiachevron_rightBadanie

PP-GLAM: granice modeli językowych w wyszukiwaniu e-commerce

Opublikowano: 13 maja 2026|6 min czytania

Streszczenie menedżerskie

Klasyfikacja trafności wyszukiwania produktowego wydaje się z pozoru bliska standardowym zadaniom rozumienia języka naturalnego: mając zapytanie użytkownika i opis produktu, model powinien ocenić, czy para jest trafna. Jednak głębszy wgląd w dane e-commerce ujawnia cztery jakościowo różne klasy relacji, które badanie Choudhary i współpracowników¹ określa skrótem ESCI: produkt dokładnie odpowiadający zapytaniu (exact), produkt będący zamiennikiem (substitute), produkt komplementarny (complement) i produkt nieistotny (irrelevant).

PP-GLAM: granice modeli językowych w wyszukiwaniu e-commerce
headphones
Wersja Audio (PEŁNA)

PP-GLAM: granice modeli językowych w wyszukiwaniu e-commerce

0:000:00

Klasyfikacja trafności wyszukiwania produktowego wydaje się z pozoru bliska standardowym zadaniom rozumienia języka naturalnego: mając zapytanie użytkownika i opis produktu, model powinien ocenić, czy para jest trafna. Jednak głębszy wgląd w dane e-commerce ujawnia cztery jakościowo różne klasy relacji, które badanie Choudhary i współpracowników¹ określa skrótem ESCI: produkt dokładnie odpowiadający zapytaniu (exact), produkt będący zamiennikiem (substitute), produkt komplementarny (complement) i produkt nieistotny (irrelevant). Klasyfikacja tych czterech klas wymaga nie tylko rozumienia semantyki tekstu, lecz przede wszystkim wiedzy o intencji zakupowej, która rzadko wynika wprost z dosłownego znaczenia słów. Opublikowane na konferencji WWW 2024 badanie¹ demonstruje, że modele językowe osiągają w tym zadaniu dokładność 84-86%, lecz granica ich możliwości jest strukturalna. Przełomem jest dopełnienie semantyki grafami sygnałów behawioralnych, czyli historii interakcji klientów z produktami. Framework PP-GLAM, łączący modele językowe z grafowymi sieciami neuronowymi przez interpretowalny zespół GBDT, podnosi dokładność do 90,45% przy macro-F1 wynoszącym 82,36%, przewyższając zarówno samodzielne modele językowe, jak i własnościowy model SALAM łączący wcześniej LM z GNN w sposób nieinterpretowalny.

Klasyfikacja ESCI odzwierciedla rzeczywisty problem, z jakim mierzy się każda platforma e-commerce przy rankingowaniu wyników wyszukiwania¹. Para oznaczona jako "exact" powinna zajmować szczyt listy wyników, pary "substitute" i "complement" mogą być użyteczne w określonym kontekście zakupowym, a pary "irrelevant" powinny być odfiltrowane, gdyż ich obecność pogarsza doświadczenie użytkownika i redukuje konwersję. Trudność zadania wynika z natury samego materiału: zapytania e-commerce składają się przeciętnie z kilku słów kluczowych, a opisy produktów, choć dłuższe, zawierają mieszaninę terminologii technicznej, nazw własnych i sformułowań marketingowych. Model językowy widzi jedynie tę powierzchnię tekstową i nie ma dostępu do informacji o tym, jakie produkty klienci kupują razem, jakie zastępują sobie nawzajem w koszyku, ani jakie jest historyczne zachowanie konwersyjne danej pary. Badanie¹ potwierdza tę granicę empirycznie na zbiorze liczącym około dwóch milionów par zapytanie-produkt z trzech regionów geograficznych i językowych: DeBERTa osiąga 70,00% macro-F1, a BigBird 74,40%, co oznacza, że jeden na cztery przypadki jest klasyfikowany błędnie nawet przez najlepsze modele czysto językowe.

Framework PP-GLAM¹ odpowiada na tę granicę przez architekturę modułową, której projektowanie rozwiązuje trzy praktyczne problemy jednocześnie. Zbiór danych jest wielojęzyczny i wieloregionalny, co sprawia, że żaden pojedynczy model językowy nie jest optymalny dla wszystkich par: DeBERTa sprawdza się lepiej dla angielskiego, M-DeBERTa dla pozostałych języków, a BigBird radzi sobie z długimi opisami produktów dzięki mechanizmowi uwagi typu sparse. Zamiast wybierać jeden model, PP-GLAM trenuje wszystkie równolegle i traktuje ich predykcje jako cechy wejściowe dla zespołu GBDT. Opisy produktów są przy tym zbyt długie dla standardowych okien kontekstowych LM, dlatego moduł de-noising oparty na TF-IDF redukuje opis do najbardziej informatywnych tokenów przed tokenizacją. Wreszcie, zapytania rotują w tempie 20-25% miesięcznie, co sprawia, że kosztowne przetrenowanie całego modelu przy każdej aktualizacji danych jest niepraktyczne: modułowość PP-GLAM pozwala dodawać i usuwać kandydatów LM oraz GNN bez wpływu na pozostałe komponenty, a miesięczny cykl aktualizacji dotyczy jedynie modeli kwalifikowanych przez selekcję opartą na wartościach SHAP.

Jednym z najbardziej nieoczekiwanych odkryć badania¹ jest odwrotna relacja między gęstością sygnału behawioralnego a jego korelatem z etykietami ESCI. Zbiór danych zawiera 76,6 miliona krawędzi reprezentujących pięć rodzajów interakcji: kliknięcia stanowią 49,86% wszystkich krawędzi, wyświetlenia 40,15%, dodania do koszyka 5,25%, zakupy 1,93% i konsumpcje zaledwie 0,17%. Intuicja podpowiada, że kliknięcia, jako najgęstszy sygnał, powinny być najbardziej wartościowe dla modelu. Dane obalają to przekonanie: sygnały rzadkie, czyli dodania do koszyka i zakupy, wykazują silną korelację z etykietami ESCI, podczas gdy kliknięcia i wyświetlenia mają korelację niską. Mechanizm tego zjawiska jest logiczny: kliknięcie jest słabą deklaracją zainteresowania, które może wynikać z ciekawości, błędnego wyświetlenia lub eksploracji, natomiast dodanie do koszyka lub zakup są silnym sygnałem intencji zakupowej i rzeczywistego dopasowania produktu do potrzeby klienta. Ta hierarchia sygnałów ma bezpośrednie implikacje dla projektowania infrastruktury danych behawioralnych: gęstość sygnału nie jest synonimem jego wartości informacyjnej.

Wyniki eksperymentalne potwierdzają, że zintegrowanie sygnałów behawioralnych przez grafy GNN przekłada się na mierzalną przewagę¹. PP-GLAM osiąga 90,45% dokładności i 82,36% macro-F1 na zbiorze US, podczas gdy najlepszy samodzielny model językowy BigBird osiąga 86,58% i 74,40%, a model SALAM łączący LM z GNN w latentnej przestrzeni osiąga 83,82% i 67,17%. Analiza wartości SHAP ujawnia precyzyjną hierarchię udziałów poszczególnych komponentów: modele LM odpowiadają za 16-31% udziału każdy, heterogeniczny graf łączący wszystkie relacje za 33%, a silne sygnały behawioralne adds i purchases za 9-10% każdy. Słabe sygnały, takie jak wyświetlenia, wnoszą jedynie 3%. Na tej podstawie autorzy konstruują zredukowany wariant PP-GLAM (Red), ograniczający się do DeBERTy, BigBirda i GraphSage z heterogenicznym grafem. Redukcja parametrów wynosi 57,8% przy spadku wydajności o zaledwie 1,6 punktu procentowego. Fakt, że selekcja ta jest możliwa bez przetrenowania kandydatów, lecz wyłącznie przez analizę wartości SHAP, stanowi argument za interpretowalną architekturą zespołową w środowiskach produkcyjnych o ograniczonych zasobach obliczeniowych.

Rekomendacje do wdrożenia

Priorytetyzacja rzadkich sygnałów transakcyjnych (Behavioral. Data. Retention):

Pipeline analityczny powinien zostać zoptymalizowany pod kątem retencji sygnałów o najwyższej wartości predykcyjnej (zakupy, dodania do koszyka), które – choć rzadsze niż zwykłe kliknięcia – są kluczowe dla skuteczności modeli. LLM¹. Przechowywanie tych danych w wysokiej rozdzielczości i z pełnym kontekstem zapytania jest warunkiem koniecznym do budowy przewagi algorytmicznej, której nie zastąpi żaden masowy wolumen logów o niskiej intencji zakupowej.

Modułowa architektura pipeline'u. ML (Hybrid. Retrieval):

W środowiskach e-commerce, gdzie nawet 25% zapytań to frazy całkowicie nowe lub unikalne, monolit algorytmiczny staje się pułapką operacyjną¹. Rekomenduje się architekturę modułową łączącą. LLM (rozumienie semantyki) z grafami wiedzy. GNN (relacje produktowe), co pozwala na selektywną aktualizację komponentów bez konieczności przetrenowania całego systemu. Takie podejście drastycznie obniża koszt utrzymania infrastruktury i minimalizuje ryzyko nagłych spadków trafności wyników.

Optymalizacja kosztów poprzez interpretowalność modeli (SHAP Compression):

Zastosowanie technik interpretowalności (np. wartości. SHAP) pozwala na precyzyjną identyfikację i usunięcie tych parametrów modelu, które nie wnoszą mierzalnej wartości biznesowej¹. Umożliwia to kompresję infrastruktury obliczeniowej nawet o 50% przy zachowaniu pełnej trafności wyników. Sklepy, które wdrożą ten model, zyskują nie tylko na szybkości działania wyszukiwarki, ale również na drastycznym obniżeniu kosztów serwerowych przy skalowaniu na nowe rynki i kategorie.

Źródła

  1. Choudhary Nurendra, Huang Edward W, Subbian Karthik, Reddy Chandan K. An Interpretable Ensemble of Graph and Language Models for Improving Search Relevance in E-Commerce. WWW '24 Companion, ACM, 2024.
check_circleLink skopiowany do schowka
PP-GLAM: granice modeli językowych w wyszukiwaniu e-commerce | ASTOUND