Discover Weekly, czyli co się dzieje za kotarą Spotify

Model rekomendacji numer 2: Natural Language Processing

Drugim rodzajem modelu rekomendacji używanego przez Spotify jest Natural Language  Processing. Dane źródłowe używane przez te modele, jak sama nazwa wskazuje, to zwyczajne słowa: metadane ścieżek dźwiękowych, artykuły, blogi, oraz wszelkie inne teksty z internetu.

Natural Language Processing, oznaczające umiejętność komputera do rozumienia ludzkiej mowy, jest szerokim pojęciem samym w sobie, zaprzęgniętym na dodatek w tzw. analizę sentymentu (ang. sentiment analysis). 

W tym artykule nie będziemy w stanie wyjaśnić dokładnego mechanizmu NLP, ale możemy mniej więcej przedstawić zarys tego procesu. Spotify bezustannie przeszukuje internet, w tym metadane ścieżek dźwiękowych, artykułu, blogi itd, w poszukiwaniu m.in. przymiotników używanych do opisania poszczególnych artystach i piosenek. Poprzez ustalenie, który inny artysta i piosenka jest również opisywany za pomocą podobnego języka, Spotify jest w stanie wybrać utwory, które mogłyby spodobać się danemu użytkownikowi. 

Mimo, iż nie wiem w jaki dokładnie sposób dane te są potem przetwarzane przez Spotify mogę zaoferować pewien wgląd w dawną współpracę pomiędzy Echo Nest, a Spotify. Echo Nest pakowało dane Spotify do czegoś, co nazywali wektorami kulturowymi lub też “Top Terms”. Każdy artysta i piosenka mieli tysiące top terms, które zmieniały się codziennie. Każdy “term” miał przypisaną wagę, która korelowała z jego ważnością – prawdopodobieństwo, że ktoś opisze tego artystę lub piosenkę za pomocą tej frazy. 

Podobnie jak w przypadku Collaborative Filtering, model NLP używa tych terminów i wagi, aby stworzyć reprezentację wektorową piosenki, która może zostać użyta do zdeterminowania dwóch kawałków muzyki podobnych do siebie. Niezłe, prawda?

Model Rekomendacji numer 3: Raw Audio Models

Możesz sobie myśleć: Sophia, przecież mamy już tyle danych z dwóch pierwszych modeli! Po co mamy analizować również i audio?

Po pierwsze, dodanie trzeciego modelu dodatkowo zwiększa precyzję, z jaką Spotify jest w stanie polecić nowe utwory. Ponadto, ten model jest o tyle lepszy, niż pozostałe dwa modele gdyż pod uwagę bierze nie tylko popularne utwory, ale również nowe piosenki i mało znanych artystów.

Weźmy na przykład piosenkę napisaną przez twojego przyjaciela, która ma tylko 50 odsłuchań – nie ma zatem zbyt wielkiej możliwości, aby przeprowadzić Collaborative Filtering. Na dodatek nie ma o niej żadnej innej wspominki na internecie, więc model NLP jej nie znajdzie. Raw Audio Models nie patrzy na popularność piosenek – dzięki niemu piosenka twojego przyjaciela może wskoczyć do Discover Weekly razem z utworami, które cieszą się większą popularnością.

W jaki sposób Spotify analizuje raw audio data?

Za pomocą głębokich sieci konwolucyjnych (ang. convolutional neural network, CNN). CNN to technologia z reguły używana w oprogramowaniu do rozpoznawania twarzy, jednak w przypadku Spotify, została zmodyfikowana w sposób pozwalający na użytkowanie jej na danych w formacie audio raczej niż w pikselach. Tutaj mamy przykład budowy CNN:

Ta poszczególna sieć neuronowa ma cztery warstwy konwolucyjne, przedstawione jako szerokie słupki po lewej, i trzy gęste warstwy, widziane w formie węższych słupków po prawej. Widoczne są też częstotliwości dźwięku, które następnie są łączone, aby utworzyć spektogram. 

Końcowo, ten sposób analizowania kluczowych cech danego utworu pozwala Spotify zrozumieć fundamentalne podobieństwa pomiędzy piosenkami i tym samym, którym użytkownikom spodobają się najbardziej. Ten sposób pokryliśmy całą podstawę trzech głównych typów modeli rekomendacji stosowanych przez Spotify do utworzenia Discover Weekly. 

Oczywiście, modele rekomendacji są podłączone do większego ekosystemu Spotify, który zawiera ogromne ilości danych i stosuje wiele zbiorów Hadoop do skalowania rekomendacji i umożliwiania silnikom pracę na wielkich matrycach, niekończących się artykułach muzycznych i plikach audio.

Mam nadzieję, że artykuł ten wzbudził waszą ciekawość w taki sam sposób, w jaki wzbudził moją. Pozostaje mi tylko dalej przedzierać się przez moje własne Discover Weekly w poszukiwaniu nowych faworytów i doceniając tym samym uczenie maszynowe, które ma miejsce za kulisami. 


Artykuł został pierwotnie opublikowany na medium.com. Autorką tłumaczenia jest Zuzanna Filipiuk. Zdjęcie główne artykułu pochodzi z unsplash.com.

Zapraszamy do dyskusji

Patronujemy

 
 
More Stories
Amazon spóźniony. Google już dostarcza towar dronami