Big data, Wywiady

Firmy w IT mierzą się z ogromną ilością niespójnych danych. Jak powstał dział Data w Tidio?

Czy w czasie pandemii można otworzyć nowy dział w firmie? Przykład Tidio pokazuje, że tak. Od marca Adam Staniszewski pracuje nad działem, który ma przynieść firmie konkretne odpowiedzi na wiele pytań. Jaki jest cel zespołu zajmującego się zbieraniem i analizą danych? Wspomóc każdego Managera w podejmowaniu właściwych decyzji. Jak powstał dział Data w Tidio? Tego dowiecie się z rozmowy z Adamem Staniszewskim.

dział data

W Tidio jesteś odpowiedzialny za stworzenie działu Data. Jakie są jego założenia? Po co powstał?

Geneza decyzji o budowie działu Data sięga końca 2019 roku. W tym okresie raportowanie w Tidio było mocno rozproszone i w dużej mierze oparte o SaaSowe rozwiązania oraz raporty dostępne z poziomu poszczególnych narzędzi i ekstrakty generowane z bazy transakcyjnej. Dla wielu młodych start-upów, możliwość szybkiego wdrożenia gotowych rozwiązań do analityki danych jest bardzo kuszącą alternatywą dla droższego, i nie tak szybkiego, budowania własnego raportowania.

Na rynku istnieje wiele firm, które obiecują możliwość prezentacji danych na przejrzystych i atrakcyjnych wizualnie dashboardach. W zamian za niskie, początkowe koszty subskrypcji i wysiłek programistów, związany z wdrożeniem narzędzia, dają one poczucie szybkiej wartości dodanej, wynikającej z możliwości bieżącego śledzenia wyników biznesowych oraz podejmowania decyzji w oparciu dane – jednego ze świętych grali współczesnego biznesu.

Rzeczywistość wygląda jednak inaczej?

Wraz ze skalowaniem biznesu to podejście potrafi generować różnorodne problemy, zaczynając od rosnących kosztów, przez ograniczenia wynikające z kupna produktu one-fit-all, kończąc na niedokładności wyliczanych wskaźników i przejrzystości użytej metodologii. Jednym z największych wyzwań, które ówcześnie występowały w organizacji, była właśnie niewystarczająca spójność danych i wiarygodność liczb raportowanych przez zakupione narzędzia.

To był powód utworzenia działu Data?

Ponieważ jedną z wartości Tidio jest szybkie walidowanie pomysłów, to krótko po identyfikacji tego problemu przez Marcina Gwizdałę (Head of Technology w Tidio) podjęliśmy decyzję o budowaniu własnego raportowania. W wyniku tej inicjatywy dołączyłem do Tidio w marcu bieżącego roku. Pierwszym zadaniem, którego się podjąłem, było PoC (proof of concept) własnego raportowania przez zbudowanie kompleksowego dashboardu pozwalającego śledzić kluczowe dla firmy wskaźniki.

Jednym z założeń była pełna trafność danych i przejrzystość używanej metodologii, a także możliwość drill downu danych. Dzięki temu podejściu każdy z liderów Tidio ma możliwość zrozumienia wskaźników, na podstawie których podejmuje decyzje oraz ma możliwość dotarcia do wszystkich elementów składowych np. wszystkich subskrypcji, które danego dnia dokonały upgrade’u lub rozszerzyły zakres produktów.

Na jakim etapie dzisiaj jest to narzędzie?

W tej chwili etap PoC mamy już za sobą i wraz z pełnym poparciem i zaangażowaniem zespołu managerskiego Tidio, przystępujemy do budowy pełnoprawnego działu Data, który w najbliższej przyszłości pozwoli nam jeszcze bardziej świadomie i mądrze podejmować decyzje biznesowe i alokować nasze zasoby. Obecnie prowadzimy szereg wyspecjalizowanych rekrutacji do naszego działu Data, na stanowiska takie jak Data Engineer, Business Analyst, Business Intelligence Analyst oraz Data Analyst, a w planach mamy już kolejne role.

Jakie korzyści ma przynieść dział Data firmie?

Przede wszystkim ma dać pewność, że dane w oparciu, o które podejmujemy decyzje są trafne, a budowana analityka uwzględnia i odzwierciedla specyfikę prowadzonego biznesu. W mojej karierze wiele razy spotykałem się z liderami biznesowymi, którzy koncentrowali się na wartości jakiegoś dostępnego i modnego wskaźnika. Następnie porównywali go ze standardami rynkowymi i próbowali optymalizować, jednak gdy wspólnie z nimi zagłębiliśmy się w szczegóły metodologii lub użyteczność dla danego modelu biznesowego, okazywało się, że niekoniecznie był to najlepiej zainwestowany czas z ich strony.

Przydałby się przykład takiej sytuacji, w której firma skupiała się nie na tym wskaźniku, co powinna.

Dla przykładu, jedna z firm, dla której miałem okazję pracować, koncentrowała się na mierzeniu churnu w oparciu o numer identyfikacyjny zawartej umowy. Problem polegał na tym, że pewna grupa klientów miała generowaną nową umowę przy każdej modyfikacji jej treści. W efekcie churn dla tych klientów był sztucznie zawyżony przez specyfikę działania jednego z systemów. Co więcej, własny dział Data to nie tylko poprawne dane i zautomatyzowane raportowanie. Dzięki raportom klasy BI można śledzić, co się stało w biznesie.

Za pomocą wykorzystania zaawansowanych narzędzi analitycznych i statystycznych nabieramy możliwości głębszego zrozumienia przyczyn poszczególnych wydarzeń biznesowych, zbudowania mechanizmów prewencyjnych lub wzmacniających pożądane zachowania oraz lepszego prognozowania i segmentacji użytkowników. Wszystko to pozwala na pogłębienie zrozumienia biznesu, w którym działamy, szybsze identyfikowanie potencjalnych ryzyk i okazji, a co za tym idzie lepsze sprecyzowanie i synchronizację firmowych priorytetów.

dział data

Od czego zacząłeś pracę nad koncepcją działu Data?

Wszystko zaczęło się tak naprawdę od etapu PoC, którego najważniejszym elementem było pokazanie biznesowi wartości płynących z posiadania własnej analityki. Ponieważ od początku mocno wierzyłem, że uda mi się zrealizować założony cel, to wszystkie moje decyzje związane z budową infrastruktury danych w Tidio zakładały jej dobrą skalowalność. Po wstępnej analizie i identyfikacji potencjalnych źródeł danych, określeniu ich użyteczności i jakości oraz oszacowaniu wolumenu dostępnych w nich danych, powstała pierwsza short lista tego, co musieliśmy ze sobą zintegrować, aby zrealizować projekt.

Kolejnym elementem była decyzja w zakresie odpowiednich technologii i narzędzi. Tutaj wybór padł na hurtownię danych AWS Redshift, którą zasililiśmy za pomocą własnego kodu ETLowego napisanego w Pythonie, automatycznie uruchamianego przez Apache Airflow. Ostatnim etapem było określenie narzędzia Business Intelligence, z pomocą którego będziemy budowali dalsze raportowanie w Tidio. Rozważaliśmy kilka możliwych rozwiązań, jednak najbliższe naszym potrzebom i filozofii budowania raportowania okazało się Tableau. Po określeniu części technologicznej i zdobyciu poparcia pozostałych liderów, powstał plan określający misje i główne cele zespołu Data. Zawierał on również opis poszczególnych ról, które będziemy tworzyć na kolejnych etapach rozwoju zespołu, a także propozycję podziału odpowiedzialności za dane w Tidio, co stało się początkiem naszych prac w zakresie data governance.

Zacząłbyś pracę nad działem Data od tego samego wątku?

Tak, w tej chwili zacząłbym od tych samych kroków, jednak zawsze jest coś co można zrobić lepiej. W tym przypadku uważam, że powinniśmy byli szybciej otworzyć rekrutacje, w szczególności na stanowisko Data Engineer, które jest kluczowe dla budowy infrastruktury danych w firmie. Cały projekt dział się jednak w warunkach pandemii COVID-19, która wywróciła do góry nogami życie wielu firm. Dzięki niesamowitej kulturze organizacyjnej Tidio i wcześniejszej popularności pracy zdalnej przez jeden dzień w tygodniu, na szczęście byliśmy w stanie świetnie się dopasować do nowych realiów. W efekcie teraz jesteśmy firmą, która całkowicie dopuszcza pracę całkowicie zdalną. Wpłynęło to również na plany dotyczące budowy zespołu Data, który początkowo miał być ulokowany w nowo otwartym biurze w Warszawie, jednak teraz postanowiliśmy rozszerzyć nasze poszukiwania na cały kraj.

Uważasz, że każda firma w IT powinna mieć taki dział? Kiedy taki przestaje być on kosztem, a oszczędnością?

Żyjemy w czasach, w których każda firma ma możliwość generowania i gromadzenia coraz większej ilości danych. Zwykle na pewnym etapie rozwoju osoby zarządzające zdają sobie sprawę z potencjału i możliwości, które płyną z ich analizy. Wtedy najczęściej pierwszym krokiem jest próba samodzielnego dotarcia do tych danych i analizy lub zatrudnienie pierwszych analityków odpowiedzialnych za raportowanie. Wraz ze wzrostem spółki pojawia się coraz więcej wykorzystywanych narzędzi, które stają się nowymi źródłami danych, rośnie zapotrzebowanie na nowe rodzaje analiz w kolejnych działach.

W efekcie kolejne działy zaczynają zatrudniać swoich analityków, którzy we własny sposób przygotowują coraz bardziej skomplikowane raporty i poświęcają coraz więcej czasu na połączenie ze sobą danych, które są rozproszone w wielu odrębnych systemach. Wszystko to prowadzi do wydłużenia czasu potrzebnego na otrzymanie odpowiedzi na zadane pytanie biznesowe, braku spójności w raportowanych liczbach, ponieważ każdy z analityków inaczej definiuje poszczególne miary lub wykorzystuje inne źródła danych.

Co zazwyczaj dzieje się w takiej sytuacji? Jakie konsekwencje ponosi wówczas firma?

Konsekwencją takiego schematu działania jest sytuacja, w której na jednym spotkaniu spotyka się kilku menedżerów, każdy przychodzi na nie z inną wartością tego samego wskaźnika, a głównym celem spotkania staje się ustalenie, która z liczb jest poprawna. To jest sytuacja skrajna, która świadczy o tym, że prawdopodobnie dobry moment na utworzenie własnego zespołu Data był już dawno temu. Budowa takiego zespołu nie jest jednak tania, ponieważ jest zarówno inwestycja w infrastrukturę, jak i właściwych ludzi, którzy są w tej chwili bardzo poszukiwani na rynku pracy. Trzeba być również przygotowanym na istotne zmiany organizacyjne i kulturowe, które nowy zespół wprowadzi w firmie. Efektywna praca za danymi to zbiorowy wysiłek całej organizacji, nie tylko jednego działu.

Dla przykładu, nawet jeśli wprowadzimy najlepszy na świecie system CRMowy w naszej organizacji, zintegrujemy go z innymi elementami naszej infrastruktury i zatrudnimy najlepszych analityków w kraju, to wciąż wartość ich pracy będzie tak dobra, jak dane, które wprowadzi do systemu nasz pracownik. Myślę, że ciężko określić właściwy czas na utworzeniu zespołu Data w spółce, natomiast na pewno warto jest zacząć podejmować świadome decyzje w obszarze danych jeszcze przed fazą scale-upu. Im później zdecyduje się na uporządkowanie tego obszaru naszej firmy, tym trudniejsze będzie dokonanie transformacji. Dane będą już bardzo rozproszone w wielu systemach, ich jakość może być niska, a w organizacji będziemy mieli już mocno zakorzenione niewłaściwe nawyki związane z ich gromadzeniem, analizą i wdrażaniem nowych narzędzi.

dział data

Jakich narzędzi, praktyk, potrzebuje sprawnie działający dział Data w firmie taka jak Tidio?

Na pewno niezbędne jest zbudowanie zintegrowanego ekosystemu danych, które będą wiarygodne i szybko dostępne dla poszczególnych osób i narzędzi analitycznych. Jedną z decyzji do podjęcia jest kwestia tego gdzie, gromadzimy nasze dane, tutaj wśród popularnych rozwiązań wciąż należy wymienić relacyjne bazy danych, ale również zyskujące na popularności tzw. Data Lake. Warto również pamiętać, że wybór ten nie koniecznie musi oznaczać zdecydowanie się na wyłącznie jedną technologię. W zależności od planowanego zastosowania może mieć sens współistnienie obu tych rozwiązań.

W Tidio obok obecnego Redshifta, widzimy również potencjał dla utworzenia Data Lake, tutaj kwestia technologii jest jeszcze otwarta. Ważną decyzją jest również określenie narzędzia Business Intelligence, ponieważ każdego z obecnie topowych rozwiązań, niesie za sobą pewne implikacje, które łatwo przeoczyć podchodząc do tematu pierwszy raz. W świecie analityków niezbędna jest znajomość SQL, ale również coraz bardziej istotnym elementem staje się umiejętność wykorzystania języków programowania takich jak Python lub R – tutaj warto jednak, aby cały zespół znał przynajmniej jeden ten sam język, co ułatwi komunikację. W związku z rosnącą ilością kodu pisanego na potrzeby analiz warto również wprowadzić jeden z systemów kontroli wersji. Pod kątem organizacji pracy zespołu, część firm decyduje się na wdrożenie systemów ticketowych i boardów kanbanowych, które pozwalają zachować większą elastyczność niż klasyczne sprinty.

Co jest najważniejsze w takiej analizie danych? Sposób gromadzenia danych, czas ich analizy czy to, jak szybko potrafimy wyciągnąć wnioski ze zbioru informacji?

Dużo mówiłem już o aspektach związanych z jakością danych, co na pewno jest jednym z fundamentów skutecznej analityki w firmie. Szybkość wyciągania wniosków, też jest oczywiście ważna, ponieważ pozwala wykorzystać więcej okazji biznesowych i uniknąć większej ilości zagrożeń. Z punktu widzenia firmy najważniejsze jest jednak świadome i celowe podejście do zbierania danych w organizacji, które pozwoli uniknąć nam pułapki zbierania danych, dla samego faktu ich zbierania, oraz zapewni ich wyższą jakość oraz znacząco przyczyni się do ich świadomego wykorzystania.

Jakie kompetencje są potrzebne do tego, by zajmować się analizą danych?

Przede wszystkim umiejętność logicznego myślenia i wyobraźnia w zakresie łączenia danych. Aby skutecznie analizować dane trzeba doskonale rozumieć w jaki sposób one powstały, jaki jest ich kontekst biznesowy, znać zależności wynikające z konkretnego modelu danych. Z drugiej strony należy również rozumieć wyliczane wskaźniki i potrafić je odpowiednio modyfikować oraz interpretować. Warto wspomnieć o wysokich umiejętnościach komunikacyjnych, koniecznych do efektywnej komunikacji z biznesem oraz znajomości zasad efektywnej wizualizacji danych. Twarde umiejętności będą zależały już oczywiście od konkretnej roli, jednak znajomość SQL przyda się każdemu analitykowi.

Jak dziś wygląda rynek pracowników zajmujących się analizą danych? Co mogłoby ten rynek zmienić?

Moim zdaniem obecnie mamy styczność z podobną sytuacją na rynku pracowników zajmujących się danymi, jak można było obserwować parę lat temu wśród programistów. Coraz więcej firm uświadamia sobie potrzebę poukładania obszaru danych u siebie i zatrudnienia pracowników, którzy im w tym pomogą. Z drugiej strony doświadczonych specjalistów na rynku pracy wciąż jest zbyt mało. Moim zdaniem ilość wiedzy i doświadczeń, które są potrzebne dla efektywnej pracy analitycznej jest na tyle duży, że ciężko tutaj znaleźć proste rozwiązanie obecnej sytuacji. Od kilku lat wraz z rozwojem technologicznym widzimy narastające zainteresowanie tematami związanymi z machine learningiem.

Jaki jest próg wejścia do tej branży? Trudno zostać Data Engineerem, Analytistem?

Próg wejścia jest bardzo wysoki, potrzebna jest ponadprzeciętna umiejętność programowania a także silna znajomość poszczególnych działów matematyki. Wiele firm postanowiło wprowadzać rozwiązania oparte o sieci neuronowe czy inne modele ML, jednak niewystarczająca ilość ekspertów na rynku w tej dziedzinie powoduje, że chociaż jest to narzędzie, które posiada wiele unikatowych zalet, to łatwo jest pójść drogą na skróty i nieświadomie wyrządzić sobie krzywdę. Firmy decydują się na wdrażanie tzw. modeli black-box, których działanie nie do końca są w stanie wytłumaczyć, przez co zatraca się interpretowalność oraz przewidywalność wyników takiego modelu.

Do czarnego pudełeczka wkładamy dane wejściowe, w środku dzieje się „magia” i na wyjściu otrzymujemy piękny wynik. Należy teraz postawić sobie kilka pytań, skąd, w jaki sposób oraz dlaczego ten model otrzymał taki wynik, w większości przypadków, jeśli nie znajdziemy w firmie ekspertów z tej dziedziny może to prowadzić do podejmowania decyzji których źródła nie do końca rozumiemy. Nie jest to narzędzie, które magicznie rozwiąże każdy problem. Należy kompleksowo przeanalizować czy istnieją inne rozwiązania, które w prostszy sposób doprowadzą do oczekiwanych rezultatów.

Jaki cel chciałbyś osiągnąć w najbliższych latach w kontekście działu Data?

Moim obecnym celem jest skuteczne przeprowadzenie Tidio przez proces transformacji związanej z powstawaniem działu Data oraz zbudowanie zespołu wybitnych specjalistów, oraz tak po ludzku fajnych ludzi, którzy będą mogli się wzajemnie uczyć i stymulować do dalszego rozwoju. Kolejną z wartości Tidio jest A-Players with A-Players, która dla mnie osobiście jest bardzo ważna, ponieważ bardzo mocno wierzę, że podstawą każdego sukcesu jest unikalna mieszanka umiejętności, doświadczeń i perspektyw ludzi, którzy do niego doprowadzili.


Adam Staniszewski. Leader Data Teamu w Tidio. Wcześniej zajmował stanowisko Head of BI w PizzaPortal (blisko współpracował z AmRestem, który był ówczesnym właścicielem spółki). Pierwsze doświadczenia w karierze zawodowej zdobywał współpracując z BCG. Pracę w międzynarodowym i rozproszonym zespole poznawał w GE.

Redaktor naczelny w Just Geek IT

Od pięciu lat rozwija jeden z największych polskich portali contentowych dot. branży IT. Jest autorem formatu devdebat, w którym zderza opinie kilku ekspertów na temat wybranego zagadnienia. Od 10 lat pracuje zdalnie.

Podobne artykuły

[wpdevart_facebook_comment curent_url="https://geek.justjoin.it/firmy-w-it-mierza-sie-z-ogromna-iloscia-niespojnych-danych-jak-powstal-dzial-data-w-tidio/" order_type="social" width="100%" count_of_comments="8" ]