Relacja z konferencji DataWorkshop Club Conf

W minioną sobotę miałem przyjemność uczestniczyć w roli wolontariusza w konferencji DataWorkshop Club Conf.

Pomimo swoich obowiązków związanych z pomocą w kwestiach organizacyjnych tego wydarzenia udało mi się wysłuchać kilku prezentacji. Chciałbym w tym wpisie krótko je opisać i skomentować.

 

“Najlepszy moment, żeby zająć się uczeniem maszynowym jest teraz”

 Vladimir Alekseichenko, CEO & Founder / DataWorkshop

Konferencję rozpoczął główny organizator wydarzenia – założyciel DataWorkshop. Prezentacja Vladimira była nietechniczna, opowiadała o doświadczeniach z konkretnych projektów, z których każde skwitowane było lekcją wartą zapamiętania.

Zanotowałem sobie kilka sentencji, które niosły za sobą ciekawe przesłanie:

  • Aktywne działanie rodzi chęć;
  • Uważnie obserwuj to, co dzieje się wokół Ciebie. Świat podpowie Ci, czym masz się zająć;
  • Wspieraj początkujących;
  • Odważnie proś o pomoc;
  • Wyjdź ze swojej strefy komfortu;
  • Inspiruj i wspieraj ludzi;
  • Twoje otoczenie decyduje kim jesteś, ale to Ty decydujesz jakie jest Twoje otoczenie;
  • Zostaw ten świat, w takim stanie, w jakim sam chciałbyś go zastać.

 

“PL in CV – Polish View on Computer Vision”

Tomasz Trzciński, Chief Scientist / Tooploox

Początek prezentacji to opowieść o inspirującej karierze Tomka – od pracy przy przetwarzaniu sygnałów, przez przetwarzanie obrazów, widzenie komputerowe i uczenie maszynowe, kończąc na przetwarzaniu języka naturalnego i uczeniu głębokim.

Później było kilka słów o jego zespole z Tooploox AI, którego publikacja została zakwalifikowana na jedną z najbardziej prestiżowych konferencji w branży – NIPS. Warto zaznaczyć, że z Polski oprócz Tooploox’a zaakceptowane zostały tylko dwie publikacje pochodzące z uczelni wyższych.

Następne prezentacja potoczyła się w kierunku rozważań na temat tzw. related work. Powinniśmy pamiętać, że to, z czego teraz korzystamy podczas pracy wokół sztucznej inteligencji (ale i nie tylko, dotyczy to wszystkich obszarów naszego życia) opiera się na koncepcjach i algorytmach wymyślonych już dawno temu.

Na koniec Tomek podzielił się wskazówkami, które pomagają w szybszym rozwoju umiejętności, np. trzymanie się zasady KISS czy rozpoczynanie nowego zadania od dogłębnego zrozumienia domeny.

 

“5 lekcji, które nauczyły mnie jak pracować z danymi”

Przemek Maciołek, VP of R&D / Collective Sense

Przemek w interesujący sposób opowiadał o swoich doświadczeniach z lat młodości.

Z tej prezentacji najlepiej zapamiętałem opowieść o metodach poszukiwania złota (ciekawe dlaczego.. :).

Ciekawostką jest, że poszukiwanie złota można sprowadzić do poszukiwania rtęci, ponieważ te dwa pierwiastki mają podobną masę właściwą i kilka innych właściwości chemicznych.

Zatem – jeśli zrozumiemy jak migruje rtęć to zrozumiemy jak migruje złoto.

Na konferencji kilka razy przewijał się cytat, który potwierdza to, że prelegenci w pewnych kwestiach myślą bardzo podobnie i potrafią docenić dokonania innych:

Jeśli widzę dalej to tylko dlatego, że stoję na ramionach olbrzymów.

Bernard of Chartres

“Być najgłupszym w pokoju”

Wojtek Ptak, CTO / FreshMail

Niestety nie byłem na całej prezentacji Wojtka, więc kompleksowo opisać jej nie mogę. Dlaczego więc w ogóle o niej wspominam?
Dlatego, że w pamięci utkwiło mi jedno zdanie, które będę sobie od teraz powtarzał i wdrażał w życie:

Jeżeli jesteś najmądrzejszą osobą w pokoju to znaczy, że jesteś w złym pokoju.

 

Kurs AI skończony, no ale co dalej?”

Łukasz Kuncewicz, Head of Data Science / Enigma Pattern

Prezentacja na temat praktycznych wskazówek, które można wykorzystać w trakcie rekrutowania Data Sciencist’ów.

W prawie każdym zawodzie podstawowe umiejętności możemy podzielić na praktyczne i teoretyczne (wiedza teoretyczna/wiedza praktyczna).

W każdej z tych dwóch kategorii powinniśmy jasno definiować określone umiejętności, za które przydzielamy punkty (np. dla programistów w kategorii wiedza praktyczna można przydzielać punkty za znajomość GITa, JIRY, innych narzędzi/frameworków).

Następny krok to pomnożenie wartości z obu kategorii. Dlaczego akurat mnożenie? Ma to związek z prawdopodobieństwami zdarzeń niezależnych.
Myślę, że przykład wytłumaczy to dużo lepiej niż teoretyczne rozważania.

Załóżmy, że mamy kandydatów, którzy uzyskali następujące wyniki:

2 * 2 = 4

1 * 4 = 4

Teraz podstawowe pytanie – którego kandydata wybrać? Czy tego, który jest średni w obu obszarach, czy tego, który jedną ze stron ma dobrą, a drugą słabą (ale nie na poziomie zupełnego zero)?

Zdaniem Łukasza, lepszym kandydatem będzie kandydat drugi, ponieważ szybciej nauczy się on podstaw z drugiego obszaru niż tzw. “średniak” poprawi się z dwóch.

3 * 2 = 6

2 * 4 = 8

Jaki z tego wniosek? Jeśli jedną ze stron masz już bardzo mocno to zamiast ją ciągle wzmacniać, najpierw popracuj nad tym, w czym jesteś słabszy.

Ja jak najbardziej zgadzam się z autorem, a Wy?

 

Data Science – czyli jak zamieniać pytania w odpowiedzi, a nie tabele w tabele”

Aleksandra Możejko, Machine Learning Engineer / Sigmoidal

Aleksandra zaczęła od stwierdzenia, że problemy z zakresu DS bardzo często okazują się trudniejsze niż nam się na poczatku wydaje.

Następnie potwierdziła to, przedstawiając kilka bardzo ciekawych przykładów ze swojego dwuletniego doświadczenia zawodowego.

Pierwszy problem dotyczył projektu, w którym klient chciał wdrożyć drony nadzorujące prace na budowie. Niby problem dobrze rozpoznany – wykrywanie i śledzenie obiektów w czasie rzeczywistym, ale brakowało najważniejszego – danych.
Aleksandra wraz z zespołem musiała ugryźć ten problem od drugiej strony – zamiast obrabiać gotowe dane, rozpoczęła od wymyślenia data setu, na jakim model będzie się uczył najbardziej optymalnie.

Drugi problem dotyczył klasyfikacji artykułów (interesujący/nieinteresujący) na podstawie treści. Klient dostarczył 16 000 oznaczonych artykułów. Pierwsze rozwiązania dawały dziwne wyniki. Okazało się, że klient nazwał artykułem pełny HTML sciągnięty ze strony jakimś scrapperem. Jak już się pewnie domyślacie – model skupiał się na pewnych kawałkach (np. informacja o ciasteczkach) i to na ich podstawie decydował czy artykuł jest interesujący, ignorując treść. Takie działanie raczej nie było zgodne z oczekiwaniami. Jaki z tego wniosek? Dokładnie analizuj dane nawet jeśli klient zapewnia Cię, że jest w nich to, czego oczekujesz.

Następne problemy dotyczyły projektów dla firmy zajmującej się śledztwami gospodarczymi i świadczeniem usług z zakresu Risk Consulting. Nie będę jednak opisywał ich dokładnie.

Niech powyższe będzie dla Was zachętą do pójścia na prezentacje Aleksandry (jeśli gdzieś będzie ją jeszcze pokazywać). Moim zdaniem naprawdę warto.

 

“Kaggle i kierunek największego gradientu, czyli nauka na własnych błędach”

Rafał Cycoń, CTO & co-founder / ShelfWise

Rafał opowiadał o swoich doświadczeniach z konkursami na Kaggle – dlaczego warto w nich uczestniczyć i jednocześnie nie warto walczyć o najwyższy wynik za wszelką cenę.

Jako, że jakoś szczególnie uważnie nie śledzę Kaggle, to przykłady przedstawione w prezentacji były dla mnie nowościami i słuchałem o nich z dużym zaciekawieniem.

Pierwszy konkurs dotyczył przewidzenia wystąpienia padaczki na godzinę przed jej realnym wystąpieniem na podstawie zapisów sygnału EEG psów. Rafał zajmował pierwsze miejsce w rankingu przed długi czas, ale tuż po zakończeniu konkursu spadł na około 25 miejsce. Dlaczego tak się stało? Kaggle działa tak, że do momentu rozstrzygnięcia użytkownicy mają dostęp tylko do części danych, na których pracują i uczą swoje modele. Po zakończeniu, modele sprawdzane są na danych wcześniej niedostępnych. Okazało się, że model Rafała został źle zaprojektowany – działał świetnie na danych udostępnionych, ale na pełnym zestawie już nie.

Drugim konkursem, który zapamiętałem z prezentacji był Netflix prize. Netflix oferował 1mln dolarów nagrody za poprawę skuteczności ich silnika rekomendacji o 10%. Konkurs wygrało totalnie nieprodukcyjne rozwiązanie, w którym zastosowano ensembling ponad 500 modeli. Nagrodę wypłacono, ale realnie nigdy nie zostało to wdrożone. Netflix wybrał inne rozwiązanie z pierwszej dziesiątki, które co prawda dawało trochę gorsze wyniki, ale było zdatne do użycia produkcyjnie.

Kolejny przykład to opisywany przez Google problem predykcji współczynnika klikalności (CTR prediction). Data set, na którym wykonywano predykcje to 170 mld obserwacji, 65 mln cech, łącznie 640 TB danych. Jako rozwiązano ten problem? Pierwsza myśl, która przyszła mi do głowy – to taka, że Google ze swoim jednym z najlepszych team’ów od AI na świecie, na pewno wymyślił coś super skomplikowanego, czego raczej nie zrozumiem. Okazało się, że wygrała zwykła regresja logistyczna, której założenia powininen zrozumieć praktycznie każdy student kierunku ścisłego.

Następny ciekawy przykład to problem wykrywania raka prostaty. Stworzone modele dawały aż za dobre wyniki. Stało się tak dlatego, że jedną z cech dostępnych w zbiorze było “czy pacjent przechodził kiedyś raka prostaty”, która bardzo mocno oddziaływała na końcowe stwierdzenie “TAK/NIE”.

Jaki z tego wniosek? Jeśli model działa zbyt dobrze, na pewno coś jest nie tak.

Należy dokładnie analizować dane, ponieważ można niechcący posiadać cechy przemycające informacje, których realnie nie będziemy posiadać.

 

“Quantum Quant, czyli Machine Learning i kubity w służbie jej królewskiej mości”

Łukasz Siatka, Machine Learning Engineer / Lonsley

Łukasz opowiadał o zawodzie Quantitative Researchera, w tym:

  • jakie osoby najlepiej nadają się na takie stanowisko.
  • jakie umiejętności trzeba posiadać, żeby zostać Quantem,
  • jakie studia są najlepsze, jeśli chcemy pracować w tym zawodzie,
  • jakie są aktualne zarobki i dlaczego są takie wysokie

Komputery kwantowe dla zwykłych użytkowników to jeszcze odległa przyszłość, ale w pewnych obszarach biznesu są już wykorzystywane na co dzień – głównie przez branże HFT.

Myślę, że jeśli ktoś nie boi się matematyki i fizyki na poziomie ponadprzeciętnym i interesuje się branżą finansową to naprawdę świetny kierunek na rozwój.

Sama postać Łukasza i rozmowy z nim w kuluarach zrobiły na mnie ogromne wrażenie. W sumie nie mogło być inaczej – na kim nie zrobiłby wrażenia człowiek, który w tak młodym wieku pracował już w Google i Facebooku?
Jeśli ktoś chciałby dowiedzieć się więcej – polecam odcinek podcastu Biznes Myśli, którego gościem jest właśnie Łukasz.

 

Game-networking

Ogromnym atutem konferencji był game networking – czyli autorski pomysł na to, jak efektywnie poznawać nowych ludzi. Nie będę zdradzać szczegółów, ale uwierzcie mi na słowo, że naprawdę warto było w tym uczestniczyć.

Jeśli ktoś z Was był na konferencji, z pewnością potwierdzi moje słowa. Zachęcam do dzielenia się Waszymi wrażeniami w komentarzach.

 

Podsumowanie

Cieszę się, że mogłem być częścią tak ciekawego i inspirującego wydarzenia. Z niecierpliwością czekam na drugą edycję, która mam nadzieję zorganizowana zostanie już niedługo!

 

Autor: Robert Witkowski, Senior Software Engineer, ASC LAB