Ve výzkumu řešíme širokou škálu úloh pro Seznam vyhledávání z oblasti strojového učení, zejména zpracování webových stránek, textu či uživatelského chování, příležitostně i obrazu. Jelikož jsme zavedená firma se spoustou uživatelů, máme tak k dispozici velké množství různorodých dat, jejichž kvalitu zaručuje tým Bussiness Inteligence. Jako výzkum řešíme projekt od samého nápadu a formování zadání, přes přípravu dat a návrh hlavních metrik až po spolupráci na nasazení. Modely učíme na našich dedikovaných serverech s grafickými kartami pro větší výpočty. Udržování si přehledu v aktuálních trendech je nedílnou součástí naší práce, proto klademe velký důraz na vzdělávání ať už samostudiem nebo v pravidelných organizovaných reading groups. Výzkumníci mají možnost vycestovat na konferenci či přednášet na univerzitách.
Základní předpoklady
- Umíte programovat v jazyce Python a navrhovat efektivní algoritmy
- Orientujete se v problematice strojového učení
- Ovládáte základy Linuxu
- Máte praxi v oboru alespoň 1 rok
Součástí práce výzkumníka je
- Podílení se na formování zadání výzkumné úlohy a analýzy problému
- Příprava a analýza dat - Python, pandas, (Py)Spark, Polars
- Učení ML modelů - pracujeme se širokou škálou modelů od rozhodovacích lesů (XGBoost/CatBoost) až po hluboké neuronové sítě (PyTorch)
- Aplikace state-of-the-art metod pro zpracování jazyka a obrazu
- Týmová spolupráce při řešení problému a tvorbě kódu - Git, code review
- Vyhodnocení navržených řešení, interpretace a prezentace výsledků
- Předávání modelů a kódu do produkce např. pomocí Docker containerů
Co nabízíme
- Zajímavou a rozmanitou práci, řešení netriviálních problémů
- Velká data, možnost anotací
- Vyrábíme prototypy pro řešení těžkých problémů,
- Dostáváme věci do produkce, přímý dopad na miliony uživatelů,
- Vlastní výkonné servery, dedikovaná výpočetní kapacita
- Sdílení znalostí a zkušeností napříč Seznamem
- Osobní rozvoj - vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
- Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code
- Možnost HO (až 3 dny v týdnu)
Jsme tým který, rád řeší různorodé problémy. Naši práci lze vidět na několika komponentách napříč celým vyhledáváním jako je například Autocomplete, Relevance a vektorové hledání pro obrázkové vyhledávání, Abtesty, Související dotazy, detekce jmenných entit v dotazu, Detekce botov atd. Řešení zakládáme na state-of-the-art algoritmech finetunovaných na konkrétní problém na datech anotovaných našimi anotátory. Velkou výhodou je, že máme k dispozici vlastní GPU clustr. O vývoji projektů rádi diskutujeme společně, a proto se potkáváme v kanceláři 3x týdně (po obědě spolu s kafem dáme občas i partičku pingpongu)