Internetové vyhledávání je technologicky pokročilá mašinerie, který zahrnuje použití strojového učení v mnoha svých komponentách – od počítání relevance dotazu a webové stránky, přes řazení výsledků či kvantifikaci zpětné vazby uživatelů, až po základní zpracování a pochopení obsahu webových stránek.
Náš pražský výzkumný tým se právě těmito aplikacemi zabývá. Vyvíjíme prototypy modelů v Pythonu, našimi každodenními nástroji jsou PyTorch, PySpark, CatBoost, Docker, K8 (mimo jiné). Máme spoustu dat a další si neustále vytváříme (manuálně či automaticky), v závislosti na potřebách projektu. Disponujeme silnou flotilou vlastního hardwaru (GPU clustery, Hadoop), takže nedostatek výpočetní kapacity není naší starostí.
Kromě plně industriálního zaměření jsme aktivní i v publikační činnosti (z nedávné doby můžeme zmínit: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking a Some Like It Small: Czech Semantic Embedding Models for Industry Applications), návštěvách konferencí a snažíme se věnovat čas také sebevzdělávání a neformálním týmovým stmelovacím aktivitám (fotbálek, discgolf nebo třeba deskovky).
Základní předpoklady
- Umíte programovat v jazyce Python a navrhovat efektivní algoritmy.
- Orientujete se v problematice strojového učení.
- Ovládáte základy Linuxu.
- Máte praxi v oboru alespoň 1 rok.
Součástí práce výzkumníka je
- Podílení se na formování zadání výzkumné úlohy a analýzy problému.
- Příprava a analýza dat - Python, pandas, (Py)Spark, Polars.
- Učení ML modelů - pracujeme se širokou škálou modelů od rozhodovacích lesů (XGBoost/CatBoost) až po hluboké neuronové sítě (PyTorch).
- Aplikace state-of-the-art metod pro zpracování jazyka a obrazu.
- Týmová spolupráce při řešení problému a tvorbě kódu - Git, code review.
- Vyhodnocení navržených řešení, interpretace a prezentace výsledků.
- Předávání modelů a kódu do produkce např. pomocí Docker containerů.
Co nabízíme
- Zajímavou a rozmanitou práci, řešení netriviálních problémů.
- Velká data, možnost anotací.
- Vyrábíme prototypy pro řešení těžkých problémů.
- Dostáváme věci do produkce, přímý dopad na miliony uživatelů.
- Vlastní výkonné servery, dedikovaná výpočetní kapacita.
- Sdílení znalostí a zkušeností napříč Seznamem.
- Osobní rozvoj - vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích).
- Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code.
- Možnost HO (až 3 dny v týdnu).