Internetové vyhledávání je technologicky pokročilá mašinerie, který zahrnuje použití strojového učení v mnoha svých komponentách – od počítání relevance dotazu a webové stránky, přes řazení výsledků či kvantifikaci zpětné vazby uživatelů, až po základní zpracování a pochopení obsahu webových stránek.

Náš pražský výzkumný tým se právě těmito aplikacemi zabývá. Vyvíjíme prototypy modelů v Pythonu, našimi každodenními nástroji jsou PyTorch, PySpark, CatBoost, Docker, K8 (mimo jiné). Máme spoustu dat a další si neustále vytváříme (manuálně či automaticky), v závislosti na potřebách projektu. Disponujeme silnou flotilou vlastního hardwaru (GPU clustery, Hadoop), takže nedostatek výpočetní kapacity není naší starostí.

Kromě plně industriálního zaměření jsme aktivní i v publikační činnosti (z nedávné doby můžeme zmínit: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking a Some Like It Small: Czech Semantic Embedding Models for Industry Applications), návštěvách konferencí a snažíme se věnovat čas také sebevzdělávání a neformálním týmovým stmelovacím aktivitám (fotbálek, discgolf nebo třeba deskovky).

Základní předpoklady

  • Umíte programovat v jazyce Python a navrhovat efektivní algoritmy.
  • Orientujete se v problematice strojového učení.
  • Ovládáte základy Linuxu.
  • Máte praxi v oboru alespoň 1 rok.

Součástí práce výzkumníka je

  • Podílení se na formování zadání výzkumné úlohy a analýzy problému.
  • Příprava a analýza dat - Python, pandas, (Py)Spark, Polars.
  • Učení ML modelů - pracujeme se širokou škálou modelů od rozhodovacích lesů (XGBoost/CatBoost) až po hluboké neuronové sítě (PyTorch).
  • Aplikace state-of-the-art metod pro zpracování jazyka a obrazu.
  • Týmová spolupráce při řešení problému a tvorbě kódu - Git, code review.
  • Vyhodnocení navržených řešení, interpretace a prezentace výsledků.
  • Předávání modelů a kódu do produkce např. pomocí Docker containerů.

Co nabízíme

  • Zajímavou a rozmanitou práci, řešení netriviálních problémů.
  • Velká data, možnost anotací.
  • Vyrábíme prototypy pro řešení těžkých problémů.
  • Dostáváme věci do produkce, přímý dopad na miliony uživatelů.
  • Vlastní výkonné servery, dedikovaná výpočetní kapacita.
  • Sdílení znalostí a zkušeností napříč Seznamem.
  • Osobní rozvoj - vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích).
  • Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code.
  • Možnost HO (až 3 dny v týdnu).

Seznam.cz, a.s.