ANOTACE
V této práci je zkoumán vliv chemických lineárních zápisů a metod tokenizace na QSAR modely neuronových sítí. Různé molekulární lineární reprezentace (SMILES, InCHI, SLN, DeepSMILES, SELFIES) jsou zakódovány do číselného vektoru pomocí různých tokenizačních metod (character-level, atom-level, 4-mers, SPE, BPE). Tyto vektory slouží jako vstup do neuronové sítě, která předpovídá biologickou aktivitu na receptoru VEGF2 (vaskulární endoteliální růstový faktor). Kvalita modelů neuronových sítí se posuzuje porovnáním predikovaných a naměřených biologických aktivit.