CZ | EN

Srovnání lineárních strukturních zápisů pro hluboké QSAR modelování

Benchmarking linear structure notations for deep QSAR modelling

Srovnání lineárních strukturních zápisů pro hluboké QSAR modelování

Benchmarking linear structure notations for deep QSAR modelling

ANOTACE

V této práci je zkoumán vliv chemických lineárních zápisů a metod tokenizace na QSAR modely neuronových sítí. Různé molekulární lineární reprezentace (SMILES, InCHI, SLN, DeepSMILES, SELFIES) jsou zakódovány do číselného vektoru pomocí různých tokenizačních metod (character-level, atom-level, 4-mers, SPE, BPE). Tyto vektory slouží jako vstup do neuronové sítě, která předpovídá biologickou aktivitu na receptoru VEGF2 (vaskulární endoteliální růstový faktor). Kvalita modelů neuronových sítí se posuzuje porovnáním predikovaných a naměřených biologických aktivit.

ANNOTATION

In this work, the influence of chemical linear notations and tokenization methods on neural network QSAR models is explored. Various molecular linear representations (SMILES, InCHI, SLN, DeepSMILES, SELFIES) are encoded into a numeric vector using different tokenization methods (character-level, atom-level, 4-mers, SPE, BPE). These vectors serve as an input into a neural network that predicts a biological activity on VEGF2 (vascular endothelial growth factor) receptor. The quality of neural network models is assessed by the comparison of predicted and measured biological activities.