CZ | EN

Statistická analýza chemické databáze PubChem

Statistical analysis of the PubChem chemical database

Statistická analýza chemické databáze PubChem

Statistical analysis of the PubChem chemical database

ANOTACE

Cílem práce je vyvinout nástroje pro analýzu obsahu chemických databází a použít je pro statistické vyhodnocení obsahu veřejně dostupné databáze PubChem. Databáze PubChem obsahuje k datu zadání této práce cca 20 milionů sloučenin a je tedy nemožné si snadno udělat představu o jejím obsahu, např. z hlediska zastoupení různých reaktivních skupin, velikostí molekul, různorodosti prvkového složení apod. Protože je databáze PubChem veřejně dostupná a poskytuje zdrojová data o obsažených sloučeninách ke stažení, nabízí se možnost statistické analýzy právě tohoto druhu dat. Aby bylo možné tuto analýzu provést, je třeba nejprve vyvinout odpovídající nástroje. Vzhledem k velikosti problému je třeba se zaměřit zejména na jejich rychlost, robustnost a správnost výsledků. Výsledkem práce bude kromě uvedených nást

ANNOTATION

The goal of this work is to develop tools for analysis of content of chemical databases and to use them for statistical analysis of the publicly available chemical database PubChem. At the time of writing of this text, PubChem contains about 20 milion chemical compound and it is thus impossible to easily get an overview of its content from the point of view of representation of different reactive groups, molecular sizes, diversity of elemental composition, etc. Because the PubChem database is publicly available and offers its source data on chemical compounds for download, we have the opportunity to make a statistical analysis of these data. To make such an analysis possible, it is necessary to at first develop relevant tools. Due to the size of the problem, it is important to focus primarily on speed,