Which molecules can challenge density-functional tight-binding methods in evaluating the energies of conformers? Investigation with machine-learning toolset
DOI:
https://doi.org/10.1063/10.0024962Ключові слова:
conformers, biomolecules, semi-empirical quantum-chemical methods, machine learning models, neural networksАнотація
Великі органічні молекули та біомолекули можуть набувати декілька конформацій, ймовірність реалізації яких визначаються їхніми відносними енергіями. Ідентифікація енергетично найбільш вигідних конформацій важлива для інтерпретації спектроскопічних експериментів, проведених за кріогенних умов. Зокрема, коли вплив нерегулярного оточуючого середовища, такого як матриця атомів інертних газів, на коливальні властивості молекул є істотним, для моделювання таких систем часто використовуються напівемпіричні (SE) квантово-хімічні методи. Хоча SE методи є обчислювально більш ефективними, аніж ab initio квантово-хімічні методи, вони можуть бути неточними у визначенні енергій конформерів у одних молекулах, хоча водночас мати хорошу точність у інших. У роботі використано комбінацію сучасних методик машинного навчання, таких як графові нейронні мережі, для ідентифікації молекул, у яких похибки визначення відносних енергій конформерів SE методом GFN1-xTB є якнайбільшими. Оцінено ефективність трьох різних моделей машинного навчання шляхом порівняння прогнозованих ними помилок із фактичними помилками в енергіях конформерів, отриманими при застосуванні методу GFN1-xTB. Створено ансамбль моделей машинного навчання та застосовано його до більшої вибірки молекул із бази даних ChEMBL та знайдено набір молекул, які є найбільш проблемними для методу GFN1-xTB. Знайдені молекули можуть бути корисними для виправлення недоліків фізичної моделі методу GFN1-xTB, тим самим засвідчуючи потенціал моделей машинного навчання для подальшого вдосконалення SE методів.