Ученые МФТИ ускорили поиск новых лекарств с помощью машинного обучения

В последние годы компьютерное моделирование сильно облегчило создание новых лекарств за счет предсказания структуры...

В последние годы компьютерное моделирование сильно облегчило создание новых лекарств за счет предсказания структуры молекул и их взаимодействий. Однако даже такой «чисто компьютерный» скрининг может быть слишком дорог и затруднен, если речь идет о миллионах веществ. Поэтому исследователи из МФТИ, Университетов Гронингена и Гренобля, — сделали этот процесс намного быстрее и эффективнее с помощью активного машинного обучения. Об этом CNews сообщили представители МФТИ.

Биологические свойства молекул — способность выполнять свои функции и взаимодействовать с другими соединениями — напрямую зависят от структуры. Это касается и белков — рецепторов и ферментов, которые служат мишенью для разных фармакологических препаратов. Недавние успехи в предсказании структуры белковых молекул с помощью искусственного интеллекта открыли новые возможности для дизайна лекарств. Однако не менее важно знать, как белки взаимодействуют с другими соединениями.

Проверять активность многих тысяч лигандов — связывающих белок молекул, — в реальном эксперименте слишком дорого и трудоемко. Поэтому сейчас ученые начинают с виртуального скрининга, то есть компьютерного поиска веществ с нужными свойствами. Например, моделируют взаимодействия будущего лекарства и его мишени с помощью молекулярного докинга (по-английски буквально «стыковка»), то есть поиска оптимального взаиморасположения молекул при контакте.

Виртуальный скрининг позволяет оценить биологические эффекты вещества намного быстрее и дешевле. Самые перспективные из молекул-кандидатов далее проверяют в реальном эксперименте, в случае успеха — в доклинических исследованиях на животных и лишь затем на пациентах. 

Однако виртуальный скрининг больших библиотек молекул встречает трудности. В подобных библиотеках обычно десятки миллионов соединений. Понятно, что проверка такого количества требует значительных вычислительных ресурсов. Важно понимать, что «машинное время» (то есть длительность работы процессора) означает денежные расходы. Так, докинг всего одного лиганда занимает несколько секунд работы центрального процессора (CPU). Обработка большой библиотеки из десятков миллионов лигандов с помощью облачных сервисов потребует уже десятков лет работы процессора и будет стоить десятки тысяч долларов. Поэтому ученые пытаются сделать этот процесс быстрее и доступнее.

Возможное решение этой проблемы описали авторы новой статьи в высокорейтинговом журнале Journal of Chemical Information and Modeling — ученые Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ, а также Университетов Гронингена (Нидерланды) и Гренобля (Франция).

«В связи с огромным количеством проверяемых веществ виртуальный скрининг занимает много машинного времени, даже если мы используем современные вычислительные ресурсы. Более того, химические пространства потенциальных лекарств постоянно расширяются, что требует увеличения эффективности процесса», — сказал руководитель исследования Валентин Борщевский, заместитель директора Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ. 

Авторы нового исследования использовали библиотеки, которые описывают докинг миллиона лигандов для каждого из четырех изученных белков. Это аденозиновый рецептор человека типа A2 (AA2AR), каннабиноидный рецептор 2 типа (CB2), дофаминовый рецептор 4 типа (D4) и бета-лактамаза AmpC — фермент, из-за которого бактерии становятся устойчивыми к антибиотикам.

Далее авторы выяснили, какая модель машинного обучения (machine learning, ML) в этом случае подходит для предсказания результатов докинга лучше всего. Ей оказалась линейная регрессия — довольно простой метод, если сравнивать с такими «тяжеловесами» ML, как обычно используемые случайный лес, деревья решений или глубокое обучение.

Затем линейную регрессию использовали в режиме активного обучения. Оно происходило поэтапно: после докинга маленькой порции библиотеки на каждом новом шаге обучали базовую модель, которая выделяла лиганды с максимальными оценками — именно их использовали для докинга на следующем этапе. В итоге скрининг всего 10% библиотеки по такой схеме выявил от 48% до 91% лигандов, которые входят в одну сотую часть самых активных. Показатели качества моделей были сравнимы с теми, что получены ранее с помощью гораздо более «сложных» моделей.

«Мы продемонстрировали, что машинное обучение может значительно ускорить поиск перспективных веществ. Оказалось, необязательно оценивать аффинность (то есть сродство молекул, силу связывания) для всех. Достаточно выбрать небольшое количество молекул из списка, оценить их аффинность, обучить на них искусственный интеллект и затем точно предсказывать перспективные вещества из оставшегося списка. Это позволяет значительно ускорить процесс разработки новых лекарств», — сказал Валентин Борщевский.

Работа выполнена при поддержке Российского научного фонда (грант 22-24-00454).