Российский университет медицины

Проект кафедры истории медицины Российского университета медицины

Разработана нейросетевая модель для изучения генома человека

29 июня 2022

Исследователи из Института искусственного интеллекта AIRI обучили нейросетевую модель полной сборке генома человека и выложили ее в открытом доступе. Об этом ТАСС в четверг сообщила пресс-служба института.

Такие нейросетевые модели, как объяснили в институте, могут применять для многих задач. Например, для определения влияния мутаций на работу генов, поиска различных участков генома, классификации живых организмов на основе данных секвенирования и т. д. При этом в мире существуют модели для последовательностей белков, но для последовательностей ДНК публично доступна только одна модель ученых из США, которая называется DNABERT.

"Наша модель - первая языковая модель для ДНК, обученная на самой полной версии генома человека - T2T-CHM13, которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT. Тестирование полученной ДНК модели на одной из задач генетики - предсказании последовательностей, способных "включать" гены (промоутеров) - уже показало результаты превосходящие аналогичные с использованием DNABERT", - отметила руководитель научной группы "Биоинформатика" Института искусственного интеллекта AIRI Ольга Кардымон, слова которой приводятся в распространенном сообщении.

Модель, получившую название GENA_LM, выложили в открытый доступ, что позволит биологам во всем мире использовать ее в научных исследованиях. В дальнейшем авторы разработки намерены расширить возможности своей модели. В частности, добавить версии, ориентированные на решение чисто прикладных задач. Например, на предсказание изменения интенсивности работы генов, что необходимо для понимания механизмов возникновения генетических заболеваний или появления злокачественных клеток.

Исследователи из России и ряда зарубежных стран завершили проект по полной расшифровке генома человека и представили результаты 31 марта 2022 года. Как отмечают авторы работы, расшифровку можно считать эталонным образцом, который может быть использован в медико-генетических лабораториях для поиска мутаций, связанных с различными заболеваниями.

По материалам сайта ТАСС