Анализ закономерностей нуклеотидных последовательностей на основе использования марковских цепей 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Анализ закономерностей нуклеотидных последовательностей на основе использования марковских цепей



Введем некоторые определения, конкретизирующие смысл марковской цепи.

1) Случайным процессом x (t) называется функция неслучайного аргумента (как правило времени), значение которой для любого произвольного момента времени представляет собой СВ.

2) Случайный процесс x(t) называется процессом с дискретным временем, если он способен менять свои состояния лишь в фиксированные моменты времени t1, t2, …, tm, число которых счетно или конечно.

3) Случайный процесс x(t) называется процессом с дискретным временем и дискретными состояниями, если в каждый из фиксированных моментов времени t1, t2, …, tm случайный процесс может находиться в одном и только в одном состоянии из конечного набора возможных состояний x1, x2, …, xn. Т.е. в любой фиксированный момент времени ti случайный процесс может принять только одно из конечного набора возможных состояний: x(ti) = x1 или x(ti) = x2 или … или x(ti) = xn

4) Случайный процесс с дискретным временем и дискретным состоянием называется марковской цепью порядка k, если вероятность будущего состояния процесса xi+1 зависит только от того, в каких именно состояниях находился процесс в k предшествующих моментах времени.

Иными словами, для марковской цепи справедливо следующее условие:

P{xi+1/(xi, xi-1, …, x2, x1)} = P{xi+1/(xi, xi-1, …, xi-k)}

Оказывается, что марковская цепь является удобной математической моделью, позволяющей исследовать закономерности структур нуклеотидной последовательности. В этом случае аналогом дискретного времени выступает номер позиции нуклеотидной последовательности. В каждой позиции нуклеотидной последовательности возможно появление одного и только одного из четырех типов нуклеотидных оснований, которые и являются аналогами дискретного состояния марковской цепи.

В рамках подобного представления задача сводится к определению такого порядка марковской цепи, которая наилучшим образом описывает исследуемую нуклеотидную последовательность. Если в результате анализа в качестве оптимальной будет определена марковская цепь первого порядка (k = 1), это значит то появление определенного основания в нуклеотидной последовательности зависит от того, какое основание находилось в предшествующей позиции. Если оптимальным окажется второй порядок марковской цепи (k = 2), это значит, что появление определенного основания в нуклеотидной последовательности зависит от того, какие именно основания находились в двух предшествующих позициях и т.д.

Для определения оптимального порядка марковской цепи используется так называемый Байесовский информационный критерий. Основу этого критерия составляет функция правдоподобия L(k).

Функция правдоподобия L (k) определяет вероятность получения исследуемой последовательности оснований, если описывать эту последовательность марковской цепью порядка k.

Функция правдоподобия рассчитывается на основе следующего выражения:

где k – порядок марковской цепи;

n – количество оснований в исследуемой последовательности;

P(x1, x2, …, xk) – вероятность, с которой в исследуемой последовательности встречается комбинация оснований, располагаемых в первых k позициях;

 – условная вероятность того, что в позиции с номером i+1 располагается основание типа xi+1 при условии, что в предшествующих k позициях располагались основания xi, xi-1, …, xi-k.

В качестве оптимального k* порядка марковской цепи выступает такой, при котором достигается максимум функции правдоподобия:

В том случае, если оптимальный порядок марковской цепи k* = 1, то значит, что появление некоторого основания не является случайным, а зависит от того, какой именно нуклеотид находится в предшествующей позиции.

Если k* = 2, то значит, что появление некоторого основания зависит от того, какие именно нуклеотиды находились в двух предшествующих позициях. И т.д.

Проиллюстрируем механизм вычисления функции правдоподобия на примере короткой нуклеотидной последовательности:

AGTCATCCGTAC

В соответствии с приведенным выше определением функция правдоподобия для марковской цепи порядка k=1 рассчитывается следующим образом:

Оценки вероятностей, присутствующих в этом выражении, рассчитываются следующим образом:

nA – количество оснований типа А в исследуемой последовательности, n – длина последовательности;

nAG – количество пар оснований типа AG в исследуемой последовательности;

nAC – количество пар оснований типа AC в исследуемой последовательности.

Функция правдоподобия для марковской цепи порядка k=2:

nAG – количество пар оснований AG в исследуемой последовательности;

n•• – общее число всех последовательных парных комбинаций в исследуемой последовательности.

Таким образом, последовательно повышая порядок цепи Маркова, находится такое его оптимальное значение, при котором достигается максимум функции правдоподобия. Иными словами, в качестве оптимального порядка марковской цепи выбирается такой, при котором вероятность получения исследуемой последовательности нуклеотидов будет максимальной.

 



Поделиться:


Последнее изменение этой страницы: 2021-01-08; просмотров: 116; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.116.21.229 (0.01 с.)