Modèle de markov caché bioinformatique

Comme mentionné ci-dessus, la distribution de chaque observation dans un modèle de Markov caché est une densité de mélange, avec les États des composants correspondants aux mélanges. Il est utile de comparer les caractérisations ci-dessus pour un HMM avec les caractérisations correspondantes, d`un modèle de mélange, en utilisant la même notation. Une fois que nous avons construit le HMM ungapped, nous ajoutons des États Insert ik et supprimer les États DK au modèle afin que nous puissions tenir compte des insertions et des suppressions dans les nouvelles séquences d`observation. Examinons d`abord le cas où la séquence d`ADN observée est plus longue que la séquence de consensus de l`alignement d`origine. Dans ce cas, si nous alignons ces séquences, il y aura une ou plusieurs bases dans la séquence d`ADN observée qui ne sont pas présentes dans la séquence de consensus. Ces symboles supplémentaires sont modélisés par les États d`insertion. L`état d`insertion ik est utilisé pour manipuler les symboles insérés entre les positions k et (k + 1) dans la séquence de consensus. Maintenant, examinons le cas où la nouvelle séquence observée est plus courte que la séquence de consensus. Dans ce cas, il y aura une ou plusieurs bases dans la séquence de consensus qui ne sont pas présentes dans la séquence d`ADN observée. Le k e État de suppression DK est utilisé pour gérer la suppression du k e symbole dans la séquence de consensus d`origine.

Comme les États de suppression représentent des symboles manquants, DK est un État non émettant, ou un État silencieux, qui est simplement utilisé comme un lieu-porte qui interconnecte les États voisins. Après avoir ajouté les États d`insertion et les États de suppression à la HMM ungapped dans la Fig. (2b2b), nous obtenons le profil final-HMM qui est montré dans la Fig. (2c2c). Le HMM construit peut maintenant être utilisé pour analyser de nouvelles séquences d`observation. Supposons, par exemple, que nous ayons une nouvelle séquence d`ADN x = x1…… = ATGCGACTGCATAGCACTT comment pouvons-nous savoir si cette séquence d`ADN est un gène de codage ou non? Ou, si nous supposons que x est un gène de codage protéique, comment pouvons-nous prédire l`emplacement des exons et introns dans la séquence donnée? Nous pouvons répondre à la première question en calculant la probabilité d`observation de x basée sur le HMM donné que les modèles de codage des gènes. Si cette probabilité est élevée, cela implique que cette séquence d`ADN est susceptible d`être un gène de codage. Sinon, nous pouvons conclure que x est peu susceptible d`être un gène de codage, car il ne contient pas les propriétés statistiques qui sont généralement observées dans les gènes de codage protéique. La deuxième question est de prédire la structure interne de la séquence, car elle ne peut pas être observée directement. Pour répondre à cette question, nous pouvons d`abord prédire la séquence d`État y dans le HMM qui décrit le mieux x.

Une fois que nous avons déduit le meilleur y, il est facile de prédire les emplacements des exons et introns. Par exemple, supposons que la séquence d`État optimale y est indiquée dans la Fig. (11). Cela implique que les neuf premières bases x1… x9 appartiennent au premier exon, les quatre bases suivantes x10… x 13 appartiennent à un intron, et les six dernières bases 14… 19 à 19 appartiennent à un autre exon. Comme le montrent ces exemples, les HMMs fournissent un cadre probabiliste formel pour l`analyse des séquences biologiques.

où nous avons utilisé le fait que XI est indépendant de Yi. Cela montre clairement que nous pouvons décrire des corrélations de symboles à longue distance par paires en utilisant une paire de PN et CN, puis en spécifiant leurs probabilités d`émission. Étant donné qu`un état d`émission par paires (CN) et son état sensible au contexte correspondant CN travaillent ensemble pour décrire les corrélations de symboles, ces États existent toujours par paire, et une mémoire distincte est allouée à chacune des paires d`États (PN, CN). Comme nous avons besoin des informations contextuelles pour ajuster les probabilités d`émission à un état sensible au contexte, les probabilités de transition dans le modèle sont ajustées de telle sorte que nous n`entrons jamais dans un état sensible au contexte si la mémoire associée est vide [27].

Written by