Berita
Hidden Markov Models & Stochastic Context-Free Grammars and Covariance Models: metode prediksi gen ncRNA
MALANG - Untuk melakukan prediksi gen ncRNA, ada beberapa metode yang bisa digunakan. Sebelumnya kita membahas salah satu dari model yang digunakan untuk memprediksi gen ncRNA, yaitu metode Minimum Folding Energy. Pada pembahasan kali ini, kita akan membahas model lainnya, yaitu Hidden Markov Models dan Stochastic Context-Free Grammars and Covariance Models.
Non-Coding RNA families memiliki berbagi fitur umum pada tingkatan urutan primer. Jika satu set urutan families yang tersedia memiliki kesamaan, kalian bisa menggunakan beberapa cara untuk mencari anggota keluarga tambahan. Ada yang dinamakan Naive approach untuk penerapan metode pencarian berbasis urutan (seperti BLAST/FASTA) untuk mencari identitas di urutan tertinggi dalam urutan target. Tetapi, pendekatan bergantung pada urutan individu dalam set pelatihan daripada berfokus pada fitur umum yang mencirikan set, dan itu bukanlah hal yang terlalu baik.
Profile Hidden Markov Models (HMMs) biasanya digunakan untuk menurunkan model probabilistik fitur sekuens dalam analisis sekuens biologis karena dianggap sebagai perpanjangan dari pendekatan profil non-probabilistik lainnya seperti position specific score matrix (PSSM). Keberhasilan metode ini sangat tergantung pada kualitas penyelarasan input, sementara HMM sendiri memiliki prinsip supaya bisa digunakan untuk menyelaraskan urutan primer, menyelaraskan wilayah ncRNA yang setara secara fungsional, dan secara signifikan harus memberi perhatian pada langkah ini jika kalian ingin profil-HMM berhasil.
Dalam profil-HMM, model yang dibangun mewakili urutan konsensus untuk families dan bukan untuk urutan anggota lainnya. Ini dilakukan untuk menetapkan skor probabilitas sensitif posisi (probabilitas emisi) yang terhubung dengan pengamatan nukleotida spesifik untuk setiap kolom pelurusan. Selain itu juga memberikan skor probabilitas penyisipan dan penghapusan yang sensitif terhadap posisi (probabilitas transisi) untuk setiap kolom. Salah satu dari beberapa pendekatan yang berbeda bisa kalian gunakan untuk menurunkan probabilitas ini dari keselarasan. Informasi tentang hubungan evolusioner dari urutan yang disejajarkan juga bisa digabungkan dan kemungkinan urutan bisa diberikan bobot berbeda dalam skema penilaian. Setelah itu, probabilitas akan ditentukan, dan model yang sudah dilatih bisa digunakan untuk mencari urutan target yang mirip dengan set pelatihan. Menentukan suatu barisan families dan menyelaraskannya dengan anggota lain bisa membantu menarik kesimpulan tentang fungsinya.
Lalu, Stochastic Context-Free Grammars (SCFGs) merupakan sebuah metode matematika yang secara efisien memodelkan interaksi jarak jauh yang terjadi dalam struktur RNA. SCFG sendiri merupakan model probabilistik yang terdiri dari simbol dan aturan produksi dengan probabilitas yang dapat menangkap fitur urutan primer, serta berinteraksi jarak jauh antara pasangan basa dalam struktur sekunder RNA. Model ini juga menyediakan kerangka pemersatu untuk pendekatan berbasis urutan primer (seperti HMM) dan pendekatan yang memprediksi struktur sekunder. Parameter turunan energi susun untuk prediksi struktural bisa diimplementasikan dalam aturan dalam tata bahasa sebagai prediksi struktur MFE. Jadi, Setelah parameter SCFG sudah kalian tentukan, algoritma pemrograman dinamis akan digunakan untuk menurunkan struktur sekunder yang sudah memaksimalkan fungsi penilaian.
Dalam analogi dengan profil HMM sebelumnya, SCFG pun memiliki struktur yang menggabungkan pola penyisipan dan penghapusan yang bermakna secara biologis dikenal sebagai covariance models (CM). CM bisa dilatih dengan mengembangkan keselarasan akurat dari urutan yang tersedia. Ini bisa dilakukan dengan menggunakan alat penyelarasan beberapa urutan standar seperti ClustalW atau M-Coffee. Penjajaran awal bisa kalian sesuaikan secara manual dengan bantuan program visualisasi, misalnya RALEE. Selain itu, semakin baik penyelarasan awal maka semakin besar juga kemungkinan jika CM akan menangkap jejak sebenarnya dari perubahan kompensasi yang mengungkapkan struktur bersama yang mendasarinya.
Model CM yang sudah terlatih dapat digunakan untuk mencari urutan target untuk anggota families tambahan.
Terima kasih telah membaca! Jika ingin tahu lebih bajyak mengenai model Hideen Markov Models, kalian bisa membaca buku ini!
Sumber: Bioinformatics: Tools and Applications-David Edwards, Jason Stajich, David Hansen (book)
Leave a reply