An Alignment-Free DNA Sequence Comparison Method based on N-Grams


Şeker A. , Diri B., Delibaş E.

2ND WORLD CONFERENCE ON TECHNOLOGY, INNOVATION AND ENTREPRENEURSHIP, İstanbul, Türkiye, 12 - 14 Mayıs 2017, ss.45

  • Basıldığı Şehir: İstanbul
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.45

Özet

Canlı türlerinin arasında benzerlik bulmak için, canlıların DNA dizilerinin üzerinden karşılaştırmalar yapılmaktadır. Bu karşılaştırma için hizalama yöntemi kullanılmaktadır. Ancak bu yöntemin maliyeti sebebiyle, araştırmacılar hizalamadan bağımsız yöntemlere yönelmişlerdir. Bu çalışmada da, DNA dizilerinin karşılaştırılması için, metin işleme alanında sıkça uygulanan n-gram’ların kullanıldığı bir yöntem önerilmiştir. Çalışmada aralarında insan da bulunan 12 farklı canlıya ait DNA dizilerinden karakter tabanlı olarak n-gramlar çıkarılmıştır. Hizalama işlemiyle ortaya çıkan hiyerarşik kümelerle özellikle türler arasındaki 3 grubun kendi arasında kümelenmektedir. Bu çalışmada da en azından bu kümelerin görülmesi beklenmektedir. Sonuç olarak kayda değer benzerlikler ortaya çıkarılmıştır.

Comparisons are performed with their DNA sequences to find out similarities between species. The alignment method is commonly used for this comparison. However, by cause of the cost of this method, researchers diverge to alignment-free methods. In this study, due to comparing DNA sequences, a method which using n-grams that are often applied to the field of text processing has been proposed. Character-based n-grams were extracted from DNA sequences that belong to 12 different species, including humans. The hierarchical clusters obtained by the alignment-based methods are mainly clustered among the three groups of these species. It is expected that at least these clusters will be seen in this study. As a result of the method, considerable similarities have been achieved.