Kayıp IoT Verilerinin Makine Öğrenmesi Teknikleri ile Tahmini


Azizoğlu F., Ünsal E.

El-Cezeri Journal of Science and Engineering, cilt.9, sa.4, ss.1388-1397, 2022 (Scopus)

Özet

Nesnelerin İnterneti (IoT) tabanlı endüstriyel uygulamalardan toplanan veriler her geçen gün giderek artmaktadır. Bununla birlikte, IoT cihazlarındaki arıza ve iletişim kopukluğu sebebi ile toplanan veriler gürültülü, belirsiz ve eksik olabilmektedir. Bu problemler, veri üretimi, kalitesi, işlenmesi ve analizleri için kritik bir konu haline gelmiştir. Bu çalışma kapsamında kullanılan veri setleri, Sivas Numune Hastanesi tıbbi atıkları evsel atığa dönüştüren su nötralizatör sisteminden gerçek zamanlı toplanarak oluşturulmuştur. Hastanelerde bulunan tıbbi sıvı atıklar kanalizasyona aktarılmadan önce nötralizasyon cihazları ile pH değişikliği yoluyla kimyasal nötralizasyon işlemine maruz bırakılmaktadır. Bu anlamda, tıbbi atık nötralizasyon sistemindeki pH değerlerinin gözlemlenmesi çevrenin korunması adına oldukça önemlidir. Bu kapsamda, farklı miktarlarda eksiltilerek oluşturulan iki veri seti ile kayıp pH verilerinin tahmini için Lineer Regresyon (LR), Destek Vektör Makineleri (DVM), K-En Yakın Komşuluk (KNN), Rastgele Orman (RO), Karar Ağacı (KA) ve Adaboost olmak üzere altı farklı makine öğrenmesi algoritması kullanılmıştır. Makine öğrenmesi algoritmalarının değerlendirilmesinde ortalama mutlak hata (Mean Absolute Error, MAE), ortalama karesel hata (Mean Squared Error, MSE) ve kök ortalama kare hata (Root Mean Square Error, RMSE) performans metrikleri kullanılmıştır. Gerçekleştirilen çalışma sonucunda iki farklı veri seti içinde DVM algoritmasının daha başarılı olduğu gözlemlenmiştir. Yapılan değerlendirme sonucu, makine öğrenmesi algoritmalarının kayıp pH verilerinin tahmininde oldukça başarılı olduğunu göstermektedir

Every day, the amount of data generated by industrial applications based on the Internet of Things (IoT) grows. However, data acquired because of failures and communication disconnections in IoT devices might be noisy, inaccurate, and incomplete. These issues have become crucial for data production, quality, processing, and analysis. The datasets used in the scope of this study were collected in real-time from the water neutralizer system of Sivas Numune Hospital, which converts medical waste into household waste. Medical liquid wastes in hospitals are exposed to chemical neutralization process by means of pH change with neutralization devices before being transferred to the sewer. In this regard, the monitoring of pH levels in the medical waste neutralization system is crucial for environmental protection. In this aspect, two datasets with varying quantities of missing data were evaluated for the prediction of the PH using the linear regression (LR), support vector machines (SVM), k-nearest neighbor (KNN), random forest (RF), and decision tree (DT) machine learning algorithms. Mean absolute error (MAE), mean squared error (MSE), and root mean square error (RMSE) performance metrics were used to evaluate machine learning algorithms. Because of the analysis, it was determined that the SVM algorithm performed better performance on the two distinct datasets. The result of the evaluation indicates that machine learning algorithms are remarkably efficient at predicting missing pH data