El-Cezeri Journal of Science and Engineering, cilt.9, sa.4, ss.1388-1397, 2022 (Scopus)
Nesnelerin İnterneti (IoT) tabanlı endüstriyel uygulamalardan toplanan veriler her geçen gün giderek
artmaktadır. Bununla birlikte, IoT cihazlarındaki arıza ve iletişim kopukluğu sebebi ile toplanan veriler
gürültülü, belirsiz ve eksik olabilmektedir. Bu problemler, veri üretimi, kalitesi, işlenmesi ve analizleri için kritik
bir konu haline gelmiştir. Bu çalışma kapsamında kullanılan veri setleri, Sivas Numune Hastanesi tıbbi atıkları
evsel atığa dönüştüren su nötralizatör sisteminden gerçek zamanlı toplanarak oluşturulmuştur. Hastanelerde
bulunan tıbbi sıvı atıklar kanalizasyona aktarılmadan önce nötralizasyon cihazları ile pH değişikliği yoluyla
kimyasal nötralizasyon işlemine maruz bırakılmaktadır. Bu anlamda, tıbbi atık nötralizasyon sistemindeki pH
değerlerinin gözlemlenmesi çevrenin korunması adına oldukça önemlidir. Bu kapsamda, farklı miktarlarda
eksiltilerek oluşturulan iki veri seti ile kayıp pH verilerinin tahmini için Lineer Regresyon (LR), Destek Vektör
Makineleri (DVM), K-En Yakın Komşuluk (KNN), Rastgele Orman (RO), Karar Ağacı (KA) ve Adaboost
olmak üzere altı farklı makine öğrenmesi algoritması kullanılmıştır. Makine öğrenmesi algoritmalarının
değerlendirilmesinde ortalama mutlak hata (Mean Absolute Error, MAE), ortalama karesel hata (Mean Squared
Error, MSE) ve kök ortalama kare hata (Root Mean Square Error, RMSE) performans metrikleri kullanılmıştır.
Gerçekleştirilen çalışma sonucunda iki farklı veri seti içinde DVM algoritmasının daha başarılı olduğu
gözlemlenmiştir. Yapılan değerlendirme sonucu, makine öğrenmesi algoritmalarının kayıp pH verilerinin
tahmininde oldukça başarılı olduğunu göstermektedir
Every day, the amount of data generated by industrial applications based on the Internet of Things
(IoT) grows. However, data acquired because of failures and communication disconnections in IoT devices
might be noisy, inaccurate, and incomplete. These issues have become crucial for data production, quality,
processing, and analysis. The datasets used in the scope of this study were collected in real-time from the water
neutralizer system of Sivas Numune Hospital, which converts medical waste into household waste. Medical
liquid wastes in hospitals are exposed to chemical neutralization process by means of pH change with
neutralization devices before being transferred to the sewer. In this regard, the monitoring of pH levels in the
medical waste neutralization system is crucial for environmental protection. In this aspect, two datasets with
varying quantities of missing data were evaluated for the prediction of the PH using the linear regression (LR),
support vector machines (SVM), k-nearest neighbor (KNN), random forest (RF), and decision tree (DT) machine
learning algorithms. Mean absolute error (MAE), mean squared error (MSE), and root mean square error
(RMSE) performance metrics were used to evaluate machine learning algorithms. Because of the analysis, it was
determined that the SVM algorithm performed better performance on the two distinct datasets. The result of the
evaluation indicates that machine learning algorithms are remarkably efficient at predicting missing pH data