Yeşilırmak nehri su kalite verilerinden aykırı değerlerin temizlenmesi için kullanıcı dostu bir arayüz geliştirilmesi
Özet
Su canlıların yaşamında önemli bir yere sahiptir. Son yıllarda hızlı nüfus artışı, endüstriyel faaliyetlerdeki artış ve bilinçsiz tarım yöntemleri nedeniyle su kaynakları ciddi tehdit altındadır. Diğer taraftan su kaynaklarının korunması ve kirlilik takibi için ciddi yaptırımlar oluşturulmuştur. Su kirliliği takibinin yapılabilmesi için son yıllarda 'on-line' istasyonların ve ölçüm yöntemlerinin kullanılması söz konusudur. Bu durum takibin daha sık aralıklarla yapılabilmesini sağladığı gibi çok sayıda verinin elde edilmesini de kolaylaştırmıştır. Ayrıca veri madenciliği ve bilgisayar teknolojilisindeki gelişmeler pek çok parametre için zahmetli ve maliyetli deneysel yöntemlerden ziyade tahmin yeteneğine sahip modellerin gelişmesini mümkün kılmıştır. Ancak gerçek veri ile geliştirilen pek çok modelde veri kalitesi önemli bir parametre olduğu için verilerin belirli ön işlemlerden geçirilmesi gereklidir. Bu tez kapsamında, Yeşilırmak Nehri üzerinde kurulu 'on-line' izleme istasyonundan 2007-2009 yılları arasında toplanmış olan veriler kullanılarak veri seti içerisindeki aykırı değerlerin temizlenmesi çalışılmıştır. TÜBİTAK projesi kapsamında kurulan bu istasyonlardan alınan verilerden; çözünmüş oksijen (luminescence dissolved oxygen, LDO), sıcaklık, pH, iletkenlik, toplam organik karbon (total organic carbon, TOC), nitrat azotu (NO3-N) ile amonyum azotu (NH4-N) için değerlendirmeler yapılmıştır. Bu kapsamda, ortanca, ortalama, Grubbs, Gesd, çeyrekler açıklığı olmak üzere beş farklı aykırı veri temizleme yöntemi kullanılmış ve MATLAB ortamında bir kullanıcı etkileşimli grafiksel ara yüz geliştirilmiştir. Böylece kullanıcı herhangi bir veri setini yazılıma tanıtarak aykırı verileri birkaç adımda farklı yöntemlerle temizleyerek modelleme çalışmaları için hazır duruma getirebilmektedir. Aykırı veri temizleme yöntemleri arasında ortanca algoritmasında daha fazla sayıda veri ayıklandığı görülmüştür. Water plays a crucial role in the life of living organisms. Water resources have been seriously threatened in recent years due to rapid population growth, increased industrial activities, and unsustainable agricultural practices. On the other hand, significant measures have been taken to protect water resources and monitor pollution. In recent years, online stations and measurement methods have been introduced for water pollution monitoring. This allows for more frequent monitoring and facilitates the collection of a large amount of data. Furthermore, advancements in data mining and computer technologies have enabled the development of predictive models for various parameters, replacing laborious and costly experimental methods. However, data quality is important in models developed using real data, necessitating proper data preprocessing. This thesis focuses on removing outlier values in the dataset using the data collected from an online monitoring station on the Yeşilırmak River between 2007 and 2009. Evaluations were performed for dissolved oxygen (luminescence dissolved oxygen, LDO), temperature, pH, conductivity, total organic carbon (TOC), nitrate nitrogen (NO3-N), and ammonium nitrogen (NH4-N) based on the data obtained from these stations established under a TÜBİTAK project. Five outlier data removal methods were utilised: median, mean, Grubbs, Gesd, and interquartile range. Additionally, a graphical user interface was developed in the MATLAB environment. As a result, users can introduce any dataset to the software and remove outlier values using different methods in a few steps, preparing the data for modelling studies. It was observed that the median algorithm removed more data points among the outlier data-removing methods.
Bağlantı
https://tez.yok.gov.tr/UlusalTezMerkezi/tezDetay.jsp?id=K6ZyUos-IzvFID7Uq3xiDQhttps://hdl.handle.net/11491/8933