Yayın:  Kümeleme ve yerel aykırı faktör tabanlı aktif öğrenme yaklaşımları: Otomotiv sektöründe bir uygulama
Dosyalar
Tarih
Kurum Yazarları
Yazarlar
 Koyuncu, Fatma Saniye 
Danışman
 İnkaya, Tülin 
Dil
Türü
Yayıncı:
Bursa Uludağ Üniversitesi
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Özet
Dijitalleşme ile birlikte küreselleşme; imalat, finans, enerji, sağlık gibi çeşitli üretim ve hizmet sistemlerinde toplanan verinin artmasını sağlamıştır. Bu sistemlerin verimli ve etkin bir şekilde yönetilebilmesi için yapay zekâ teknikleri kullanılarak toplanan veri ile tahmin ve çıkarımlar yapılmaktadır. Yapay zekâ yöntemleri, öğrenme sürecinde yeterli miktarda etiketli veriye ihtiyaç duymaktadır. Diğer yandan gerçek hayattaki sistemlerde verilerin çoğu etiketsizdir ve etiketleme işlemi maliyetli veya zordur. Bu amaçla aktif öğrenme çözüm yaklaşımı olarak kullanılmaktadır. Aktif öğrenme, modelin çevre ile etkileşime girdiği ve bilgilendirici örneklerin etiketlendiği makine öğrenmesi yöntemlerinden biridir. Bu tezde, zaman serisi sınıflandırma problemi için aktif öğrenme yaklaşımları önerilmiştir. Bu kapsamda, verinin tamamının etiketsiz olduğu durum ele alınmıştır ve iki başlangıç yaklaşımı önerilmiştir. Önerilen başlangıç yaklaşımlarında önce gürültü ya da aykırı veriler başlangıç eğitim kümesinden çıkarılmıştır, sonrasında kalan verilerdeki temsilci örnekler kümeleme ile belirlenmiştir. İlk yaklaşımda gürültüyü tespit etmek amacıyla DBSCAN algoritması; ikinci yaklaşımda ise aykırı verileri tespit etmek amacıyla yerel aykırı faktör (LOF) algoritması kullanılmıştır. Her iki yaklaşımda da veri kümesindeki temsilci örnekleri belirlemek için k-ortalamalar kümeleme yöntemi uygulanmıştır. Belirlenen temsilci örnekler başlangıç aşamasında uzman tarafından etiketlenmiştir. Zaman serilerinin sınıflandırmasında k-en yakın komşu (KNN) algoritması ve aktif öğrenmede sorgu seçimi için belirsizlik örneklemesi kullanılmıştır. Önerilen yaklaşımların performansları, üretim ve sağlık sistemlerinden toplanan dört adet sensör veri kümesi üzerinde test edilmiştir. Deneysel çalışmalarda kümeleme yöntemi, sınıflandırma algoritması ve sorgu sayısının etkileri analiz edilmiştir. Performans kriterleri olarak doğruluk ve ağırlıklı F-ölçütü kullanılmıştır. Ayrıca önerilen yaklaşımlar bir otomobil üreticisinde tedarikçilerin risk tahmininde uygulanmıştır. Deneysel çalışmalar, önerilen yaklaşımların başlangıç eğitim kümesinin belirlenmesinde etkili olduğunu göstermiştir.
Globalization along with digitalization has enabled the increase of data collected in various production and service systems such as manufacturing, finance, energy and health. In order to manage these systems efficiently and effectively, predictions and inferences are made with the data collected using artificial intelligence techniques. Artificial intelligence methods require a sufficient amount of labeled data in the learning process. On the other hand, in real-life systems, most of the data is unlabeled and labeling is costly or difficult. For this purpose, active learning is used as a solution approach. Active learning is one of the machine learning methods in which the model interacts with the environment and informative examples are labeled. In this thesis, active learning approaches are proposed for the time series classification problem. In this context, the situation where all the data is unlabeled is considered and two initialization approaches are proposed. In the proposed initialization approaches, noise or outlier data are first removed from the initial training set, and then representative samples in the remaining data are determined by clustering. In the first approach, DBSCAN algorithm to detectnoise; in the second approach, the local outlier factor (LOF) algorithm was used to detect outlier data. In both approaches, k-means clustering method was applied to identify representative samples in the dataset. The identified representative samples were labeled by an expert at the initialization stage. The k-nearest neighbor (KNN) algorithm was used for classification of time series and uncertainty sampling was used for query selection in active learning. The performances of the proposed approaches were tested on four sensor datasets collected from production and healthcare systems. In the experimental studies, the effects of clustering method, classification algorithm and number of queries were analyzed. Accuracy and weighted F-measure were used as performance criteria. Additionally, the proposed approaches have been applied to suppliers' risk estimation in an automobile manufacturer. Experimental studies have shown that the proposed approaches are effective in determining the initial training set.
Globalization along with digitalization has enabled the increase of data collected in various production and service systems such as manufacturing, finance, energy and health. In order to manage these systems efficiently and effectively, predictions and inferences are made with the data collected using artificial intelligence techniques. Artificial intelligence methods require a sufficient amount of labeled data in the learning process. On the other hand, in real-life systems, most of the data is unlabeled and labeling is costly or difficult. For this purpose, active learning is used as a solution approach. Active learning is one of the machine learning methods in which the model interacts with the environment and informative examples are labeled. In this thesis, active learning approaches are proposed for the time series classification problem. In this context, the situation where all the data is unlabeled is considered and two initialization approaches are proposed. In the proposed initialization approaches, noise or outlier data are first removed from the initial training set, and then representative samples in the remaining data are determined by clustering. In the first approach, DBSCAN algorithm to detectnoise; in the second approach, the local outlier factor (LOF) algorithm was used to detect outlier data. In both approaches, k-means clustering method was applied to identify representative samples in the dataset. The identified representative samples were labeled by an expert at the initialization stage. The k-nearest neighbor (KNN) algorithm was used for classification of time series and uncertainty sampling was used for query selection in active learning. The performances of the proposed approaches were tested on four sensor datasets collected from production and healthcare systems. In the experimental studies, the effects of clustering method, classification algorithm and number of queries were analyzed. Accuracy and weighted F-measure were used as performance criteria. Additionally, the proposed approaches have been applied to suppliers' risk estimation in an automobile manufacturer. Experimental studies have shown that the proposed approaches are effective in determining the initial training set.
Açıklama
Kaynak:
Anahtar Kelimeler:
Konusu
Makine öğrenmesi, Aktif öğrenme, Kümeleme, Zaman serisi, Başlangıç, Tedarik zinciri risk yönetimi, Machine learning, Active learning, Clustering, Time series, Initialization, Supply chain risk management
Alıntı
Koyuncu, F. S. (2024). Kümeleme ve yerel aykırı faktör tabanlı aktif öğrenme yaklaşımları: Otomotiv sektöründe bir uygulama. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.
