Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi

dc.contributor.buuauthorBilgin, Metin
dc.contributor.departmentBursa Uludağ Üniversitesi/Mühendislik Fakültesi.tr_TR
dc.date.accessioned2020-09-04T11:40:29Z
dc.date.available2020-09-04T11:40:29Z
dc.date.issued2019-02-12
dc.description.abstractBu çalışma, yazarı bilinmeyen bir dokümanının yazarını tahmin etmeyi amaçlamaktadır. Bunun için 6 farklı köşe yazarına ait 6 köşe yazısı öncelikle ön-işlem aşamasına sokulmuştur. Ardından bu metinler üzerinden n-gram (2-3) ile özellikler çıkarılmıştır. Çıkarılan özellikler üzerinden sistem 6 farklı makine öğrenmesi üzerinde çapraz geçerleme (10) ile test edilmiştir. Buraya kadar olan kısım literatürde şimdiye kadar uygulanmış olan yöntemdir. Bizim önerimiz ön işlem aşamasının ardından eldeki metinleri LZW algoritması ile kayıpsız sıkıştırarak özellik sayısını azaltmak ve bunun sistemin başarısı üzerindeki etkileri araştırmak üzerinedir. Ön-işlemden geçmiş olan metinler LZW algoritması ile binary (ikili) ve decimal (onlu) olarak sıkıştırılır. Sıkıştırmanın ardından n-gram (2-3) ile çıkarılan özellikler ile sistem 6 farklı makine öğrenmesi yönteminde test edilmiş ve çalışma sonuçları 5 farklı metrik için incelenmiştir. Yapılan çalışma sonucunda ikili olarak sıkıştırılmış metinler hem 2-gram hem de 3-gramda, 6 farklı makine öğrenmesi algoritmasında da daha iyi sonuçlar elde etmiştir. Random Tree ve Naïve bayes algoritmasında onlu sıkıştırma, ham verinin gerisinde kalsa da diğer 4 algoritmada daha iyi elde sonuçlar elde etmiş ama ortalama başarı değerlerinde geride kalmıştır. Yapılan çalışma sonucunda ikili sıkıştırma tüm metriklerinde diğer iki yönteme göre daha başarılıdır. Yapılan çalışmada yazar tanıma işlemi yapılmış olsa da önerilen bu yöntemin tüm metin sınıflandırma işlemlerinde kullanılabileceği düşünülmektedir.tr_TR
dc.description.abstractThis study aims to estimate the author of an unknown document. For this purpose, first of all, six different columns of 6 different columnists were pre-processed. Then with n-grams (2-3) features were extracted from these texts. The system has been tested with 10-fold cross-validation on 6 different machine learning algorithms. This part of the study is the method that has been applied so far in the literature. Our suggestion is to reduce the number of features with the LZW algorithm and to investigate the effects on the success of the system. The pre-processed texts are compressed binary and decimal with the LZW algorithm. After compression, the system has been tested with 6 different machine learning algorithms, and the study results has been analyzed for 5 different metrics. As a result of the study, the compressed binary text has obtained better results in both 2-gram and 3-gram, for 6 different machine learning algorithms. In the Random-Tree and Naïve Bayes algorithm, decimal compression is behind the raw data. In the other four algorithms, it achieved better results but remained behind the average success values. As a result of the study, binary compression is more successful in all metrics than the other two methods. In the study, although the author recognition process has been done, it can be thought that the proposed method can be used in all text classification procedures.en_US
dc.identifier.citationBilgin, M. (2019). "Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi". Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 24(1), 125-136.tr_TR
dc.identifier.endpage136tr_TR
dc.identifier.issn2148-4147
dc.identifier.issn2148-4155
dc.identifier.issue1tr_TR
dc.identifier.startpage125tr_TR
dc.identifier.urihttps://dergipark.org.tr/tr/download/article-file/665110
dc.identifier.urihttp://hdl.handle.net/11452/12546
dc.identifier.volume24tr_TR
dc.language.isotrtr_TR
dc.publisherBursa Uludağ Üniversitesitr_TR
dc.relation.journalUludağ Üniversitesi Mühendislik Dergisi / Uludağ University Journal of The Faculty of Engineeringtr_TR
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergitr_TR
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMetin sınıflandırmatr_TR
dc.subjectDoğal dil işlemetr_TR
dc.subjectLZWtr_TR
dc.subjectMetin sıkıştırmatr_TR
dc.subjectMakine öğrenmesitr_TR
dc.subjectText classificationen_US
dc.subjectNatural language processingen_US
dc.subjectText compressionen_US
dc.subjectMachine learningen_US
dc.titleTürkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisitr_TR
dc.title.alternativeA novel method proposal to ıncrease the classification success of Turkish texten_US
dc.typeArticleen_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
24_1_11.pdf
Size:
960.46 KB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: