Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi

Yayın:
Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi

Dosyalar

24_1_11.pdf (960.46 KB)

Tarih

2019-02-12

Kurum Yazarları

Bilgin, Metin

Türü

Article

Yayıncı:

Bursa Uludağ Üniversitesi

Özet

Bu çalışma, yazarı bilinmeyen bir dokümanının yazarını tahmin etmeyi amaçlamaktadır. Bunun için 6 farklı köşe yazarına ait 6 köşe yazısı öncelikle ön-işlem aşamasına sokulmuştur. Ardından bu metinler üzerinden n-gram (2-3) ile özellikler çıkarılmıştır. Çıkarılan özellikler üzerinden sistem 6 farklı makine öğrenmesi üzerinde çapraz geçerleme (10) ile test edilmiştir. Buraya kadar olan kısım literatürde şimdiye kadar uygulanmış olan yöntemdir. Bizim önerimiz ön işlem aşamasının ardından eldeki metinleri LZW algoritması ile kayıpsız sıkıştırarak özellik sayısını azaltmak ve bunun sistemin başarısı üzerindeki etkileri araştırmak üzerinedir. Ön-işlemden geçmiş olan metinler LZW algoritması ile binary (ikili) ve decimal (onlu) olarak sıkıştırılır. Sıkıştırmanın ardından n-gram (2-3) ile çıkarılan özellikler ile sistem 6 farklı makine öğrenmesi yönteminde test edilmiş ve çalışma sonuçları 5 farklı metrik için incelenmiştir. Yapılan çalışma sonucunda ikili olarak sıkıştırılmış metinler hem 2-gram hem de 3-gramda, 6 farklı makine öğrenmesi algoritmasında da daha iyi sonuçlar elde etmiştir. Random Tree ve Naïve bayes algoritmasında onlu sıkıştırma, ham verinin gerisinde kalsa da diğer 4 algoritmada daha iyi elde sonuçlar elde etmiş ama ortalama başarı değerlerinde geride kalmıştır. Yapılan çalışma sonucunda ikili sıkıştırma tüm metriklerinde diğer iki yönteme göre daha başarılıdır. Yapılan çalışmada yazar tanıma işlemi yapılmış olsa da önerilen bu yöntemin tüm metin sınıflandırma işlemlerinde kullanılabileceği düşünülmektedir.
This study aims to estimate the author of an unknown document. For this purpose, first of all, six different columns of 6 different columnists were pre-processed. Then with n-grams (2-3) features were extracted from these texts. The system has been tested with 10-fold cross-validation on 6 different machine learning algorithms. This part of the study is the method that has been applied so far in the literature. Our suggestion is to reduce the number of features with the LZW algorithm and to investigate the effects on the success of the system. The pre-processed texts are compressed binary and decimal with the LZW algorithm. After compression, the system has been tested with 6 different machine learning algorithms, and the study results has been analyzed for 5 different metrics. As a result of the study, the compressed binary text has obtained better results in both 2-gram and 3-gram, for 6 different machine learning algorithms. In the Random-Tree and Naïve Bayes algorithm, decimal compression is behind the raw data. In the other four algorithms, it achieved better results but remained behind the average success values. As a result of the study, binary compression is more successful in all metrics than the other two methods. In the study, although the author recognition process has been done, it can be thought that the proposed method can be used in all text classification procedures.

Konusu

Metin sınıflandırma, Doğal dil işleme, LZW, Metin sıkıştırma, Makine öğrenmesi, Text classification, Natural language processing, Text compression, Machine learning

Alıntı

Bilgin, M. (2019). "Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi". Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 24(1), 125-136.

URI

https://dergipark.org.tr/tr/download/article-file/665110
http://hdl.handle.net/11452/12546

Yayın:
Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi

Dosyalar

Tarih

Akademik Birimler

Kurum Yazarları

Yazarlar

Danışman

Dil

Türü

Yayıncı:

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Özet

Açıklama

Kaynak:

Anahtar Kelimeler:

Konusu

Alıntı

URI

Koleksiyonlar

Endorsement

Review

Supplemented By

Referenced By

9

Views

19

Downloads

Yayın: Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi

Dosyalar

Tarih

Akademik Birimler

Kurum Yazarları

Yazarlar

Danışman

Dil

Türü

Yayıncı:

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Özet

Açıklama

Kaynak:

Anahtar Kelimeler:

Konusu

Alıntı

URI

Koleksiyonlar

Endorsement

Review

Supplemented By

Referenced By

9

Views

19

Downloads

Yayın:
Türkçe metinlerin sınıflandırma başarısını artırmak için yeni bir yöntem önerisi