Geniş ölçekli veri depoları, bilgisayar sistemlerindeki hızlı gelişim ve düşük maliyetler nedeni ile veri madenciliğine bağlı uygulamalar, iş dünyasında hızla gelişim göstererek; pazarlama, finans, bankacılık, sigortacılık, parakendecilik, telekomünikasyon, imalat gibi pek çok alanda kullanılmaktadır. Veri madenciliğinin bir alt dalı olarak gelişmekte olan metin madenciliği, veri madenciliğinin içerisindeki diğer tekniklere nazaran madencilik metaforuyla en çok uyuşan tekniktir. Madencilik kavramının değerli metali bulunduğu kaynaktaki öğelerden ayırma sürecini ifade etmesi doğrultusunda; metin madenciliği, belge veya belge koleksiyonları içerisinde bulunan değerli anahtar kelimelerin, bir yığın diğer kelimeden ayrılması ve bunun için modellerin oluşturulması ya da tahminlerde bulunulması şeklinde tanımlanmaktadır. Metin madenciliği, birbirleriyle sıkı bir ilişki içerisinde olan ve kendilerine has özelliklere sahip yedi uygulama alanına sahiptir. Bu yedi uygulama alanı, metin madenciliğine önemli ölçüde katkıda bulunan Veri Madenciliği, Yapay Zeka ve Makine Öğrenmesi, Hesaplamalı Dilbilim, İstatistik, Veri Tabanları, Kütüphane ve Bilgi Bilimleri (Bilgi Yönetimi) adlarıyla bilinen diğer altı ana alanın kesişim noktaları üzerine kurulmuştur. Metin madenciliği yapılandırılmamış metin verilerinin analiz edilmesi ve işlenmesi için bir dizi teknolojiyi içerisinde barındıran geniş kapsamlı bir terimdir. Bu teknolojilerinin ardında bulunan ortak tema, güçlü algoritmaların devasa ölçüde bulunan belge türündeki veri setlerine uygulanabilmesi için, metinlerin sayılara dönüştürülmesi ihtiyacıdır. Metni, yapılandırılmış sayısal bir biçime dönüştürmek ve analitik algoritmaları uygulamak; sözcüklerden başlayarak büyük metin veri setlerine varana kadar metin işleme tekniklerinin nasıl uygulanacağının bilinmesini gerektirir. Bu doğrultuda ilgili dersin genel amacı; müşteri, satıcı, ürün veya hizmet üçgeninde, eldeki veriden geleceğe yönelik faydalı ve kullanışlı bilginin çıkarılması ve bu yönde nitelikli politikaların geliştirilmesi için gerekli olan metin madenciliği yöntem ve tekniklerine ilişkin temel bilgilerin kazandırılması; iş dünyasında kullanılmakta olan metin madenciliği uygulamalarına ilişkin farkındalığın oluşturulmasıdır.
Ders Kitabı:
- Feldman, R. ve Sanger J. (2007). Text mining handbook. New York, Cambridge Unıversıty Press
- Kotu V. ve Deshpande B. (2019). Data Science, Concepts and Practice. Cambridge: Morgan Kaufmann Publishers
- Miner G., Delen D., Elder J., Fast A., Thomas H. T. ve Nisbet R. (2012). Practical text mining and statistical analysis for non-structured text data applications. USA, Academic Press
- Nisbet, R., Elder, J. ve Yale K. (2018). Handbook of Statistical Analysis & Data Mining Applications. Academic Press
- Weiss S., Indurkhya N. ve Zhang T. (2019). Fundamentals of Predictive Text Mining. New York: Springer