Tutorial Data Science Dengan Pyhton : Cara Tokenisasi Kata di Python
Tokenisasi kata adalah proses membagi banyak contoh teks menjadi kata-kata. Ini adalah persyaratan dalam tugas pemrosesan bahasa alami di mana setiap kata perlu ditangkap dan dianalisis lebih lanjut seperti mengklasifikasikan dan menghitungnya untuk sentimen tertentu, dll. Perangkat Alat Bahasa Alami (NLTK) adalah pustaka yang digunakan untuk mencapai hal ini. Instal NLTK sebelum melanjutkan dengan program python untuk tokenisasi kata.Cara Tokenisasi Kata di Python
conda install -c anaconda nltk
Selanjutnya kami menggunakan metode word_tokenize untuk membagi paragraf menjadi kata-kata individual.
import nltk word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms" nltk_tokens = nltk.word_tokenize(word_data) print (nltk_tokens)
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the', 'comforts', 'of', 'their', 'drawing', 'rooms']
Tokenisasi Kalimat
Kita juga bisa memberi token pada kalimat dalam paragraf seperti kita memberi token pada kata-kata. Kami menggunakan metode sent_tokenize untuk mencapai ini. Di bawah ini adalah contohnya.
import nltk sentence_data = "Sun rises in the east. Sun sets in the west." nltk_tokens = nltk.sent_tokenize(sentence_data) print (nltk_tokens)
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
['Sun rises in the east.', 'Sun sets in the west.']
Post a Comment for "Tutorial Data Science Dengan Pyhton : Cara Tokenisasi Kata di Python"