From 4d8806066c90fac09b2fde5b36144a58bf3f03f3 Mon Sep 17 00:00:00 2001 From: hifiaz Date: Sun, 7 Apr 2019 22:12:29 +0700 Subject: [PATCH 1/2] added indonesia words --- lib/stopword.js | 1 + lib/stopwords_id.js | 788 ++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 789 insertions(+) create mode 100644 lib/stopwords_id.js diff --git a/lib/stopword.js b/lib/stopword.js index 126b6e6..d9a4dd5 100644 --- a/lib/stopword.js +++ b/lib/stopword.js @@ -24,6 +24,7 @@ exports.fi = require('./stopwords_fi.js').words exports.ha = require('./stopwords_ha.js').words exports.he = require('./stopwords_he.js').words exports.hi = require('./stopwords_hi.js').words +exports.id = require('./stopwords_id.js').words exports.it = require('./stopwords_it.js').words exports.ja = require('./stopwords_ja.js').words exports.lgg = require('./stopwords_lgg.js').words diff --git a/lib/stopwords_id.js b/lib/stopwords_id.js new file mode 100644 index 0000000..f678be4 --- /dev/null +++ b/lib/stopwords_id.js @@ -0,0 +1,788 @@ +/* +Copyright (c) 2019, Luthfi Azhari + +Permission is hereby granted, free of charge, to any person obtaining a copy +of this software and associated documentation files (the "Software"), to deal +in the Software without restriction, including without limitation the rights +to use, copy, modify, merge, publish, distribute, sublicense, and/or sell +copies of the Software, and to permit persons to whom the Software is +furnished to do so, subject to the following conditions: + +The above copyright notice and this permission notice shall be included in all +copies or substantial portions of the Software. + +THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR +IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, +FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE +AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER +LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, +OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE +SOFTWARE. + +Originates from: https://github.com/stopwords-iso/stopwords-hi/ +*/ + +// a list of commonly used words that have little meaning and can be excluded +// from analysis. +var words = [ + 'ada', + 'adalah', + 'adanya', + 'adapun', + 'agak', + 'agaknya', + 'agar', + 'akan', + 'akankah', + 'akhir', + 'akhiri', + 'akhirnya', + 'aku', + 'akulah', + 'amat', + 'amatlah', + 'anda', + 'andalah', + 'antar', + 'antara', + 'antaranya', + 'apa', + 'apaan', + 'apabila', + 'apakah', + 'apalagi', + 'apatah', + 'artinya', + 'asal', + 'asalkan', + 'atas', + 'atau', + 'ataukah', + 'ataupun', + 'awal', + 'awalnya', + 'bagai', + 'bagaikan', + 'bagaimana', + 'bagaimanakah', + 'bagaimanapun', + 'bagi', + 'bagian', + 'bahkan', + 'bahwa', + 'bahwasanya', + 'baik', + 'bakal', + 'bakalan', + 'balik', + 'banyak', + 'bapak', + 'baru', + 'bawah', + 'beberapa', + 'begini', + 'beginian', + 'beginikah', + 'beginilah', + 'begitu', + 'begitukah', + 'begitulah', + 'begitupun', + 'bekerja', + 'belakang', + 'belakangan', + 'belum', + 'belumlah', + 'benar', + 'benarkah', + 'benarlah', + 'berada', + 'berakhir', + 'berakhirlah', + 'berakhirnya', + 'berapa', + 'berapakah', + 'berapalah', + 'berapapun', + 'berarti', + 'berawal', + 'berbagai', + 'berdatangan', + 'beri', + 'berikan', + 'berikut', + 'berikutnya', + 'berjumlah', + 'berkali-kali', + 'berkata', + 'berkehendak', + 'berkeinginan', + 'berkenaan', + 'berlainan', + 'berlalu', + 'berlangsung', + 'berlebihan', + 'bermacam', + 'bermacam-macam', + 'bermaksud', + 'bermula', + 'bersama', + 'bersama-sama', + 'bersiap', + 'bersiap-siap', + 'bertanya', + 'bertanya-tanya', + 'berturut', + 'berturut-turut', + 'bertutur', + 'berujar', + 'berupa', + 'besar', + 'betul', + 'betulkah', + 'biasa', + 'biasanya', + 'bila', + 'bilakah', + 'bisa', + 'bisakah', + 'boleh', + 'bolehkah', + 'bolehlah', + 'buat', + 'bukan', + 'bukankah', + 'bukanlah', + 'bukannya', + 'bulan', + 'bung', + 'cara', + 'caranya', + 'cukup', + 'cukupkah', + 'cukuplah', + 'cuma', + 'dahulu', + 'dalam', + 'dan', + 'dapat', + 'dari', + 'daripada', + 'datang', + 'dekat', + 'demi', + 'demikian', + 'demikianlah', + 'dengan', + 'depan', + 'di', + 'dia', + 'diakhiri', + 'diakhirinya', + 'dialah', + 'diantara', + 'diantaranya', + 'diberi', + 'diberikan', + 'diberikannya', + 'dibuat', + 'dibuatnya', + 'didapat', + 'didatangkan', + 'digunakan', + 'diibaratkan', + 'diibaratkannya', + 'diingat', + 'diingatkan', + 'diinginkan', + 'dijawab', + 'dijelaskan', + 'dijelaskannya', + 'dikarenakan', + 'dikatakan', + 'dikatakannya', + 'dikerjakan', + 'diketahui', + 'diketahuinya', + 'dikira', + 'dilakukan', + 'dilalui', + 'dilihat', + 'dimaksud', + 'dimaksudkan', + 'dimaksudkannya', + 'dimaksudnya', + 'diminta', + 'dimintai', + 'dimisalkan', + 'dimulai', + 'dimulailah', + 'dimulainya', + 'dimungkinkan', + 'dini', + 'dipastikan', + 'diperbuat', + 'diperbuatnya', + 'dipergunakan', + 'diperkirakan', + 'diperlihatkan', + 'diperlukan', + 'diperlukannya', + 'dipersoalkan', + 'dipertanyakan', + 'dipunyai', + 'diri', + 'dirinya', + 'disampaikan', + 'disebut', + 'disebutkan', + 'disebutkannya', + 'disini', + 'disinilah', + 'ditambahkan', + 'ditandaskan', + 'ditanya', + 'ditanyai', + 'ditanyakan', + 'ditegaskan', + 'ditujukan', + 'ditunjuk', + 'ditunjuki', + 'ditunjukkan', + 'ditunjukkannya', + 'ditunjuknya', + 'dituturkan', + 'dituturkannya', + 'diucapkan', + 'diucapkannya', + 'diungkapkan', + 'dong', + 'dua', + 'dulu', + 'empat', + 'enggak', + 'enggaknya', + 'entah', + 'entahlah', + 'guna', + 'gunakan', + 'hal', + 'hampir', + 'hanya', + 'hanyalah', + 'hari', + 'harus', + 'haruslah', + 'harusnya', + 'hendak', + 'hendaklah', + 'hendaknya', + 'hingga', + 'ia', + 'ialah', + 'ibarat', + 'ibaratkan', + 'ibaratnya', + 'ibu', + 'ikut', + 'ingat', + 'ingat-ingat', + 'ingin', + 'inginkah', + 'inginkan', + 'ini', + 'inikah', + 'inilah', + 'itu', + 'itukah', + 'itulah', + 'jadi', + 'jadilah', + 'jadinya', + 'jangan', + 'jangankan', + 'janganlah', + 'jauh', + 'jawab', + 'jawaban', + 'jawabnya', + 'jelas', + 'jelaskan', + 'jelaslah', + 'jelasnya', + 'jika', + 'jikalau', + 'juga', + 'jumlah', + 'jumlahnya', + 'justru', + 'kala', + 'kalau', + 'kalaulah', + 'kalaupun', + 'kalian', + 'kami', + 'kamilah', + 'kamu', + 'kamulah', + 'kan', + 'kapan', + 'kapankah', + 'kapanpun', + 'karena', + 'karenanya', + 'kasus', + 'kata', + 'katakan', + 'katakanlah', + 'katanya', + 'ke', + 'keadaan', + 'kebetulan', + 'kecil', + 'kedua', + 'keduanya', + 'keinginan', + 'kelamaan', + 'kelihatan', + 'kelihatannya', + 'kelima', + 'keluar', + 'kembali', + 'kemudian', + 'kemungkinan', + 'kemungkinannya', + 'kenapa', + 'kepada', + 'kepadanya', + 'kesampaian', + 'keseluruhan', + 'keseluruhannya', + 'keterlaluan', + 'ketika', + 'khususnya', + 'kini', + 'kinilah', + 'kira', + 'kira-kira', + 'kiranya', + 'kita', + 'kitalah', + 'kok', + 'kurang', + 'lagi', + 'lagian', + 'lah', + 'lain', + 'lainnya', + 'lalu', + 'lama', + 'lamanya', + 'lanjut', + 'lanjutnya', + 'lebih', + 'lewat', + 'lima', + 'luar', + 'macam', + 'maka', + 'makanya', + 'makin', + 'malah', + 'malahan', + 'mampu', + 'mampukah', + 'mana', + 'manakala', + 'manalagi', + 'masa', + 'masalah', + 'masalahnya', + 'masih', + 'masihkah', + 'masing', + 'masing-masing', + 'mau', + 'maupun', + 'melainkan', + 'melakukan', + 'melalui', + 'melihat', + 'melihatnya', + 'memang', + 'memastikan', + 'memberi', + 'memberikan', + 'membuat', + 'memerlukan', + 'memihak', + 'meminta', + 'memintakan', + 'memisalkan', + 'memperbuat', + 'mempergunakan', + 'memperkirakan', + 'memperlihatkan', + 'mempersiapkan', + 'mempersoalkan', + 'mempertanyakan', + 'mempunyai', + 'memulai', + 'memungkinkan', + 'menaiki', + 'menambahkan', + 'menandaskan', + 'menanti', + 'menanti-nanti', + 'menantikan', + 'menanya', + 'menanyai', + 'menanyakan', + 'mendapat', + 'mendapatkan', + 'mendatang', + 'mendatangi', + 'mendatangkan', + 'menegaskan', + 'mengakhiri', + 'mengapa', + 'mengatakan', + 'mengatakannya', + 'mengenai', + 'mengerjakan', + 'mengetahui', + 'menggunakan', + 'menghendaki', + 'mengibaratkan', + 'mengibaratkannya', + 'mengingat', + 'mengingatkan', + 'menginginkan', + 'mengira', + 'mengucapkan', + 'mengucapkannya', + 'mengungkapkan', + 'menjadi', + 'menjawab', + 'menjelaskan', + 'menuju', + 'menunjuk', + 'menunjuki', + 'menunjukkan', + 'menunjuknya', + 'menurut', + 'menuturkan', + 'menyampaikan', + 'menyangkut', + 'menyatakan', + 'menyebutkan', + 'menyeluruh', + 'menyiapkan', + 'merasa', + 'mereka', + 'merekalah', + 'merupakan', + 'meski', + 'meskipun', + 'meyakini', + 'meyakinkan', + 'minta', + 'mirip', + 'misal', + 'misalkan', + 'misalnya', + 'mula', + 'mulai', + 'mulailah', + 'mulanya', + 'mungkin', + 'mungkinkah', + 'nah', + 'naik', + 'namun', + 'nanti', + 'nantinya', + 'nyaris', + 'nyatanya', + 'oleh', + 'olehnya', + 'pada', + 'padahal', + 'padanya', + 'pak', + 'paling', + 'panjang', + 'pantas', + 'para', + 'pasti', + 'pastilah', + 'penting', + 'pentingnya', + 'per', + 'percuma', + 'perlu', + 'perlukah', + 'perlunya', + 'pernah', + 'persoalan', + 'pertama', + 'pertama-tama', + 'pertanyaan', + 'pertanyakan', + 'pihak', + 'pihaknya', + 'pukul', + 'pula', + 'pun', + 'punya', + 'rasa', + 'rasanya', + 'rata', + 'rupanya', + 'saat', + 'saatnya', + 'saja', + 'sajalah', + 'saling', + 'sama', + 'sama-sama', + 'sambil', + 'sampai', + 'sampai-sampai', + 'sampaikan', + 'sana', + 'sangat', + 'sangatlah', + 'satu', + 'saya', + 'sayalah', + 'se', + 'sebab', + 'sebabnya', + 'sebagai', + 'sebagaimana', + 'sebagainya', + 'sebagian', + 'sebaik', + 'sebaik-baiknya', + 'sebaiknya', + 'sebaliknya', + 'sebanyak', + 'sebegini', + 'sebegitu', + 'sebelum', + 'sebelumnya', + 'sebenarnya', + 'seberapa', + 'sebesar', + 'sebetulnya', + 'sebisanya', + 'sebuah', + 'sebut', + 'sebutlah', + 'sebutnya', + 'secara', + 'secukupnya', + 'sedang', + 'sedangkan', + 'sedemikian', + 'sedikit', + 'sedikitnya', + 'seenaknya', + 'segala', + 'segalanya', + 'segera', + 'seharusnya', + 'sehingga', + 'seingat', + 'sejak', + 'sejauh', + 'sejenak', + 'sejumlah', + 'sekadar', + 'sekadarnya', + 'sekali', + 'sekali-kali', + 'sekalian', + 'sekaligus', + 'sekalipun', + 'sekarang', + 'sekarang', + 'sekecil', + 'seketika', + 'sekiranya', + 'sekitar', + 'sekitarnya', + 'sekurang-kurangnya', + 'sekurangnya', + 'sela', + 'selain', + 'selaku', + 'selalu', + 'selama', + 'selama-lamanya', + 'selamanya', + 'selanjutnya', + 'seluruh', + 'seluruhnya', + 'semacam', + 'semakin', + 'semampu', + 'semampunya', + 'semasa', + 'semasih', + 'semata', + 'semata-mata', + 'semaunya', + 'sementara', + 'semisal', + 'semisalnya', + 'sempat', + 'semua', + 'semuanya', + 'semula', + 'sendiri', + 'sendirian', + 'sendirinya', + 'seolah', + 'seolah-olah', + 'seorang', + 'sepanjang', + 'sepantasnya', + 'sepantasnyalah', + 'seperlunya', + 'seperti', + 'sepertinya', + 'sepihak', + 'sering', + 'seringnya', + 'serta', + 'serupa', + 'sesaat', + 'sesama', + 'sesampai', + 'sesegera', + 'sesekali', + 'seseorang', + 'sesuatu', + 'sesuatunya', + 'sesudah', + 'sesudahnya', + 'setelah', + 'setempat', + 'setengah', + 'seterusnya', + 'setiap', + 'setiba', + 'setibanya', + 'setidak-tidaknya', + 'setidaknya', + 'setinggi', + 'seusai', + 'sewaktu', + 'siap', + 'siapa', + 'siapakah', + 'siapapun', + 'sini', + 'sinilah', + 'soal', + 'soalnya', + 'suatu', + 'sudah', + 'sudahkah', + 'sudahlah', + 'supaya', + 'tadi', + 'tadinya', + 'tahu', + 'tahun', + 'tak', + 'tambah', + 'tambahnya', + 'tampak', + 'tampaknya', + 'tandas', + 'tandasnya', + 'tanpa', + 'tanya', + 'tanyakan', + 'tanyanya', + 'tapi', + 'tegas', + 'tegasnya', + 'telah', + 'tempat', + 'tengah', + 'tentang', + 'tentu', + 'tentulah', + 'tentunya', + 'tepat', + 'terakhir', + 'terasa', + 'terbanyak', + 'terdahulu', + 'terdapat', + 'terdiri', + 'terhadap', + 'terhadapnya', + 'teringat', + 'teringat-ingat', + 'terjadi', + 'terjadilah', + 'terjadinya', + 'terkira', + 'terlalu', + 'terlebih', + 'terlihat', + 'termasuk', + 'ternyata', + 'tersampaikan', + 'tersebut', + 'tersebutlah', + 'tertentu', + 'tertuju', + 'terus', + 'terutama', + 'tetap', + 'tetapi', + 'tiap', + 'tiba', + 'tiba-tiba', + 'tidak', + 'tidakkah', + 'tidaklah', + 'tiga', + 'tinggi', + 'toh', + 'tunjuk', + 'turut', + 'tutur', + 'tuturnya', + 'ucap', + 'ucapnya', + 'ujar', + 'ujarnya', + 'umum', + 'umumnya', + 'ungkap', + 'ungkapnya', + 'untuk', + 'usah', + 'usai', + 'waduh', + 'wah', + 'wahai', + 'waktu', + 'waktunya', + 'walau', + 'walaupun', + 'wong', + 'yaitu', + 'yakin', + 'yakni', + 'yang' +]; +// tell the world about the noise words. +exports.words = words; From 1dea17deab0435b256a6a4daec0b61ca696e3ed3 Mon Sep 17 00:00:00 2001 From: hifiaz Date: Mon, 8 Apr 2019 15:22:08 +0700 Subject: [PATCH 2/2] remove some word --- lib/stopwords_id.js | 5 ----- 1 file changed, 5 deletions(-) diff --git a/lib/stopwords_id.js b/lib/stopwords_id.js index f678be4..625c52a 100644 --- a/lib/stopwords_id.js +++ b/lib/stopwords_id.js @@ -71,7 +71,6 @@ var words = [ 'bahkan', 'bahwa', 'bahwasanya', - 'baik', 'bakal', 'bakalan', 'balik', @@ -257,7 +256,6 @@ var words = [ 'diucapkannya', 'diungkapkan', 'dong', - 'dua', 'dulu', 'empat', 'enggak', @@ -270,7 +268,6 @@ var words = [ 'hampir', 'hanya', 'hanyalah', - 'hari', 'harus', 'haruslah', 'harusnya', @@ -283,7 +280,6 @@ var words = [ 'ibarat', 'ibaratkan', 'ibaratnya', - 'ibu', 'ikut', 'ingat', 'ingat-ingat', @@ -509,7 +505,6 @@ var words = [ 'pada', 'padahal', 'padanya', - 'pak', 'paling', 'panjang', 'pantas',