From 79736a310486e37ac9be1e029c4bc770c640d0b7 Mon Sep 17 00:00:00 2001 From: Yaroslav Klyuyev Date: Tue, 3 Dec 2024 08:56:14 +0200 Subject: [PATCH] Update stopwords_ukr.js Manually selected top frequency pronounces, conjunctions, adpositions, grammatical particles and adverbs from Ukrainian corpus and added them to stopwords_ukr.js . Also moved some stopwords from the end of the to their alphabetical position: now whole list is more or less in alphabetical order (first letter for sure, second letter I think is also fine, but I did not check all existing words and did not use automatic sorting to minimize the changes) --- src/stopwords_ukr.js | 48 ++++++++++++++++++++++++++++++++++++++++---- 1 file changed, 44 insertions(+), 4 deletions(-) diff --git a/src/stopwords_ukr.js b/src/stopwords_ukr.js index e5e6dfe..04898f1 100644 --- a/src/stopwords_ukr.js +++ b/src/stopwords_ukr.js @@ -21,22 +21,29 @@ OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. */ const ukr = [ + 'а', 'авжеж', 'адже', + 'аж', 'але', 'б', 'без', + 'би', + 'бо', 'був', 'була', 'були', 'було', 'бути', 'більш', + 'в', 'вам', 'вас', 'весь', + 'вже', 'вздовж', 'ви', + 'від', 'вниз', 'внизу', 'вона', @@ -51,48 +58,81 @@ const ukr = [ 'давай', 'давати', 'де', + 'десь', 'дещо', 'для', 'до', + 'ж', 'з', + 'за', 'завжди', 'замість', + 'і', + 'із', + 'інших', + 'їх', + 'її' 'й', 'коли', 'ледве', + 'лиш', 'майже', 'ми', + 'між', + 'мій', + 'може', + 'на', + 'над', 'навколо', 'навіть', 'нам', + 'наш', + 'не', + 'немов', + 'неначе', + 'ні', + 'ніби', + 'ніщо', + 'о', 'от', 'отже', 'отож', + 'під', + 'по', 'поза', 'про', 'під', + 'сам', 'та', + 'там', 'так', 'такий', 'також', + 'твій', 'те', 'ти', + 'то', 'тобто', + 'тоді', 'тож', + 'той', 'тощо', + 'тут', + 'у', + 'хоч', 'хоча', 'це', 'цей', 'чи', 'чого', + 'ще', 'що', + 'щоб', + 'щось', + 'я', 'як', 'який', 'якої', 'є', - 'із', - 'інших', - 'їх', - 'її' ] export { ukr }