Skip to content

Commit

Permalink
Update stopwords_ukr.js
Browse files Browse the repository at this point in the history
Manually selected top frequency pronounces, conjunctions, adpositions, grammatical particles and adverbs from Ukrainian corpus and added them to stopwords_ukr.js . Also moved some stopwords from the end of the to their alphabetical position: now whole list is more or less in alphabetical order (first letter for sure, second letter I think is also fine, but I did not check all existing words and did not use automatic sorting to minimize the changes)
  • Loading branch information
imposeren authored and Yaroslav Kliuiev committed Dec 3, 2024
1 parent ff60f73 commit 2862555
Showing 1 changed file with 51 additions and 4 deletions.
55 changes: 51 additions & 4 deletions src/stopwords_ukr.js
Original file line number Diff line number Diff line change
Expand Up @@ -21,22 +21,29 @@ OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE. */

const ukr = [
'а',
'авжеж',
'адже',
'аж',
'але',
'б',
'без',
'би',
'бо',
'був',
'була',
'були',
'було',
'бути',
'більш',
'в',
'вам',
'вас',
'весь',
'вже',
'вздовж',
'ви',
'від',
'вниз',
'внизу',
'вона',
Expand All @@ -51,48 +58,88 @@ const ukr = [
'давай',
'давати',
'де',
'десь',
'дещо',
'для',
'до',
'ж',
'з',
'за',
'завжди',
'замість',
'і',
'із',
'інших',
'їх',
'її'
'й',
'коли',
'ледве',
'лиш',
'майже',
'мене',
'ми',
'між',
'мій',
'мною',
'моєї',
'моїх',
'моє',
'моя',
'мов',
'може',
'на',
'над',
'навколо',
'навіть',
'нам',
'наш',
'не',
'немов',
'неначе',
'ні',
'ніби',
'ніщо',
'о',
'от',
'отже',
'отож',
'під',
'по',
'поза',
'про',
'під',
'сам',
'та',
'там',
'так',
'такий',
'також',
'твій',
'те',
'ти',
'то',
'тобто',
'тоді',
'тож',
'той',
'тощо',
'тут',
'у',
'хоч',
'хоча',
'це',
'цей',
'чи',
'чого',
'ще',
'що',
'щоб',
'щось',
'я',
'як',
'який',
'якої',
'є',
'із',
'інших',
'їх',
'її'
]
export { ukr }

0 comments on commit 2862555

Please sign in to comment.