-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathTest3_SNS_Investigation.txt
31 lines (29 loc) · 3.85 KB
/
Test3_SNS_Investigation.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
강보영 학생이 3차로 테스트한 SNS에 대한 Kiwi의 분석을 국어의 문법과 매칭시켜 틀린 점을 다시 한번 찾아보았습니다. 지난번 신문 기사의 내용이 너무 방대하여, 이번에는 간략한 SNS로 분석을 진행했습니다. 비속어가 많은 만큼 문법적으로도 오류인 문장이 많긴 하지만, 그런 부분은 융통성 있게 진행하였습니다.
1. 무이네는 고유 명사로 이를 ‘무’ + ‘이’ + ‘네’ 로 분석함.
- 고유명사는 판별하기 어렵다. 그것이 진짜 고유 명사일수도 아니면 다른 단어일 수도 있기 때문이다. 따라서, 대표적인 고유명사들을 집합 시킨 데이터베이스를 구축한다면, 더욱더 정확도를 올릴 수 있을 것이다.
2. 70만은 하나의 수사로 취급한다. 이를 ‘70’ + ‘만’으로 따로 분석하는 것은 오류이다. 특히, Kiwi의 경우 숫자와 문자가 합쳐져 하나의 수를 표현할 때 이를 각개의 글자로 인식하는 경우가 많다.
‘-어요’는 두 개의 어미 ‘-어’ + ‘-요’가 합쳐진 것으로 이를 ‘-어요’라는 하나의 종결어미로 분석하면 안된다. 어미에 대한 추가가 더 필요하다.
3. ‘드세요’의 경우 ‘드세’ + ‘요’로 분석하고 있는데 이는 ‘드세다’ 할 때의 ‘드세-‘로 분석한 것으로 보임. ‘드세요’는 ‘들-‘ + ‘시’ + ‘어’ + ‘요’ 로 구성된다. Kiwi는 존댓말에 대한 분석이 덜 되어있는 듯 하다.
4. ‘323,150’의 경우 쉼표로 끊어져 있어도 하나의 수로 인식하여야 하는데 숫자 도중 쉼표가 나오면 이를 분리해서 분석하는 오류가 생김. 이에 대한 예외 사항을 부여해야 할 것 같다.
5. ‘스파’ 를 ‘스’ + ‘파’로 인식하는 것을 보면 외래어에 대한 분석이 불가능한 것으로 보임.
앞에서 언급했던 쉼표로 숫자가 끊어져 있을 시에 따로 나누어서 분석함.
앞에서 언급했던 ‘무이네’ 를 ‘무’ + ‘이’ + ‘네’ 로 인식.
‘리버티사이공’ 의 경우 하나의 고유명사이지만, ‘공’이라는 단어가 포함되어 있다고 해서 이를 ‘리버티사이’ + ‘공’ 으로 잘못 분석하고 있다. Kiwi의 메커니즘 상 앞 뒤에 따로 분리할 수 있는 단어가 있으면 분리해버리는 오류가 생기는 것으로 추정
6. 앞에서 언급했던 ‘무이네’ 를 ‘무’ + ‘이’ + ‘네’ 로 인식.
‘풍짱’ 이라는 고유 명사를 앞에서는 ‘풍짱’으로 인식한 반면, 이번에는 ‘풍’ + ‘짱’으로 잘못 인식함.
‘어플’을 ‘어프’ + ‘ㄹ’로 인식하는 것을 보면 최근 자주 사용되는 외래어에 대한 추가가 안된 듯하다.
‘그랩’ 또한 고유명사에 대한 분석이 잘못되었다.
‘간편해요’를 ‘간’ + ‘편하’ + ‘어요’로 잘못 분석함. 이는 분리할 수 있는 ‘간’이라는 단어가 앞에 존재하고 뒤에는 분리 가능한 ‘편해요’라는 단어가 존재하여 이를 분리한 것으로 보임. 올바른 분석은 ‘간편하-‘ + ‘어’ + ‘요’ 이다.
‘미터온’ 이라는 고유명사에 대한 분석이 오류가 생김
‘잘하셔야’ 를 ‘잘’ + ‘하’ + ‘시’ + ‘어야’ 로 잘못 분석함. ‘어야’는 하나의 어미가 아닌 따로 분리해야 하는 두 개의 어미 ‘어’ + ‘야’의 합이다.
7. ‘어요’를 하나의 어미로 인식하는 앞서 말한 오류가 발생함.
8. ‘무이네에는’ 에서 ‘무이네에’ + ‘는’ 으로 잘못 분석하고 있다. ‘무이네’ + ‘에’ + ‘는’이 올바른 분석으로, 고유명사에 대한 오류와 어미에 대한 충분한 분석 부족으로 일어남.
‘어요’를 하나의 어미로 인식하는 앞서 말한 오류가 발생함.
‘프라이빗’ 을 ‘프라이’ + ‘빗’ 으로 분리하여 인식함. 한글 단어 ‘빗’으로 인해 따로 분리한 것으로 추정됨.
9. ‘대절로’를 ‘대절’ + ‘로’ 가 아닌 ‘대’ + ‘절로’ 로 분석한 것으로 보아, 보통 ‘대절’ 보다 ‘절로’라는 단어를 더 빈번하게 쓰기 때문에 이를 택한 것으로 추정됨. 문맥상에서 단어를 고르는 기능은 부족한 것으로 수정 요함.
‘가구요’ 에서 문법에 맞게 고치면 ‘가고요’ 이고 이는 ‘가-‘ + ‘고’ + ‘요’ 로 분석되어야 한다. 하지만, 필자가 ‘가구요’라는 비문을 쓴 것과 반면, Kiwi는 ‘-구요’라는 하나의 어미를 잘못 등록한 것으로 추정됨.
10. ‘포스팅중’이 띄어쓰기가 안되어 있어, 이를 하나의 명사로 판단함. 이는 인풋이 잘못되었으므로, Kiwi의 탓이라고 할 수는 없다.
11. 앞에서 언급했던 ‘무이네’ 를 ‘무’ + ‘이’ + ‘네’ 로 인식.
‘착장정보’는 ‘착장’ + ‘정보’로 인식해야 하지만, ‘착장’을 ‘착’ + ’장’으로 인식하는 오류
‘포스팅’ 또한 앞에서는 인식했지만, ‘무이네’를 잘못 분석하여, 이 또한 잘못 분석하는 양상이 나타남
‘보러가기’ 또한 ‘보-‘ + ‘러’ + ‘가’ + ‘기’로 분석 되어야 하는데, 앞에 잘못된 분석이 존재하면 이 또한 잘못 분석되는 것을 볼 수 있음.