-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathWiechetek-2022-trondschrift.html
1304 lines (1231 loc) · 115 KB
/
Wiechetek-2022-trondschrift.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<!DOCTYPE html><html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil</title>
<!--Generated on Wed Aug 31 04:48:42 2022 by LaTeXML (version 0.8.6) http://dlmf.nist.gov/LaTeXML/.-->
<link rel="stylesheet" href="../latexml/LaTeXML.css" type="text/css">
<link rel="stylesheet" href="../latexml/ltx-article.css" type="text/css">
<meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">
</head>
<body>
<div class="ltx_page_main">
<div class="ltx_page_content">
<article class="ltx_document ltx_authors_1line">
<h1 class="ltx_title ltx_title_document">Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp:
<br class="ltx_break">En hybrid
grammatikkontroll for å rette kongruensfeil</h1>
<div class="ltx_authors">
<span class="ltx_creator ltx_role_author">
<span class="ltx_personname">Linda Wiechetek<math id="m1" class="ltx_Math" alttext="{}^{1}" display="inline"><msup><mi></mi><mn>1</mn></msup></math>, Flammie A Pirinen<math id="m2" class="ltx_Math" alttext="{}^{1}" display="inline"><msup><mi></mi><mn>1</mn></msup></math>, Børre Gaup<math id="m3" class="ltx_Math" alttext="{}^{1}" display="inline"><msup><mi></mi><mn>1</mn></msup></math>,
Chiara Argese<math id="m4" class="ltx_Math" alttext="{}^{2}" display="inline"><msup><mi></mi><mn>2</mn></msup></math>, Thomas Omma<math id="m5" class="ltx_Math" alttext="{}^{1}" display="inline"><msup><mi></mi><mn>1</mn></msup></math>
<br class="ltx_break"><math id="m6" class="ltx_Math" alttext="{}^{1}" display="inline"><msup><mi></mi><mn>1</mn></msup></math>Divvun - UiT Norges Arktiske Universitet
<br class="ltx_break"><math id="m7" class="ltx_Math" alttext="{}^{2}" display="inline"><msup><mi></mi><mn>2</mn></msup></math>Giellatekno - UiT Norges Arktiske Universitet
</span></span>
</div>
<div class="ltx_abstract">
<h6 class="ltx_title ltx_title_abstract">Abstract</h6>
<p class="ltx_p">In English:</p>
<p class="ltx_p">Machine learning is the dominating paradigm in natural language processing
nowadays. It requires vast amounts of manually annotated or synthetically
generated text data. In the <span class="ltx_text ltx_font_italic">GiellaLT</span> infrastructure, on the other
hand, we have worked with rule-based methods, where the linguistis have full
control over the development the tools. In this article we uncover the myth
of machine learning being cheaper than a rule-based approach by showing how
much work there is behind data generation, either via corpus annotation or
creating tools that automatically mark-up the corpus. Earlier we have shown
that the correction of grammatical errors, in particular compound errors,
benefit from hybrid methods. Agreement errors, on the other other hand, are
to a higher degree dependent on the larger grammatical context. Our
experiments show that machine learning methods for this error type, even
when supplemented by rule-based methods generating massive data, can not
compete with the state-of-the-art rule-based approach.</p>
</div>
<div id="p1" class="ltx_para">
<p class="ltx_p">Set main language [variant = bokmal]norwegian
Set other languages english
variant = bokmal]norwegianfram-halds-skulen
</p>
</div>
<section id="S1" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">1 </span>Innledning</h2>
<div id="S1.p1" class="ltx_para">
<p class="ltx_p">Den digitale verdenen vi lever i krever verktøy som håndterer språk. Mens dette
blir oppfattet som en selvfølge for de store språkene som engelsk, spansk og en
rekke andre majoritetsspråk, er realiteten for minoritetsspråk en helt annen.
De fleste minoritetsspråk mangler både tastatur for å kunne skrive språket, og
ordanalyse, for ikke å snakke om stavekontroll, tekst-til-tale og
maskinoversetting. Nordsamisk er et av de språkene som har verktøy for både
morfologisk og syntaktisk analyse, maskinoversetting og stavekontroll, og det
jobbes stadig vekk med å utvikle nye verktøy. Ett av verktøyene det er behov
for er en grammatikkontroll som kan være med på å øke skriftlig språkkompetanse
og dermed føre til økt bruk av samisk på nettet og i den daglige skriftlige
kommunikasjonen (dvs. på sosiale medier, epost, osv.).</p>
</div>
<div id="S1.p2" class="ltx_para">
<p class="ltx_p">Nordsamisk er et finsk-ugrisk språk som snakkes i Norge, Sverige og Finland og
har omtrent 25 700 talere <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib76" title="Ethnologue: languages of the world" class="ltx_ref">6</a>]</cite>. Språktypologisk er det et
syntetisk språk, der de fleste ordklassene, f.eks. substantiv og adjektiv,
bøyes etter kasus, person, tall og mer. Samisk er et minoritetsspråk som
konkurrerer med majoritetsspråket i et flerspråklig samfunn og trenger derfor
hjelpemidler som fremmer skriftspråket—både i opplæring og administrativ
sammenheng.</p>
</div>
<div id="S1.p3" class="ltx_para">
<p class="ltx_p">I denne artikkelen drøfter vi en av de mest frekvente feiltypene i nordsamisk:
kongruensfeil mellom subjekt og verbal. Deretter tar vi opp den metodiske
bakgrunnen for å lage en grammatikkontroll som kan rette slike feil. I neste
seksjon presenteres en maskinlæringsbasert (<span class="ltx_text ltx_font_italic">NeuSam</span>) og en regelbasert
(<span class="ltx_text ltx_font_italic">GramDivvun</span>) modell. Disse blir diskutert og evaluerert i siste delen
av artikkelen.</p>
</div>
<div id="S1.p4" class="ltx_para">
<p class="ltx_p">Den regelbaserte framgangsmåten har fordelen at man kan jobbe med veldig lite
tekst (tilgangen på store mengder tekst er ofte en av utfordringene for
minoritetsspråk) og ha kontroll over hva de håndskrevne reglene gjør.
Dekningsgraden av ulike feiltyper begrenses til de feilene man har jobbet med.
Maskinlæringsmodeller behøver mye data for å bli bra. Dette kan være en
utfordring for språk som samisk som ikke har tilstrekkelig med data og samtidig
en rik morfologi som fører til at de enkelte formene blir sjeldnere. Data som
grammatikkontroll blir trent på må i tillegg inkludere feiloppmerking, og
feiloppmerking er en tidkrevende jobb. De fleste tilnærminger velger derfor å
lage et syntetisk feilkorpus nettopp pga den betydelige
ressursbruken. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib176" title="Automated building of error corpora of polish" class="ltx_ref">12</a>, <a href="#bib.bib65" title="Building a large annotated corpus of learner English: the NUS corpus of learner English" class="ltx_ref">5</a>]</cite>
Samtidig kan maskinlæringsbaserte metoder ha større dekningsgrad for feil man
ikke har jobbet med spesifikt. Vi har oppnådd gode resultater med maskinlæring
for særskrivingsfeil, dvs. lokale
grammatikkfeil <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib324" title="Rules ruling neural networks - neural vs. rule-based grammar checking for a low resource language" class="ltx_ref">18</a>]</cite>.</p>
</div>
<div id="S1.p5" class="ltx_para">
<p class="ltx_p">Vi ønsker derfor å undersøke nytten og begrensningene metoden har for andre
feiltyper og muligheten for å kombinere maskinlæringsbaserte og regelbaserte
metoder for å lage en bedre grammatikkontroll.</p>
</div>
<div id="S1.p6" class="ltx_para">
<p class="ltx_p">Tekstdata som er tilgjengelig digitalt er stort sett samlet i det nordsamiske
korpuset SIKOR <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib353" title="SIKOR uit norgga árktalaš universitehta ja norgga sámedikki sámi teakstačoakkáldat, veršuvdna 06.11.2018" class="ltx_ref">17</a>]</cite>, og bare en liten del er merket opp for
grammatikkfeil. Nordsamisk har en relativt ny skriftnormering og det er
varierende skriftlig kompetanse blant skribentene. I tillegg har retteverktøy
ikke vært tilgjengelig så lenge. Derfor inneholder korpuset mange flere skrive-
og grammatikkfeil enn et typisk majoritetsspråkskorpus. Samisk har også en rik
morfologi, som betyr at det er mange ordformer og at man trenger enda mer tekst
for å dekke alle ordformene.</p>
</div>
<div id="S1.p7" class="ltx_para">
<p class="ltx_p">Dette står i kontrast til store språk der morfologien er relativt enkel, og
teksttilfanget er stort og representativt for hele språket. Man fanger lett opp
alle ordformer, og man har rik tilgang til språkets syntaks i et slikt
teksttilfang. Med et slikt bakgrunnsmateriale man kan lage nevrale nettverk som
blir relativt pålitelige fordi ressursene modellen lages på er basert på et
allsidig og representativt materiale. For å kompensere for datamangelen har vi
derfor laget et nevralt nettverk (maskinlæring) (<span class="ltx_text ltx_font_italic">NeuSam</span>) som benytter
seg av syntetiske data. Dataene har vi konstruert ved hjelp av regelbasert
morfosyntaktisk analyse for å erstatte korrekte former med feilaktige. Etterpå
blir dataene filtrert av regelbaserte verktøy—den nordsamiske
grammatikkontrollen <span class="ltx_text ltx_font_italic">GramDivvun</span>, slik at de syntetiske dataene bare
inneholder reelle feil.</p>
</div>
</section>
<section id="S2" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">2 </span>Problemstilling</h2>
<div id="S2.p1" class="ltx_para">
<p class="ltx_p">Vi tar utgangspunkt i automatisk feilretting i nordsamisk. Den første
nordsamiske grammatikkontrollen <span class="ltx_text ltx_font_italic">GramDivvun</span> har blitt utviklet siden
2012 og er basert på håndskrevne regler <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib317" title="Constraint Grammar based correction of grammatical errors for North Sámi" class="ltx_ref">19</a>]</cite>, og ble
offentlig lansert i 2020. Arbeidet til <span class="ltx_text ltx_font_italic">GramDivvun</span> er riktignok ikke
bare et verktøy for en stor mengde grammatikkfeil på alle områder, dvs. fra
ekteordsfeil, til særskrivings- og samsvarsfeil, men også et forskingsresultat
for variasjonen i og hyppigheten av nordsamiske grammatikkfeil. Ekteordsfeil er
korrekt skrevne ord som er brukt i feil sammenheng. De er vanligvis basert på
enten ortografisk eller fonetisk likhet (f.eks. <span class="ltx_text ltx_font_italic">å</span> vs. <span class="ltx_text ltx_font_italic">og</span>). I
denne artikkelen fokuserer vi på retting av samsvarsfeil mellom subjekt og
verbal av samme type som i eksempel <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a>. Samsvarsfeil er en
arketypisk grammatikkfeil som er tilstede i mange språk og som krever en analyse
av hele setningen. I motsetning til retting av engelske samsvarsfeil i
eksempel <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a>, slik <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib197" title="The CoNLL-2013 shared task on grammatical error correction" class="ltx_ref">14</a>]</cite> tar for seg, er samiske
samsvarsfeil langt mer komplekse. Årsaken til dette er at samisk har mange
flere verbformer enn engelsk og kombinasjoner av tall (entall, totall, flertall)
og person (1.,2.,3.) som må kongruere med verbet. I det samiske
eksemplet <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a><span id="footnote1" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">1</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">1</sup>
<span class="ltx_tag ltx_tag_note">1</span>
Alle samiske eksempler er tatt fra
SIKOR.</span></span></span><span id="footnote2" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">2</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">2</sup>
<span class="ltx_tag ltx_tag_note">2</span>
Alle eksemplene følger Leipzig Glossing konvensjonene:
<a href="http://www.eva.mpg.de/lingua/resources/glossing-rules.php" title="" class="ltx_ref ltx_url ltx_font_typewriter">http://www.eva.mpg.de/lingua/resources/glossing-rules.php</a></span></span></span> ser man også at
det er flere faktorer som må tas hensyn til når subjektet er sammensatt.
Subjektet innholder både det personlige pronomenet <span class="ltx_text ltx_font_italic">mii</span> i første person
flertall og et substantiv i nominativ flertall. Verbet kongruerer med
pronomenet og ikke med flertallssubstantivet, det burde derfor være
<span class="ltx_text ltx_font_italic">áigut</span> isteden for <span class="ltx_text ltx_font_italic">áigot</span>. Dette blir synlig på samisk, men ikke
på engelsk siden verbformene i <span class="ltx_text ltx_font_italic">we have</span> og <span class="ltx_text ltx_font_italic">they have</span> er
homonyme.</p>
</div>
<div id="S2.p2" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_italic">.</span> People still *<span class="ltx_text ltx_font_bold">prefers</span> to bear the risk and allow their pets to have maximum freedom.</p>
</div>
<div id="S2.p3" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_framed_underline">Mii</span> sámit maid *<span class="ltx_text ltx_font_bold">áigot</span> gullot.
<br class="ltx_break"><span class="ltx_text ltx_font_smallcaps">1pl</span> same<span class="ltx_text ltx_font_smallcaps">.3pl</span> også vil<span class="ltx_text ltx_font_smallcaps">.3pl</span> høre<span class="ltx_text ltx_font_smallcaps">.pass.inf
<br class="ltx_break"></span>‘Vi samer vil også bli hørt’</p>
</div>
<div id="S2.p4" class="ltx_para">
<p class="ltx_p">Kongruens i nordsamisk gjelder kasus, tall og person, avhengig av kontekst. I
nordsamisk er det kongruens mellom subjekt (som er i nominativ) og verb, verb og
subjektspredikat, demonstrative pronomener/numeraler og substantiv, og
relativpronomen og anafora. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib201" title="Samisk grammatikk" class="ltx_ref">15</a>, s.509ff.]</cite><span id="footnote3" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">3</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">3</sup>
<span class="ltx_tag ltx_tag_note">3</span>
subjekt
og verbal (tall og person—Gal <span class="ltx_text ltx_font_italic">mun boađán</span>), verbal og
utfyllningspredikativ (Olmmái <span class="ltx_text ltx_font_italic">lea rikkis</span>), mellom predikativer (Mus lea
<span class="ltx_text ltx_font_italic">juolgi bávččas</span>), objekt og objektpredikativ, relativsetninger (Dat
<span class="ltx_text ltx_font_italic">olmmoš, gii</span> áigu boahtit.), sammenligning og apposisjoner,
(<span class="ltx_text ltx_font_italic">Máret</span> lea liikka stuoris go <span class="ltx_text ltx_font_italic">don</span> og Oidnet go don
<span class="ltx_text ltx_font_italic">Mihkkala</span>, min nuoramus <span class="ltx_text ltx_font_italic">bártni</span>)?</span></span></span></p>
</div>
<div id="S2.p5" class="ltx_para">
<p class="ltx_p">En <span class="ltx_text ltx_font_italic">kongruensfeil</span> forutsetter en finitt verbform som ikke samsvarer i
tall og person med subjektet som hører til verbalet. Subjektet kan stå enten til
venstre eller til høyre for verbalet, og det kan være andre setningsledd mellom
subjektet og verbalet. I det følgende eksemplet <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a> blir subjektet
<span class="ltx_text ltx_font_italic">makkár váikkuhusat</span> ‘hvilken konsekvenser’ og verbalet <span class="ltx_text ltx_font_italic">ledje</span>
‘var’ avbrutt av hovedsetningen <span class="ltx_text ltx_font_italic">jáhkát don</span> ‘tror du’. I
eksempelsetning <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a> derimot er det finitte verbet til venstre for
subjektet bare en hovedsetning som introduserer en bisetning uten en
subjunksjon. Det er <span class="ltx_text ltx_font_italic">liikojedje</span> som er verbalet til <span class="ltx_text ltx_font_italic">mánát</span>
‘barna’. I eksempelsetning <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a> er det en relativsetning mellom
subjektet <span class="ltx_text ltx_font_italic">máŋgasat</span> ‘mange’ og verbalet <span class="ltx_text ltx_font_italic">gehččet</span> ‘de ser’.</p>
</div>
<div id="S2.p6" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_framed_underline">Makkár</span> <span class="ltx_text ltx_framed_underline">váikkuhusat</span> jáhkát don <span class="ltx_text ltx_font_bold">ledje</span> dáid lágain sidjiide […]
<br class="ltx_break">hvilken konsekvens<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> tro<span class="ltx_text ltx_font_smallcaps">.2sg</span> <span class="ltx_text ltx_font_smallcaps">2sg</span> være<span class="ltx_text ltx_font_smallcaps">.pst.3pl</span> disse<span class="ltx_text ltx_font_smallcaps">.gen</span> lov<span class="ltx_text ltx_font_smallcaps">.loc.pl</span> de<span class="ltx_text ltx_font_smallcaps">.ill.pl
<br class="ltx_break"></span>‘Hvilke konsekvenser tror du disse lovene hadde for dem […]’</p>
</div>
<div id="S2.p7" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_font_italic">Orui</span> <span class="ltx_text ltx_framed_underline">mánát</span> <span class="ltx_text ltx_font_bold">liikojedje</span> oaidnit bihtá.
<br class="ltx_break">virke<span class="ltx_text ltx_font_smallcaps">.pst.3sg</span> barn<span class="ltx_text ltx_font_smallcaps">.pl.nom</span> like<span class="ltx_text ltx_font_smallcaps">.pst.3pl</span> se forestilling<span class="ltx_text ltx_font_smallcaps">.acc
<br class="ltx_break"></span>‘Det virket som om barna likte å se forestillingen.’</p>
</div>
<div id="S2.p8" class="ltx_para">
<p class="ltx_p">. Sávan <span class="ltx_text ltx_framed_underline">máŋgasat</span>, geat eai leat sápmelaččat, <span class="ltx_text ltx_font_bold">gehččet</span> dán dokumentára
<br class="ltx_break">ønske<span class="ltx_text ltx_font_italic">.</span>1sg mange<span class="ltx_text ltx_font_smallcaps">.pl</span>, som<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> ikke<span class="ltx_text ltx_font_smallcaps">.3pl</span> være same<span class="ltx_text ltx_font_smallcaps">.nom.pl</span>, se<span class="ltx_text ltx_font_smallcaps">.pl3</span> denne<span class="ltx_text ltx_font_smallcaps">.acc</span> dokumentar<span class="ltx_text ltx_font_smallcaps">.acc
<br class="ltx_break"></span>‘Jeg ønsker at mange som ikke er samer, ser denne dokumentaren’
</p>
</div>
<div id="S2.p9" class="ltx_para">
<p class="ltx_p">I tillegg til at det kan finnes flere verb som er potensielle verbalkandidater
til et subjekt, kan det være ordformer som bare ser ut som finitte verb, men
ikke er det. Dette kan skyldes homonymi med finitte verb eller ekteordsfeil.
Formen <span class="ltx_text ltx_font_italic">erret</span> ‘skille’ i eksempelsetning <a href="#S2" title="2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">2</span></a> er egentlig en
ekteordsfeil for adverbet <span class="ltx_text ltx_font_italic">earret</span> ‘bortsett fra’. Men formen har to
verbanalyser, både 1. person flertall og 2. person entall. Det kunne altså
tenkes at det er verbalet til <span class="ltx_text ltx_font_italic">sii</span> ‘de’.</p>
</div>
<div id="S2.p10" class="ltx_para">
<p class="ltx_p">. Guossit geat áigot leat sámediggeviesus, *<span class="ltx_text ltx_font_bold">erret</span> sii geat áigot leat publikumareálan
<br class="ltx_break">gjest<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> som<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> vil<span class="ltx_text ltx_font_smallcaps">.3pl</span> være Sametinghus<span class="ltx_text ltx_font_smallcaps">.loc</span>, skille<span class="ltx_text ltx_font_smallcaps">.1pl;2sg</span> <span class="ltx_text ltx_font_smallcaps">3pl</span> som vil<span class="ltx_text ltx_font_smallcaps">.3pl</span> være publikumsareal<span class="ltx_text ltx_font_smallcaps">.loc
<br class="ltx_break"></span>‘Gjestene som vil være i Sametingshuset, bortsett fra de som skal være i publikumsarealet’</p>
</div>
<div id="S2.p11" class="ltx_para">
<p class="ltx_p">Det finnes også systematiske homonymirelasjoner mellom forskjellige former som
er presentert i tabell <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>. Det er for eksempel noe
homonymi mellom perfektum partisipp og første person entall, f.eks.
<span class="ltx_text ltx_font_italic">orron</span> ‘jeg var; har vært’. Alle infinitiver er homonyme med første
person presens flertallsverbformer. Infinitiver av ulikestavelses verb og
<span class="ltx_text ltx_font_italic">leat</span> ‘å være’ er også homonyme med tredje person flertall. Tredje
person presens flertall samsvarer også med andre person preteritum entall ved
alle verb bortsett fra <span class="ltx_text ltx_font_italic">leat</span> ‘være’. Videre samsvarer 1. person
presens totall og 3. person preteritum flertall bortsett fra <span class="ltx_text ltx_font_italic">leat</span>
‘være’, ulikestavelsesverb og sammendradde verb. Første person preteritum
entall samsvarer med perfektum partisipp-formen ved verb som ender på -ut,
f.eks. <span class="ltx_text ltx_font_italic">gorgŋon</span> ‘jeg har klatret’. I tillegg gjelder denne homonymien
for <span class="ltx_text ltx_font_italic">leat</span> ‘være’, ulikestavelses- og sammendradde verb. Noen verb som
har endelsen <span class="ltx_text ltx_font_italic">-ut</span> har for eksempel passive eller inkoative 3. person
entallsformer som er homonyme med aktive 3. person flertallspreteritumsformer,
f.eks. <span class="ltx_text ltx_font_italic">orro</span> ‘hun/han blir boende, de bodde’.</p>
</div>
<figure id="S2.T1" class="ltx_table">
<table class="ltx_tabular ltx_centering ltx_guessed_headers ltx_align_middle">
<tbody class="ltx_tbody">
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_bold" style="font-size:90%;">Form</span></th>
<td class="ltx_td ltx_align_left"><span class="ltx_text ltx_font_bold" style="font-size:90%;">homonyme former</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">infinitiv</span></th>
<td class="ltx_td ltx_align_left ltx_border_t"><span class="ltx_text" style="font-size:90%;">{1. p. flt. / 3. p. flt. presens, 2. p. ent. presens }</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">perfektum partisipp</span></th>
<td class="ltx_td ltx_align_left"><span class="ltx_text" style="font-size:90%;">{1. p. ent. preteritum}</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">1DU presens</span></th>
<td class="ltx_td ltx_align_left"><span class="ltx_text" style="font-size:90%;">{3. p. flt. preteritum }</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">3. p. flt. preteritum</span></th>
<td class="ltx_td ltx_align_left"><span class="ltx_text" style="font-size:90%;">{3. p. ent. presens passiv }</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r ltx_border_tt">
<span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">bokte</span><span class="ltx_text" style="font-size:90%;"> ‘via’</span>
</th>
<td class="ltx_td ltx_align_left ltx_border_tt"><span class="ltx_text" style="font-size:90%;">{boktit ‘vekke’ 3. p. flt. preteritum }</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r">
<span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">lávlu</span><span class="ltx_text" style="font-size:90%;"> ‘sanger’</span>
</th>
<td class="ltx_td ltx_align_left"><span class="ltx_text" style="font-size:90%;">{lávlut ‘synge’ 3. p. ent. presens}</span></td>
</tr>
<tr class="ltx_tr">
<th class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_smallcaps" style="font-size:90%;">…</span></th>
<td class="ltx_td"></td>
</tr>
</tbody>
</table>
<figcaption class="ltx_caption ltx_centering" style="font-size:90%;"><span class="ltx_tag ltx_tag_table">Table 1: </span>Eksempler på systematiske og idiosynkratiske homonymier</figcaption>
</figure>
<div id="S2.p12" class="ltx_para">
<p class="ltx_p">I tillegg til dette finnes det ytterlige idiosynkratiske homonymier, f.eks.
<span class="ltx_text ltx_font_italic">bokte</span> ‘via’ som er både en postposisjon og første person totall og
tredje person flertall av <span class="ltx_text ltx_font_italic">boktit</span> ‘vekke’. Andre former er
derivasjoner, for eksempel <span class="ltx_text ltx_font_italic">lávlu</span> som har en rekke med
substantivanalyser (‘sanger’) og tredje person entall form av <span class="ltx_text ltx_font_italic">lávlut</span>
‘synge’.</p>
</div>
<div id="S2.p13" class="ltx_para">
<p class="ltx_p">I noen tilfeller er også subjektshomonymi relevant, slik som i
setning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>, der tidsskriftet <span class="ltx_text ltx_font_italic">Dieđut</span> er homonymt med
flertallssubstantivet <span class="ltx_text ltx_font_italic">dieđut</span> ‘nyheter’ og basert på det kunne det
tenkes at verbformen må være 3. person flertall.</p>
</div>
<div id="S2.p14" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_framed_underline">Dieđut</span> <span class="ltx_text ltx_font_bold">lea</span> máŋggadieđalaš čála-ráidu […]
<br class="ltx_break">Dieđut<span class="ltx_text ltx_font_smallcaps">.nom.sg</span>;nyhet<span class="ltx_text ltx_font_smallcaps">.pl</span> være<span class="ltx_text ltx_font_smallcaps">.3sg</span> tverrvitenskapelig skriftserie
<br class="ltx_break">‘Dieđut er en tverrvitenskapelig skriftserie’</p>
</div>
<div id="S2.p15" class="ltx_para">
<p class="ltx_p">Det er ikke bare homonymi som kan føre til feiltolkinger av setningen. En del
syntaktiske fenomen bidrar til utfordringene. En av de største årsakene til
unntak er koordinerte subjekt. Mens verbalet <span class="ltx_text ltx_font_italic">ledje</span> i
eksempelsetning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> tar hensyn til både første, andre og tredje
elementet i koordinasjonen, er det i de fleste tilfellene tillatt med både 3.
person entall eller 3. person flertall. Setning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> koordinerer
konkrete personer, i <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> er det derimot mer abstrakte eller
uspesifiserte begrep som er koordinert.
</p>
</div>
<div id="S2.p16" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_framed_underline">Persson, Åberg ja Granberg</span> <span class="ltx_text ltx_font_bold">ledje</span> dat golbma buoremusa juohke vuodjimis.
<br class="ltx_break">Persson, Åberg og Granberg være<span class="ltx_text ltx_font_smallcaps">.pst.3pl</span> de tre beste hver kjøring<span class="ltx_text ltx_font_smallcaps">.loc
<br class="ltx_break"></span>‘Persson, Åberg og Granberg var de tre beste i hver kjøring.’</p>
</div>
<div id="S2.p17" class="ltx_para">
<p class="ltx_p">I eksempelsetning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> inneholder det koordinerte subjektet
<span class="ltx_text ltx_font_italic">man ollu riggodagat ja ruhta</span> et flertalls- og et entallssubstantiv.
Verbet <span class="ltx_text ltx_font_italic">manai</span> er derimot i 3. person entall. Både 3. person entall og
3. person flertall er tillatt.</p>
</div>
<div id="S2.p18" class="ltx_para">
<p class="ltx_p">. […] go sii oidne man ollu riggodagat ja <span class="ltx_text ltx_framed_underline">ruhta</span> dokko <span class="ltx_text ltx_font_bold">manai</span>.
<br class="ltx_break"> når <span class="ltx_text ltx_font_smallcaps">3pl</span> se<span class="ltx_text ltx_font_smallcaps">.pst.3pl</span> hvor mye rikdom<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> og penger<span class="ltx_text ltx_font_smallcaps">.nom.sg</span> dit gå<span class="ltx_text ltx_font_smallcaps">.pst.3sg
<br class="ltx_break"></span>‘[…] når de så hvor mye rikdom og penger som gikk dit.’</p>
</div>
<div id="S2.p19" class="ltx_para">
<p class="ltx_p">I setning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> oppfattes de koordinerte nominalfrasene i subjektet
som en logisk enhet, og bare det nærmeste elementet samsvarer med det finitte
verbet. Dessuten er samsvar i koordinasjon avhengig av semantisk kategori til
substantivene. Ifølge <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib201" title="Samisk grammatikk" class="ltx_ref">15</a>]</cite> ¡¡står verbalet i <span class="ltx_text ltx_font_italic">entall</span>
[hvis subjektsordene er <span class="ltx_text ltx_font_italic">navn på stoffer</span>]. […] Hvis subjektsordene
er <span class="ltx_text ltx_font_italic">abstrakte begrep</span> som nært hører sammen, står verbalet i
<span class="ltx_text ltx_font_italic">entall</span>.¿¿ (s.512)</p>
</div>
<div id="S2.p20" class="ltx_para">
<p class="ltx_p">. Sihke jierbmi ja <span class="ltx_text ltx_framed_underline">ipmárdus</span> <span class="ltx_text ltx_font_bold">lea</span> buorre su iežas adnui.
<br class="ltx_break">Både klokhet og forståelse være<span class="ltx_text ltx_font_smallcaps">.3sg</span> bra <span class="ltx_text ltx_font_smallcaps">3pl.gen</span> eget bruk<span class="ltx_text ltx_font_smallcaps">.ill
<br class="ltx_break"></span>‘Både klokhet og forståelse er bra til sitt bruk.’</p>
</div>
<div id="S2.p21" class="ltx_para">
<p class="ltx_p">Hvis koordinasjonen derimot inneholder et personlig pronomen, er det flertalls-
eller totallsformer av samme person som kreves, for eksempel <span class="ltx_text ltx_font_bold">leimmet</span>
‘vi var’ i eksempelsetning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>. Det samme gjelder relativpronomener
med et personlig pronomen som antesedent, <span class="ltx_text ltx_font_italic">midjiide</span> ‘til oss’ i
eksempelsetning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>, der verbalformen blir 1. person flertall
istedenfor 3. person flertall som relativpronomenet.</p>
</div>
<div id="S2.p22" class="ltx_para">
<p class="ltx_p">. Oahpaheaddjit <span class="ltx_text ltx_font_bold">leimmet</span> fas <span class="ltx_text ltx_framed_underline">Isak Johansen, Johan Jernsletten ja mun</span>.
<br class="ltx_break">lærer<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> være<span class="ltx_text ltx_font_smallcaps">.pst.1pl</span> igjen Isak Johansen, Johan Jernsletten og <span class="ltx_text ltx_font_smallcaps">1sg
<br class="ltx_break"></span>‘Det var Isak Johansen, Johan Jernsletten og jeg som var lærerne.’</p>
</div>
<div id="S2.p23" class="ltx_para">
<p class="ltx_p">. Seamma guoská <span class="ltx_text ltx_framed_underline">midjiide geat</span> <span class="ltx_text ltx_font_bold">bargat</span> láhččit rámmaeavttuid juohkehačča ovdáneapmái.
<br class="ltx_break">samme gjelde<span class="ltx_text ltx_font_smallcaps">.3sg</span> <span class="ltx_text ltx_font_smallcaps">1pl.ill</span> som<span class="ltx_text ltx_font_smallcaps">.nom.3pl</span> jobbe<span class="ltx_text ltx_font_smallcaps">.1pl</span> tilrettelegge<span class="ltx_text ltx_font_smallcaps">.inf</span> rammevilkår<span class="ltx_text ltx_font_smallcaps">.acc.pl</span> enkelte<span class="ltx_text ltx_font_smallcaps">.gen</span> utvikling<span class="ltx_text ltx_font_smallcaps">.ill
<br class="ltx_break"></span>‘Det samme gjelder oss som jobber med å tilrettelegge rammevilkår for den enkeltes utvikling.’</p>
</div>
<div id="S2.p24" class="ltx_para">
<p class="ltx_p">Når verbalet er kopulaverbet <span class="ltx_text ltx_font_italic">leat</span> ‘være’ og det dreier seg om en
habitiv eller adverbialkonstruksjon som i <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>, så samsvarer det bare
med det nærmeste leddet. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib201" title="Samisk grammatikk" class="ltx_ref">15</a>, s.512]</cite><span id="footnote4" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">4</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">4</sup>
<span class="ltx_tag ltx_tag_note">4</span>
¡¡Hvis predikativet
består av flere sidestilte ord i nominativ, så er det vanligvis samsvar i tall
mellom verbalet og det ordet i predikativet som står nærmest. Dette gjelder
setninger med habitiv eller adverbial i nominatdelen¿¿ (p.512)</span></span></span> I den følgende
konstruksjonen <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> er det bare entall som er mulig siden det dreier
seg om en konstruksjon med et stedsadverbial i begynnelsen, <span class="ltx_text ltx_font_italic">dáppe</span>
‘her’.</p>
</div>
<div id="S2.p25" class="ltx_para">
<p class="ltx_p">. Mun dieđán dáppe <span class="ltx_text ltx_font_bold">lea</span> <span class="ltx_text ltx_framed_underline">kultuvra</span> ja árbevierru girkostallat.
<br class="ltx_break"><span class="ltx_text ltx_font_smallcaps">1sg</span> vite<span class="ltx_text ltx_font_smallcaps">.1sg</span> her være<span class="ltx_text ltx_font_smallcaps">.3sg</span> kultur<span class="ltx_text ltx_font_smallcaps">.nom.sg</span> og tradisjon<span class="ltx_text ltx_font_smallcaps">.nom.sg</span> gå.i.kirken<span class="ltx_text ltx_font_smallcaps">.inf
<br class="ltx_break"></span>‘Jeg vet at her er det kultur og tradisjon å gå i kirken.’</p>
</div>
<div id="S2.p26" class="ltx_para">
<p class="ltx_p">Visse typer veldig vanlige skrivefeil (ekteordsfeil) kan komplisere søket etter
kongruensfeil. I følgende setning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a> er det finitte verbet
korrekt. Men i og med at <span class="ltx_text ltx_font_italic">diehttit</span> ‘å vite’ inneholder en skrivefeil
(to t-er istedenfor en), blir den mente infinitiven et flertallssubstantiv.
Dermed blir det en mulig flertallssubjektskandidat for det finitte verbet, som
kunne tolkes som en kongruensfeil—dvs. at det burde være 3. person flertall
istedenfor 3. person entall.</p>
</div>
<div id="S2.p27" class="ltx_para">
<p class="ltx_p">. Ovddamearkka dihte mo *diehttit <span class="ltx_text ltx_font_bold">mieđiha</span> go buohcci vai lea go son duođaid nuppi oaivilis.
<br class="ltx_break">For eksempel hvordan viter<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> samtykke<span class="ltx_text ltx_font_smallcaps">.3sg</span> <span class="ltx_text ltx_font_smallcaps">qst</span> syk eller være<span class="ltx_text ltx_font_smallcaps">.3sg</span> <span class="ltx_text ltx_font_smallcaps">qst</span> <span class="ltx_text ltx_font_smallcaps">3sg</span> egentlig annen mening<span class="ltx_text ltx_font_smallcaps">.loc
<br class="ltx_break"></span>‘For eksempel, hvordan skal man vite om den syke samtykker eller om han egentlig har en annen mening.’</p>
</div>
<div id="S2.p28" class="ltx_para">
<p class="ltx_p">En konstruksjon der det kan være vanskelig å finne kongruensfeil, er
asymmetriske subjektpredikatskonstruksjoner der subjektet og predikativet ikke
har samme tall, som vist i eksempelsetning <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>. På språk der
subjektet kan være pre- eller postverbalt, slik som i nordsamisk, kan det være
vanskelig å identifisere subjektet. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib156" title="Asymmetries in extraction from nominal copular sentences: a challenging case study for nlp tools" class="ltx_ref">11</a>]</cite> nevner
utfordringene i NLP-applikasjoner som for eksempel parsere eller
maskinoversetting. Verbalet i italiensk samsvarer med subjektet uavhengig av
ordstillinga, på engelsk samsvarer verbalet med den preverbale nominalfrasen som
i eksempel <a href="#S2.T1" title="Table 1 ‣ 2 Problemstilling ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag"><span class="ltx_text" style="font-size:90%;">1</span></span></a>. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib156" title="Asymmetries in extraction from nominal copular sentences: a challenging case study for nlp tools" class="ltx_ref">11</a>]</cite></p>
</div>
<div id="S2.p29" class="ltx_para">
<p class="ltx_p">. Davviriikkaid <span class="ltx_text ltx_framed_underline">sápmelaččat</span> *<span class="ltx_text ltx_font_bold">lea</span> unna minoritehta […]
<br class="ltx_break">nordområde<span class="ltx_text ltx_font_smallcaps">.gen.pl</span> same<span class="ltx_text ltx_font_smallcaps">.nom.pl</span> være<span class="ltx_text ltx_font_smallcaps">3p.sg</span> liten minoritet<span class="ltx_text ltx_font_smallcaps">.nom.sg
<br class="ltx_break"></span>‘Nordens samer er en liten minoritet […]’</p>
</div>
<div id="S2.p30" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_italic">.</span>
the pictures are/*is the cause.
the cause *are/is the pictures</p>
</div>
</section>
<section id="S3" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">3 </span>Bakgrunn</h2>
<section id="S3.SS1" class="ltx_subsection">
<h3 class="ltx_title ltx_title_subsection">
<span class="ltx_tag ltx_tag_subsection">3.1 </span>Relatert forskning</h3>
<div id="S3.SS1.p1" class="ltx_para">
<p class="ltx_p">Maskinlæringsmetoder som ikke krever lingvistisk ekspertise dominerer per idag
moderne språkteknologi (f.eks. <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib58" title="A multilayer convolutional encoder-decoder neural network for grammatical error correction" class="ltx_ref">4</a>, <a href="#bib.bib46" title="Using wikipedia edits in low resource grammatical error correction" class="ltx_ref">3</a>]</cite>).
Fokuset i maskinlæring har vært på maskinoversetting og andre typer verktøy.
Maskinlærte stavekontroller skiller vanligvis ikke på vanlige skrivefeil og
grammatiske feil. I det siste har store datamengder ført til at resultatene har
bedret seg noe og medført at man har kunnet laget mer avanserte grammatiske
verktøy som blir brukt av et bredt publikum.</p>
</div>
<div id="S3.SS1.p2" class="ltx_para">
<p class="ltx_p">Det er få eksempler på grammatikkontroller som er basert på nevrale nettverk som
er i daglig bruk og er veldokumentert. Noen av de mest populære systemene i bruk
er fortsatt regelbasert, slik som
<span class="ltx_text ltx_font_italic">LanguageTool<span id="footnote5" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">5</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">5</sup>
<span class="ltx_tag ltx_tag_note"><span class="ltx_text ltx_font_upright">5</span></span>
<a href="https://languagetool.org" title="" class="ltx_ref ltx_url ltx_font_typewriter ltx_font_upright">https://languagetool.org</a></span></span></span></span> (basert på åpen
kildekode). <span class="ltx_text ltx_font_italic">Grammarly<span id="footnote6" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">6</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">6</sup>
<span class="ltx_tag ltx_tag_note"><span class="ltx_text ltx_font_upright">6</span></span>
<a href="https://grammarly.com" title="" class="ltx_ref ltx_url ltx_font_typewriter ltx_font_upright">https://grammarly.com</a></span></span></span></span>, som er
lukket programvare, bruker maskinlæringsmetoder til en viss
grad<span id="footnote7" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">7</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">7</sup>
<span class="ltx_tag ltx_tag_note">7</span>
<a href="https://www.grammarly.com/blog/engineering/grammarly-nlp-building-future-communication/" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://www.grammarly.com/blog/engineering/grammarly-nlp-building-future-communication/</a></span></span></span>.</p>
</div>
<div id="S3.SS1.p3" class="ltx_para">
<p class="ltx_p">På begynnelsen av 90-tallet introduserte Fred Karlsson konseptet
føringsgrammatikk (Constraint Grammar). Denne teknologien har produsert gode
tekstprosesseringsverktøy, bl.a. grammatikkontroller, som har blitt godt mottatt
og brukt i mange språksamfunn <cite class="ltx_cite ltx_citemacro_cite">[<span class="ltx_ref ltx_missing_citation ltx_ref_self">Arppe2000ei</span>, <a href="#bib.bib43" title="Detecting grammar errors with Lingsoft’s Swedish grammar checker" class="ltx_ref">2</a>, <a href="#bib.bib98" title="”Det er fort gjort og skrive feil.” en presentasjon av en automatisk grammatikkontroll for bokmål" class="ltx_ref">8</a>]</cite>.
I <span class="ltx_text ltx_font_italic">GiellaLT</span>-infrastrukturen blir det utviklet føringsgrammatikker der
lingvisten har kontroll over hvordan grammatikkontrollene fungerer og hvilke
problem de skal løse. Det er ikke bare tekniske årsaker for metodevalget.
Kunnskapsøkning om grammatikken til det språket som jobbes med, kvalitetssikring
og kontrollerbarhet (grammatikkontrollen gjør det den skal gjøre også ifølge
menneskelige standard) ligger bak preferansen om å jobbe regelbasert.</p>
</div>
</section>
<section id="S3.SS2" class="ltx_subsection">
<h3 class="ltx_title ltx_title_subsection">
<span class="ltx_tag ltx_tag_subsection">3.2 </span>Våre ressurser</h3>
<div id="S3.SS2.p1" class="ltx_para">
<p class="ltx_p">I dette eksperimentet bruker vi
<span class="ltx_text ltx_font_italic">GiellaLT</span>-infrastrukturen<span id="footnote8" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">8</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">8</sup>
<span class="ltx_tag ltx_tag_note">8</span>
<a href="https://giellalt.github.io" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://giellalt.github.io</a></span></span></span> for
å lage digitale grammatikker og leksikon og for å lage verktøy som bruker disse
grammatikkene og leksikonene <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib193" title="Open-source infrastructures for collaborative work on under-resourced languages" class="ltx_ref">13</a>]</cite>. Infrastrukturen er bygd
opp slik at verktøyene (tastatur, stavekontroller, etc.) er laget på samme måte
for alle språkene, og skiller på denne måten mellom språkspesifikke data og
språkuavhengige metoder. <span class="ltx_text ltx_font_italic">GiellaLT</span> har for tiden repositorier for 136
forskjellige språk—for det meste (sirkumpolære) minoritetsspråk eller andre
mindre språk. Denne artikkelen bygger på den nordsamiske delen av
infrastrukturen<span id="footnote9" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">9</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">9</sup>
<span class="ltx_tag ltx_tag_note">9</span>
<a href="https://github.com/giellalt/lang-sme" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://github.com/giellalt/lang-sme</a></span></span></span> og er et
eksperiment for å eventuelt introdusere nye nevrale metoder til det
språkuavhengige byggesystemet.</p>
</div>
<div id="S3.SS2.p2" class="ltx_para">
<p class="ltx_p">For å evaluere og trene den nevrale modellen bruker vi SIKOR. SIKOR inneholder
ca. 39M ord og består av to korpora:
<span class="ltx_text ltx_font_italic">GT-Bound<span id="footnote10" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">10</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">10</sup>
<span class="ltx_tag ltx_tag_note"><span class="ltx_text ltx_font_upright">10</span></span>
<a href="https://gtsvn.uit.no/boundcorpus/orig/sme/" title="" class="ltx_ref ltx_url ltx_font_typewriter ltx_font_upright">https://gtsvn.uit.no/boundcorpus/orig/sme/</a></span></span></span></span>
(tekster som er dekket av opphavsrett og som er tilgjengelig på forespørsel) og
<span class="ltx_text ltx_font_italic">GT-Free<span id="footnote11" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">11</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">11</sup>
<span class="ltx_tag ltx_tag_note"><span class="ltx_text ltx_font_upright">11</span></span>
<a href="https://gtsvn.uit.no/freecorpus/orig/sme/" title="" class="ltx_ref ltx_url ltx_font_typewriter ltx_font_upright">https://gtsvn.uit.no/freecorpus/orig/sme/</a></span></span></span></span>
(tekster som er offentlig tilgjengelig). For å evaluere resultater for både den
regelbaserte og den nevrale modellen, bruker vi et gullkorpus på ca 406 000 ord
som er en del av <span class="ltx_text ltx_font_italic">GT-Free</span> og <span class="ltx_text ltx_font_italic">GT-Bound</span> og som er oppmerket med
mange forskjellige feiltyper.</p>
</div>
</section>
</section>
<section id="S4" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">4 </span>Metodevalg</h2>
<section id="S4.SS1" class="ltx_subsection">
<h3 class="ltx_title ltx_title_subsection">
<span class="ltx_tag ltx_tag_subsection">4.1 </span>Regelbasert metode (<span class="ltx_text ltx_font_italic">GramDivvun</span>)</h3>
<div id="S4.SS1.p1" class="ltx_para">
<p class="ltx_p">Kongruensfeilretting ved hjelp av håndskrevne regler er basert på endelige
tilstandsautomater (FST) <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib29" title="Finite state morphology" class="ltx_ref">1</a>, <a href="#bib.bib231" title="State-of-the-art in weighted finite-state spell-checking" class="ltx_ref">16</a>]</cite> og
føringsgrammatikker (Constraint Grammar) <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib120" title="Constraint grammar as a framework for parsing unrestricted text" class="ltx_ref">9</a>]</cite>. Den
nordsamiske regelbaserte grammatikkontrollen <span class="ltx_text ltx_font_italic">GramDivvun</span> retter både
skrive- og mange grammatikkfeil i tillegg til tegnsettings- og formateringsfeil.
<span class="ltx_text ltx_font_italic">GramDivvun</span> er bl.a. tilgjengelig som en plugin for Microsoft Office og
Google Docs<span id="footnote12" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">12</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">12</sup>
<span class="ltx_tag ltx_tag_note">12</span>
https://divvun.no/no/korrektur/gramcheck.html</span></span></span> og er åpen
kildekode.<span id="footnote13" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">13</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">13</sup>
<span class="ltx_tag ltx_tag_note">13</span>
den presise versjonen som er brukt i eksperimentet finnes
her for reproduksjon:
<a href="https://github.com/giellalt/lang-sme/releases/tag/experiment-2022-03-30" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://github.com/giellalt/lang-sme/releases/tag/experiment-2022-03-30</a> se
også
<a href="https://github.com/giellalt/giella-core/releases/tag/experiment-2022-03-30" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://github.com/giellalt/giella-core/releases/tag/experiment-2022-03-30</a>
og
<a href="https://github.com/giellalt/giella-shared/releases/tag/experiment-2022-03-30" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://github.com/giellalt/giella-shared/releases/tag/experiment-2022-03-30</a></span></span></span>
Den inkluderer bl.a. en nyere versjon av stavekontrollen fra
2007<span id="footnote14" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">14</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">14</sup>
<span class="ltx_tag ltx_tag_note">14</span>
<a href="http://divvun.no/korrektur/korrektur.html" title="" class="ltx_ref ltx_url ltx_font_typewriter">http://divvun.no/korrektur/korrektur.html</a></span></span></span>, cf. also <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib90" title="From xerox to aspell: a first prototype of a north sámi speller based on twol technology" class="ltx_ref">7</a>]</cite>, og seks føringsgrammatikkmoduler, se figur <a href="#S4.F1" title="Figure 1 ‣ 4.1 Regelbasert metode (GramDivvun) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">1</span></a>.</p>
</div>
<figure id="S4.F1" class="ltx_figure">
<div class="ltx_inline-block ltx_align_center ltx_transformed_outer" style="width:302.9pt;height:214.6pt;vertical-align:-0.0pt;"><span class="ltx_transformed_inner" style="transform:translate(-101.0pt,71.5pt) scale(0.6,0.6) ;"><img src="x2.png" id="S4.F1.g1" class="ltx_graphics" width="789" height="559" alt="Modulær struktur av ">
</span></div>
<figcaption class="ltx_caption ltx_centering"><span class="ltx_tag ltx_tag_figure">Figure 1: </span>Modulær struktur av <span class="ltx_text ltx_font_italic">GramDivvun</span></figcaption>
</figure>
<div id="S4.SS1.p2" class="ltx_para">
<p class="ltx_p">Kongruensfeilretting foregår i ‘grammarchecker-release.cg3’-modulen. 45 regler
legger til en samsvarsfeiltag til verbformen som skal rettes. Hver kombinasjon
av person og tall har et eget regelsett som vanligvis består av forskjellige
regler for pre- og postverbal subjektsposisjon. I tillegg er det spesifikke
regler for passivkonstruksjoner, negasjonskontekster, relativsetninger, kopula,
adposisjoner og koordinerte subjekter. Regelsettet for pronominale
førstepersonsflertallskontekster er litt mer komplekst siden formen <span class="ltx_text ltx_font_italic">mii</span>
er homonymt og kan være både 1. person flertall (‘vi’) og et spørrepronomen i
3. person entall (‘hva’).</p>
</div>
<div id="S4.SS1.p3" class="ltx_para">
<p class="ltx_p">Reglene som legger til feiltaggene til en feilaktig verbform har følgende format
(forenklet) og følger ‘Constraint Grammar’-formalismen. Regelen nedenfor (som er
en av 48) går ut i fra en 3. person entallshøyrekontekst.</p>
</div>
<div id="S4.SS1.p4" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:0.0pt;"><span class="ltx_rule" style="width:469.8pt;height:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:0.0pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> <span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span>ADD (&kongruensfeiltag)<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span>TARGET finitte verbformer bortsett fra konnegativ/negasjonsverb<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span>IF i høyre kontekst det er et personlig pronomen i 3. person entall<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> som ikke inneholder en feil<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> det ikke finnes et annet verb i 3. person entall til høyre for det og<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> verbet har ingen 3. person entalls-/perf.part.-/konnegativ-/adverbslesing<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> verbet har ingen 3. person flertallslesing med et koordinert subjekt til høyre<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:469.8pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> [...];<span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:0.0pt;"><span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span> <span class="ltx_rule" style="width:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_text ltx_font_typewriter" style="font-size:80%;width:0.0pt;"><span class="ltx_rule" style="width:469.8pt;height:0.6pt;background:black;display:inline-block;"> </span></span><span class="ltx_ERROR undefined">\@endparenv</span></p>
</div>
</section>
<section id="S4.SS2" class="ltx_subsection">
<h3 class="ltx_title ltx_title_subsection">
<span class="ltx_tag ltx_tag_subsection">4.2 </span>Nevral metode (<span class="ltx_text ltx_font_italic">NeuSam</span>)</h3>
<section id="S4.SS2.SSS1" class="ltx_subsubsection">
<h4 class="ltx_title ltx_title_subsubsection">
<span class="ltx_tag ltx_tag_subsubsection">4.2.1 </span>Datagenerering (syntetiske feil)</h4>
<div id="S4.SS2.SSS1.p1" class="ltx_para">
<p class="ltx_p">Nevrale nettverk krever en stor mengde av parallelt korpus mellom korrekte og
feilaktige setninger. Siden det kan ta flere år å bygge et slikt korpus, er det
vanlig å generere et feilkorpus. Ulempen med et generert feilkorpus er at det
innebærer en risiko for at feilfordelingen ikke er representativ eller at
feilene kanskje ikke er feil. Dataene vi bruker i dette eksperimentet kommer
fra SIKOR, og blir viderebehandlet med skript som genererer grammatikkfeil. Vi
analyserer korpuset med <span class="ltx_text ltx_font_italic">GramDivvun</span> og fjerner setninger med feil, for å
deretter introdusere feil ved å forandre på ordformene i dette materialet.
Utfordringene med strategien har vært:</p>
</div>
<div id="S4.SS2.SSS1.p2" class="ltx_para">
<ul id="S4.I1" class="ltx_itemize">
<li id="S4.I1.i1" class="ltx_item" style="list-style-type:none;">
<span class="ltx_tag ltx_tag_item">•</span>
<div id="S4.I1.i1.p1" class="ltx_para">
<p class="ltx_p">For å ikke generere den samme formen som den feilaktige, har vi filtrert bort de introduserte formene som er homonyme (<span class="ltx_text ltx_font_italic">leat</span> ‘vi er’, <span class="ltx_text ltx_font_italic">leat</span> ‘du er’).</p>
</div>
</li>
<li id="S4.I1.i2" class="ltx_item" style="list-style-type:none;">
<span class="ltx_tag ltx_tag_item">•</span>
<div id="S4.I1.i2.p1" class="ltx_para">
<p class="ltx_p">Siden datamengden øker eksponensielt om vi erstatter en form med mange andre, spesielt når det er flere verb i setningen, har vi valgt å bare introdusere en feil av gangen i setningen, istedenfor å kombinere alle variantene.</p>
</div>
</li>
</ul>
</div>
<div id="S4.SS2.SSS1.p3" class="ltx_para">
<p class="ltx_p">Den korrekte setningen <a href="#S4.SS2.SSS1" title="4.2.1 Datagenerering (syntetiske feil) ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">4.2.1</span></a> som inneholder et 3. person
entallssubjekt og en 3. person entallsverbform kan brukes for å generere opptil
8 setninger med en syntetisk feil (eksempel <a href="#S4.SS2.SSS1" title="4.2.1 Datagenerering (syntetiske feil) ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">4.2.1</span></a>). Dette gjøres ved å
erstatte den korrekte verbformen med forskjellige feilaktige former som er
forskjellig i person og tall (som ikke er homonyme med den rette formen).</p>
</div>
<div id="S4.SS2.SSS1.p4" class="ltx_para">
<p class="ltx_p">. Son <span class="ltx_text ltx_font_bold">doarjjui</span> áinnas unnit *giliid.
<br class="ltx_break"><span class="ltx_text ltx_font_smallcaps">3sg</span> støtte<span class="ltx_text ltx_font_smallcaps">.pst.3sg</span> selvfølgelig mindre språk<span class="ltx_text ltx_font_smallcaps">.acc.pl
<br class="ltx_break"></span>‘Hun støttet selvfølgelig mindre språk.’</p>
</div>
<div id="S4.SS2.SSS1.p5" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_italic">.</span>
Son <span class="ltx_text ltx_font_bold">dorjot</span> áinnas unnit giliid.
Son <span class="ltx_text ltx_font_bold">doarjjuiga</span> áinnas unnit giliid.</p>
</div>
<div id="S4.SS2.SSS1.p6" class="ltx_para">
<p class="ltx_p">Vi brukte et skript<span id="footnote15" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">15</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">15</sup>
<span class="ltx_tag ltx_tag_note">15</span>
<a href="https://gtsvn.uit.no/hybrid_gramcheck" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://gtsvn.uit.no/hybrid_gramcheck</a></span></span></span> som
leser gjennom hver setning i korpuset, og for hver analyse erstatter skriptet
verbformen som kan ha kongruens med et subjekt med andre verbformer som ikke har
kongruens med subjektet. En oversikt av erstatninger som ble gjort vises i
tabell <a href="#S4.T3" title="Table 3 ‣ 4.2.1 Datagenerering (syntetiske feil) ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">3</span></a>. I den første gruppen valgte vi bare et verb og
erstattet det med andre former (f.eks tar vi et verb i første person entall og
erstatter det med 2. person entall og 3. person entall, og alle totalls- og
flertallsformene). I den andre gruppen genererte vi frekvente grammatikkfeil,
som tilsvarer feil basert på vår erfaring med korpussøk. Ordene i den andre
gruppen har også en begrensing av fonologisk form, f.eks. <span class="ltx_text ltx_font_smallcaps">Ind Prs
Pl3<span id="footnote16" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">16</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">16</sup>
<span class="ltx_tag ltx_tag_note"><span class="ltx_text ltx_font_upright">16</span></span>
<span class="ltx_text ltx_font_upright">vi bruker </span><span class="ltx_text ltx_font_italic">GiellaLT</span><span class="ltx_text ltx_font_upright"> sine analysetaggar som er dokumentert
her: </span><a href="https://giellalt.github.io/lang-sme/docu-mini-smi-grammartags.html" title="" class="ltx_ref ltx_url ltx_font_typewriter ltx_font_upright">https://giellalt.github.io/lang-sme/docu-mini-smi-grammartags.html</a></span></span></span></span>
til <span class="ltx_text ltx_font_smallcaps">Imprt Pl2</span>-feil er en feil som oppstår i likestavelsesverb. Etterpå
filtrerte vi de genererte setningene med <span class="ltx_text ltx_font_italic">GramDivvun</span> igjen, slik at vi
bare satt igjen med setninger <span class="ltx_text ltx_font_italic">GramDivvun</span> anså for å være feil.
Resultatet er at flesteparten av de syntetiske feilene som vi introduserte, hhv.
94.5% og 86.4%, ikke ble merket som feil av <span class="ltx_text ltx_font_italic">GramDivvun</span>, antakeligvis
fordi de er korrekte med formen som ble erstattet. Dette er ikke uvanlig med
tanke på at setninger uten subjekt kan ha korrekte verbformer i alle slags
person-tall kombinasjoner. Vi valgte å bruke <span class="ltx_text ltx_font_italic">GramDivvun</span> for å filtrere
setningene etter at vi ved en manuell gjennomgang oppdaget at feilkorpuset som
ble generert for å trene <span class="ltx_text ltx_font_italic">NeuSam</span> inneholdt mange setninger som var
korrekte. Siden <span class="ltx_text ltx_font_italic">GramDivvun</span> tidligere viste seg å ha god presisjon
valgte vi å redusere feilkilden ved å bare trene <span class="ltx_text ltx_font_italic">NeuSam</span> med setninger
<span class="ltx_text ltx_font_italic">GramDivvun</span> anser som feil.</p>
</div>
<figure id="S4.T3" class="ltx_table"><span class="ltx_inline-para ltx_minipage ltx_align_middle" style="width:273.2pt;">
<span id="S4.T3.p1" class="ltx_para">
<span class="ltx_tabular ltx_guessed_headers ltx_align_middle">
<span class="ltx_thead">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_column ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_bold">Analyse</span> <math id="S4.T3.p1.m1" class="ltx_Math" alttext="\rightarrow" display="inline"><mo>→</mo></math></span>
<span class="ltx_td ltx_align_left ltx_th ltx_th_column ltx_border_t"><span class="ltx_text ltx_font_bold">Syntetisk</span></span></span>
</span>
<span class="ltx_tbody">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_smallcaps">(V) Sg1</span></span>
<span class="ltx_td ltx_align_left ltx_border_t">{Sg2, Sg3, Du1, Du2, Du3, Pl1, Pl2, Pl3}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Sg2</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg3, Du1, Du2, Du3, Pl2}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Sg3</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg2, Du1, Du2, Du3, Pl1, Pl2, Pl3}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Du1</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg2, Sg3, Du2, Du3, Pl1, Pl2}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Du2</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg2, Sg3, Du1, Du3, Pl1, Pl2, Pl3}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Du3</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg2, Du1, Du2, Pl1, Pl2, Pl3}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Pl1</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg3, Du1, Du2, Du3, Pl2}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Pl2</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Sg2, Sg3, Du1, Du2, Du3, Pl1, Pl3}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Pl3</span></span>
<span class="ltx_td ltx_align_left">{Sg1, Du2, Du3, Pl1, Pl2}</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_smallcaps">(V) Ind Prs Pl3</span></span>
<span class="ltx_td ltx_align_left ltx_border_t"><span class="ltx_text ltx_font_smallcaps">Imprt Pl2</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(Der/Pass V)</span></span>
<span class="ltx_td ltx_align_left"><span class="ltx_text ltx_font_smallcaps">Imprt Du2</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_r">Ind Prs Sg3</span>
<span class="ltx_td"></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_border_b ltx_border_r"><span class="ltx_text ltx_font_smallcaps">(V) Ind Prs Sg3</span></span>
<span class="ltx_td ltx_align_left ltx_border_b"><span class="ltx_text ltx_font_smallcaps">Ind Prt Pl3</span></span></span>
</span>
</span>
</span></span>
<figcaption class="ltx_caption"><span class="ltx_tag ltx_tag_table">Table 2: </span>Erstatninger for å generere grammatikkfeil; kontekst er i parentes.
</figcaption><span class="ltx_inline-para ltx_minipage ltx_align_middle" style="width:121.4pt;">
<span id="S4.T3.p2" class="ltx_para">
<span class="ltx_tabular ltx_guessed_headers ltx_align_middle">
<span class="ltx_thead">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_column ltx_th_row ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_bold">Parameter</span></span>
<span class="ltx_td ltx_align_right ltx_th ltx_th_column ltx_border_t"><span class="ltx_text ltx_font_bold">Verdi</span></span></span>
</span>
<span class="ltx_tbody">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r ltx_border_t"><span class="ltx_text ltx_font_typewriter">train steg</span></span>
<span class="ltx_td ltx_align_right ltx_border_t"><span class="ltx_text ltx_font_typewriter">100,000</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_typewriter">valid steg</span></span>
<span class="ltx_td ltx_align_right"><span class="ltx_text ltx_font_typewriter">10,000</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_typewriter">vocab størrelse</span></span>
<span class="ltx_td ltx_align_right"><span class="ltx_text ltx_font_typewriter">50,000</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_typewriter">seed</span></span>
<span class="ltx_td ltx_align_right"><span class="ltx_text ltx_font_typewriter">3,435</span></span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_b ltx_border_r"><span class="ltx_text ltx_font_typewriter">encoder type</span></span>
<span class="ltx_td ltx_align_right ltx_border_b"><span class="ltx_text ltx_font_typewriter">brnn</span></span></span>
</span>
</span>
</span></span>
<figcaption class="ltx_caption"><span class="ltx_tag ltx_tag_table">Table 3: </span>Parametre gitt til OpenNMT</figcaption>
</figure>
</section>
<section id="S4.SS2.SSS2" class="ltx_subsubsection">
<h4 class="ltx_title ltx_title_subsubsection">
<span class="ltx_tag ltx_tag_subsubsection">4.2.2 </span>Trening og testing</h4>
<figure id="S4.F2" class="ltx_figure"><img src="x3.png" id="S4.F2.g1" class="ltx_graphics ltx_centering" width="674" height="269" alt="Et diagram av ">
<figcaption class="ltx_caption ltx_centering"><span class="ltx_tag ltx_tag_figure">Figure 2: </span>Et diagram av <span class="ltx_text ltx_font_italic">NeuSam</span> og treningsprosessen</figcaption>
</figure>
<div id="S4.SS2.SSS2.p1" class="ltx_para">
<p class="ltx_p">Vi har brukt OpenNMT-py <cite class="ltx_cite ltx_citemacro_cite">[<a href="#bib.bib130" title="OpenNMT: open-source toolkit for neural machine translation" class="ltx_ref">10</a>]</cite> for eksperimenteringen
med nevrale nettverk. Vi fulgte metoden som er beskrevet i OpenNMT-py sin
‘tutorial’<span id="footnote17" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">17</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">17</sup>
<span class="ltx_tag ltx_tag_note">17</span>
<a href="https://opennmt.net/OpenNMT-py/quickstart.html" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://opennmt.net/OpenNMT-py/quickstart.html</a></span></span></span> med
standardparametrene.</p>
</div>
<div id="S4.SS2.SSS2.p2" class="ltx_para">
<p class="ltx_p">90 % av dataene vi samlet i stegene ovenfor ble brukt for å trene modellene. Vi
reformaterte dataene våre slik at de ble tolket som en bokstavbasert modell.
Dette gjorde vi for å unngå OpenNMTs automatiske tokenisering. Disse parametrene
vises også i tabellen <a href="#S4.T3" title="Table 3 ‣ 4.2.1 Datagenerering (syntetiske feil) ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">3</span></a>.<span id="footnote18" class="ltx_note ltx_role_footnote"><sup class="ltx_note_mark">18</sup><span class="ltx_note_outer"><span class="ltx_note_content"><sup class="ltx_note_mark">18</sup>
<span class="ltx_tag ltx_tag_note">18</span>
Vi inkluderer hele
konfigurasjonen av opennmt-py og skript til trening i
<a href="https://gtsvn.uit.no/hybrid_gramcheck" title="" class="ltx_ref ltx_url ltx_font_typewriter">https://gtsvn.uit.no/hybrid_gramcheck</a> ved publisering</span></span></span>. Trening av
modellen ble gjort på en GPU-supercomputer fra ¡¡<span class="ltx_text ltx_font_italic">UNINETT Sigma2—the
National Infrastructure for High Performance Computing and Data Storage in
Norway</span>¿¿. Det tok i gjennomsnitt fem timer å generere hver treningsmodell.</p>
</div>
<div id="S4.SS2.SSS2.p3" class="ltx_para">
<p class="ltx_p">Vi har generert to forskjellige nevrale modeller med forskjellige datasett: en
med et større datasett der vi bruker alle syntetisk genererte setninger som
omtalt i seksjonen <a href="#S4.SS2.SSS1" title="4.2.1 Datagenerering (syntetiske feil) ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">4.2.1</span></a>. I den andre lager vi en modell
basert på setninger som etter syntetisk feilgenerering blir filtrert gjennom
<span class="ltx_text ltx_font_italic">GramDivvun</span>. Input til testene av de nevrale modellene er den tiendelen
av vårt genererte korpus som ikke har blitt brukt i treningen av modellene, og
testen vi gjør er å sjekke hvor stor del av dette testsettet som blir merket som
feil. Formelen for nøyaktighet er ganske enkel:
<math id="S4.SS2.SSS2.p3.m1" class="ltx_Math" alttext="\mathrm{nøyaktighet}=\frac{\mathrm{korrekte}}{\mathrm{alle}}" display="inline"><mrow><mrow><mi mathvariant="normal">n</mi><mo></mo><mi mathvariant="normal">ø</mi><mo></mo><mi>yaktighet</mi></mrow><mo>=</mo><mfrac><mi>korrekte</mi><mi>alle</mi></mfrac></mrow></math> der
<span class="ltx_text ltx_font_italic">korrekte</span> er antall setninger som modellen anser for å inneholde feil,
<span class="ltx_text ltx_font_italic">alle</span> er antall setninger i testsettet.</p>
</div>
<div id="S4.SS2.SSS2.p4" class="ltx_para">
<p class="ltx_p">I tabell <a href="#S4.T5" title="Table 5 ‣ 4.2.2 Trening og testing ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a> ser vi at modellen basert på filtrerte setninger er
mer nøyaktig. Den større modellen har 9 % dårligere resultat enn den mindre
modellen. Det betyr at modellen basert på ufilterte setninger egentlig har lært
å fikse feil deler av eller ikke fikser alle feil i nesten 1 av 10 setninger med
syntetiske feil.</p>
</div>
<figure id="S4.T5" class="ltx_table"><span class="ltx_inline-para ltx_minipage ltx_align_middle" style="width:195.1pt;">
<span id="S4.T5.p1" class="ltx_para ltx_align_center">
<span class="ltx_tabular ltx_guessed_headers ltx_align_middle">
<span class="ltx_thead">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_column ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_bold">Modell</span></span>
<span class="ltx_td ltx_align_right ltx_th ltx_th_column"><span class="ltx_text ltx_font_bold">Nøyaktighet</span></span></span>
</span>
<span class="ltx_tbody">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r ltx_border_t">Stor</span>
<span class="ltx_td ltx_align_right ltx_border_t">25 %</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r">Filtrert</span>
<span class="ltx_td ltx_align_right">37 %</span></span>
</span>
</span>
</span></span>
<figcaption class="ltx_caption"><span class="ltx_tag ltx_tag_table">Table 4: </span>Nøyaktighet av nevrale modeller
</figcaption><span class="ltx_inline-para ltx_minipage ltx_align_middle" style="width:195.1pt;">
<span id="S4.T5.p2" class="ltx_para ltx_align_center">
<span class="ltx_tabular ltx_guessed_headers ltx_align_middle">
<span class="ltx_thead">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_column ltx_th_row ltx_border_r"><span class="ltx_text ltx_font_bold">Modell</span></span>
<span class="ltx_td ltx_align_right ltx_th ltx_th_column ltx_border_r"><span class="ltx_text ltx_font_bold">Presisjon</span></span>
<span class="ltx_td ltx_align_right ltx_th ltx_th_column ltx_border_r"><span class="ltx_text ltx_font_bold">Dekning</span></span>
<span class="ltx_td ltx_align_right ltx_th ltx_th_column"><span class="ltx_text ltx_font_bold">F-Score</span></span></span>
</span>
<span class="ltx_tbody">
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r ltx_border_t">GramDivvun</span>
<span class="ltx_td ltx_align_right ltx_border_r ltx_border_t">78.50 %</span>
<span class="ltx_td ltx_align_right ltx_border_r ltx_border_t">43.75 %</span>
<span class="ltx_td ltx_align_right ltx_border_t">56.19</span></span>
<span class="ltx_tr">
<span class="ltx_td ltx_align_left ltx_th ltx_th_row ltx_border_r">NeuSam</span>
<span class="ltx_td ltx_align_right ltx_border_r">27.01 %</span>
<span class="ltx_td ltx_align_right ltx_border_r">8.21 %</span>
<span class="ltx_td ltx_align_right">12.61</span></span>
</span>
</span>
</span></span>
<figcaption class="ltx_caption"><span class="ltx_tag ltx_tag_table">Table 5: </span>Evaluering av den regelbaserte og maskinlæringsmodellen
</figcaption>
</figure>
</section>
</section>
</section>
<section id="S5" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">5 </span>Resultater</h2>
<div id="S5.p1" class="ltx_para">
<p class="ltx_p">Vi har evaluert <span class="ltx_text ltx_font_italic">NeuSam</span> og <span class="ltx_text ltx_font_italic">GramDivvun</span> på det oppmerkede
korpuset på 406 000 ord som er en del av SIKOR. Korpuset består av mange
administrative og nyhetstekster, litt skjønnlitteratur og en del L2-tekster som
ble samlet inn for spesielle formål. Oppmerkingen fulgte opprinnelig noen
retningslinjer for skrivefeil og fonologiske prosesser, og den har skjedd over
et lengre tidsrom, ca. 15 år. Etterhvert ble oppmerkingen utvidet og tilpasset
grammatikkontroll og måten evalueringsskriptet er istand til å kjenne igjen
disse feilene på. Vi følger prinsippet om at bare det som blir rettet blir
merket opp og ikke konteksten for å se feilen. Vi oppdaget en del inkonsekvent
oppmerking som vi rettet under dette arbeidet. Dette skyldes også at
grammatikkontrollprogrammet kom mange år etter at korpusoppmerkingen startet.
Grammatisk feilkategorisering var ikke helt utarbeidet på det tidspunktet og man
kunne ikke sjekke mot et dataprogram som krever konsekvent oppmerking.</p>
</div>
<div id="S5.p2" class="ltx_para">
<p class="ltx_p">Vi ønsket å sammenligne presisjon og dekning og sjekke om <span class="ltx_text ltx_font_italic">NeuSam</span> retter
feil som <span class="ltx_text ltx_font_italic">GramDivvun</span> ikke oppdager. Tabell <a href="#S4.T5" title="Table 5 ‣ 4.2.2 Trening og testing ‣ 4.2 Nevral metode (NeuSam) ‣ 4 Metodevalg ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a>
viser at <span class="ltx_text ltx_font_italic">GramDivvun</span> er betydelig bedre enn <span class="ltx_text ltx_font_italic">NeuSam</span> på å finne
kongruensfeil. Man ser også at mange av korreksjonene til <span class="ltx_text ltx_font_italic">NeuSam</span> ikke
har noen lingvistisk forklaring, mens mange av korreksjonene til
<span class="ltx_text ltx_font_italic">GramDivvun</span> kan være nyttig for brukeren i og med at de viser til en
annen feil i setningen.</p>
</div>
<div id="S5.p3" class="ltx_para">
<p class="ltx_p">I eksempelsetning <a href="#S5" title="5 Resultater ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a> blir verbformen <span class="ltx_text ltx_font_italic">livčče</span> ‘de skulle’
rettet til entall <span class="ltx_text ltx_font_italic">livččii</span> ‘hun/han skulle’ fordi subjektet
<span class="ltx_text ltx_font_italic">Maáŋga mearraolbmáidgirku</span> inneholder et tallord med en skrivefeil.
Dermed oppfattes bare entallssubstantivet <span class="ltx_text ltx_font_italic">mearraolbmáidgirku</span> som
subjekt, og flertallsbetydninga blir tapt. Dette regnes som en falsk positiv i
evalueringen, men grammatikkontrollen har ‘tenkt’ rett ut i fra den
informasjonen som er tilgjengelig (altså før skrivefeilen blir rettet).</p>
</div>
<div id="S5.p4" class="ltx_para">
<p class="ltx_p">. <span class="ltx_text ltx_framed_underline">Maáŋga mearraolbmáidgirku</span> <span class="ltx_text ltx_font_bold">livčče</span> vuollebáhcagiin šaddan rahčat […]
<br class="ltx_break">mange sjømannskirke<span class="ltx_text ltx_font_smallcaps">.nom;gen.sg</span> ville<span class="ltx_text ltx_font_smallcaps">.pot.3pl</span> underskudd<span class="ltx_text ltx_font_smallcaps">.com.pl</span> bli<span class="ltx_text ltx_font_smallcaps">.pastp</span> kjempe<span class="ltx_text ltx_font_smallcaps">.inf
<br class="ltx_break"></span>‘Mange sjømannskirker ville kjempet med underskudd […]’</p>
</div>
<div id="S5.p5" class="ltx_para">
<p class="ltx_p">Falske negativer er det flest av i koordinasjon med to eller flere substantiv,
der det finitte verbet skal være i entall isteden for flertall. Et eksempel
er <a href="#S5" title="5 Resultater ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a>, der tredje person flertallsformen <span class="ltx_text ltx_font_italic">leat</span> skal rettes til
tredje person entallsformen <span class="ltx_text ltx_font_italic">lea</span>. Kongruens i koordinasjon er avhengig
av flere faktorer, blant annet semantisk tilhørighet, syntaks
(kopulakonstruksjoner og adverbialkonstruksjoner behandles forskjellig fra
andre) og pragmatikk (er den introduserte entiteten kjent?). Grunnen til at
feilen ikke blir oppdaget er at vi ennå ikke laget en regel som retter fra
flertalls- til entallsverb i koordinasjon.</p>
</div>
<div id="S5.p6" class="ltx_para">
<p class="ltx_p">. Álggahanvahkku prográmmas <span class="ltx_text ltx_font_bold">leat</span> <span class="ltx_text ltx_framed_underline">almmolaš rahpanbeaivi</span>, <span class="ltx_text ltx_framed_underline">diehtojuohkin Sámi allaskuvlla birra</span>, <span class="ltx_text ltx_framed_underline">fáddarortnet ođđa studeanttaide</span>.
<br class="ltx_break">startuken<span class="ltx_text ltx_font_smallcaps">.gen</span> program<span class="ltx_text ltx_font_smallcaps">.loc</span> være<span class="ltx_text ltx_font_smallcaps">.3sg</span> offisiell åpningsdag, informasjon Samisk høgskole om, fadderordningen nye student<span class="ltx_text ltx_font_smallcaps">.ill.pl</span>.
<br class="ltx_break">‘I startukens program inngår offisiell åpningsdag, informasjon om Samisk høgskole, fadderordningen for nye studenter.’</p>
</div>
<div id="S5.p7" class="ltx_para">
<p class="ltx_p">At <span class="ltx_text ltx_font_italic">NeuSam</span> ikke finner flesteparten av de oppmerkede feilene, skyldes
sannsynligvis at treningsmaterialet ikke er representativt nok. Et annet problem
er at når rettingen går galt, blir rettelsen helt uforståelig. Et eksempel er at
samme ordrekkefølge blir repetert uendelig mange ganger <span class="ltx_text ltx_font_italic">johtá guovllus
sahtá guovllus sahtá guovllus sahtá guovllus sahtá guovll…</span>. Dette lar seg
fikse ved å endre på lengderestriksjoner for setninger, men følgen er at man
ikke kan rette lengre setninger.</p>
</div>
<div id="S5.p8" class="ltx_para">
<p class="ltx_p">Den større modellen gir følgende feilaktige resultat for eksempel <a href="#S5" title="5 Resultater ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a>:
Istedenfor å bare rette verbformen <span class="ltx_text ltx_font_italic">logat</span> ‘du leser’ til <span class="ltx_text ltx_font_italic">lohká</span>
‘hun/han leser’ blir setningen rettet til <a href="#S5" title="5 Resultater ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a>, dvs. <span class="ltx_text ltx_font_italic">NeuSam</span> tar
bort hele setningen <span class="ltx_text ltx_font_italic">logan dál oppalaččat</span> uten at dette skulle være
lingvistisk fundert.</p>
</div>
<div id="S5.p9" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_italic">.</span>
In dovdda dán ášši, <span class="ltx_text ltx_font_italic">logan dál oppalaččat,</span> <span class="ltx_text ltx_font_bold">logat</span> Sámedikki presideanta Egil Olli.
In dovdda dán ášši, <span class="ltx_text ltx_font_bold">lohká</span> Sámedikki presideanta Egil Olli.
.̧ In dovdda dán ášši, logan dál oppalaččat, <span class="ltx_text ltx_font_bold">lohká</span> Sámedikki presideanta Egil Olli.</p>
</div>
<div id="S5.p10" class="ltx_para">
<p class="ltx_p"><span class="ltx_text ltx_font_italic">NeuSam</span> produserer også noen falske positiver, f.eks. i <a href="#S5" title="5 Resultater ‣ Mii *eai leat gal vuollánan—Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil" class="ltx_ref"><span class="ltx_text ltx_ref_tag">5</span></a>
blir <span class="ltx_text ltx_font_italic">šaddet</span> rettet til <span class="ltx_text ltx_font_italic">šaddá</span> (3Pl¿3Sg), men det burde ikke
rettes siden <span class="ltx_text ltx_font_italic">stuorát doalut</span> er et flertallssubjekt.</p>
</div>
<div id="S5.p11" class="ltx_para">
<p class="ltx_p">. Duogážin manne heastasearvi lea fárus doaluin, lea danin vai <span class="ltx_text ltx_font_bold">šaddet</span> stuorát doalut […]
<br class="ltx_break">bakgrunn<span class="ltx_text ltx_font_smallcaps">.ess</span> hvorfor hesteforening være<span class="ltx_text ltx_font_smallcaps">.3sg</span> med arrangement<span class="ltx_text ltx_font_smallcaps">.loc.pl</span>, være<span class="ltx_text ltx_font_smallcaps">.3sg</span> derfor at bli<span class="ltx_text ltx_font_smallcaps">.3pl</span> stor<span class="ltx_text ltx_font_smallcaps">.comp</span> arrangement<span class="ltx_text ltx_font_smallcaps">.nom.pl
<br class="ltx_break"></span>‘Bakgrunnen for at hesteforeningen er med i arrangementet, er at det blir et større arrangement’</p>
</div>
</section>
<section id="S6" class="ltx_section">
<h2 class="ltx_title ltx_title_section">
<span class="ltx_tag ltx_tag_section">6 </span>Konklusjon</h2>
<div id="S6.p1" class="ltx_para">
<p class="ltx_p">I denne artikkelen laget vi to maskinlæringsmodeller for å rette kongruensfeil
mellom subjekt og verbal i nordsamisk. Parallelt med dette utviklet vi et
regelsett for slike feil i <span class="ltx_text ltx_font_italic">GramDivvun</span>, den eksisterende regelbaserte
grammatikkontrollen. Vi ville sammenligne resultatene for maskinlæring og
regelbasert metode, både for å få mer klarhet i hvilken metode som bør
foretrekkes for dette formålet og for å se om systemene har styrker på
forskjellige områder og kan kombineres til en hybrid grammatikkontroll. Vi
ville også forsøke å avdekke myten om at maskinlæring blir billigere enn
regelbaserte metoder, og det mener vi at vi har gjort ved å tydeliggjøre at det
å generere treningsdata må regnes inn i de faktiske kostnadene til metoden. For
å lage et feiloppmerket treningskorpus for <span class="ltx_text ltx_font_italic">NeuSam</span> brukte vi den
regelbaserte modellen <span class="ltx_text ltx_font_italic">GramDivvun</span> for å rydde korpuset for støy. Dette
var nødvendig for å etterpå kunne introdusere syntetiske feil. Uten denne
filteringen blir nøyaktigheten til <span class="ltx_text ltx_font_italic">NeuSam</span> 12 prosentpoeng verre. Det
at den regelbaserte modellen blir brukt for å automatisk generere data viser at
korpuset ikke blir gratis.</p>
</div>
<div id="S6.p2" class="ltx_para">