Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

depender.py - Merkja inn 'hafa' og 'vera' sem aðalsagnir líka - Bæði mark og vensl #11

Open
hinrikur opened this issue Mar 18, 2020 · 6 comments

Comments

@hinrikur
Copy link
Collaborator

hinrikur commented Mar 18, 2020

Eins og er eru hafa og vera alhfæfðar sem hjálpar- og aukasagnir og eru aldrei rót setningar. Auk þess er erfitt að gera greinarmun á auka- og aðalsögnum á réttan hátt eins og algrímið er sett upp núna.

@hinrikur
Copy link
Collaborator Author

Hlutalausn við vera og hafa í _select_head():

# Fix for aux 
if tree.num_verbs() == 1:
      rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']

Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.

Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.

þetta þarf svo að tékka og laga

@hinrikur hinrikur changed the title depender.py - Merkja inn hjálpar- og aukasagnir en ekki bara VERB - Bæði mark og vensl depender.py - Merkja inn 'hafa' og 'vera' sem aðalsagnir líka - Bæði mark og vensl Mar 19, 2020
@hinrikur
Copy link
Collaborator Author

hinrikur commented Mar 19, 2020

Hlutalausn við vera og hafa í _select_head():

# Fix for aux 
if tree.num_verbs() == 1:
      rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']

Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.

Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.

þetta þarf svo að tékka og laga

ATH breytingu:

# Somewhat efficient fix for aux verbs
if tree.num_verbs() == 1:
    new_rules[0:0] = rules
    new_rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']
    rules = new_rules

Virkar svona í keyrslu (hitt var með minnisvandamál)

@hinrikur
Copy link
Collaborator Author

hinrikur commented Mar 19, 2020

Enn eftir að breyta UD taggi vera og hafa úr AUX í VERB ef sögnin er aðalsögn.
Hægt að tékka hvort hún sé rót, í aðalsetningum, en það virkar ekki ef hún er aðalsögn í aukasetningum.

@hinrikur
Copy link
Collaborator Author

Helsta vandamálið sem er eftir (og hefur verið hingað til) er að vita hvenær á að merkja 'vera' sem cop

@hinrikur
Copy link
Collaborator Author

hinrikur commented Apr 1, 2020

bæði 'vera' og 'verða' eru stundum merkt cop

sjá dæmi frá HJ:


# sent_id = n01118017
# text = „Kvikmyndir höfðu breyst svo gríðarlega að fjölskylduáhorfendur voru orðnir afhuga Hollywood.“
# text_en = "Cinema had changed so drastically that Hollywood had alienated the family audience."
1	„	„	PUNCT	„	_	4	punct	_	_
2	Kvikmyndir	kvikmynd	NOUN	nvfn	Case=Nom|Definite=Ind|Gender=Fem|Number=Plur	4	nsubj	_	_
3	höfðu	hafa	AUX	sfg3fþ	Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act	4	aux	_	_
4	breyst	breyta	VERB	ssm	VerbForm=Sup|Voice=Mid	0	root	_	_
5	svo	svo	ADV	aa	_	6	advmod	_	_
6	gríðarlega	gríðarlega	ADV	aa	_	4	advmod	_	_
7	að	að	SCONJ	c	_	11	mark	_	_
8	fjölskylduáhorfendur	fjölskylduáhorfandi	NOUN	nkfn	Case=Nom|Definite=Ind|Gender=Masc|Number=Plur	11	nsubj	_	_
9	voru	vera	AUX	sfg3fþ	Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act	10	aux	_	_
10	orðnir	verða	VERB	sþgkfn	Case=Nom|Gender=Masc|Number=Plur|Tense=Past|VerbForm=Part|Voice=Act	11	cop	_	_
11	afhuga	afhuga	ADJ	lkfnof	Case=Nom|Degree=Pos|Gender=Masc|Number=Plur	4	advcl	_	_
12	Hollywood	Hollywood	PROPN	e	_	11	obl:arg	_	_
13	.	.	PUNCT	.	_	4	punct	_	_
14	“	“	PUNCT	“	_	4	punct	_	_

@hinrikur
Copy link
Collaborator Author

hinrikur commented Apr 2, 2020

Það sem HJ kallar location copula virkar ekki rétt hjá okkur.

Sjá dæmi:

# sent_id = 2008.ofsi.nar-sag.psd_1152_72954
# IcePaHC_ID = ID 2008.OFSI.NAR-SAG,.1152
# text = við getum alltaf sest að í Eyjafirðinum, hérna handan fjallgarðsins, á einhverju stórbýlinu þar þar er okkar bakland, sem til tilheyrum Sturlungaflokknum.
1	við	ég	PRON	PRO-N	_	4	nsubj	_	_
2	getum	geta	AUX	MDPI	_	4	aux	_	_
3	alltaf	alltaf	ADV	ADV	_	4	advmod	_	_
4	sest	setjast	VERB	VBN	_	0	root	_	_
5	að	að	SCONJ	C	_	20	mark	_	_
6	í	í	ADP	P	_	7	case	_	_
7	Eyjafirðinum	eyjafjörður	PROPN	NPR-D	_	20	obl	_	SpaceAfter=No
8	,	,	PUNCT	,	_	7	punct	_	_
9	hérna	hérna	ADV	ADV	_	11	advmod	_	_
10	handan	handan	ADP	P	_	11	case	_	_
11	fjallgarðsins	fjallgarður	NOUN	N-G	_	7	obl	_	SpaceAfter=No
12	,	,	PUNCT	,	_	7	punct	_	_
13	á	á	ADP	P	_	15	case	_	_
14	einhverju	einhver	ADJ	Q-D	_	15	amod	_	_
15	stórbýlinu	stórbýli	NOUN	N-D	_	7	obl	_	_
16	þar	þar	ADV	ADV	_	15	advmod	_	_
17	þar	þar	ADV	ADV	_	20	advmod	_	_
18	er	vera	AUX	BEPI	_	20	cop	_	_
19	okkar	ég	PRON	PRO-G	_	20	nmod:poss	_	_
20	bakland	bakland	NOUN	N-N	_	4	ccomp/xcomp	_	SpaceAfter=No
21	,	,	PUNCT	,	_	20	punct	_	_
22	sem	sem	SCONJ	C	_	24	mark	_	_
23	til	til	ADP	RP	_	24	compound:prt	_	_
24	tilheyrum	tilheyra	VERB	VBPI	_	20	acl:relcl	_	_
25	Sturlungaflokknum	sturlungaflokkur	PROPN	NPR-D	_	24	obj	_	SpaceAfter=No
26	.	.	PUNCT	.	_	4	punct	_	_

Í "þar er okkar bakland" ætti 'þar' að vera hausinn, sbr. fig. A.22 hjá HJ

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant