enwiktionary extrahieren #3

tnhaider · 2020-09-16T22:45:06Z

Hi Markus,

Ich würde gerne die Silbifizierten Wörter aus der Englischen wiktionary extrahieren.

Ich komme aber nicht drauf, wie ich die Cargo kompilieren soll.

Kannst du mir weiterhelfen?

Danke.

msiemens · 2020-09-17T12:50:57Z

Hey @tnhaider, der Code zum Extrahieren der Silbentrennungen läuft leider nur mit den Daten der deutschen Wiktionary. Ich habe zudem mal nachgeschaut und soweit ich das sehen kann, sind in der englischen Wiktionary nur etwa 5.000 Einträge mit Silbentrennung vorhanden (im Gegensatz zu 370.000 Stück im Deutschen). Ich weiß nicht, wie gut das Netz mit einem so kleinen Datensatz Silbentrennungen erlernen kann.

Um aber die Frage noch zu beantworten: Cargo ist der Paket-Manager von Rust (die Sprache, in der die Extrahierung geschrieben ist). Infos zur Installation findest du hier: https://doc.rust-lang.org/cargo/getting-started/installation.html

tnhaider · 2020-09-17T13:19:43Z

Danke für's nachschauen.

Ich habe dann auch einfach nur die Wörter mit grep rausgezogen. Sind tatsächlich leider nur um die 5.000.

Ich habe hier noch CELEX mit etwa 130.000 Wörtern, die Performance des Netzes lässt aber noch zu wünschen übrig.

msiemens · 2020-09-17T13:46:03Z

Da ich keinen Zugriff auf CELEX habe, kann ich zur Performance mit dem Datensatz leider nichts sagen. Wäre sicher spannend, die Gründe zu untersuchen, aber da habe ich leider weder Zeit noch Test-Daten für

tnhaider · 2020-09-21T21:01:09Z

Kein Problem, ich bin schon an der Evaluierung dran. Ich habe jetzt ein RNN (bilstm-crf) laufen, das mir .94 word accuracy und jeweils .98 syllable und character accuracy bringt. Fürs (verhältnismäßig regelmäßige) Deutsche ist das Feed Forward mit Rotation schon ganz gut, und die Idee ist auch super; abgesehen davon, dass es keine Wort-Initialen Vokalsilben (A-bend) trennen kann (habe ich per Heuristik gelöst). Fürs Englische reicht es leider nicht. ;)

Beste Grüße,
TH

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

enwiktionary extrahieren #3

enwiktionary extrahieren #3

tnhaider commented Sep 16, 2020

msiemens commented Sep 17, 2020

tnhaider commented Sep 17, 2020

msiemens commented Sep 17, 2020

tnhaider commented Sep 21, 2020

enwiktionary extrahieren #3

enwiktionary extrahieren #3

Comments

tnhaider commented Sep 16, 2020

msiemens commented Sep 17, 2020

tnhaider commented Sep 17, 2020

msiemens commented Sep 17, 2020

tnhaider commented Sep 21, 2020