Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

enwiktionary extrahieren #3

Open
tnhaider opened this issue Sep 16, 2020 · 4 comments
Open

enwiktionary extrahieren #3

tnhaider opened this issue Sep 16, 2020 · 4 comments

Comments

@tnhaider
Copy link

Hi Markus,

Ich würde gerne die Silbifizierten Wörter aus der Englischen wiktionary extrahieren.

Ich komme aber nicht drauf, wie ich die Cargo kompilieren soll.

Kannst du mir weiterhelfen?

Danke.

@msiemens
Copy link
Owner

Hey @tnhaider, der Code zum Extrahieren der Silbentrennungen läuft leider nur mit den Daten der deutschen Wiktionary. Ich habe zudem mal nachgeschaut und soweit ich das sehen kann, sind in der englischen Wiktionary nur etwa 5.000 Einträge mit Silbentrennung vorhanden (im Gegensatz zu 370.000 Stück im Deutschen). Ich weiß nicht, wie gut das Netz mit einem so kleinen Datensatz Silbentrennungen erlernen kann.

Um aber die Frage noch zu beantworten: Cargo ist der Paket-Manager von Rust (die Sprache, in der die Extrahierung geschrieben ist). Infos zur Installation findest du hier: https://doc.rust-lang.org/cargo/getting-started/installation.html

@tnhaider
Copy link
Author

Danke für's nachschauen.

Ich habe dann auch einfach nur die Wörter mit grep rausgezogen. Sind tatsächlich leider nur um die 5.000.

Ich habe hier noch CELEX mit etwa 130.000 Wörtern, die Performance des Netzes lässt aber noch zu wünschen übrig.

@msiemens
Copy link
Owner

Da ich keinen Zugriff auf CELEX habe, kann ich zur Performance mit dem Datensatz leider nichts sagen. Wäre sicher spannend, die Gründe zu untersuchen, aber da habe ich leider weder Zeit noch Test-Daten für

@tnhaider
Copy link
Author

Kein Problem, ich bin schon an der Evaluierung dran. Ich habe jetzt ein RNN (bilstm-crf) laufen, das mir .94 word accuracy und jeweils .98 syllable und character accuracy bringt. Fürs (verhältnismäßig regelmäßige) Deutsche ist das Feed Forward mit Rotation schon ganz gut, und die Idee ist auch super; abgesehen davon, dass es keine Wort-Initialen Vokalsilben (A-bend) trennen kann (habe ich per Heuristik gelöst). Fürs Englische reicht es leider nicht. ;)

Beste Grüße,
TH

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants