-
Notifications
You must be signed in to change notification settings - Fork 1
Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.
stroykova/ontology
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Автор: Стройкова Ксения email: [email protected] ТРЕБОВАНИЯ Программа запускалась на Windows 7. Для выполнения использовался Python 2.7.3 ЗАПУСК Исходные данные для онтологии В репозитории уже расположен файл ontology, составленный из этих дампов Для составления онтологии необходимо скачать дампы отсюда: http://dumps.wikimedia.org/ruwiki/20140306/ ruwiki-20140306-pages-articles1.xml.bz2 247.4 MB ruwiki-20140306-pages-articles2.xml.bz2 354.7 MB ruwiki-20140306-pages-articles3.xml.bz2 499.5 MB ruwiki-20140306-pages-articles4.xml.bz2 988.1 MB Распаковать и переместить в папку docs Создать файл category, в котором указать имя категории для поиска Выполнить python ontology.py docs category Выходные файлы: categories - файл со списком всех найденных категорий в дампах википедии ontology - файл с найденными краткими описаниями сущностей из категории. article - признак новой сущности. После признака article следует набор ключ -> значение, что соответствует имени факта -> факту. Извлечение сущностей из статей с помощью Tomita парсера Перейти в директорию tomita. Создать файл input.txt, поместить в него текст исходной статьи. Выполнить tomitaparser.exe config.proto Будет создан файл output.txt, в котором будет содержаться информация о сущностях в формате xml. Поиск сущноcтей в онтологии Перейти в корневую директорию. Выполнить python parse_article.py ontology tomita/output.txt output. output - директория, в которой будет содержаться результат поиска: это набор файлов с сущностями из онтологии.
About
Builds ontology based on dbpedia. Allows to show additional facts while reading new article. Uses Tomita parser to find facts in article.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published