-
Notifications
You must be signed in to change notification settings - Fork 403
词典加载 说明文档
冬日新雨 edited this page Mar 30, 2022
·
6 revisions
加载成语词典,返回格式为 dict 格式,每个成语都包含了解释(explanation)、典故(derivation)、拼音(pinyin)、例句(example)、词条频率(freq)。
>>> import jionlp as jio
>>> chinese_idioms = jio.chinese_idiom_loader()
>>> print(chinese_idioms['安然无恙'])
# {'explanation': '恙病。原指人平安没有疾病。现泛指事物平安未遭损害。',
# 'derivation': '《战国策·齐策》岁亦无恙耶?民亦无恙耶?王亦无恙耶?。”',
# 'pinyin': ['ān', 'rán', 'wú', 'yàng'],
# 'example': '只求处士每岁元旦,作一朱幡,上图日月五星之文,立于苑东,吾辈则安然无恙矣。★明·冯梦龙《醒世恒言》第四卷',
# 'freq': 7341}
- 成语词典主要来自于新华词典,以及少量人工补充,共计30800余条。
- 词频指的是在 100万篇文档中,出现的频率,为了平滑,不在文本中出现的词频设定为1。
加载歇后语词典,返回格式为 list 格式,每条歇后语都包含了谜面(riddle)、回答(answer)。
>>> import jionlp as jio
>>> xiehouyu_list = jio.xiehouyu_loader()
>>> print(xiehouyu_list[1000])
# ['说书的唱大鼓', '走了板']
- 成语词典主要来自于 github 上的汇总(此类歇后语偏旧),以及总结网络上的(新式歇后语)。
- 若干歇后语是同义的表达,如 “一个模子出来的 一个样” 和 “一个模子出来的 一模一样”,对于此类情况,按两个不同的进行计算。
加载中国省、市、县三级词典,返回格式为 dict 格式。
>>> import jionlp as jio
>>> china_location = jio.china_location_loader()
>>> print(china_location['吉林省']['长春市']['宽城区'])
# {'_full_name': '宽城区', '_alias': '宽城', '_admin_code': '220103'}
- 该函数被应用在
jio.parse_location
中,采用 2020 年最新中国行政区划制作。 - 每个词条都包含全名、别名、行政区划号码三部分。
加载世界大洲、国家、城市三级词典,返回格式为 dict 格式。
>>> import jionlp as jio
>>> world_location = jio.world_location_loader()
>>> print(world_location['欧洲']['法国'])
# {'full_name': '法兰西共和国', 'capital': '巴黎', 'main_city': ['马赛', '里昂', '图卢兹', '斯特拉斯堡']}
- 该函数被应用在
jio.recognize_location
中。 - 每个词条都包含全名、简称、首都、主要城市四部分。
加载新华字典,包括汉字、释义、详细信息(出处、例句、构词等)。
>>> import jionlp as jio
>>> chinese_char_dict = jio.chinese_char_dictionary_loader()
>>> print(chinese_char_dict['翟'])
# {'explanation': '翟 di## 长尾的野鸡 ## 翟羽 ## 舞人十六,执羽翟,以四为列。--《新唐书》## 姓## 翟 zhai## 姓## 翟 dí〈古〉长尾野鸡。又见zhái。## 翟zhái## ⒈姓。',
# 'more_details': '翟 zhai、di 部首 羽 部首笔画 06 总笔画 14 翟1#dí#(1)#长尾的野鸡 。如翟车(皇后所乘饰以雉羽的车子)#(2)#翟羽 。古代乐舞 所执雉羽#舞人十六,执羽翟,以四为列。--《新唐书》#(3)#姓#另见zhái#翟2#zhái#姓#另见dí#翟1#dí\u3000ㄉㄧˊ#(1)#长尾山雉(野鸡)。#(2)#古代乐舞用的雉羽。#(3)#古同狄”,称中国北方的民族。#郑码ytyn,u7fdf,gbkb5d4#笔画数14,部首羽,笔顺编号54154132411121#翟2#zhái\u3000ㄓㄞˊ#姓。#郑码ytyn,u7fdf,gbkb5d4# 笔画数14,部首羽,笔顺编号54154132411121'}
- 词典释义和详细信息较为杂乱。
加载新华词典,包括汉字、释义,词典较为陈旧,缺乏近年新兴词汇。
>>> import jionlp as jio
>>> chinese_word_dict = jio.chinese_word_dictionary_loader()
>>> print(chinese_word_dict['葳蕤'])
# '1.形容枝叶繁盛当户种蔷薇,枝叶太葳蕤。2.华美;艳丽妾有绣腰襦,葳蕤自生光|胡服何葳蕤。'
加载中国区划调整词典。中国区划调整指近年国务院批复的撤县改市、改区等信息汇总。
>>> import jionlp as jio
>>> res = jio.china_location_change_loader()
>>> print(res)
# [
# {
# 'date': '2018-02-09', # 批复日期
# 'department': '国批', # 批复单位
# 'old_loc': [['山西省', '山西'], ['大同市', '大同'], ['城区', '城区']],
# 'new_loc': ['山西省', '大同市', '平城区']
# }, ...]
- 根据 中国行政区划调整整理得到,整理了从 2018 年至今的县级以上地名变更
- “国批” 为国务院批准,“民批” 为民政部批准,“省批”为县级以下行政区划的调整批复