forked from DieDatenlaube/DieDatenlaube
-
Notifications
You must be signed in to change notification settings - Fork 0
/
blogpost.html
207 lines (194 loc) · 12.5 KB
/
blogpost.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
<h1 id="die-datenlaube-der-gartenlaube">Die Datenlaube der Gartenlaube</h1>
<p>Eines der umfangreichsten Projekte der deutschsprachigen <a href="https://de.wikisource.org/">Wikisource</a> Community ist die Bearbeitung und Tiefenerschließung des ersten großen deutschsprachigen Massenblattes „<a href="https://de.wikisource.org/wiki/Die_Gartenlaube">Die Gartenlaube</a>‟. Von geschätzt 18.500 Artikel die bis zum Jahr 1900 erschienen sind, sind per 01.11.2019 12.990 Artikel basierend auf 40.366 gescannten Seiten in Wikisource vorhanden.<a href="#fn1" class="footnote-ref" id="fnref1" role="doc-noteref"><sup>1</sup></a></p>
<p>Die Artikel in Wikisource werden allesamt mit einer für Wiki-Projekte typischen Infobox mit grundlegenen Metadaten ausgestattet. (vgl. ) Dies umfasst Titel des Artikels, Quellenstelle mit Heftnummer, Seitenzahl und Publikationsjahr. Gegebenenfalls ist auch ein Link zu einer Wikipedia-Seite angegeben, was als inhaltliche Erschließung gewertet werden kann. Darüber hinaus beinhaltet die Infobox noch Links zu den Seitenscans sowie Informationen zum Bearbeitungsstand der Texterschließung nach den Vorgaben der Wikisource-Community aus.</p>
<figure>
<img src="./pictures/Pictures/100002010000011A000002382DBD47FEA7E0AFB6.png" style="width:7.461cm;height:15.028cm" alt="" /><figcaption><br />
Abbildung 1: Infobox des Gartenlaubeartikels "Im Hopfenparadiese"</figcaption>
</figure>
<h2 id="datenmodell">Datenmodell</h2>
<p>Wie als Projekte im Wiki*versum ist auch in Wikisource die Möglichkeit vorgesehen, die jeweiligen Pages mit einem Wikidata-Item zu verlinken. Im Fall der Gartenlaube bedeutet dies, dass für jeden Artikel ein Wikidata-Item als bibliographischer Datensatz angelegen werden kann bzw. soll. Ein solches Item soll ein entsprechendes Mindestset an bibliographischen Informationen des Artikels bereithalten wie in der nachfolgenden dargestellt.</p>
<table>
<tbody>
<tr class="odd">
<td>Property/Wikidata-Metadatenfeld</td>
<td>Format/Beschreibung des Inhalts</td>
<td>Beispiel <a href="https://www.wikidata.org/wiki/Q61996511">Q61996511</a> </td>
</tr>
<tr class="even">
<td>label_de</td>
<td>Titel des Artikels</td>
<td>Jean Paul Richter </td>
</tr>
<tr class="odd">
<td>label_en</td>
<td>Titel des Artikels</td>
<td>Jean Paul Richter </td>
</tr>
<tr class="even">
<td>description_de</td>
<td>Arikel in: Zeitschrift, Jahrgang, Nr.</td>
<td>Artikel in: Die Gartenlaube, 1853, Heft 34 </td>
</tr>
<tr class="odd">
<td>description_en</td>
<td>german article in Journal, Volume, Issue</td>
<td>german article in Die Gartenlaube, 1853, no. 34 </td>
</tr>
<tr class="even">
<td><a href="https://www.wikidata.org/wiki/Property:P31">P31</a> instance of</td>
<td></td>
<td>article <a href="https://www.wikidata.org/wiki/Q191067">Q191067</a> </td>
</tr>
<tr class="odd">
<td><a href="https://www.wikidata.org/wiki/Property:P1476">P1476</a> title</td>
<td>Titel des Artikels</td>
<td>Jean Paul Richter </td>
</tr>
<tr class="even">
<td><a href="https://www.wikidata.org/wiki/Property:P407">P407</a> language of work or name</td>
<td></td>
<td>German <a href="https://www.wikidata.org/wiki/Q188">Q188</a> </td>
</tr>
<tr class="odd">
<td><a href="https://www.wikidata.org/wiki/Property:P577">P577</a> publication date</td>
<td>YYYY</td>
<td>1853 </td>
</tr>
<tr class="even">
<td><a href="https://www.wikidata.org/wiki/Property:P304">P304</a> pages</td>
<td></td>
<td>197 </td>
</tr>
<tr class="odd">
<td><a href="https://www.wikidata.org/wiki/Property:P433">P433</a> issue</td>
<td></td>
<td>18 </td>
</tr>
<tr class="even">
<td><a href="https://www.wikidata.org/wiki/Property:P1433">P1433</a> published in</td>
<td>Journal</td>
<td>Die Gartenlaube <a href="https://www.wikidata.org/wiki/Q655617">Q655617</a> </td>
</tr>
<tr class="odd">
<td><a href="https://www.wikidata.org/wiki/Property:P921">P921</a> main subject</td>
<td></td>
<td>Jean Paul <a href="https://www.wikidata.org/wiki/Q77079">Q77079</a> </td>
</tr>
<tr class="even">
<td>dewikisource_sitelink</td>
<td>Titel des Artikels</td>
<td><a href="https://de.wikisource.org/wiki/Jean_Paul_Richter">Jean Paul Richter</a></td>
</tr>
</tbody>
</table>
<div class="caption">
<p>Tabelle 1: Basis-Metadatenmodell für Gartenlaube-Artikel in Wikidata<a href="#fn2" class="footnote-ref" id="fnref2" role="doc-noteref"><sup>2</sup></a></p>
</div>
<p>Die Flexibilität und Offenheit des Datenmodell in Wikidata erlaubt es natürlich für die spezifischen Items weitere Statements zu ergänzen. Dies wäre bspw. die Ergänzung und Verlinkung von Illustrationen, der Nennung eines Illustrators, sofern auffindbar Links in Bibliothekskataloge zu den entsprechenden lokalen bibliographischen Fundstellen oder schlicht was sonst noch denkbar und möglich erscheint oder – durch Erzeugung neuer Wikidata-Properties – möglich sein wird.</p>
<h2 id="stand-projektstart-märz-2019-anzahl-und-qualität-der-artikel-items-in-wikidata">Stand Projektstart März 2019 – Anzahl und Qualität der Artikel-Items in Wikidata</h2>
<p>Per 1. März 2019 hatten 7.599 Artikel der Gartenlaube ein verlinktes Item in Wikidata. Eine SPARQL-Abfrage nach Artikeln mit dem Statement „published in‟ „Die Gartenlaube‟ ist aber mit den Daten des damaligen Zeitpunktes nicht möglich, da den vorhandenen Items als Veröffentlichungsort nicht die Zeitschrift selbst, sondern ein automatisiert angelegtes Jahrgangsitem (zB. „Gartenlaube 1878‟) als Fundstelle eingetragen wurde. Der Wert errechnet sich aus der gegenwärtig verfügbaren Liste aller Wikidata-Items unter Auswertung der QID die auf ein enstprechend frühes Anlagedatum hinweisen (Konkret handelt es sich um alle Items mit einer QID kleiner 50.000.000)<a href="#fn3" class="footnote-ref" id="fnref3" role="doc-noteref"><sup>3</sup></a></p>
<p>Der Großteil dieser mehr als 7.000 Items war hinsichtlich der bibliographischen Beschreibung eher dürftig, da es sich dabei um eine Item-Anlage via Bot handelte, der auf Basis der jeweiligen Jahrgangskategorie ein Statement rudimentär anlegte. </p>
<figure>
<img src="./pictures/Pictures/100002010000059C000004335DEB63C25E419F99.png" style="width:17cm;height:12.053cm" alt="" /><figcaption><br />
Abbildung 2: Verteilung der Anzahl an Items je Anzahl an Statements der Garetnlaube Artikel</figcaption>
</figure>
<p>Die zum Zeitpunkt 9. März 2019 vorhandenen Items hatten im Schnitt zwei Statements.<a href="#fn4" class="footnote-ref" id="fnref4" role="doc-noteref"><sup>4</sup></a> Die beiden am häufigst eingesetzten Properties waren dabei P31 („instance of‟) und P1433 („published in‟) wie der zu entnehmen. Wie aus ersichtlich hatten 6.516 Items weniger oder gleich 2 Items. Bei Items mit einer sehr hohen Anzahl an Statements wie allen jenen mit mehr als 20 Statements lohnte sich der genaue Blick auf das Item, da es sich hierbei dann durchwegs um falsche Zuordnungen des Sitelinks zum Gartenlaubartikel zu einem spezifischen Wikidata-Item handelte. Beispielsweise wurden biographische Gartenlaubeartikel direkt dem Personendatensatz in Wikidata zugeordnet. Auf Basis dieser rudimentären Analyse der vorhandenen Items war klar, dass nicht nur die fehlenden dem neuen Datenmodell gemäß anzulegen sind, sondern auch die große Zahl der bestehenden Items einer gründlichen Überarbeitung bedurften.<a href="#fn5" class="footnote-ref" id="fnref5" role="doc-noteref"><sup>5</sup></a></p>
<table>
<tbody>
<tr class="odd">
<td>1</td>
<td>P31</td>
<td>7671</td>
</tr>
<tr class="even">
<td>2</td>
<td>P1433</td>
<td>1151</td>
</tr>
<tr class="odd">
<td>3</td>
<td>P407</td>
<td>940</td>
</tr>
<tr class="even">
<td>4</td>
<td>P1476</td>
<td>636</td>
</tr>
<tr class="odd">
<td>5</td>
<td>P577</td>
<td>536</td>
</tr>
<tr class="even">
<td>6</td>
<td>P6216</td>
<td>504</td>
</tr>
<tr class="odd">
<td>7</td>
<td>P921</td>
<td>493</td>
</tr>
<tr class="even">
<td>8</td>
<td>P50</td>
<td>383</td>
</tr>
<tr class="odd">
<td>9</td>
<td>P18</td>
<td>301</td>
</tr>
<tr class="even">
<td>10</td>
<td>P361</td>
<td>137</td>
</tr>
<tr class="odd">
<td>11</td>
<td>P179</td>
<td>99</td>
</tr>
</tbody>
</table>
<div class="caption">
<p>Tabelle 2: 11 häufigsten Properties mit der Anzahl ihrer Verwendung</p>
</div>
<h2 id="extraktion-der-vorhandenen-metadaten-in-wikisource">Extraktion der vorhandenen Metadaten in Wikisource</h2>
<p>Die für die Anlage bzw. das Update der bibliographischen Wikidata-Items notwendigen Informationen finden sich weitestgehend in der Infobox wie in gezeigt. In ihrer Gesamtheit abfragbar sind alle Artikel der Gartenlaube in Wikisource anhand der vergebenen Kategorien. Jeder Artikel ist einer Jahrgangskategorie (Kategorie:Die Gartenlaube (YYYY) Artikel) zugeschrieben und diese wiederum ist eine Unterkategorie der <a href="https://de.wikisource.org/wiki/Kategorie:Die_Gartenlaube_Artikel">Kategorie:Die_Gartenlaube_Artikel</a>.</p>
<ul>
<li>Das verwendete <a href="file:///home/librerli/wikinotebooks/gartenlaube/ParseWikiSource_ByCategories__GartenlaubeArtikelParser.ipynb">Skript</a> durchläuft auf Basis der Antwort der Mediawiki-API die Oberkategorie zur Identifizierung der einzelnen Jahrgänge und holt im weiteren Schritt den Mediawiki-Text jedes einzelnen Artikels ab. </li>
<li><p>Mit RegularExpressions werden die einzelnen Paramter der Textbox auf der Seite extrahiert:</p>
<ul>
<li>Titel</li>
<li>Subtitel</li>
<li>(Erscheinungs-)Jahr</li>
<li>Seite</li>
<li>Heftnummer</li>
<li>Autor</li>
<li>Wikipedia-Link</li>
</ul></li>
<li>Die Werte im Feld Autor können hierbei reine Textstrings sein oder auch Wiki-Links zu Autorenseiten in der Wikisource. In letzterem Fall ist es daher auch möglich eine Wikidata-ID für einen Autor zu gewinnen. Dafür muss über den vorhandenen Link der Wikisource-Autorenpage eine Mediawiki-API-Abfrage nach der QID gestartet werden. </li>
<li>Der Wikipedia-Link stellt eine inhaltliche Klassifizierung des Artikels dar. Über die Mediawiki-Abfrage lässt sich die QID zur Verwendung als Schlagwort im Wikidata-Item auslesen. </li>
<li>Abschließend werden die je Artikel vorhandenen Daten in einen Satz an <a href="https://tools.wmflabs.org/quickstatements/#/">QuickStatements</a><a href="#fn6" class="footnote-ref" id="fnref6" role="doc-noteref"><sup>6</sup></a>-Befehlen umgewandelt, um den Import der Daten zu ermöglichen.</li>
</ul>
<h2 id="auswertung-visualisierungen">Auswertung – Visualisierungen</h2>
<ul>
<li><p>Abfragen/Visualisierungen möglich</p></li>
<li><p>Inhaltserschließung – going on:</p>
<ul>
<li>https://blog.wikimedia.de/2019/10/16/hilfe-fuer-die-datenlaube-mit-wikisourcewikidata-die-freie-quellensammlung-verbessern/</li>
</ul></li>
</ul>
<section class="footnotes" role="doc-endnotes">
<hr />
<ol>
<li id="fn1" role="doc-endnote"><p>Projektstand per 01.11.2019 <a href="https://de.wikisource.org/wiki/Die_Gartenlaube#Projektstand">https://de.wikisource.org/wiki/Die_Gartenlaube#Projektstand</a> <a href="#fnref1" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
<li id="fn2" role="doc-endnote"><p><a href="https://de.wikisource.org/w/index.php?title=Diskussion:Die_Gartenlaube&oldid=3573624#Vorschlag_für_ein_Basisdatenmodell_der_Artikel_der_Gartenlaube">https://de.wikisource.org/w/index.php?title=Diskussion:Die_Gartenlaube&oldid=3573624#Vorschlag_f%C3%BCr_ein_Basisdatenmodell_der_Artikel_der_Gartenlaube</a> <a href="#fnref2" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
<li id="fn3" role="doc-endnote"><p>SPARQL-Query der entsprechenden Datensätze: https://w.wiki/Bds<a href="#fnref3" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
<li id="fn4" role="doc-endnote"><p>Alle Berechnungen und Auswertungen finden sich im Jupyter-Notebook <a href="file:///home/librerli/wikinotebooks/gartenlaube/Analyzing_WikidataItems.ipynb">Analyzing_WikidataItems.ipynb</a><a href="#fnref4" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
<li id="fn5" role="doc-endnote"><p>Anzumerken sei noch, dass diese numerische Auswertung letztlich auch dem Umstand geschuldet ist, dass zum damaligen Zeitpunkt die Analyse von Items mittels ShapeExpressions noch nicht in Wikidata derart umgesetzt war, wie es zum gegenwärtigen Zeitpunkt mit Verwendung von EntitySchema möglich ist.<a href="#fnref5" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
<li id="fn6" role="doc-endnote"><p>QuickStatements wurde als Tool verwendet, da OpenRefine zwar für die Bearbeitung der großen Masse an Daten gewisse Vorteile und eine tabellarische Übersichtlichkeit gebracht hätte, allerdings ist das Anlegen neuer Items mit Sitelinks in ein Wikiprojekt mit OpenRefine (noch) nicht möglich. <a href="#fnref6" class="footnote-back" role="doc-backlink">↩︎</a></p></li>
</ol>
</section>