diff --git a/voeb_tm_wallnig.ipynb b/voeb_tm_wallnig.ipynb index d9b014b70a033c3d3c5746c042662ba3f70320ec..57f1a2fdf3a7a4cb46cb894fbba35435257c0757 100644 --- a/voeb_tm_wallnig.ipynb +++ b/voeb_tm_wallnig.ipynb @@ -13,22 +13,9 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 4, "metadata": {}, - "outputs": [ - { - "ename": "FileNotFoundError", - "evalue": "[Errno 2] No such file or directory: 'data/export_job_1689308.zip'", - "output_type": "error", - "traceback": [ - "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", - "\u001b[0;31mFileNotFoundError\u001b[0m Traceback (most recent call last)", - "\u001b[0;32m/tmp/ipykernel_25338/2373056951.py\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[1;32m 8\u001b[0m \u001b[0mdatadir\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mPath\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"data\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 9\u001b[0m \u001b[0mdatafile\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdatadir\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mjoinpath\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m'export_job_1689308.zip'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 10\u001b[0;31m \u001b[0;32mwith\u001b[0m \u001b[0mzipfile\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mZipFile\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdatafile\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32mas\u001b[0m \u001b[0mmyzip\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 11\u001b[0m \u001b[0mnamelist\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mmyzip\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mnamelist\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 12\u001b[0m \u001b[0;31m# pprint(namelist)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n", - "\u001b[0;32m/opt/tljh/user/lib/python3.7/zipfile.py\u001b[0m in \u001b[0;36m__init__\u001b[0;34m(self, file, mode, compression, allowZip64, compresslevel)\u001b[0m\n\u001b[1;32m 1202\u001b[0m \u001b[0;32mwhile\u001b[0m \u001b[0;32mTrue\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1203\u001b[0m \u001b[0;32mtry\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 1204\u001b[0;31m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mfp\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mio\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mopen\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfile\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mfilemode\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 1205\u001b[0m \u001b[0;32mexcept\u001b[0m \u001b[0mOSError\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1206\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0mfilemode\u001b[0m \u001b[0;32min\u001b[0m \u001b[0mmodeDict\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n", - "\u001b[0;31mFileNotFoundError\u001b[0m: [Errno 2] No such file or directory: 'data/export_job_1689308.zip'" - ] - } - ], + "outputs": [], "source": [ "# quick extraction from transkribus export (conducted locally)\n", "# this will render an error, since data file is absent\n", @@ -39,20 +26,21 @@ "# datadir = Path('data-voeb')\n", "datadir = Path(\"data\")\n", "datafile = datadir.joinpath('export_job_1689308.zip')\n", - "with zipfile.ZipFile(datafile) as myzip:\n", - " namelist = myzip.namelist()\n", - " # pprint(namelist)\n", - " candidates = []\n", - " for f in namelist:\n", - " if f[7:].find('/') > -1:\n", - " continue\n", - " if f.endswith(\".txt\") or f.endswith(\".xml\"):\n", - " candidates.append(f)\n", - " pprint(candidates)\n", - " for c in candidates:\n", - " filename = c.split(\"/\")[-1]\n", - " with open(datadir.joinpath(filename), 'wb') as outf:\n", - " outf.write(myzip.read(c))" + "if datafile.is_file():\n", + " with zipfile.ZipFile(datafile) as myzip:\n", + " namelist = myzip.namelist()\n", + " # pprint(namelist)\n", + " candidates = []\n", + " for f in namelist:\n", + " if f[7:].find('/') > -1:\n", + " continue\n", + " if f.endswith(\".txt\") or f.endswith(\".xml\"):\n", + " candidates.append(f)\n", + " pprint(candidates)\n", + " for c in candidates:\n", + " filename = c.split(\"/\")[-1]\n", + " with open(datadir.joinpath(filename), 'wb') as outf:\n", + " outf.write(myzip.read(c))" ] }, { @@ -67,7 +55,7 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 5, "metadata": {}, "outputs": [ { @@ -108,7 +96,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 6, "metadata": {}, "outputs": [ { @@ -116,7 +104,7 @@ "output_type": "stream", "text": [ "processed 27 files from data-tw-src into 112 volumes\n", - "2021-10-29T09:51:20.153644\n" + "2021-10-29T15:46:28.789662\n" ] } ], @@ -166,7 +154,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 7, "metadata": {}, "outputs": [ { @@ -197,7 +185,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 8, "metadata": {}, "outputs": [ { @@ -220,14 +208,14 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "data-tw/dict_voeb48-73_20211029-095115.dict\n", + "data-tw/dict_voeb48-73_20211029-154628.dict\n", "saved dictionary and corpus in MarketMatrix format\n" ] } @@ -241,7 +229,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 10, "metadata": {}, "outputs": [ { @@ -300,8 +288,8 @@ "=== 24\n", "=== 26\n", "=== 28\n", - "CPU times: user 59.4 s, sys: 4.47 s, total: 1min 3s\n", - "Wall time: 27.7 s\n" + "CPU times: user 1min 12s, sys: 5.58 s, total: 1min 18s\n", + "Wall time: 31.8 s\n" ] } ], @@ -322,32 +310,9 @@ }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 11, "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n", - "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", - " from imp import reload\n" - ] - } - ], + "outputs": [], "source": [ "import datetime\n", "# Plotting tools\n", @@ -382,7 +347,7 @@ "visu = gensimvis.prepare(lda_model, dictionary, idword, mds='mmds')\n", "pyLDAvis.save_json(visu, savelda)\n", "pyLDAvis.save_html(visu, str(DATA.joinpath(\"saved_lda_{}_{}.html\".format(corpusname, NOWSTR))))\n", - "# pyLDAvis.display(visu)" + "pyLDAvis.display(visu)" ] }, { @@ -397,7 +362,7 @@ }, { "cell_type": "code", - "execution_count": 29, + "execution_count": 12, "metadata": {}, "outputs": [], "source": [ @@ -436,7 +401,7 @@ }, { "cell_type": "code", - "execution_count": 77, + "execution_count": 13, "metadata": {}, "outputs": [ { @@ -444,8 +409,8 @@ "output_type": "stream", "text": [ "corpusname: voeb48-73_\n", - "voeb48-73_20211029-095115 voeb48-73\n", - "loading dict and corpus from data-tw/dict_voeb48-73_20211029-095115.dict, data-tw/corpus_voeb48-73_20211029-095115.mm\n", + "voeb48-73_20211029-154628 voeb48-73\n", + "loading dict and corpus from data-tw/dict_voeb48-73_20211029-154628.dict, data-tw/corpus_voeb48-73_20211029-154628.mm\n", "Index(['Dominant_Topic', 'Perc_Contribution', 'Topic_Keywords', 0], dtype='object')\n" ] }, @@ -483,80 +448,80 @@ " <td>0</td>\n", " <td>7</td>\n", " <td>0.4622</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\nScnftfalen\\n\\n\\ne,/.\\ndei 3et\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigung Österreichischer Biblioth...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\nScnftfalen\\n\\n\\ne,/.\\ndei 3et\\n\\nARBEITSPRO...</td>\n", " </tr>\n", " <tr>\n", " <th>1</th>\n", " <td>1</td>\n", " <td>7</td>\n", " <td>0.9389</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nWien, im Februar 1950\\nHeft 1\\nJ...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH...</td>\n", " </tr>\n", " <tr>\n", " <th>2</th>\n", " <td>2</td>\n", " <td>7</td>\n", " <td>0.9316</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nWien, im März 1950\\nHeft 2\\nJg. ...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH...</td>\n", " </tr>\n", " <tr>\n", " <th>3</th>\n", " <td>3</td>\n", " <td>2</td>\n", " <td>0.9992</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", - " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 3\\nWien, im Mai 1950\\nJg....</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", + " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS...</td>\n", " </tr>\n", " <tr>\n", " <th>4</th>\n", " <td>4</td>\n", " <td>2</td>\n", " <td>0.7848</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", - " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 4\\nWien, im September 195...</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", + " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS...</td>\n", " </tr>\n", " <tr>\n", " <th>5</th>\n", " <td>5</td>\n", " <td>2</td>\n", " <td>0.9982</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", - " <td>\\nJegjet\\n\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigung Österreichischer Bibliothekare\\nTeil I\\nHerausg...</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", + " <td>\\nJegjet\\n\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigu...</td>\n", " </tr>\n", " <tr>\n", " <th>6</th>\n", " <td>6</td>\n", " <td>7</td>\n", " <td>0.8136</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\n\\n\\nVereinigung\\nWien, am 19.XI.1949.\\nOesterreichischer Bibliothekare\\n\\nSehr geehrtes Verein...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\n\\n\\nVereinigung\\nWien, am 19.XI.1949.\\nOeste...</td>\n", " </tr>\n", " <tr>\n", " <th>7</th>\n", " <td>7</td>\n", " <td>2</td>\n", " <td>0.4115</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", - " <td>\\n\\nVereinigung\\nWien, am 20.XII.1949.\\nOesterreichiseher Bibliothekare\\nN. 2-6\\nBericht über di...</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", + " <td>\\n\\nVereinigung\\nWien, am 20.XII.1949.\\nOester...</td>\n", " </tr>\n", " <tr>\n", " <th>8</th>\n", " <td>8</td>\n", " <td>7</td>\n", " <td>0.9400</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im Febru...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR...</td>\n", " </tr>\n", " <tr>\n", " <th>9</th>\n", " <td>9</td>\n", " <td>7</td>\n", " <td>0.9379</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im März ...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR...</td>\n", " </tr>\n", " </tbody>\n", "</table>\n", @@ -575,32 +540,32 @@ "8 8 7 0.9400 \n", "9 9 7 0.9379 \n", "\n", - " Keywords \\\n", - "0 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "1 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "2 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "3 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "4 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "5 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "6 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "7 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "8 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "9 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", + " Keywords \\\n", + "0 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "1 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "2 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "3 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "4 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "5 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "6 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "7 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "8 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "9 7: osterr, titel, vereinigung, mitteilungen, d... \n", "\n", - " Text \n", - "0 \\nScnftfalen\\n\\n\\ne,/.\\ndei 3et\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigung Österreichischer Biblioth... \n", - "1 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nWien, im Februar 1950\\nHeft 1\\nJ... \n", - "2 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nWien, im März 1950\\nHeft 2\\nJg. ... \n", - "3 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 3\\nWien, im Mai 1950\\nJg.... \n", - "4 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 4\\nWien, im September 195... \n", - "5 \\nJegjet\\n\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigung Österreichischer Bibliothekare\\nTeil I\\nHerausg... \n", - "6 \\n\\n\\nVereinigung\\nWien, am 19.XI.1949.\\nOesterreichischer Bibliothekare\\n\\nSehr geehrtes Verein... \n", - "7 \\n\\nVereinigung\\nWien, am 20.XII.1949.\\nOesterreichiseher Bibliothekare\\nN. 2-6\\nBericht über di... \n", - "8 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im Febru... \n", - "9 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im März ... " + " Text \n", + "0 \\nScnftfalen\\n\\n\\ne,/.\\ndei 3et\\n\\nARBEITSPRO... \n", + "1 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH... \n", + "2 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH... \n", + "3 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS... \n", + "4 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS... \n", + "5 \\nJegjet\\n\\n\\nARBEITSPROTOKOLL\\nder\\nVereinigu... \n", + "6 \\n\\n\\nVereinigung\\nWien, am 19.XI.1949.\\nOeste... \n", + "7 \\n\\nVereinigung\\nWien, am 20.XII.1949.\\nOester... \n", + "8 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR... \n", + "9 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR... " ] }, - "execution_count": 77, + "execution_count": 13, "metadata": {}, "output_type": "execute_result" } @@ -631,14 +596,13 @@ }, { "cell_type": "code", - "execution_count": 31, + "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Table voeb_48-73_dominant_topics in jbekesi.db updated/created\n", "saved.\n" ] } @@ -663,7 +627,7 @@ }, { "cell_type": "code", - "execution_count": 50, + "execution_count": 15, "metadata": {}, "outputs": [], "source": [ @@ -694,7 +658,7 @@ }, { "cell_type": "code", - "execution_count": 51, + "execution_count": 16, "metadata": {}, "outputs": [ { @@ -729,50 +693,50 @@ " <th>0</th>\n", " <td>10</td>\n", " <td>0.9248</td>\n", - " <td>10: vereinigung, osterr, prasident, fuhrung, bericht, teilnehmer, direktor, forschung, erscheine...</td>\n", - " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nde.25\\nWien, im Oktober 1972\\nNr...</td>\n", + " <td>10: vereinigung, osterr, prasident, fuhrung, b...</td>\n", + " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH...</td>\n", " </tr>\n", " <tr>\n", " <th>1</th>\n", " <td>11</td>\n", " <td>0.9324</td>\n", - " <td>11: zahlen, statistik, einheiten, mitglieder, vereinigung, ausschuß, schriften, bande, ausgaben,...</td>\n", - " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg 19\\nWien, im März 1966\\nNr1\\n...</td>\n", + " <td>11: zahlen, statistik, einheiten, mitglieder, ...</td>\n", + " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH...</td>\n", " </tr>\n", " <tr>\n", " <th>2</th>\n", " <td>2</td>\n", " <td>0.9992</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", - " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 3\\nWien, im Mai 1950\\nJg....</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", + " <td>\\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS...</td>\n", " </tr>\n", " <tr>\n", " <th>3</th>\n", " <td>4</td>\n", " <td>0.9822</td>\n", - " <td>4: vereinigung, sitzung, bibliothekartag, gebeten, stehen, prasident, mitglieder, teilnehmer, be...</td>\n", - " <td>\\nMII TLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg. 24\\nWien, im März 1971\\nNr....</td>\n", + " <td>4: vereinigung, sitzung, bibliothekartag, gebe...</td>\n", + " <td>\\nMII TLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISC...</td>\n", " </tr>\n", " <tr>\n", " <th>4</th>\n", " <td>5</td>\n", " <td>0.9473</td>\n", - " <td>5: kommission, kommissionen, hoheren, stattfinden, bediensteten, freistellen, praktisch, gehoben...</td>\n", - " <td>\\nMITTLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg. 23\\nWien, im Dezember 1970\\n...</td>\n", + " <td>5: kommission, kommissionen, hoheren, stattfin...</td>\n", + " <td>\\nMITTLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH...</td>\n", " </tr>\n", " <tr>\n", " <th>5</th>\n", " <td>7</td>\n", " <td>0.9400</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", - " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im Febru...</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", + " <td>\\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR...</td>\n", " </tr>\n", " <tr>\n", " <th>6</th>\n", " <td>9</td>\n", " <td>0.9981</td>\n", - " <td>9: gattin, sitzung, vereinigung, personen, wissenschaft_forschung, prasident, teilnehmer, hochsc...</td>\n", - " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG OSTERREICHISCHER BIBLIOTHEKARE\\nals\\nJg. 26\\nWien, im Juni 1973\\...</td>\n", + " <td>9: gattin, sitzung, vereinigung, personen, wis...</td>\n", + " <td>\\nMITTEILUNGEN\\nDER VEREINIGUNG OSTERREICHISCH...</td>\n", " </tr>\n", " </tbody>\n", "</table>\n", @@ -788,26 +752,26 @@ "5 7 0.9400 \n", "6 9 0.9981 \n", "\n", - " Keywords \\\n", - "0 10: vereinigung, osterr, prasident, fuhrung, bericht, teilnehmer, direktor, forschung, erscheine... \n", - "1 11: zahlen, statistik, einheiten, mitglieder, vereinigung, ausschuß, schriften, bande, ausgaben,... \n", - "2 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "3 4: vereinigung, sitzung, bibliothekartag, gebeten, stehen, prasident, mitglieder, teilnehmer, be... \n", - "4 5: kommission, kommissionen, hoheren, stattfinden, bediensteten, freistellen, praktisch, gehoben... \n", - "5 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "6 9: gattin, sitzung, vereinigung, personen, wissenschaft_forschung, prasident, teilnehmer, hochsc... \n", + " Keywords \\\n", + "0 10: vereinigung, osterr, prasident, fuhrung, b... \n", + "1 11: zahlen, statistik, einheiten, mitglieder, ... \n", + "2 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "3 4: vereinigung, sitzung, bibliothekartag, gebe... \n", + "4 5: kommission, kommissionen, hoheren, stattfin... \n", + "5 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "6 9: gattin, sitzung, vereinigung, personen, wis... \n", "\n", - " Representative Text \n", - "0 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nde.25\\nWien, im Oktober 1972\\nNr... \n", - "1 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg 19\\nWien, im März 1966\\nNr1\\n... \n", - "2 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nHeft 3\\nWien, im Mai 1950\\nJg.... \n", - "3 \\nMII TLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg. 24\\nWien, im März 1971\\nNr.... \n", - "4 \\nMITTLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\nJg. 23\\nWien, im Dezember 1970\\n... \n", - "5 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERREICHISCHER BIBLIOTHEKARE\\n\\n\\nJg. 3 Wien, im Febru... \n", - "6 \\nMITTEILUNGEN\\nDER VEREINIGUNG OSTERREICHISCHER BIBLIOTHEKARE\\nals\\nJg. 26\\nWien, im Juni 1973\\... " + " Representative Text \n", + "0 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH... \n", + "1 \\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH... \n", + "2 \\n\\nMITTEILUNGEN\\nDER VEREINIGUNG ÖSTERREICHIS... \n", + "3 \\nMII TLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISC... \n", + "4 \\nMITTLILUNGEN\\nDER VEREINIGUNG ÖSTERREICHISCH... \n", + "5 \\n\\n_MITTEILUNGEN_\\n\\n\\nDER VEREINIGUNG ÖSTERR... \n", + "6 \\nMITTEILUNGEN\\nDER VEREINIGUNG OSTERREICHISCH... " ] }, - "execution_count": 51, + "execution_count": 16, "metadata": {}, "output_type": "execute_result" } @@ -828,16 +792,9 @@ }, { "cell_type": "code", - "execution_count": 125, + "execution_count": 18, "metadata": {}, "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Index(['Dominant_Topic', 'Topic_Keywords', 'Num_Documents', 'Perc_Documents'], dtype='object')\n" - ] - }, { "data": { "text/html": [ @@ -869,49 +826,49 @@ " <tr>\n", " <th>0</th>\n", " <td>2</td>\n", - " <td>2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st...</td>\n", + " <td>2: vereinigung, osterr, mitglieder, vorsitzend...</td>\n", " <td>51</td>\n", " <td>0.4554</td>\n", " </tr>\n", " <tr>\n", " <th>1</th>\n", " <td>7</td>\n", - " <td>7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener</td>\n", + " <td>7: osterr, titel, vereinigung, mitteilungen, d...</td>\n", " <td>27</td>\n", " <td>0.2411</td>\n", " </tr>\n", " <tr>\n", " <th>2</th>\n", " <td>4</td>\n", - " <td>4: vereinigung, sitzung, bibliothekartag, gebeten, stehen, prasident, mitglieder, teilnehmer, be...</td>\n", + " <td>4: vereinigung, sitzung, bibliothekartag, gebe...</td>\n", " <td>11</td>\n", " <td>0.0982</td>\n", " </tr>\n", " <tr>\n", " <th>3</th>\n", " <td>9</td>\n", - " <td>9: gattin, sitzung, vereinigung, personen, wissenschaft_forschung, prasident, teilnehmer, hochsc...</td>\n", + " <td>9: gattin, sitzung, vereinigung, personen, wis...</td>\n", " <td>8</td>\n", " <td>0.0714</td>\n", " </tr>\n", " <tr>\n", " <th>4</th>\n", " <td>11</td>\n", - " <td>11: zahlen, statistik, einheiten, mitglieder, vereinigung, ausschuß, schriften, bande, ausgaben,...</td>\n", + " <td>11: zahlen, statistik, einheiten, mitglieder, ...</td>\n", " <td>8</td>\n", " <td>0.0714</td>\n", " </tr>\n", " <tr>\n", " <th>5</th>\n", " <td>10</td>\n", - " <td>10: vereinigung, osterr, prasident, fuhrung, bericht, teilnehmer, direktor, forschung, erscheine...</td>\n", + " <td>10: vereinigung, osterr, prasident, fuhrung, b...</td>\n", " <td>5</td>\n", " <td>0.0446</td>\n", " </tr>\n", " <tr>\n", " <th>6</th>\n", " <td>5</td>\n", - " <td>5: kommission, kommissionen, hoheren, stattfinden, bediensteten, freistellen, praktisch, gehoben...</td>\n", + " <td>5: kommission, kommissionen, hoheren, stattfin...</td>\n", " <td>2</td>\n", " <td>0.0179</td>\n", " </tr>\n", @@ -920,23 +877,14 @@ "</div>" ], "text/plain": [ - " Dominant_Topic \\\n", - "0 2 \n", - "1 7 \n", - "2 4 \n", - "3 9 \n", - "4 11 \n", - "5 10 \n", - "6 5 \n", - "\n", - " Topic_Keywords \\\n", - "0 2: vereinigung, osterr, mitglieder, vorsitzend, konnen, bericht, ausschuß, stummvoll, tagung, st... \n", - "1 7: osterr, titel, vereinigung, mitteilungen, deutsch, mitglieder, stellen, namen, konnen, wiener \n", - "2 4: vereinigung, sitzung, bibliothekartag, gebeten, stehen, prasident, mitglieder, teilnehmer, be... \n", - "3 9: gattin, sitzung, vereinigung, personen, wissenschaft_forschung, prasident, teilnehmer, hochsc... \n", - "4 11: zahlen, statistik, einheiten, mitglieder, vereinigung, ausschuß, schriften, bande, ausgaben,... \n", - "5 10: vereinigung, osterr, prasident, fuhrung, bericht, teilnehmer, direktor, forschung, erscheine... \n", - "6 5: kommission, kommissionen, hoheren, stattfinden, bediensteten, freistellen, praktisch, gehoben... \n", + " Dominant_Topic Topic_Keywords \\\n", + "0 2 2: vereinigung, osterr, mitglieder, vorsitzend... \n", + "1 7 7: osterr, titel, vereinigung, mitteilungen, d... \n", + "2 4 4: vereinigung, sitzung, bibliothekartag, gebe... \n", + "3 9 9: gattin, sitzung, vereinigung, personen, wis... \n", + "4 11 11: zahlen, statistik, einheiten, mitglieder, ... \n", + "5 10 10: vereinigung, osterr, prasident, fuhrung, b... \n", + "6 5 5: kommission, kommissionen, hoheren, stattfin... \n", "\n", " Num_Documents Perc_Documents \n", "0 51 0.4554 \n", @@ -948,7 +896,7 @@ "6 2 0.0179 " ] }, - "execution_count": 125, + "execution_count": 18, "metadata": {}, "output_type": "execute_result" } @@ -975,7 +923,6 @@ " tnks.append(tnk_d_tk[key_idx])\n", "\n", "# Concatenate Column wise\n", - "old_df_dominant_topics = pd.concat([s_tnnr, topic_counts, topic_contribution, s_tnk], axis=1)\n", "df_dominant_topics = pd.DataFrame(tnk, columns=['Dominant_Topic', 'Topic_Keywords', 'Num_Documents' , 'Perc_Documents'])\n", "\n", "output_table = \"{}_distribution_of_topics\".format(corpusname)\n", @@ -1009,7 +956,7 @@ }, { "cell_type": "code", - "execution_count": 85, + "execution_count": 19, "metadata": {}, "outputs": [ { @@ -1017,8 +964,8 @@ "output_type": "stream", "text": [ "corpusname: voeb48-73_\n", - "voeb48-73_20211029-095115 voeb48-73\n", - "loading dict and corpus from data-tw/dict_voeb48-73_20211029-095115.dict, data-tw/corpus_voeb48-73_20211029-095115.mm\n" + "voeb48-73_20211029-154628 voeb48-73\n", + "loading dict and corpus from data-tw/dict_voeb48-73_20211029-154628.dict, data-tw/corpus_voeb48-73_20211029-154628.mm\n" ] } ], @@ -1058,7 +1005,7 @@ }, { "cell_type": "code", - "execution_count": 86, + "execution_count": 20, "metadata": {}, "outputs": [ { @@ -1113,7 +1060,7 @@ }, { "cell_type": "code", - "execution_count": 89, + "execution_count": 21, "metadata": {}, "outputs": [ { @@ -1171,6 +1118,28 @@ "needs_background": "light" }, "output_type": "display_data" + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n", + "/opt/tljh/user/lib/python3.7/site-packages/past/builtins/misc.py:45: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses\n", + " from imp import reload\n" + ] } ], "source": [