Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
Newseye
Manage
Activity
Members
Code
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Deploy
Releases
Package registry
Model registry
Operate
Terraform modules
Analyze
Contributor analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
GitLab community forum
Contribute to GitLab
Provide feedback
Terms and privacy
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Janos Bekesi
Newseye
Commits
33c44b69
Commit
33c44b69
authored
May 12, 2022
by
Janos Bekesi
Browse files
Options
Downloads
Patches
Plain Diff
Prepared for binder run-through
parent
71c3b30d
No related branches found
No related tags found
No related merge requests found
Changes
5
Show whitespace changes
Inline
Side-by-side
Showing
5 changed files
README.md
+3
-0
3 additions, 0 deletions
README.md
postBuild
+2
-0
2 additions, 0 deletions
postBuild
stopwords_de.txt
+908
-0
908 additions, 0 deletions
stopwords_de.txt
tm_utils.py
+10
-3
10 additions, 3 deletions
tm_utils.py
workflow.ipynb
+287
-549
287 additions, 549 deletions
workflow.ipynb
with
1210 additions
and
552 deletions
README.md
+
3
−
0
View file @
33c44b69
...
...
@@ -31,3 +31,6 @@ skill level regarding [Python](https://python.org) programming and [Jupyter](htt
might be quite helpful.
## Live Notebook on Binder
[

](https://mybinder.org/v2/git/https%3A%2F%2Fgitlab.phaidra.org%2Fbekesij9%2Fnewseye/binder)
\ No newline at end of file
This diff is collapsed.
Click to expand it.
postBuild
+
2
−
0
View file @
33c44b69
...
...
@@ -2,3 +2,5 @@
set
-e
python
-m
spacy download de_core_news_sm
# this is the new bert pipeline
python
-m
spacy download de_dep_news_trf
\ No newline at end of file
This diff is collapsed.
Click to expand it.
stopwords_de.txt
0 → 100644
+
908
−
0
View file @
33c44b69
a
ab
aber
aber
ach
acht
achte
achten
achter
achtes
ag
alle
allein
allem
allen
aller
allerdings
alles
allgemeinen
als
als
also
am
an
andere
anderen
andern
anders
au
auch
auch
auf
aus
ausser
außer
ausserdem
außerdem
b
bald
bei
beide
beiden
beim
beispiel
bekannt
bereits
besonders
besser
besten
bin
bis
bisher
bist
c
d
da
dabei
dadurch
dafür
dagegen
daher
dahin
dahinter
damals
damit
danach
daneben
dank
dann
daran
darauf
daraus
darf
darfst
darin
darüber
darum
darunter
das
das
dasein
daselbst
dass
daß
dasselbe
davon
davor
dazu
dazwischen
dein
deine
deinem
deiner
dem
dementsprechend
demgegenüber
demgemäss
demgemäß
demselben
demzufolge
den
denen
denn
denn
denselben
der
deren
derjenige
derjenigen
dermassen
dermaßen
derselbe
derselben
des
deshalb
desselben
dessen
deswegen
d.h
dich
die
diejenige
diejenigen
herrn
se
blos
selber
freilich
hr
hrn
jörgel
hans
dies
diese
dieselbe
dieselben
diesem
diesen
dieser
dieses
dir
doch
dort
drei
drin
dr
de
ans
anch
gt
herr
dritte
dritten
dritter
drittes
du
durch
durchaus
dürfen
dürft
durfte
durften
e
eben
ebenso
ehrlich
ei
ei,
ei,
eigen
eigene
eigenen
eigener
eigenes
ein
einander
eine
einem
einen
einer
eines
einige
einigen
einiger
einiges
einmal
einmal
eins
elf
en
ende
endlich
entweder
entweder
er
Ernst
erst
erste
ersten
erster
erstes
es
etwa
etwas
euch
f
früher
fünf
fünfte
fünften
fünfter
fünftes
für
g
gab
ganz
ganze
ganzen
ganzer
ganzes
gar
gedurft
gegen
gegenüber
gehabt
gehen
geht
gekannt
gekonnt
gemacht
gemocht
gemusst
genug
gerade
gern
gesagt
gesagt
geschweige
gewesen
gewollt
geworden
gibt
ging
gleich
gott
gross
groß
grosse
große
grossen
großen
grosser
großer
grosses
großes
gut
gute
guter
gutes
h
habe
haben
habt
hast
hat
hatte
hätte
hatten
hätten
heisst
her
heute
hier
hin
hinter
hoch
i
ich
ihm
ihn
ihnen
ihr
ihre
ihrem
ihren
ihrer
ihres
im
im
immer
in
in
indem
infolgedessen
ins
irgend
ist
j
ja
ja
jahr
jahre
jahren
je
jede
jedem
jeden
jeder
jedermann
jedermanns
jedoch
jemand
jemandem
jemanden
jene
jenem
jenen
jener
jenes
jetzt
k
kam
kann
kannst
kaum
kein
keine
keinem
keinen
keiner
kleine
kleinen
kleiner
kleines
kommen
kommt
können
könnt
konnte
könnte
konnten
kurz
l
lang
lange
lange
leicht
leide
lieber
los
m
machen
macht
machte
mag
magst
mahn
man
manche
manchem
manchen
mancher
manches
mann
mehr
mein
meine
meinem
meinen
meiner
meines
mensch
menschen
mich
mir
mit
mittel
mochte
möchte
mochten
mögen
möglich
mögt
morgen
muss
muß
müssen
musst
müsst
musste
mussten
n
na
nach
nachdem
nahm
natürlich
neben
nein
neue
neuen
neun
neunte
neunten
neunter
neuntes
nicht
nicht
nichts
nie
niemand
niemandem
niemanden
noch
nun
nun
nur
o
ob
ob
oben
oder
oder
offen
oft
oft
ohne
Ordnung
p
q
r
recht
rechte
rechten
rechter
rechtes
richtig
rund
s
sa
sache
sagt
sagte
sah
satt
schlecht
Schluss
schon
sechs
sechste
sechsten
sechster
sechstes
sehr
sei
sei
seid
seien
sein
seine
seinem
seinen
seiner
seines
seit
seitdem
selbst
selbst
sich
sie
sieben
siebente
siebenten
siebenter
siebentes
sind
so
solang
solche
solchem
solchen
solcher
solches
soll
sollen
sollte
sollten
sondern
sonst
sowie
später
statt
t
tag
tage
tagen
tat
teil
tel
tritt
trotzdem
tun
u
über
überhaupt
übrigens
uhr
um
und
und?
uns
unser
unsere
unserer
unter
v
vergangenen
viel
viele
vielem
vielen
vielleicht
vier
vierte
vierten
vierter
viertes
vom
von
vor
w
wahr?
während
währenddem
währenddessen
wann
war
wäre
waren
wart
warum
was
wegen
weil
weit
weiter
weitere
weiteren
weiteres
welche
welchem
welchen
welcher
welches
wem
wen
wenig
wenig
wenige
weniger
weniges
wenigstens
wenn
wenn
wer
werde
werden
werdet
wessen
wie
wie
wieder
will
willst
wir
wird
wirklich
wirst
wo
wohl
wollen
wollt
wollte
wollten
worden
wurde
würde
wurden
würden
x
y
z
z.b
zehn
zehnte
zehnten
zehnter
zehntes
zeit
zu
zuerst
zugleich
zum
zum
zunächst
zur
zurück
zusammen
zwanzig
zwar
zwar
zwei
zweite
zweiten
zweiter
zweites
zwischen
zwölf
ich
und
der
die
sie
nicht
zu
das
ist
in
so
den
er
ein
es
du
mit
mir
mich
von
was
sich
daß
ihr
wie
dem
auf
mein
wenn
doch
an
auch
als
noch
hat
wir
nur
des
aber
ihn
dich
wird
ja
herr
sein
da
ist's
will
eine
nun
denn
dir
man
uns
ihm
meine
aus
für
vor
euch
sind
im
haben
einen
hier
nach
bin
soll
muß
kann
durch
vnd
schon
wohl
mehr
werden
um
habe
zum
nichts
war
wo
ach
alle
wer
wieder
selbst
alles
ihnen
einem
ab
frau
dein
ihre
viel
geht
bei
diese
seine
weiß
oder
kein
seyn
leben
recht
nein
einer
wollen
meiner
meinen
dieser
zur
über
gar
jetzt
lassen
gleich
hab
sagen
bey
dann
mann
welt
machen
weil
bist
hast
zeit
allein
meinem
deine
sehr
auff
kommen
ganz
vom
immer
macht
ob
am
sohn
kommt
wäre
sehen
können
unter
keine
ohne
kan
diesen
laß
bald
einmal
ha
seinen
warum
ihren
graf
dieses
seiner
ihrer
fort
sagt
hätte
wissen
sei
diesem
etwas
werde
lieber
sonst
also
andern
geben
gehen
bis
würde
weg
gegen
hin
eben
jhr
steht
ins
wort
müssen
allen
szene
wil
seinem
nie
her
gewiß
mag
vielleicht
zurück
lange
erst
dort
wahr
damit
reden
deinen
unser
wollte
ihrem
welche
sollen
meines
deiner
sollte
eines
tag
wenig
davon
gewesen
sieht
dies
wol
sey
genug
willst
komm
hören
gern
darf
sehn
geh
habt
thun
keinen
lieben
gehn
oft
weit
könnte
tritt
nehmen
eure
seid
besser
deinem
je
kömmt
läßt
de
wollt
selber
gute
aller
wirst
sieh
ganze
möchte
ists
gemacht
jch
bringen
gibt
bleibt
per
anl
via
ver
iii
ank
nnd
montag
dienstag
mittwoch
donnerstag
sonntag
freitag
samstag
januar
jänner
februar
feber
märz
april
mai
juni
juli
august
september
oktober
november
dezember
december
october
This diff is collapsed.
Click to expand it.
tm_utils.py
+
10
−
3
View file @
33c44b69
...
...
@@ -191,21 +191,28 @@ def csv_to_datasette(tablename="newTable", csv="", db=None):
def
compute_coherence
(
corpus
,
id2word
,
texts
,
corpusname
=
"
noCorpusname
"
,
start
=
8
,
stop
=
33
,
step
=
4
,
datadir
=
None
,
to_db
=
False
):
datadir
=
None
,
to_db
=
False
,
binder
=
False
):
# find optimal number of topics by computing coherence values
# %matplotlib inline
if
not
datadir
:
print
(
"
no datadir given, stopping
"
)
return
models
=
[]
modeldir
=
datadir
.
joinpath
(
"
models
"
)
modeldir
.
mkdir
(
exist_ok
=
True
)
print
(
"
computing coherence for the model starting with {},
"
"
interval {} and stopping at {}
"
.
format
(
start
,
step
,
stop
))
for
num_topics
in
range
(
start
,
stop
,
step
):
model_file
=
modeldir
.
joinpath
(
f
"
coher_model_
{
num_topics
}
.model
"
)
if
binder
:
lda_model
=
gensim
.
models
.
LdaModel
.
load
(
str
(
model_file
))
else
:
print
(
"
computing lda num topics of
"
,
num_topics
)
lda_model
=
gensim
.
models
.
LdaModel
(
corpus
=
corpus
,
id2word
=
id2word
,
num_topics
=
num_topics
,
random_state
=
35009
)
lda_model
.
save
(
str
(
model_file
))
cm
=
CoherenceModel
(
model
=
lda_model
,
corpus
=
corpus
,
texts
=
texts
,
coherence
=
"
c_v
"
)
models
.
append
((
num_topics
,
cm
.
get_coherence
(),
lda_model
.
show_topics
(),
cm
,
lda_model
))
...
...
This diff is collapsed.
Click to expand it.
workflow.ipynb
+
287
−
549
View file @
33c44b69
Source diff could not be displayed: it is too large. Options to address this:
view the blob
.
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment