Menotab – filologiske værktøjer udviklet til GNU Emacs

Indhold

1 Indledning

På denne side tilgængeliggøres en række korte præsentationer (primært i form af videoer) som illustrerer mit arbejde med GNU Emacs som et filologisk All-In-One værktøj inden for rammerne af forskningsprojektet Middelalderdiplomer – i en digital tid.

Præsentationen udspringer af en demonstration afholdt på et seminar d. 23/1-2015 i anledning af fusionen mellem Nordisk Forskningsinstitut og Center for Sprogteknologi ved Københavns Universitet.

Der demonstreres bl.a. opmærkning på basis af GNU Emacs' indbyggede org-mode, halvautomatisk lemmatisering og morfosyntaktisk analyse, søgning og dataekstrahering, fx i form af KWIC-konkordanser og ordfrekvensoversigter og med integration af tagget billedmateriale samt eksport til andre formater.

2 Projektet Middelalderdiplomer – i en digital tid

  • Et treårigt postdoc-projekt (afsluttes ved udgangen af august 2015)
  • Projektets to vigtigste mål:
    1. Tilvejebringelsen af en elektronisk udgave af de ældste islandske originaldiplomer (offentlige breve fra perioden c1300–1450) præsenteret på fire gengivelsesniveauer og ledsaget af digitale billeder. Et avanceret interface muliggør søgning på tid, sted, personer, skriverhænder, karakteristika ved skriften, de forekommende aktørers roller, udvalgte nøgleord og en mængde sproglige træk. Desuden linkes hvert ord til netordbøger og stednavnene til elektroniske kortressourcer
    2. En undersøgelse af de sproglige udviklinger og variationen i skriverpraksis på basis af det annoterede diplomkorpus
  • Korpus består af godt 300 diplomer eller ca. 70.000 ord i løbende tekst
  • Inden for rammerne af projektet udvikles desuden et interface for digitalt arbejde med middelalderkilder, ikke mindst i relation til sprog- og skriftanalyse. Det er en del af denne software som demonstreres her på siden. Al softwaren vil blive gjort tilgængelig under en copyleft-licens

3 Om opmærkningen

Opmærkningen baserer sig på org-mode, der er et såkaldt “mode” til editoren GNU Emacs, der er fri og open source software.

GNU Emacs er en yderst programmerbar editor, i bund og grund fordi der er tale om en lisp-fortolker (lisp er et af de ældste stadig anvendte programmeringssprog med rødder tilbage til halvtredserne).

Emacs' natur gør det muligt at anvende editoren som en form for application platform, inden for hvilken man relativt let kan skrive selv temmelig avancerede tekstværktøjer. Som størstedelen af Emacs selv kan denne funktionalitet skrives i lisp-dialekten elisp.

Det er værd at notere at GNU Emacs kan anvendes på stort set alle systemer (herunder GNU/Linux, Mac OS X og Windows).

org-mode.org er et “mode” til Emacs, som oprindelig blev det designet som et værktøj til at tage notater i og lave projektplanlægning i rentekstformat. I dag byder det dog på langt mere funktionalitet. Fra org-mode kan der eksporteres til en række andre formater, fx html, LaTeX og odt, og man kan selv skrive specielle eksportfunktioner der fx muliggør eksport til TEI-kompatibel XML.

Inden for rammerne af diplomprojektet skal der bl.a. tilføjes den følgende metainformation (annotation):

  • Fire tekstgengivelsesniveauer
    • faksimilært (meget håndskriftnært)
    • diplomatarisk (forkortelser opløses, visse tegnvarianter slås sammen)
    • normaliseret oldislandsk
    • normaliseret moderne islandsk
  • Lemmaoplysninger
    • oldislandsk form
    • moderne islandsk form
  • Morfosyntaktisk annotation (oldislandsk)
  • Fonografematisk annotation (mapping mellem fonemer og tegn på facs-niveau)
  • Palæografisk annotation af specifikke tegnvarianter
  • Kobling af hvert ord til udklip af en fotografisk reproduktion
  • Ikke-sproglig annotation
    • personer
    • steder (linkning til digitale kortressourcer)
  • Notater af forskellig karakter

Et screenshot der illustrer en del af denne opmærkning, kan ses på dette billede (klik her for at se billedet i fuld størrelse):

opmaerkning.png

Beskrivelse af de synlige kolonner:

  1. type-felt (til intern brug)
  2. moderne islandsk lemma
  3. oldislandsk lemma
  4. POS (morfosyntaktisk annotation i overensstemmelse med Menotas tagset)
  5. moderne islandsk tekstgengivelsesniveau
  6. oldislandsk tekstgengivelsesniveau
  7. diplomatarisk tekstgengivelsesniveau
  8. faksimilært tekstgengivelsesniveau
  9. ord-nummer i diplomet
  10. eventuel palæografisk annotation
  11. grafo-fonematisk mapping (mapping mellem skrifttegn og fonemerne i et hypotetisk fonemsystem)

4 Eksempler på funktionalitet

4.1 Halvautomatisk sproglig annotation

Arbejdet med den halvautomatiske lemmatisering og morfosyntaktiske analyse er illustreret i videoen nedenfor.

Der indledes med fem tomme kolonner, som udfyldes halvautomatisk af computeren i samarbejde med filologen. I videoen er følgende fire faser illustreret:

  1. Indføring af normaliseret tekstgengivelsesniveau. For at udrydde noget af den enorme formvariation på det diplomatariske niveau, giver computeren i første omgang et bud på moderne islandsk retskrivning. Valget af moderne islandsk skal ses i lyset af nogle sprogteknologiske ressourcer udviklet til analyse af moderne islandsk
  2. Lemmatisering og morfosyntaktisk annotation. Der tages udgangspunkt i værktøjer fra IceNLP (ikke mindst den regelbaserede tagger IceTagger), men det er nødvendigt at foretage en ret gennemgående efterprocessering af det umiddelbare resultat fra IceNLP-programmet, dels for at rette en mængde tilfælde med forkert analyse af lemma og/eller part-of-speech, dels for at oversætte IceTaggers tag-set til et tag-set kompatibelt med Menotas (Medieval Nordic Text Archive) retningslinjer for lemmatisering af nordiske middelaldertekster (jf. kapitlet om lemmatisering lemmatisering i Menotas håndbog)
  3. Computerens forslag rettes til. Filologen kontroller at analysen er korrekt og retter til efter bedste evne. I videoen illustreres det bl.a. hvorledes man kan udnytte opslag i netordbøger og få yderligere forslag til morfosyntaktisk annotation i form af frekvensordnede lister. I det viste eksempel viser der sig kun at være én fejl (i den morfosyntaktiske analyse, ingen fejl i lemma)
  4. Indføring af oldislandsk lemma og normaliseret oldislandsk tekstgengivelse. Efter at det moderne islandske lemma og den morfosyntaktiske annotation er skrevet tilbage til transskriptionen, generes teksten til de resterende to kolonner

4.2 Korrekturlæsning og relateret arbejde

Systemet rummer en række funktioner som kan lette korrekturlæsningen. Først og fremmest kan det udnyttes at billedmaterialet er tagget, hvorved enkelte ord kan ekstraheres og (midlertidigt) indsættes i transskriptionen, hvorved korrekturlæsningen lettes betragteligt. (Selve taggingen af billedmaterialet demonstreres ikke på denne side, men der er skrevet et interface til Emacs som letter denne del af arbejdet. Det bør dog effektiviseres med mere automatisk segmentering der kombinerer billeddata og transskriptioner).

Endvidere kan man ved hjælp af søgninger foretage mere systematisk korrekturlæsning ved fx at søge efter visse (problematiske) tegnvarianter eller kombinationer (jf. også næste punkt om KWIC-konkordanser). Dette kan fx også udnyttes ved tagging af eksempelvis palæografiske data (tegnvarianter), da man fra forekomst-bufferen kan foretage et givet antal ændringer som siden kan skrives tilbage til transskriptionen (denne feature demonstreres ikke i videoen).

Et andet hjælpemiddel er opslag i eksisterende udgaver, både i relation til transskription og metadata (personer og steder).

En del af dette er forsøgt illustreret i videoen nedenfor, nærmere bestemt:

  1. korrekturlæsning af et helt diplom ved hjælp af funktionen “vu” (vis-udklip)
  2. systematisk korrekturlæsning vha. søgning (eksemplet viser en søgning på alle ord med det runde r i finalstilling)
  3. opslag i eksisterende udgave

4.3 KWIC-konkordanser og frekvensoversigter

Ud over den form for søgning som er illustreret i foregående afsnit i forbindelse med mere systematisk korrekturlæsning, finder man en række specielle måder, hvorpå man kan søge i og ekstrahere data. Et eksempel på noget sådant er generering af en KWIC-konkordans. En sådan kan ikke mindst være til stor hjælp ved korrekturlæsning af POS-analyser og til at få et overblik over en given konstruktions frekvens og distribution i materialet.

I videoen nedenfor illustreres:

  1. generering af KWIC-konkordans for frasen guðs náð med náð i dativ
  2. generering af ordfrekvensoversigt med angivelse af frekvens for ordformer på faksimilært niveau med sammenligning til forholdene i den resterende del af korpus (der kan i programmet på tilsvarende vis genereres oversigter for andre tekstgengivelsesniveauer og sproglige metadata)
  3. generering af en grafotaktisk oversigt for det runde r (r rotunda). Sådanne oversigter er interessante for bl.a. palæografen, men er også meget anvendelige ved systematisk korrekturlæsning

4.4 Eksport

Forskellige former for eksport kan udnyttes, fx ved korrekturlæsning og når man ønsker bedre overblik over kraftigt annoterede tekster.

I videoen nedenfor demonstreres det hvordan man kan

  1. få overblik ved at eksportere til et mere læsevenligt format. Resultat er en tekst-fil med diplomet eksporteret på faksimilært niveau (andre niveauer kan vælges) med en række metainformationer, bl.a. oplysninger fra den tidligere udgave. Den aktuelle linje i transskriptionen er fremhævet, og fra eksport-bufferen er det muligt at navigere rundt i transskriptionen ved at trykke ENTER på et givet ord, hvorefter man hopper til det pågældende ord i transskriptionen. Desuden er det muligt at se en faksimile af diplomet. Efter selve transskriptionen finder man et ordindeks for det pågældende diplom (ordnet alfabetisk og grammatisk) samt en oversigt over de i diplomet forekommende tegn (ordnet efter faldende frekvens)
  2. genere en udskriftvenlig version af det eksporterede i pdf-form (via LaTeX)
  3. generere et samlet ordindeks (ordnet alfabetisk og grammatisk) for et givet antal diplomer (evt. hele korpus). I eksemplet genereres et ordindeks med oldislandske lemmata og faksimilær tekstgengivelse, men andre kombinationer er mulige

4.5 Udnyttelse af funktionalitet ved skrivning af artikler/bøger

Som et simpelt eksempel på udnyttelse af systemets funktionalitet ved skrivning af en bog kan man i videoen nedenfor se et eksempel på hvordan man kan udarbejde en (del af en) palæografisk analyse af storbogstavet “A” ved at generere visse data ved hjælp af indlejrede funktionskald som kan eksekveres under selve anlysen (eller fx ved eksport af artiklen). Noget sådant kan bruges ved “reproducerbar forskning” (reproducible research). En af de store fordele ved en sådan tilgang er at man mindsker behovet for dobbelt bogføring når noget ændres i transskriptionerne.

Også selve teksten skrives i org-mode, men eksporteres senere til LaTeX for endelig at blive kompileret til en pdf-fil som kan sendes til trykkeriet.

Forfatter: Alex Speed Kjeldsen

Created: 2015-03-18 Wed 06:15

Emacs 25.0.50.1 (Org mode 8.2.10)

Validate