Quelle für Informationen zu eigener Wörterbuch-Extension

Ich möchte ein Wörterbuch mit Spezialbegriffen aus meinem Arbeitsbereich erstellen und das dann als Extension unter einer freien Lizenz allen zur Verfügung stellen. Ich habe schon angefangen Wörter in einem Wörterbuch zu sammeln, nur ab jetzt weiß ich nicht mehr wirklich weiter.

Das Ergebnis soll in etwa sowas sein: German Spellchecker (de-DE frami) » Extensions
Ich habe das entsprechende Tool auch auf github gefunden.

Die Fragen:

  1. Gibt es irgendwo Informationen dazu wie ich das mache?
  2. Was sind die einzelnen Teile (de_DE_frami.aff, hyph_de_DE.dic und th_de_DE_v2.dat - das letzte sieht wie eine Ausnahmeliste aus)?
  3. Gibt es irgendwo Informationen dazu was die einzelnen Segmente in der .dic-Datei machen (zB. /S, /NSm, /Pm, /Nm, /hij, /SJm, /Smij, /NSFm, /EPSTm und so weiter - aus de_DE_frami.dic)?
  4. Gibt es irgendwo Informationen zum gewünschten Formlayout, verwendeten Syntax oder sonstiger DOs und DON’Ts?

Folgende Quellen habe ich schon gefunden (die geben aber nichts her)

Trotz dieser vermutlich komplizierteren und sehr nischigen Frage hoffe ich, dass ihr mir helfen könnt.

Ich schreibe jetzt hier keine Antwort, weil ich kein Linguist bin und die Frage eigentlich in ein Entwicklerforum gehört: Daher nur ein paar Hinweise:

  • LibreOffice benutzt hunspell als Fundament für die Rechtschreibung und die entsprechenden Wörterbücher. Daher wirst Du dich damit beschäftigen müssen.
  • Einen Einstieg findest Du hier: Releases · hunspell/hunspell · GitHub. Interessant dort klingt für mich zuerst mal das Handbuch: File Formats - Hunspell5.pdf
  • Deine Fragen 2. und 3. hängen zusammen. Die /xyz Anhängsel im .dic File sind Wortoptionen deren Bedeutung in der .aff genau spezifiziert sind (Ein Wörterbuch kann ja nur die Grundform eines Wortes enthalten - Flexionen, Pluralbildung, Geschlecht etc. sind Abwandlungen dieser Grundform, deren Bildung über die Optionen und damit die .aff Datei beschrieben wird.

Fortsetzung

(Frag mich aber bitte nicht, wie die Einträge in der .aff Datei zu lesen und zu interpretieren sind. Das erschließt sich mir nicht auf Anhieb)

  • Die Datei th_de_DE_v2.dat ist eine Thesaurus-Datei (Synonym-Wörterbuch - zeigt also für ein bestimmtes Wort andere Wörter mit ähnlicher Bedeutung). Das dürfte für Dein Unterfangen eher von untergeordneter Bedeutung sein.
  • Die hyph_de_DE.dic benannte Datei regelt die Trennung von Worten.
  • Um sich der Antwort zu nähern, wie man Extensions grundsätzlich schreibt und baut, kann Dir eventuell folgender Link als Start dienen: Development/Extension Development - The Document Foundation Wiki

Vielleicht schaust Dir anfangs als Beispiel nur das Wörterbuch <Installationsverzeichnis>/share/wordbook/technical.dic an, das ein rudimentäres technisches Wörterbuch enthält.