GEDCOM/CHAR-Tag

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

Name und Bedeutung

Tag

CHAR

Formelle Bezeichnung

CHAR

Deutsche Bezeichnung

CHAR steht für Character-set, auf Deutsch: Zeichensatz.

Verwendung

Über das tag CHAR soll die Kodierung der in der GEDCOM Datei benutzten Buchstaben und Zeichen festgelegt werden.

Formale Beschreibung zulässiger Werte

Basis

Basis dieser Beschreibung: GEDCOM Standard Draft 5.5.1

Der Standard erlaubt die Verwendung folgender Kodierungen:

- 8-Bit ANSEL

- ASCII (USA Version)

- UNICODE

- UTF-8

Standardfall

Jede GEDCOM Datei soll im Header Angaben zur benutzten Kodierung geben. Das Format ist wie folgt:

1 CHAR <Zeichensatzkodierung>

Beispiel:

1 CHAR UTF-8

! Achtung: Es sind nur folgende Kodierungen erlaubt.

<Zeichensatzkodierung> := ANSEL |UTF-8 | UNICODE | ASCII

Optionale Angaben

Versionsangabe

Zusätzlich zur Angabe der Kodierung kann weiterhin die Version der Kodierung angegeben werden, Beispiel:

1 CHAR ANSI
2 VERS 1252

Behandlung/Darstellung schwieriger Situationen

Folgende Themen sind derzeit in der GEDCOM-Arbeitsgruppe von Compgen mit den Programmentwicklern in Diskussion:

Standard Kodierung beim Export

Folgende GEDCOM 5.5.1 konforme Optionen stehen zur Zeit zur Diskussion:

  • UTF-8
    • Erlaubt die unproblematische Darstellung von internationalen Zeichen
    • Wird von einigen Programmen nicht unterstützt
  • ASCII
    • Zu limitiert
  • ANSEL
    • Gute Unterstützung von internationalen Zeichen
    • Kaum benutzt und geringe Verbreitung
  • UNICODE
    • Wird im Standard als UCS-2 definiert.
    • Gute Unterstützung von internationalen Zeichen, aber nicht so umfangreich wie UTF-8
    • Wird von wenigen Programmen unterstützt

Bemerkung: ANSI ist zwar nicht GEDCOM 5.5.1 konform, scheint aber heute noch von vielen Genealogieprogrammen als das Standardformat beim Import erwartet zu werden.

Status:

OFFEN

Mindestanforderung von Kodierungen beim Export

Die Frage kam auf, ob und wenn welche Kodierungen ein Programm neben dem Standard-Export noch unterstützen sollte.

  • UTF-8
  • UNICODE
  • ASCII
  • ANSEL
  • ANSI (nicht GEDCOM 5.5.1 konform)

Lösungsvorschlag:

  • Jedes Programm bietet als Standard-Export die Kodierung UTF-8
  • Als Option sollte mindestens ein Export mit Kodierung ANSI angeboten werden, (den die meisten Programme heute als Standard haben).

Status:

OFFEN

Mindestanforderung von Kodierungen beim Import

Zu klären ist, welche Kodierungen ein Programm bein Einlesen von Dateien mindestens unterstützen muss:

  • UTF-8
  • UNICODE
  • ANSI
  • ASCII
  • ANSEL

Lösungsvorschlag:

  • Jedes Programm soll mindestens UTF-8 und ANSI beim Import verarbeiten können.

Status:

OFFEN

Benutzung der Byte Order Mark (BOM) bei UNICODE Kodierungen

Folgende Optionen zur Unterstützung der BOM stehen offen:

  • BOM muss unterstützt werden.
  • BOM kann angegeben werden.
  • BOM darf nicht benutzt werden (Probleme bei älteren Programmen).

Status:

OFFEN

Versionsangaben bei UNICODE Kodierungen

Zu klären bleibt, ob eine Versionsangabe bei UNICODE nötig oder optional sein soll.

Status:

OFFEN