GEDCOM/CHAR-Tag
Name und Bedeutung
Tag
CHAR
Formelle Bezeichnung
CHAR
Deutsche Bezeichnung
CHAR steht für Character-set, auf Deutsch: Zeichensatz.
Verwendung
Über das tag CHAR soll die Kodierung der in der GEDCOM Datei benutzten Buchstaben und Zeichen festgelegt werden.
Formale Beschreibung zulässiger Werte
Basis
Basis dieser Beschreibung: GEDCOM Standard Draft 5.5.1
Der Standard erlaubt die Verwendung folgender Kodierungen:
- 8-Bit ANSEL
- ASCII (USA Version)
- UNICODE
- UTF-8
Standardfall
Jede GEDCOM Datei soll im Header Angaben zur benutzten Kodierung geben. Das Format ist wie folgt:
1 CHAR <Zeichensatzkodierung>
Beispiel:
1 CHAR UTF-8
! Achtung: Es sind nur folgende Kodierungen erlaubt.
<Zeichensatzkodierung> := ANSEL |UTF-8 | UNICODE | ASCII
Optionale Angaben
keine
Behandlung/Darstellung schwieriger Situationen
Folgende Themen sind derzeit in der GEDCOM-Arbeitsgruppe von Compgen mit den Programmentwicklern in Diskussion:
Standard Kodierung beim Export
Folgende GEDCOM 5.5.1 konforme Optionen stehen zur Zeit zur Diskussion:
- UTF-8
- Erlaubt die unproblematische Darstellung von internationalen Zeichen
- Wird von einigen Programmen nicht unterstützt
- ASCII
- Zu limitiert
- ANSEL
- Gute Unterstützung von internationalen Zeichen
- Kaum benutzt und geringe Verbreitung
- UNICODE
- Wird im Standard als UCS-2 definiert.
- Gute Unterstützung von internationalen Zeichen, aber nicht so umfangreich wie UTF-8
- Wird von wenigen Programmen unterstützt
Bemerkung: ANSI ist zwar nicht GEDCOM 5.5.1 konform, scheint aber heute noch von vielen Genealogieprogrammen als das Standardformat beim Import erwartet zu werden.
Status:
OFFEN
Mindestanforderung zu den optionalen Kodierungen beim Export
Die Frage kam auf, ob neben der als Standard festgelegte Kodierung weitere Kodierungen als Alternativen angeboten werden sollen.
Falls weitere Kodierungen angeboten werden sollen ist außerdem zu entscheiden welche alternative(n) Kodierung(en) angeboten werden muß/müssen.
- UTF-8
- UNICODE
- ASCII
- ANSEL
- ANSI (nicht GEDCOM 5.5.1 konform)
Lösungsvorschlag:
- Jedes Programm bietet als Standard-Export die Kodierung UTF-8.
- Als Option sollte mindestens ein Export mit Kodierung ANSI angeboten werden, (den die meisten Programme heute als Standard haben).
Status:
OFFEN
Mindestanforderung von Kodierungen beim Import
Zu klären ist, welche Kodierungen ein Programm bein Einlesen von Dateien mindestens unterstützen muss:
- UTF-8
- UNICODE
- ANSI
- ASCII
- ANSEL
Lösungsvorschlag:
- Jedes Programm soll mindestens UTF-8 und ANSI beim Import verarbeiten können.
Status:
OFFEN
Benutzung der Byte Order Mark (BOM) bei UNICODE Kodierungen
Folgende Optionen zur Unterstützung der BOM stehen offen:
- BOM muss unterstützt werden.
- BOM kann angegeben werden.
- BOM darf nicht benutzt werden (Probleme bei älteren Programmen).
Status:
OFFEN
Versionsangaben bei UNICODE Kodierungen
Zu klären bleibt, ob eine Versionsangabe bei UNICODE nötig oder optional sein soll.
Status:
OFFEN