GEDCOM/CHAR-Tag: Unterschied zwischen den Versionen
K (stub entfernt, der Artikel hat schon Substanz) |
|||
Zeile 10: | Zeile 10: | ||
=== Deutsche Bezeichnung === | === Deutsche Bezeichnung === | ||
CHAR steht | CHAR steht für Character-set, auf Deutsch: Zeichensatz. | ||
== Verwendung == | == Verwendung == |
Version vom 8. Dezember 2009, 06:35 Uhr
Name und Bedeutung
Tag
CHAR
Formelle Bezeichnung
CHAR
Deutsche Bezeichnung
CHAR steht für Character-set, auf Deutsch: Zeichensatz.
Verwendung
Über das Tag CHAR soll die Kodierung der in der GEDCOM Datei benutzten Buchstaben und Zeichen festgelegt werden.
Formale Beschreibung zulässiger Werte
Basis
Basis dieser Beschreibung: GEDCOM Standard Draft 5.5.1
Der Standard erlaubt die Verwendung folgender Kodierungen:
- 8-Bit ANSEL
- ASCII (USA Version)
- UNICODE
- UTF-8
Standardfall
Jede GEDCOM Datei soll im Header Angaben zur benutzten Kodierung geben. Das Format ist wie folgt:
1 CHAR <Zeichensatzkodierung>
Beispiel:
1 CHAR UTF-8
! Achtung: Es sind nur folgende Kodierungen erlaubt.
<Zeichensatzkodierung> := ANSEL |UTF-8 | UNICODE | ASCII
Optionale Angaben
Versionsangabe
Zusätzlich zur Angabe der Kodierung kann weiterhin die Version des Kodierung angegeben werden, Beispiel:
1 CHAR ANSI
2 VERS 1252
Behandlung/Darstellung schwieriger Situationen
Folgende Themen sind derzeit in der GEDCOM-Arbeitsgruppe von Compgen mit den Programmentwicklern in Diskussion:
Standard Kodierung beim Export
Folgende GEDCOM 5.5.1 konforme Optionen stehen zur Zeit zur Diskussion:
- UTF-8
- Erlaubt die unproblematische Darstellung von internationalen Zeichen
- Wird von einigen Programmen nicht unterstützt
- ASCII
- Zu limitiert
- ANSEL
- Gute Unterstützung von internationalen Zeichen
- Kaum benutzt und geringe Verbreitung
- UNICODE
- Wird im Standard als UCS-2 definiert.
- Gute Unterstützung von internationalen Zeichen, aber nicht so umfangreich wie UTF-8
- Wird von wenigen Programmen unterstützt
Bemerkung: ANSI ist zwar nicht GEDCOM 5.5.1 konform scheint aber heute noch von vielen Genealogieprogrammen als das Standardformat beim Import erwartet zu werden.
Status:
OFFEN
Mindestanforderung von Kodierungen beim Export
Die Frage kam auf, ob und wenn welche Kodierungen ein Programm neben dem Standard-Export noch unterstützen sollte.
- UTF-8
- UNICODE
- ASCII
- ANSEL
- ANSI (nicht GEDCOM 5.5.1 konform)
Lösungsvorschlag:
- Jedes Programm bietet als Standard-Export die Kodierung UTF-8
- Als Option sollte mindestens ein Export mit Kodierung ANSI angeboten werden, (den die meisten Programme heute als Standard haben).
Status:
OFFEN
Mindestanforderung von Kodierungen beim Import
Zu klären ist, welche Kodierungen ein Programm bein Einlesen von Dateien mindestens unterstützen muss:
- UTF-8
- UNICODE
- ANSI
- ASCII
- ANSEL
Lösungsvorschlag:
- Jedes Programm soll mindestens UTF-8 und ANSI beim Import verarbeiten können.
Status:
OFFEN
Benutzung der Byte Order Mark (BOM) bei UNICODE Kodierungen
Folgende Optionen zur Unterstützung der BOM stehen offen:
- BOM muss unterstützt werden.
- BOM kann angegeben werden.
- BOM darf nicht benutzt werden (Probleme bei älteren Programmen).
Status:
OFFEN
Versionsangaben bei UNICODE Kodierungen
Zu klären bleibt, ob eine Versionsangabe bei UNICODE nötig oder optional sein soll.
Status:
OFFEN