Das -Format-Format ist ein beliebtes Geodatenvektordatenformat für Geoinformationssystemsysteme (GIS). Esri wurde als eine (meist) offene Spezifikation für die Interoperabilität von Daten zwischen Esri und anderen GIS-Softwareprodukten entwickelt und reguliert. [1] Das Shapefile-Format kann Vektormerkmale räumlich beschreiben: Punkte, Linien und Polygone, die beispielsweise Wasser darstellen Brunnen, Flüsse und Seen. Jeder Artikel hat normalerweise Attribute, die ihn beschreiben, wie Name oder Temperatur .
Überblick [ edit ]
Das Shapefile-Format ist ein digitales Vektorspeicherformat zum Speichern von geometrischen Positionen und zugehörigen Attributinformationen. Dieses Format ist nicht in der Lage, topologische Informationen zu speichern. Das Shapefile-Format wurde Anfang der 1990er Jahre mit ArcView GIS Version 2 eingeführt. Es ist jetzt möglich, geografische Datensätze im Shapefile-Format mit einer Vielzahl von Software zu lesen und zu schreiben.
Das Shapefile-Format ist einfach. Es speichert die Daten als primitive geometrische Formen wie Punkte, Linien und Polygone. Diese Formen zusammen mit Datenattributen, die mit jeder Form verknüpft sind, erzeugen die Darstellung der geografischen Daten.
Der Begriff "Shapefile" ist weit verbreitet, ist jedoch irreführend, da das Format aus einer Sammlung von Dateien mit einem gemeinsamen Dateinamenpräfix besteht, die im gleichen Verzeichnis gespeichert sind. Die drei obligatorischen Dateien haben Dateinamenserweiterungen .shp .shx und .dbf . Das eigentliche Shapefile bezieht sich speziell auf die Datei .shp ist jedoch allein für die Verteilung unvollständig, da die anderen unterstützenden Dateien erforderlich sind. Ältere GIS-Software kann erwarten, dass das Dateinamenpräfix auf acht Zeichen beschränkt ist, um der Dateinamenskonvention von DOS 8.3 zu entsprechen. Moderne Softwareanwendungen akzeptieren jedoch Dateien mit längeren Namen.
- Obligatorische Dateien
- .shp - Formformat; die Feature-Geometrie selbst
- .shx - Formindexformat; ein Positionsindex der Feature-Geometrie, um schnell vorwärts und rückwärts suchen zu können
- .dbf - Attributformat; säulenartige Attribute für jede Form im dBase-IV-Format
- Weitere Dateien
In jeder der Dateien .shp .shx und .dbf Die Formen in jeder Datei entsprechen einander in der Reihenfolge (dh die erste Aufzeichnung in der Datei .shp entspricht der ersten Aufzeichnung in der Datei .shx und .dbf.) Dateien usw.). Die Dateien .shp und .shx haben verschiedene Felder mit unterschiedlichen Endianzen. Daher muss ein Implementierer der Dateiformate sehr sorgfältig darauf achten, die Endianness jedes Feldes zu respektieren und richtig zu behandeln.
Shapefile-Formformat ( .shp ) [ edit ]
Die Hauptdatei ( .shp ) enthält die Geometriedaten. Die Binärdatei besteht aus einem einzelnen Header mit fester Länge, gefolgt von einem oder mehreren Datensätzen mit variabler Länge. Jeder der Datensätze mit variabler Länge enthält eine Datensatzkopfkomponente und eine Datensatzinhaltkomponente. Eine ausführliche Beschreibung des Dateiformats finden Sie in der ESRI Shapefile Technical Description . [1] Dieses Format sollte nicht mit dem AutoCAD-Formzeichensatzquellformat verwechselt werden, das das .shp hat. Erweiterung.
Die Anordnung der Koordinatendaten in der 2D-Achse nimmt ein kartesisches Koordinatensystem an, wobei die Reihenfolge (X Y) oder (Easting Northing) verwendet wird. Diese Achsenordnung ist für geographische Koordinatensysteme, in denen die Reihenfolge ähnlich ist (Längengrad), konsistent. Geometrien können auch 3- oder 4-dimensionale Z- und M-Koordinaten für Elevation und Messung unterstützen. Eine Z-Dimension speichert die Höhe jeder Koordinate im 3D-Raum, die zur Analyse oder zur Visualisierung von Geometrien mithilfe der 3D-Computergrafik verwendet werden kann. Die benutzerdefinierte M-Dimension kann für eine von vielen Funktionen verwendet werden, z. B. zum Speichern von linearen Referenzwerten oder der relativen Zeit eines Features im 4D-Raum.
Der Header der Hauptdatei ist auf 100 Byte festgelegt und enthält 17 Felder. neun 4-Byte-Ganzzahlfelder (32-Bit-Ganzzahl mit Vorzeichen oder Int32), gefolgt von acht 8-Byte-Gleitkommafeldern (doppelt) mit Vorzeichen:
Bytes | Typ | Endianness | Verwendung |
---|---|---|---|
0–3 | int32 | big | Dateicode (immer Hexadezimalwert 0x0000270a) |
4–23 | int32 | groß | Nicht verwendet; fünf uint32 |
24–27 | int32 | big | Dateigröße (in 16-Bit-Wörtern einschließlich Header) |
28–31 | int32 | kleine | Version |
32–35 | int32 | wenig | Formtyp (siehe Referenz unten) |
36–67 | double | little | Minimum Bounding-Rechteck (MBR) aller im Datensatz enthaltenen Formen; vier Doubles in der folgenden Reihenfolge: min X, min Y, max X, max Y |
68–83 | doppelt | wenig | Bereich von Z; zwei Doubles in der folgenden Reihenfolge: min Z, max Z |
84–99 | doppelt | wenig | Bereich von M; zwei Doubles in der folgenden Reihenfolge: min M, max M |
Die Datei enthält dann eine beliebige Anzahl von Datensätzen mit variabler Länge. Jedem Datensatz wird ein Datensatzkopf mit 8 Byte vorangestellt:
Bytes | Typ | Endianness | Verwendung |
---|---|---|---|
0–3 | int32 | groß | Datensatznummer (1-basiert) |
4–7 | int32 | big | Datensatzlänge (in 16-Bit-Wörtern) |
Nach dem Datensatzkopf befindet sich der tatsächliche Datensatz:
Bytes | Typ | Endianness | Verwendung |
---|---|---|---|
0–3 | int32 | wenig | Formtyp (siehe Referenz unten) |
4– | - | - | Forminhalt |
Der Datensatzinhalt mit variabler Länge hängt vom Formtyp ab, der entweder der im Dateikopf angegebene Formtyp oder Null sein muss. Im Folgenden sind die möglichen Formtypen aufgeführt:
Wert | Formtyp | Felder |
---|---|---|
0 | Nullform | Keine |
1 | Punkt | X, Y |
3 | Polylinie | MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte |
5 | Polygon | MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte |
8 | MultiPoint | MBR, Anzahl der Punkte, Punkte |
11 | Punkt Z | X, Y, Z Optional : M |
13 | PolylineZ | Obligatorisch : MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte, Z-Bereich, Z-Array Optional : M-Bereich, M-Array |
15 | PolygonZ | Obligatorisch : MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte, Z-Bereich, Z-Array Optional : M-Bereich, M-Array |
18 | MultiPointZ | Obligatorisch : MBR, Anzahl der Punkte, Punkte, Z-Bereich, Z-Array Optional : M-Bereich, M-Array |
21 | PointM | X, Y, M |
23 | PolylineM | Obligatorisch : MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte Optional : M-Bereich, M-Array |
25 | PolygonM | Obligatorisch : MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Punkte Optional : M-Bereich, M-Array |
28 | MultiPointM | Obligatorisch : MBR, Anzahl der Punkte, Punkte Optionale Felder : M-Bereich, M-Array |
31 | MultiPatch | Obligatorisch : MBR, Anzahl der Teile, Anzahl der Punkte, Teile, Teilearten, Punkte, Z-Bereich, Z-Array Optional : M-Bereich, M-Array |
Shapefile-Formindexformat ( .shx ) [ edit ]
Der Index enthält den gleichen 100-Byte-Header wie .shp ] Datei, gefolgt von einer beliebigen Anzahl von Datensätzen mit einer festen Länge von 8 Byte, die aus den folgenden zwei Feldern bestehen:
Bytes | Typ | Endianness | Verwendung |
---|---|---|---|
0–3 | int32 | groß | Datensatzversatz (in 16-Bit-Wörtern) |
4–7 | int32 | big | Datensatzlänge (in 16-Bit-Wörtern) |
Mit diesem Index ist es möglich, im Shapefile rückwärts zu suchen, indem zuerst im Formindex (was möglich ist, weil er Datensätze mit fester Länge verwendet) rückwärts gesucht wird, dann der Datensatzversatz gelesen und dieser Versatz in verwendet wird suchen Sie die richtige Position in der Datei .shp . Es ist auch möglich, eine beliebige Anzahl von Datensätzen mit derselben Methode vorwärts zu suchen.
Shapefile-Attributformat ( .dbf ) [ edit ]
In dieser Datei werden die Attribute für jede Form gespeichert. Es verwendet das dBase IV-Format. Ein alternatives Format, das ebenfalls verwendet werden kann, ist das xBase-Format, das eine offene Spezifikation hat und in Open-Source-Shapefile-Bibliotheken wie der Shapefile-C-Bibliothek verwendet wird. [2]
Die Namen und Die Werte der Attribute sind nicht standardisiert und unterscheiden sich je nach Quelle des Shapefiles.
Shapefile-Format für räumliche Indexe ( .sbn ) [ edit ]
Dies ist eine binäre räumliche Indexdatei, die nur von Esri-Software verwendet wird. Das Format wird von Esri nicht dokumentiert. Es wurde jedoch von der Open-Source-Community zurückentwickelt und dokumentiert [3] . Es wird derzeit nicht von anderen Anbietern implementiert. Die Datei .sbn ist nicht unbedingt erforderlich, da die Datei .shp alle Informationen enthält, die zum erfolgreichen Parsen der räumlichen Daten erforderlich sind.
Einschränkungen [ edit ]
Topologie und das Shapefile-Format [ edit ]
Das Shapefile-Format kann nicht topologisch gespeichert werden Information. Die ESRI ArcInfo-Coverages und Personal / File / Enterprise-Geodatabases können Feature-Topologie speichern.
Räumliche Darstellung [ edit ]
Die Kanten einer Polylinie oder eines Polygons setzen sich aus Punkten zusammen. Der Abstand der Punkte bestimmt implizit die Skala, bei der das Merkmal visuell nützlich ist. Ein Überschreiten dieser Skala führt zu einer gezackten Darstellung. Zusätzliche Punkte wären erforderlich, um glatte Formen bei größeren Maßstäben zu erreichen. Für Features, die durch glatte Kurven besser dargestellt werden, erfordert die Polygondarstellung viel mehr Datenspeicherung als beispielsweise Splines, die glatt variierende Formen effizient erfassen können. Keiner der Shapefile-Formattypen unterstützt Splines.
Datenspeicherung [ edit ]
Die Größe der beiden Dateien .shp und .dbf darf 2 GB (oder 2) nicht überschreiten 31 Bytes) - bestenfalls etwa 70 Millionen Punktmerkmale. [4] Die maximale Anzahl an Merkmalen für andere Geometrietypen hängt von der Anzahl der verwendeten Scheitelpunkte ab.
Das Attributdatenbankformat für die Komponentendatei .dbf basiert auf einem älteren dBase-Standard. Dieses Datenbankformat hat eine Reihe von Einschränkungen: [4]
- Während der aktuelle dBase-Standard und GDAL / OGR (die Haupt-Open-Source-Softwarebibliothek zum Lesen und Schreiben von Shapefile-Format-Datasets) Nullwerte unterstützen, stellt die ESRI-Software diese Werte als Nullen dar. Ein sehr ernstes Problem bei der Analyse quantitativer Daten, da Repräsentation und Statistik möglicherweise verzerrt werden, wenn Nullmengen als Null dargestellt werden.
- Unzureichende Unterstützung für Unicode-Feldnamen oder Feldspeicher
- Die maximale Länge von Feldnamen beträgt 10 Zeichen.
- Maximal Anzahl der Felder ist 255
- Unterstützte Feldtypen sind: Gleitkomma (13 Zeichen), Ganzzahl (4 oder 9 Zeichen), Datum (kein Zeitspeicher; 8 Zeichen) und Text (maximal 254 Zeichen). 19659174] Gleitkommazahlen können Rundungsfehler enthalten, da sie als Text gespeichert werden
Formtypen mischen [ edit ]
Da der Formtyp vor jedem Geometriedatensatz steht, a sh apefile ist physisch in der Lage, eine Mischung verschiedener Formtypen zu speichern. In der Spezifikation heißt es jedoch: "Alle Nicht-Null-Formen in einem Shapefile müssen denselben Formtyp haben." Daher muss die Möglichkeit, Formtypen zu mischen, auf das Einfügen von Nullformen mit dem einzelnen Formtyp beschränkt sein, der im Header der Datei angegeben ist. Ein Shapefile darf zum Beispiel nicht gleichzeitig Polylinien- und Polygondaten enthalten, und die Beschreibungen für einen Brunnen (Punkt), einen Fluss (Polylinie) und einen See (Polygon) werden in drei separaten Datensätzen gespeichert.
No comments:
Post a Comment