005集——shp格式数据转换乱码问题——arcgis

本文介绍: 如果shapefile文件缺失 LDID 或者.CPG 文件，那么编码类型就会使用OEM编码类型，也就是操作系统默认编码类型（操作系统默认编码是个很神奇的编码，变数很多，比如：ANSI、mul-Language多国语言版，还有不同操作系统、同一操作系统不同编码类型的区别）。但是，shapefile的拥趸说“我的需求是恢复以前存储4个汉字的shapefile，我不想用地理数据库，我希望得到老版本的shapefile的结果，我不在乎shapefile的编码类型是什么 ……”好吧，方法还是有的。

shp数据格式与其他数据格式转换过程中会遇到乱码等问题，原因如下：

在Shapefile头文件（dBase Header）中，一般会包含字符编码信息，这个信息称为 LDID （ Language Driver ID）。在使用arcgis 打开Shapefile时，会读取LDID 存储的字符编码信息，再打开 shapefile。

在Shapefile子文件中，有时我们还会发现同名 *.CPG 文件，该文件中也存储了字符编码信息，用记事本打开该文件，可以看到 UTF-8或者OEM字样。

二者被ArcGIS 识别的优先顺序是：LDID 优先于 CPG文件。也就是说，如果在Shapefile头文件中没有约定字符编码方式时，那么ArcGIS会使用.CPG设置的字符编码方式打开shapefile。

如果shapefile文件缺失 LDID 或者.CPG 文件，那么编码类型就会使用OEM编码类型，也就是操作系统默认编码类型（操作系统默认编码是个很神奇的编码，变数很多，比如：ANSI、mul-Language多国语言版，还有不同操作系统、同一操作系统不同编码类型的区别）。换句话说，此时操作系统使用什么样的编码方式，那么Shapefile也会使用相同的编码方式。如果Shapefile使用的编码方式与操作系统默认编码方式不一致，那么就会出现乱码。

一般而言， shapefiles 和 dBASE 文件都会存储字符编码信息，但有些程序 OEM 文件没有包含字符编码页信息（例如： Microsoft Access 2000 and Excel 2000），程序会给没有编码页信息的文件设置为操作系统默认OEM 编码，字符就会出现乱码。