python重新编码函数 Python编码问题

python编码转换:ascii和GB2312的问题

供参考。gb312本来就是标准ascii的一种扩充，ascii可以视同为gb312的子集。所以，如果var的值全部是在ascii里面的话，转成gb312后也还是属于ascii，所以使用detect函数的时候，编码还是ascii（当然同时也属于gb312）；如果var的值不是全部在ascii里面的话，语句var = var.decode('ascii')可能会出错。

创新互联建站于2013年开始，先为江岸等服务建站，江岸等地企业，进行企业商务咨询服务。为江岸企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

只要var的值是英文(内码0-127)，转换不转换，都已经是gb2312编码。

python 读取文件时能指定编码吗

代码如下:

import os

import codecs

filenames=os.listdir(os.getcwd())

out=file("name.txt","w")

for filename in filenames:

out.write(filename.decode("gb2312").encode("utf-8"))

out.close()

将执行文件的当前目录及文件名写入到name.txt文件中，以utf-8格式保存

如果采用ANSI编码保存，用如下代码写入即可：

复制代码代码如下:

out.write(filename)

打开文件并写入

引用codecs模块，对该模块目前不了解。在此记录下方法，有空掌握该模块功能及用法。

复制代码代码如下:

import codecs

file=codecs.open("lol.txt","w","utf-8")

file.write(u"我")

file.close()

读取ANSI编码的文本文件和utf-8编码的文件

读取ANSI编码文件

建立一个文件test.txt，文件格式用ANSI，内容为:

复制代码代码如下:

abc中文

用python来读取

复制代码代码如下:

# coding=gbk

print open("Test.txt").read()

结果：abc中文

读取utf-8编码文件（无BOM）

把文件格式改成UTF-8：

复制代码代码如下:

结果：abc涓枃

显然，这里需要解码：

复制代码代码如下:

# -*- coding: utf-8 -*-

import codecs

print open("Test.txt").read().decode("utf-8")

结果：abc中文

读取utf-8编码文件（有BOM）

某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs module定义了这个常量：

复制代码代码如下:

# -*- coding: utf-8 -*-

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

结果：abc中文

在看下面的例子：

复制代码代码如下:

# -*- coding: utf-8 -*-

data = open("name_utf8.txt").read()

u=data.decode("utf-8")

print u[1:]

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进行转换，变成一个unicode字符。该字符不能被打印。所以为了正常显示，采用u[1:]的方式，过滤到第一个字符。

注意：在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。

设置python默认编码

复制代码代码如下:

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

print sys.getdefaultencoding()

今天碰到了 python 编码问题, 报错信息如下

复制代码代码如下:

Traceback (most recent call last):

File "ntpath.pyc", line 108, in join

UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

显然是当前的编码为ascii, 无法解析0xa1(十进制为161, 超过上限128). 进入python console后, 发现默认编码确实是 ascii, 验证过程为:

在python2.6中无法调用sys.setdefaultencoding()函数来修改默认编码，因为python在启动的时候会调用site.py文件，在这个文件中设置完默认编码后会删除sys的setdefaultencoding方法。不能再被调用了. 在确定sys已经导入的情况下, 可以reload sys这个模块之后, 再 sys.setdefaultencoding('utf8')

复制代码代码如下:

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

print sys.getdefaultencoding()

确实有效, 根据 limodou 讲解, site.py 是 python 解释器启动后, 默认加载的一个脚本. 如果使用 python -S 启动的话, 将不会自动加载 site.py.

上面写的挺啰嗦的.

==================================

如何永久地将默认编码设置为utf-8呢? 有2种方法:

==================================

第一个方法不推荐: 编辑site.py, 修改setencoding()函数, 强制设置为 utf-8

第二个方法推荐: 增加一个名为 sitecustomize.py, 推荐存放的路径为 site-packages 目录下

sitecustomize.py 是在 site.py 被import 执行的, 因为 sys.setdefaultencoding() 是在 site.py 的最后删除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

复制代码代码如下:

import sys

sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自动加载, 所以除了设置编码外, 也可以设置一些其他的东西

字符串的编码

复制代码代码如下:

s1='中文'

像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果是unicode编码，有以下三种方式：

复制代码代码如下:

1 s1 = u'中文'

2 s2 = unicode('中文','gbk')

3 s3 = s1.decode('gbk')

unicode是一个内置函数，第二个参数指示源字符串的编码格式。

decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。

encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。

python3.3中文乱码与默认编码格式设定。

python 3和2很大区别就是python本身改为默认用unicode编码。

字符串不再区分"abc"和u"abc", 字符串"abc"默认就是unicode，不再代表本地编码、

由于有这种内部编码，像c#和java类似，再没有必要在语言环境内做类似设置编码，比如“sys.setdefaultencoding”;

也因此也python 3的代码和包管理上打破了和2.x的兼容。2.x的扩展包要适应这种情况改写。

另一个问题是语言环境内只有unicode怎么输出gbk之类的本地编码。

答按惯例都在(序列化)输出时才转换成本地编码。

比如

file.write("GBK的中文".encode("GBK"))

python环境内字符串用str.encode("GBK")方法输出成字节串用于和其他环境交流。

python基础——编码、bytes与str转换及格式化

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

最常用的编码是UTF-8，如果没有特殊业务要求，请牢记仅使用UTF-8编码。

在爬虫中会经常遇见，需要用encode和decode来进行互相转码

str转bytes

注意，含有中文字符的str不能用acsii格式转码

bytes转str

** 程序中经常会遇到个别字符转码不成功而报错，因此在decode方法中需要这个参数errors='ignore'忽略错误的字节

注意格式化的数据格式

python3.4 编码有哪些

Python3中的编码问题前，第一个段落对字节、ASCII与Unicode与UTF-8等进行基本介绍，如果不对这几种编码犯头晕，可直接跳过。

ASCII与Unicode与UTF-8与GBK

首先从老大哥说起。跟很多人一样，大学读了这么久，久仰ASCII编码的大名。要说这个老大哥，我们再先从字节说起。一个字节包括八个比特位，每个比特位表示0或1，一个字节即可表示从00000000到11111111共2^8=256个数字。一个ASCII编码使用一个字节（除去字节的最高位作为作奇偶校验位），ASCII编码实际使用一个字节中的7个比特位来表示字符，共可表示2^7=128个字符。比如那时写C语言的程序，就经常要背下ASCII编码中的01000001（即十进制的65）表示字符‘A’，01000001加上32之后的01100001（即十进制的97）表示字符‘a’。现在打开Python，调用chr和ord函数，我们可以看到Python为我们对ASCII编码进行了转换。

第一个00000000表示空字符，因此ASCII编码实际上只包括了

字母、标点符号、特殊符号等共127个字符。因为ASCII是在美国出生的，对于由字母组成单词进而用单词表达的英文来说也是够了。但是中国人、日本人、

韩国人等其他语言的人不服了。中文是一个字一个字，ASCII编码用上了浑身解数256个字符都不够用。

因此后来出现了Unicode编码。Unicode编码通常由两个字节组成，共表示256*256个字符，即所谓的UCS-2。某些偏僻字还会用到四个字节，即所谓的UCS-4。也就是说Unicode标准也还在发展。但UCS-4出现的比较少，我们先记住：最原始的ASCII编码使用一个字节编码，但由于语言差异字符众多，人们用上了两个字节，出现了统一的、囊括多国语言的Unicode编码。

在Unicode中，原本ASCII中的127个字符只需在前面补一个全零的字节即可，比如前文谈到的字符‘a’：01100001，在Unicode中变成了00000000 01100001。不久，美国人不开心了，吃上了世界民族之林的大锅饭，原本只需一个字节就能传输的英文现在变成两个字节，非常浪费存储空间和传输速度。

人们再发挥聪明才智，于是出现了UTF-8编码。因为针对的是空间浪费问题，因此这种UTF-8编码是可变长短的，从英文字母的一个字节，到中文的通常的三个字节，再到某些生僻字的六个字节。解决了空间问题，UTF-8编码还有一个神奇的附加功能，那就是兼容了老大哥的ASCII编码。一些老古董软件现在在UTF-8编码中可以继续工作。

注意除了英文字母相同，汉字在Unicode编码和UTF-8编码中通常是不同的。比如汉字的‘中’字在Unicode中是01001110

00101101，而在UTF-8编码中是11100100 10111000

10101101。

我们祖国母亲自然也有自己的一套标准。那就是GB2312和GBK。当然现在挺少看到。通常都是直接使用UTF-8。记得我唯一一次看到GB编码的网页，是一个成人网站。

Python3中的默认编码

Python3中默认是UTF-8，我们通过以下代码：

import sys

sys.getdefaultencoding()

可查看Python3的默认编码。

Python3中的encode和decode

Python3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中，这两个函数用的熟练非常有好处。我的理解，encode的作用，使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反，把字节形式的字符转换成我们看的懂的、直观的、“人模人样”的形式。如下图。

\x表示后面是十六进制，\xe4\xb8\xad即是二进制的11100100 10111000

10101101。也就是说汉字‘中’encode成字节形式，是11100100 10111000

10101101。同理，我们拿11100100

10111000 10101101也就是\xe4\xb8\xad来decode回来，就是汉字‘中’。完整的应该是b'\xe4\xb8\xad'，在Python3中，以字节形式表示的字符串则必须加上前缀b，也就是写成上文的b'xxxx'形式。

前文说的Python3的默认编码是UTF-8，所以我们可以看到，Python处理这些字符的时候是以UTF-8来处理的。因此从上图可以看到，就算我们通过encode('utf-8')特意把字符encode为UTF-8编码，出来的结果还是相同：b'\xe4\xb8\xad'。

明白了这一点，同时我们知道UTF-8兼容ASCII，我们可以猜想大学时经常背诵的‘A’对应ASCII中的65，在这里是不是也能正确的decode出来呢。十进制的65转换成十六进制是41，我们尝试下：

b'\x41'.decode()

结果如下。果然是字符‘A’

Python3中的编码转换

据说字符在计算机的内存中统一是以Unicode编码的。只有在字符要被写进文件、存进硬盘或者从服务器发送至客户端（例如网页前端的代码）时会变成utf-8。但其实我比较关心怎么把这些字符以Unicode的字节形式表现出来，露出它在内存中的庐山正面目的。这里有个照妖镜：

xxxx.encode/decode('unicode-escape')

输出如下

b'\\u4e2d'还是b'\u4e2d，一个斜杠貌似没影响。同时可以发现在shell窗口中，直接输'\u4e2d'和输入b'\u4e2d'.decode('unicode-escape')是相同的，都会打印出汉字‘中’，反而是'\u4e2d'.decode('unicode-escape')会报错。说明说明Python3不仅支持Unicode，而且一个‘\uxxxx’格式的Unicode字符可被辨识且被等价于str类型。

如果我们知道一个Unicode字节码，怎么变成UTF-8的字节码呢。懂了以上这些，现在我们就有思路了，先decode，再encode。代码如下：

xxx.decode('unicode-escape').encode()

测试如下：

可以看到最后输出的UTF-8字节与上面的相同。尝试成功。所以其他的编码之间的转换，大概也是如此。

最后的扩展

还记得刚刚那个ord吗。时代变迁，老大哥ASCII被人合并，但ord还是有用武之地。试试ord('中')，输出结果是20013。20013是什么呢，我们再试试hex(ord('中'))，输出结果是'0x4e2d'，也就是20013是我们在上文见面了无数次的x4e2d的十进制值。这里说下hex，是用来转换成十六进制的函数，学过单片机的人对hex肯定不会陌生。

最后的扩展，在网上看到的他人的问题。我们写下类似于'\u4e2d'的字符，Python3知道我们想表达什么。但是让Python读取某个文件的时候出现了'\u4e2d'，是不是计算机就不认识它了呢？后来下文有人给出了答案。如下：

import codecs

file = codecs.open( "a.txt", "r", "unicode-escape" )

u = file.read()

print(u)

分享文章：python重新编码函数 Python编码问题
浏览地址：http://scjbc.cn/article/doohphi.html

python重新编码函数 Python编码问题

python编码转换:ascii和GB2312的问题

python 读取文件时能指定编码吗

python3.3中文乱码与默认编码格式设定。

python基础——编码、bytes与str转换及格式化

python3.4 编码有哪些

其他资讯