有时候在展示或者传输二进制数据的时候因为编码格式的不同可能会产生乱码,或者遇到无法解析的问题。
比如本人之前在做一个要将python3获取的图片传到python2环境下处理的需求(见上篇博文),
需要将图片的二进制流转成字符串,传到redis里,然后python2的环境的客户端再读出来。
因为图片数据是二进制流,直接用str进行转换就会遇到编码错误的问题,这时就需要通过base64对二进制数据做一个预处理,然后再转字符串就可以了。
Base64编码的思想是是采用64个基本的 ASCII码字符对数据进行重新编码。
它将需要编码的数据拆分成字节数组。以3个字节为一组。按顺序排列24 位数据,再把这24位数据分成4组,即每组6位。
再在每组的的最高位前补两个0凑足一个字节。这样就把一个3字节为一组的数据重新编码成了4个字节。
当所要编码的数据的字节数不是3的整倍数,也就是说在分组时最后一组不够3个字节。这时在最后一组填充1到2个0字节。并在最后编码完成后在结尾添加1到2个 “=”。
将对ABC进行BASE64编码:
1、首先取ABC对应的ASCII码值。A(65)B(66)C(67);
2、再取二进制值A(01000001)B(01000010)C(01000011);
3、然后把这三个字节的二进制码接起来(010000010100001001000011);
4、 再以6位为单位分成4个数据块,并在最高位填充两个0后形成4个字节的编码后的值,(00010000)(00010100)(00001001)(00000011),其中蓝色部分为真实数据;
5、再把这四个字节数据转化成10进制数得(16)(20)(9)(3);
6、最后根据BASE64给出的64个基本字符表,查出对应的ASCII码字符(Q)(U)(J)(D),这里的值实际就是数据在字符表中的索引。
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/
解码就很简单了,按照规则逆推就可以了。