C#字符串编码转换

发布时间：2010年07月07日浏览次数：1182 次

以下程序对不对我是新手不知道，但我看另外一种方法，放在后面，供大家思考。
前面做一个基于sybase的mis系统，由于sybase的后台是cp850编码，而.net平台不支持cp850编码。所以在程序中所有从数据库读出的中文都显示为'?'。
于是考虑在.net 平台中转换字符编码。于是查看了.net中字符编码的类System.Text.Encoding
里面支持的字符集编码有ibm850,没有cp850,后来查看资料才知道原来这两个名字指的是同一种编码规范。
于是开始进行编码转换，首先找到一个java的程序：
public String CP850ToGB2312(String str)
{
try
{
byte[] temp = str.getBytes("cp850");
String result = new String(temp, "gb2312");
return result;
}
catch (UnsupportedEncodingException ex)
{ return null; }
}
public String GB2312ToCP850(String str)
{
try
{
byte[] temp = str.getBytes("gb2312");
String result = new String(temp, "cp850");
return result;
}
catch (UnsupportedEncodingException ex)
{
return null;
}
}
然后在根据查找的System.Text.Encoding类的属性，方法写了如下的转换程序：
public string UTF8ToGB2312(string str)
{
try
{
Encoding utf8 = Encoding.GetEncoding(65001);
Encoding gb2312 = Encoding.GetEncoding("gb2312");//Encoding.Default ,936
byte[] temp = utf8.GetBytes(str);
byte[] temp1 = Encoding.Convert(utf8, gb2312, temp);
string result = gb2312.GetString(temp1);
return result;
}
catch (Exception ex)//(UnsupportedEncodingException ex)
{
MessageBox.Show(ex.ToString());
return null;
}
}
public string GB2312ToUTF8(string str)
{
try
{
Encoding uft8 = Encoding.GetEncoding(65001);
Encoding gb2312 = Encoding.GetEncoding("gb2312");
byte[] temp = gb2312.GetBytes(str);
MessageBox.Show("gb2312的编码的字节个数：" + temp.Length);
for (int i = 0; i < temp.Length; i++)
{
MessageBox.Show(Convert.ToUInt16(temp[i]).ToString());
}
byte[] temp1 = Encoding.Convert(gb2312, uft8, temp);
MessageBox.Show("uft8的编码的字节个数：" + temp1.Length);
for (int i = 0; i < temp1.Length; i++)
{
MessageBox.Show(Convert.ToUInt16(temp1[i]).ToString());
}
string result = uft8.GetString(temp1);
return result;
}
catch (Exception ex)//(UnsupportedEncodingException ex)
{
MessageBox.Show(ex.ToString());
return null;
}
}
主要使用的就是获取编码方式的类对象，
Encoding utf8 = Encoding.GetEncoding(65001);//使用code page
Encoding gb2312 = Encoding.GetEncoding("gb2312");//通过bodyname
获取字符编码字节序列：byte[] temp=utf8.GetBytes(str);
编码方式转换：byte[] temp1=Encoding.Convert(utf8, gb2312, temp);
获取编码的字符串：string str1=gb2312.GetString(temp1);
这样即完成了字符编码的转换。
Encoding.Default在简体中文os中一般是gb2312格式
网上流传的第二种方法：
在使用MySql时会遇到中文乱码的问题就此写下面两个函数
* 在写入数据库和从数据库读出时将编码改变
* author：alice
* date ：2006/1/25
*/
//写入数据库时进行转换
public string GB2312_ISO8859(string write)
{
//声明字符集
System.Text.Encoding iso8859, gb2312;
//iso8859
iso8859 = System.Text.Encoding.GetEncoding("iso8859-1");
//国标2312
gb2312 = System.Text.Encoding.GetEncoding("gb2312");
byte[] gb;
gb = gb2312.GetBytes(write);
//返回转换后的字符
return iso8859.GetString(gb);
}
//读出时进行转换
public string ISO8859_GB2312(string read)
{
//声明字符集
System.Text.Encoding iso8859,gb2312;
//iso8859
iso8859 = System.Text.Encoding.GetEncoding("iso8859-1");
//国标2312
gb2312 = System.Text.Encoding.GetEncoding("gb2312");
byte[] iso;
iso = iso8859.GetBytes(read);
//返回转换后的字符
return gb2312.GetString(iso);
}
大家看出来了吗？两种方法区别仅在于第二种方法引未用convert函数，本人呢，偏向第二种方法。因为觉得测试的时候第一种方法好像不可逆。如果有人能详细解释说明，请给我留言，感激不尽。
补充下：经过大半天的测试观察，终于好像明白点了。原因如下：上面两个字符串转换的方法，应该说都是正确的，只是各有不同的用处而矣。以前理解错了。具体是怎么回事不好说清，但可以提示的是，上面一种方法，转换字符串是为了显示，而下面一种方法，转换字符串仅仅是为了存储。而不是用来显示的。

免责声明：本站相关技术文章信息部分来自网络，目的主要是传播更多信息，如果您认为本站的某些信息侵犯了您的版权，请与我们联系，我们会即时妥善的处理，谢谢合作！