散文網(wǎng) » 科技 »學(xué)習(xí) » Java入門(mén)教程-Java字符編碼原理

Java入門(mén)教程-Java字符編碼原理

2018-10-24 09:44 作者:動(dòng)力節(jié)點(diǎn) 0人讀過(guò) | 我要投稿

Java開(kāi)發(fā)中，常常會(huì)遇到亂碼的問(wèn)題，一旦遇到這種問(wèn)題，常常比較煩惱，大家都不愿意承認(rèn)是自己的代碼有問(wèn)題。其實(shí)編碼問(wèn)題并沒(méi)有那么神秘，那么不可捉摸，搞清Java的編碼本質(zhì)過(guò)程就真相大白了。

其實(shí)，編碼問(wèn)題存在兩個(gè)方面：JVM之內(nèi)和JVM之外。

?

1、Java文件編譯后形成class

這里Java文件的編碼可能有多種多樣，但Java編譯器會(huì)自動(dòng)將這些編碼按照J(rèn)ava文件的編碼格式正確讀取后產(chǎn)生class文件，這里的class文件編碼是Unicode編碼（具體說(shuō)是UTF-16編碼）。

?因此，在Java代碼中定義一個(gè)字符串：

String s="漢字";

不管在編譯前java文件使用何種編碼，在編譯后成class后，他們都是一樣的----Unicode編碼表示。

?

2、JVM中的編碼

JVM加載class文件讀取時(shí)候使用Unicode編碼方式正確讀取class文件，那么原來(lái)定義的String s="漢字";在內(nèi)存中的表現(xiàn)形式是Unicode編碼。

當(dāng)調(diào)用String.getBytes()的時(shí)候，其實(shí)已經(jīng)為亂碼買(mǎi)下了禍根。因?yàn)榇朔椒ㄊ褂闷脚_(tái)默認(rèn)的字符集來(lái)獲取字符串對(duì)應(yīng)的字節(jié)數(shù)組。在WindowsXP中文版中，使用的默認(rèn)編碼是GBK，不信運(yùn)行下：

public class Test {?

? ? ? ? public static void main(String[] args) {?

? ? ? ? ? ? ? ? System.out.println("當(dāng)前JRE：" + System.getProperty("java.version"));?

? ? ? ? ? ? ? ? System.out.println("當(dāng)前JVM的默認(rèn)字符集：" + Charset.defaultCharset());?

? ? ? ? }?

}

當(dāng)前JRE：1.8.0_16?

當(dāng)前JVM的默認(rèn)字符集：GBK

當(dāng)不同的系統(tǒng)、數(shù)據(jù)庫(kù)經(jīng)過(guò)多次編碼后，如果對(duì)其中的原理不理解，就容易導(dǎo)致亂碼。因此，在一個(gè)系統(tǒng)中，有必要對(duì)字符串的編碼做一個(gè)統(tǒng)一，這個(gè)統(tǒng)一模糊點(diǎn)說(shuō)，就是對(duì)外統(tǒng)一。比如方法字符串參數(shù)，IO流，在中文系統(tǒng)中，可以統(tǒng)一使用GBK、GB13080、UTF-8、UTF-16等等都可以，只是要選擇有些更大字符集，以保證任何可能用到的字符都可以正常顯示，避免亂碼的問(wèn)題。（假設(shè)對(duì)所有的文件都用ASCII碼）那么就無(wú)法實(shí)現(xiàn)雙向轉(zhuǎn)換了。

?

要特別注意的是，UTF-8并非能容納了所有的中文字符集編碼，因此，在特殊情況下，UTF-8轉(zhuǎn)GB18030可能會(huì)出現(xiàn)亂碼，然而有些人常常在做中文系統(tǒng)喜歡用UTF-8編碼而不說(shuō)不出個(gè)所以然出來(lái)！一個(gè)系統(tǒng)多個(gè)人做，源代碼文件有的人用GBK編碼，有人用UTF-8，還有人用GB18030。FK，都是中國(guó)人，也不是外包項(xiàng)目，用什么UTF-8啊，神經(jīng)！源代碼統(tǒng)統(tǒng)都用GBK18030就OK了，免得ANT腳本編譯時(shí)候提示不可認(rèn)的字符編碼。

?

因此，對(duì)于中文系統(tǒng)來(lái)說(shuō)，最好選擇GBK或GB18030編碼（其實(shí)GBK是GB18030的子集），以便最大限度的避免亂碼現(xiàn)象。

?

3、內(nèi)存中字符串的編碼

內(nèi)存中的字符串不僅僅局限于從class代碼中直接加載而來(lái)的字符串，還有一些字符串是從文本文件中讀取的，還有的是通過(guò)數(shù)據(jù)庫(kù)讀取的，還有可能是從字節(jié)數(shù)組構(gòu)建的，然而他們基本上都不是Unicode編碼的，原因很簡(jiǎn)單，存儲(chǔ)優(yōu)化。

?

因此就需要處理各種各樣的編碼問(wèn)題，在處理之前，必須明確“源”的編碼，然后用指定的編碼方式正確讀取到內(nèi)存中。如果是一個(gè)方法的參數(shù)，實(shí)際上必須明確該字符串參數(shù)的編碼，因?yàn)檫@個(gè)參數(shù)可能是另外一個(gè)日文系統(tǒng)傳遞過(guò)來(lái)的。當(dāng)明確了字符串編碼時(shí)候，就可以按照要求正確處理字符串，以避免亂碼。

在對(duì)字符串進(jìn)行解碼編碼的時(shí)候，應(yīng)該調(diào)用下面的方法：

getBytes(String charsetName)? ??

String(byte[] bytes, String charsetName)

而不要使用那些不帶字符集名稱的方法簽名，通過(guò)上面兩個(gè)方法，可以對(duì)內(nèi)存中的字符進(jìn)行重新編碼。

標(biāo)簽：

Java入門(mén)教程-Java字符編碼原理的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Java入門(mén)教程-Java字符編碼原理

Java入門(mén)教程-Java字符編碼原理的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Java入門(mén)教程-Java字符編碼原理

本文作者的其他文章

Java入門(mén)教程-Java字符編碼原理的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Java入門(mén)教程-Java字符編碼原理的評(píng)論 (共條)