国产毛片午夜福利,国产黄网,国产亚洲天堂,97国产精品

  •  
    中文域名及中文繁簡(jiǎn)問題研究
    發(fā)布時(shí)間:2005-02-17   瀏覽次數(shù):1180331
    中文域名及中文繁簡(jiǎn)問題研究 中文域名及中文繁簡(jiǎn)問題研究 計(jì)算機(jī)網(wǎng)絡(luò)資源名稱是用來表示網(wǎng)絡(luò)資源的,而采用中文字符來表示計(jì)算機(jī)網(wǎng)絡(luò)資源,涉及到中文用戶的認(rèn)知問題和使用習(xí)慣問題,中文字符的繁簡(jiǎn)等效是其中的重要問題之一。當(dāng)然中文字符繁簡(jiǎn)等效只是異體等效問題中的一種,但是卻是最為重要的一種,因?yàn)楫愺w等效中大部分都是簡(jiǎn)繁體的等效。中文域名異體等效是中文域名系統(tǒng)設(shè)計(jì)中最為核心和關(guān)鍵的也是最難解決的需求。我們知道英文字母也具有大小寫的區(qū)別,在Unix文件系統(tǒng)中,大小寫通常是敏感的(case sensitive),而在DNS系統(tǒng)中大小寫是不敏感的(case insensitive),即大小寫等價(jià),而且在IDN系統(tǒng)標(biāo)準(zhǔn)中已經(jīng)規(guī)定直接將大寫字符映射成為小寫字母,直接按照Unicode標(biāo)準(zhǔn)做Case Folding。英文字母只有26個(gè),而且大小寫的關(guān)系是一一對(duì)應(yīng)的關(guān)系,無論是直接做映射還是做其他類型的等效處理都是比較容易實(shí)現(xiàn)的,然而中文異體字符的等效問題則比英文大小寫問題復(fù)雜多了。首先,僅Unicode基本平面I-Zone包括的中文字符已經(jīng)超過兩萬個(gè),在Extension A中還有數(shù)萬字,根據(jù)簡(jiǎn)化字總表,其中僅具有簡(jiǎn)繁體異體關(guān)系的中文字符超過了2300多組,還不包括其他未收錄的簡(jiǎn)繁體和異體關(guān)系。再者,而且也是最為重要的,他們之間的異體關(guān)系不僅是一一對(duì)應(yīng)的關(guān)系,還有一對(duì)多,一代多和多對(duì)多的關(guān)系,十分復(fù)雜,即使采用人工智能的方式,簡(jiǎn)繁體轉(zhuǎn)換的結(jié)果也不能保證百分白的正確,因此在DNS系統(tǒng)中試圖模仿英文大小寫的解決方案來解決中文字符的異體等效問題是不現(xiàn)實(shí)的,F(xiàn)行國(guó)際標(biāo)準(zhǔn)的DNS系統(tǒng)是基于ASCII編碼的,對(duì)于英文世界的人來講是足夠了。但是,世界上多數(shù)用戶使用的編碼都不是僅僅局限于七位ASCII編碼,隨磐縭褂玫鈉占,作为网驴r瀾縟肟詰撓蠣哺緄鈉占按戳瞬煥姆矯媯桓齜矯媸怯⑽牟灰子詡且,另噎h(huán)矯嬗⑽牟荒莧非斜曄隊(duì)滌姓咚胍暮。这样,記]惹邢M梢雜帽竟镅岳幢曄隊(duì)蠣。但薁楷記]Р荒莧我庋≡褡約合胍謀嗦,因为蕿懣c霞負(fù)躒魏我恢殖S糜镅遠(yuǎn)加興約旱謀鏡乇嗦,那样就不能保证DNS名字空間的一致性,因此IETF國(guó)際化域名工作組選定的編碼標(biāo)準(zhǔn)是Unicode。Unicode幾乎包含了當(dāng)前世界上所有的字符,它不區(qū)分國(guó)家本地編碼,僅以字形來區(qū)分,比如中日韓越等國(guó)共同使用著漢字,Unicode收錄了所有的字體形式,然后進(jìn)行編碼,通稱為CJKV。然而由于選擇了Unicode,無法區(qū)分各國(guó)文字,但是我們知道,將國(guó)際化的文字引入DNS,意味著將文字本身的特點(diǎn)也同時(shí)引入DNS體系,而Unicode CJK碼位統(tǒng)一導(dǎo)致了中文本身特性的,從而引起了一些處理上的問題。比如,對(duì)于國(guó)際化域名的子集——中文域名而言,處理中文域名的繁簡(jiǎn)等效變得非常困難。從語言學(xué)的角度來講,中文并不區(qū)分人群和地域,但是其書寫方式確并不統(tǒng)一,比如中國(guó)大陸和新加坡采用簡(jiǎn)體中文書寫方式,而港澳臺(tái)以及大多數(shù)海外華人則使用繁體中文書寫方式。那么首先什么是簡(jiǎn)體中文和繁體中文呢?通常我們說的簡(jiǎn)體中文是指滿足以下三個(gè)條件:字形采用簡(jiǎn)體字型書寫,無繁簡(jiǎn)差別的除外;字符集通常使用國(guó)標(biāo)碼字符集,或其擴(kuò)充版本,國(guó)家標(biāo)準(zhǔn)擴(kuò)展碼(GBK)等由中國(guó)大陸政府正式頒發(fā)的字符集;詞語用法通常為中國(guó)大陸的用法。繁體中文是指滿足以下三個(gè)條件:字形采用繁體形式書寫,即使具有常用簡(jiǎn)體形式,而官方用法仍然保持繁體書寫;字符集通常使用BIG5編碼,以及臺(tái)灣官方發(fā)布的CNS14649,而詞語的用法通常采用臺(tái)灣、香港或者澳門的用法。語言是交流的工具。如果語言是統(tǒng)一的語言,而書寫方式是兩種書寫方式,那么必然存在著同一語言中不同書寫方式的轉(zhuǎn)換或者對(duì)應(yīng)的問題,這是簡(jiǎn)繁體等效問題的來源。多數(shù)情況下,人們把這個(gè)問題稱為簡(jiǎn)繁體轉(zhuǎn)換而不是簡(jiǎn)繁體等效,但是事實(shí)上很多情況下由于一些策略或者技術(shù)上的原因,是不可以直接做轉(zhuǎn)換處理的,這個(gè)問題更多的是指如何處理其中的等效關(guān)系,而不是將一方轉(zhuǎn)換到另一方,某種意義上講,轉(zhuǎn)換意味著一種書寫方式的消失,因此,這種說法是不確切的,本文采用簡(jiǎn)繁體等效這種概念,F(xiàn)在處理繁簡(jiǎn)轉(zhuǎn)換的工具比較多,已有的研究也比較多,但是這些研究以及設(shè)計(jì)的工具進(jìn)行的多數(shù)是不同字符集之間的轉(zhuǎn)換。因?yàn)樽畛醮箨憦V泛使用的是GB2312編碼字符集,主要收錄了簡(jiǎn)體漢字,共計(jì)6763個(gè);港澳臺(tái)使用的是BIG5字符集,主要收錄了繁體漢字,共計(jì)13068個(gè),多數(shù)中文繁簡(jiǎn)轉(zhuǎn)換的處理主要是做不同字符集之間的轉(zhuǎn)換,而不是做不同繁簡(jiǎn)字型之間的轉(zhuǎn)換或者等效處理。但是,事實(shí)上中文的簡(jiǎn)繁體等效或者異體等效問題遠(yuǎn)遠(yuǎn)不是不同字符集之間轉(zhuǎn)換那么簡(jiǎn)單,而且也不是同一個(gè)概念。比如現(xiàn)有中國(guó)大陸推行的GB18030標(biāo)準(zhǔn),收錄了所有簡(jiǎn)繁體中文字符,基于這個(gè)字符集再去做字符集之間的轉(zhuǎn)換將會(huì)是十分復(fù)雜的也是沒有意義的。中文是象形文字,用圖形來表示語言的含義,雖然這極大的豐富了中文的使用,但是這也注定讓中文具有數(shù)以萬計(jì)的字符,而其中的絕大部分都是常人所不識(shí)的。中文字符在它幾千年的歷史中經(jīng)歷了許多變遷。很多書法風(fēng)格,異體字,和字體設(shè)計(jì)以及由于印刷和書寫習(xí)慣的問題都導(dǎo)致了它的逐步演變。有些完整的以及常用的字體形式被作為常用字或者正體字,而這些正體字還具有多種多樣的異體形式,并且這種異體形式之間的關(guān)系十分復(fù)雜,而最典型的是簡(jiǎn)繁體等效的問題。所以,我們說事實(shí)上中文簡(jiǎn)繁體的等效處理不在于字符集的不同,而更多是在于字型書寫方式,詞匯的選擇,甚至語義上的差別。中文域名系統(tǒng)關(guān)注的也是努力解決的是有關(guān)簡(jiǎn)繁體書寫方式的等效問題。Unicode/ISO10646一定程度上解決了不同碼制間同字型的簡(jiǎn)繁體等效問題,CJKV占用同段碼位,并進(jìn)行同字型同編碼,在一定程度上統(tǒng)一了很多字的編碼,也為那些在不同本地編碼方式中沒有碼位的字留出了碼位。但是Unicode并沒有解決絕大多數(shù)的簡(jiǎn)繁體等效問題,即不同簡(jiǎn)繁體字型的等效問題。而這一部分恰恰是中文簡(jiǎn)繁體等效的重點(diǎn)和難點(diǎn)。根據(jù)中文繁簡(jiǎn)轉(zhuǎn)換的陷阱一文中的論述,中文字符不同字型間簡(jiǎn)繁體等效具有四個(gè)層次:級(jí)是碼點(diǎn)等效。因?yàn)槊總(gè)字都對(duì)應(yīng)一個(gè)Unicode碼點(diǎn),碼點(diǎn)之間的等效是不考慮上下文的關(guān)系,直接用另外一個(gè)碼點(diǎn)和要對(duì)應(yīng)的碼點(diǎn)建立等效轉(zhuǎn)換關(guān)系。這種轉(zhuǎn)換對(duì)于“國(guó)”和“國(guó)”的這類關(guān)系的轉(zhuǎn)換是可以的,因?yàn)樗麄兪且粚?duì)一的,在任何“國(guó)”出現(xiàn)的地方都可以直接用“國(guó)”來替換而不會(huì)引起任何意義上的變化;但是對(duì)于“發(fā)”字不一樣了,當(dāng)是“頭發(fā)”的時(shí)候,它的繁體形式是“頭髮”,“發(fā)”對(duì)應(yīng)于“髮”;而當(dāng)是“發(fā)展”的時(shí)候,它的繁體形式是“發(fā)展”,“發(fā)”對(duì)應(yīng)于“發(fā)”,這個(gè)例子是一簡(jiǎn)對(duì)多繁,大概有四百對(duì)這種一對(duì)多的方式,多半是基于語義的轉(zhuǎn)換。而一繁對(duì)多簡(jiǎn)的情況也有近80組,而常見的有11組。比如繁體“著”對(duì)應(yīng)于簡(jiǎn)體的“著”和“著”,當(dāng)是“著作”的含義是對(duì)應(yīng)于“著”本身,而當(dāng)是“著火”的時(shí)候?qū)?yīng)是“著”了,這是最為常見的一組。目前基于碼點(diǎn)直接轉(zhuǎn)換的方法有三種:種是直接替代法,最簡(jiǎn)單,耗費(fèi)資源也最少,但是也最不準(zhǔn)確;第二種是基于詞頻的方式,統(tǒng)計(jì)詞頻中字的用度,用度高則首先采用,但也不準(zhǔn)確;第三種是基于詞頻和候選方式,所有候選字按詞頻統(tǒng)計(jì)用度,用度的排在位,其他也提示用戶以便選擇,這樣正確率。第二級(jí)是基于詞義的等效。通常采用的方法是首先對(duì)要轉(zhuǎn)換的文字進(jìn)行切詞,然后以詞為單位查找確定應(yīng)該采用哪個(gè)對(duì)應(yīng)的碼點(diǎn)來替換被轉(zhuǎn)碼點(diǎn)。還以“發(fā)”字為例,如果發(fā)現(xiàn)和“頭”字相連,那么對(duì)應(yīng)“髮”,如果和“展”字相連,那么對(duì)應(yīng)““發(fā)”。這種方法轉(zhuǎn)換正確與否,決定于切詞的正確性,比如“二鍋頭發(fā)展有限公司”,那么如果將“二鍋頭”切詞在一起那么轉(zhuǎn)換結(jié)果是對(duì)的,但是如果將“二鍋”切在一起,而將“頭發(fā)展”切在一起,那么轉(zhuǎn)換結(jié)果是錯(cuò)的。切詞方式的轉(zhuǎn)換是不能保證的,除非切詞工具建立了詞庫“二鍋頭”,否則極有可能的是將“頭”和“發(fā)”切在一起,因此導(dǎo)致錯(cuò)誤。第三級(jí)是基于上下文語義的等效。因?yàn)榇箨懞透郯呐_(tái)使用詞語的習(xí)慣不同,雖然詞語指稱相同,但是表達(dá)方式卻不同,比如英文CD-ROM對(duì)應(yīng)的中文在大陸稱為“光盤”而在臺(tái)灣則稱為“光碟”,這種繁簡(jiǎn)轉(zhuǎn)換實(shí)際上是繁簡(jiǎn)詞語的對(duì)應(yīng)轉(zhuǎn)換,這種轉(zhuǎn)換也需要切詞的準(zhǔn)確性以及對(duì)繁簡(jiǎn)地區(qū)用詞習(xí)慣的詞語收集程度。這種轉(zhuǎn)換類似于英文中美式英語“color”和英式英語“colour”的區(qū)別。第四級(jí)是基于語境的等效。比如“文件”這個(gè)詞在簡(jiǎn)繁體里都是存在的,但是當(dāng)作普通文件的時(shí)候,繁簡(jiǎn)都是“文件”但是如果當(dāng)作計(jì)算機(jī)系統(tǒng)中的“文件”之后,簡(jiǎn)體計(jì)算機(jī)“文件”會(huì)對(duì)應(yīng)到繁體計(jì)算機(jī)“檔案”。是說詞語在基于不同上下文語境的時(shí)候,其對(duì)應(yīng)的詞語也是不一樣的。在簡(jiǎn)化字總表中定義的00多組簡(jiǎn)繁體對(duì)照涉及到的幾乎都是常用字,因?yàn)椴怀S靡餐ǔ2粫?huì)考慮簡(jiǎn)化它,簡(jiǎn)化的目的是為了簡(jiǎn)化使用以便書寫方便。這些簡(jiǎn)體字幾乎占了人們?nèi)粘J褂弥形淖址囊话胍陨希驗(yàn)閲?guó)家頒發(fā)的現(xiàn)代漢語常用字表也只有3500字。而00多個(gè)簡(jiǎn)體字中,有一百多組是非一一對(duì)應(yīng)的,這也恰是簡(jiǎn)繁體等效的難點(diǎn)所在,而根據(jù)作者制作對(duì)照表的經(jīng)驗(yàn),這個(gè)問題十分嚴(yán)重。常用的簡(jiǎn)體詞中有大約%有一對(duì)多的情況,而我們統(tǒng)計(jì)現(xiàn)有中文域名注冊(cè)系統(tǒng)中,有接近90%具有簡(jiǎn)繁體等效的問題。隨著中文應(yīng)用的普及,比如中文域名的開發(fā)和中文上網(wǎng)方式的開發(fā)都加劇了對(duì)中文異體等效特別是簡(jiǎn)繁體等效的問題的研究,但是目前已有的簡(jiǎn)繁體等效的技術(shù)方案多存在一些問題,并不能滿足中文簡(jiǎn)繁體等效的處理需求。比如,由于理論研究水平的限制,現(xiàn)存的研究不能保證轉(zhuǎn)換結(jié)果的正確性,即使采用人工智能的方式,也只是盡可能提高轉(zhuǎn)換結(jié)果的正確性,比如95%以上,而不能到。已有方案多半是采用切詞查表的方式來完成轉(zhuǎn)換,但是如果切詞存在錯(cuò)誤,那么查表的結(jié)果必然不會(huì)正確。國(guó)家已經(jīng)啟動(dòng)了中文信息處理詞典的計(jì)劃,大概會(huì)收錄兩千多萬的詞語,以便為信息處理使用,但是在此出臺(tái)前,沒有很好的權(quán)威詞庫供信息處理使用。如果采用人工進(jìn)行轉(zhuǎn)換,雖然正確率會(huì)提高,但是其代價(jià)也會(huì)增高。那么如何分散這種人工的代價(jià)是中文域名的考慮問題,中文域名簡(jiǎn)繁體等效的實(shí)現(xiàn)方案是將繁簡(jiǎn)轉(zhuǎn)換的工作推給用戶,由于域名的注冊(cè)是分散的而且是由注冊(cè)用戶本身進(jìn)行操作的,因此減少了代價(jià)也增加了正確性。CNNIC對(duì)中文繁簡(jiǎn)轉(zhuǎn)換,特別是中文域名中的繁簡(jiǎn)體域名解析的等效問題做了十分深入的研究,并向國(guó)際互聯(lián)網(wǎng)標(biāo)準(zhǔn)組織IETF提交了多項(xiàng)技術(shù)草案,引起了IETF對(duì)中文繁簡(jiǎn)問題的廣泛重視,為互聯(lián)網(wǎng)的中文化做出了很大的貢獻(xiàn)。CNNIC已經(jīng)推出了中文域名的注冊(cè)和解析服務(wù),在未來的中文域名服務(wù)中,CNNIC將逐步引入在此領(lǐng)域內(nèi)的研究成果,為廣大的中文域名用戶提供更好的服務(wù)。 關(guān)于中文域名注冊(cè)的繁簡(jiǎn)問題,請(qǐng)?jiān)L問網(wǎng)站“中文域名注冊(cè)測(cè)試系統(tǒng)”。 計(jì)算機(jī)網(wǎng)絡(luò)資源名稱是用來表示網(wǎng)絡(luò)資源的,而采用中文字符來表示計(jì)算機(jī)網(wǎng)絡(luò)資源,涉及到中文用戶的認(rèn)知問題和使用習(xí)慣問題,中文字符的繁簡(jiǎn)等效是其中的重要問題之一。當(dāng)然中文字符繁簡(jiǎn)等效只是異體等效問題中的一種,但是卻是最為重要的一種,因?yàn)楫愺w等效中大部分都是簡(jiǎn)繁體的等效。中文域名異體等效是中文域名系統(tǒng)設(shè)計(jì)中最為核心和關(guān)鍵的也是最難解決的需求。我們知道英文字母也具有大小寫的區(qū)別,在Unix文件系統(tǒng)中,大小寫通常是敏感的(case sensitive),而在DNS系統(tǒng)中大小寫是不敏感的(case insensitive),即大小寫等價(jià),而且在IDN系統(tǒng)標(biāo)準(zhǔn)中已經(jīng)規(guī)定直接將大寫字符映射成為小寫字母,直接按照Unicode標(biāo)準(zhǔn)做Case Folding。英文字母只有26個(gè),而且大小寫的關(guān)系是一一對(duì)應(yīng)的關(guān)系,無論是直接做映射還是做其他類型的等效處理都是比較容易實(shí)現(xiàn)的,然而中文異體字符的等效問題則比英文大小寫問題復(fù)雜多了。首先,僅Unicode基本平面I-Zone包括的中文字符已經(jīng)超過兩萬個(gè),在Extension A中還有數(shù)萬字,根據(jù)簡(jiǎn)化字總表,其中僅具有簡(jiǎn)繁體異體關(guān)系的中文字符超過了2300多組,還不包括其他未收錄的簡(jiǎn)繁體和異體關(guān)系。再者,而且也是最為重要的,他們之間的異體關(guān)系不僅是一一對(duì)應(yīng)的關(guān)系,還有一對(duì)多,一代多和多對(duì)多的關(guān)系,十分復(fù)雜,即使采用人工智能的方式,簡(jiǎn)繁體轉(zhuǎn)換的結(jié)果也不能保證百分白的正確,因此在DNS系統(tǒng)中試圖模仿英文大小寫的解決方案來解決中文字符的異體等效問題是不現(xiàn)實(shí)的,F(xiàn)行國(guó)際標(biāo)準(zhǔn)的DNS系統(tǒng)是基于ASCII編碼的,對(duì)于英文世界的人來講是足夠了。但是,世界上多數(shù)用戶使用的編碼都不是僅僅局限于七位ASCII編碼,隨磐縭褂玫鈉占,作为网驴r瀾縟肟詰撓蠣哺緄鈉占按戳瞬煥姆矯媯桓齜矯媸怯⑽牟灰子詡且洌硪環(huán)矯嬗⑽牟荒莧非斜曄隊(duì)滌姓咚胍暮。这样,記]惹邢M梢雜帽竟镅岳幢曄隊(duì)蠣5牽沒Р荒莧我庋≡褡約合胍謀嗦,因为蕿懣c霞負(fù)躒魏我恢殖S糜镅遠(yuǎn)加興約旱謀鏡乇嗦,那样就不能保证DNS名字空間的一致性,因此IETF國(guó)際化域名工作組選定的編碼標(biāo)準(zhǔn)是Unicode。Unicode幾乎包含了當(dāng)前世界上所有的字符,它不區(qū)分國(guó)家本地編碼,僅以字形來區(qū)分,比如中日韓越等國(guó)共同使用著漢字,Unicode收錄了所有的字體形式,然后進(jìn)行編碼,通稱為CJKV。然而由于選擇了Unicode,無法區(qū)分各國(guó)文字,但是我們知道,將國(guó)際化的文字引入DNS,意味著將文字本身的特點(diǎn)也同時(shí)引入DNS體系,而Unicode CJK碼位統(tǒng)一導(dǎo)致了中文本身特性的,從而引起了一些處理上的問題。比如,對(duì)于國(guó)際化域名的子集——中文域名而言,處理中文域名的繁簡(jiǎn)等效變得非常困難。從語言學(xué)的角度來講,中文并不區(qū)分人群和地域,但是其書寫方式確并不統(tǒng)一,比如中國(guó)大陸和新加坡采用簡(jiǎn)體中文書寫方式,而港澳臺(tái)以及大多數(shù)海外華人則使用繁體中文書寫方式。那么首先什么是簡(jiǎn)體中文和繁體中文呢?通常我們說的簡(jiǎn)體中文是指滿足以下三個(gè)條件:字形采用簡(jiǎn)體字型書寫,無繁簡(jiǎn)差別的除外;字符集通常使用國(guó)標(biāo)碼字符集,或其擴(kuò)充版本,國(guó)家標(biāo)準(zhǔn)擴(kuò)展碼(GBK)等由中國(guó)大陸政府正式頒發(fā)的字符集;詞語用法通常為中國(guó)大陸的用法。繁體中文是指滿足以下三個(gè)條件:字形采用繁體形式書寫,即使具有常用簡(jiǎn)體形式,而官方用法仍然保持繁體書寫;字符集通常使用BIG5編碼,以及臺(tái)灣官方發(fā)布的CNS14649,而詞語的用法通常采用臺(tái)灣、香港或者澳門的用法。語言是交流的工具。如果語言是統(tǒng)一的語言,而書寫方式是兩種書寫方式,那么必然存在著同一語言中不同書寫方式的轉(zhuǎn)換或者對(duì)應(yīng)的問題,這是簡(jiǎn)繁體等效問題的來源。多數(shù)情況下,人們把這個(gè)問題稱為簡(jiǎn)繁體轉(zhuǎn)換而不是簡(jiǎn)繁體等效,但是事實(shí)上很多情況下由于一些策略或者技術(shù)上的原因,是不可以直接做轉(zhuǎn)換處理的,這個(gè)問題更多的是指如何處理其中的等效關(guān)系,而不是將一方轉(zhuǎn)換到另一方,某種意義上講,轉(zhuǎn)換意味著一種書寫方式的消失,因此,這種說法是不確切的,本文采用簡(jiǎn)繁體等效這種概念。現(xiàn)在處理繁簡(jiǎn)轉(zhuǎn)換的工具比較多,已有的研究也比較多,但是這些研究以及設(shè)計(jì)的工具進(jìn)行的多數(shù)是不同字符集之間的轉(zhuǎn)換。因?yàn)樽畛醮箨憦V泛使用的是GB2312編碼字符集,主要收錄了簡(jiǎn)體漢字,共計(jì)6763個(gè);港澳臺(tái)使用的是BIG5字符集,主要收錄了繁體漢字,共計(jì)13068個(gè),多數(shù)中文繁簡(jiǎn)轉(zhuǎn)換的處理主要是做不同字符集之間的轉(zhuǎn)換,而不是做不同繁簡(jiǎn)字型之間的轉(zhuǎn)換或者等效處理。但是,事實(shí)上中文的簡(jiǎn)繁體等效或者異體等效問題遠(yuǎn)遠(yuǎn)不是不同字符集之間轉(zhuǎn)換那么簡(jiǎn)單,而且也不是同一個(gè)概念。比如現(xiàn)有中國(guó)大陸推行的GB18030標(biāo)準(zhǔn),收錄了所有簡(jiǎn)繁體中文字符,基于這個(gè)字符集再去做字符集之間的轉(zhuǎn)換將會(huì)是十分復(fù)雜的也是沒有意義的。中文是象形文字,用圖形來表示語言的含義,雖然這極大的豐富了中文的使用,但是這也注定讓中文具有數(shù)以萬計(jì)的字符,而其中的絕大部分都是常人所不識(shí)的。中文字符在它幾千年的歷史中經(jīng)歷了許多變遷。很多書法風(fēng)格,異體字,和字體設(shè)計(jì)以及由于印刷和書寫習(xí)慣的問題都導(dǎo)致了它的逐步演變。有些完整的以及常用的字體形式被作為常用字或者正體字,而這些正體字還具有多種多樣的異體形式,并且這種異體形式之間的關(guān)系十分復(fù)雜,而最典型的是簡(jiǎn)繁體等效的問題。所以,我們說事實(shí)上中文簡(jiǎn)繁體的等效處理不在于字符集的不同,而更多是在于字型書寫方式,詞匯的選擇,甚至語義上的差別。中文域名系統(tǒng)關(guān)注的也是努力解決的是有關(guān)簡(jiǎn)繁體書寫方式的等效問題。Unicode/ISO10646一定程度上解決了不同碼制間同字型的簡(jiǎn)繁體等效問題,CJKV占用同段碼位,并進(jìn)行同字型同編碼,在一定程度上統(tǒng)一了很多字的編碼,也為那些在不同本地編碼方式中沒有碼位的字留出了碼位。但是Unicode并沒有解決絕大多數(shù)的簡(jiǎn)繁體等效問題,即不同簡(jiǎn)繁體字型的等效問題。而這一部分恰恰是中文簡(jiǎn)繁體等效的重點(diǎn)和難點(diǎn)。根據(jù)中文繁簡(jiǎn)轉(zhuǎn)換的陷阱一文中的論述,中文字符不同字型間簡(jiǎn)繁體等效具有四個(gè)層次:級(jí)是碼點(diǎn)等效。因?yàn)槊總(gè)字都對(duì)應(yīng)一個(gè)Unicode碼點(diǎn),碼點(diǎn)之間的等效是不考慮上下文的關(guān)系,直接用另外一個(gè)碼點(diǎn)和要對(duì)應(yīng)的碼點(diǎn)建立等效轉(zhuǎn)換關(guān)系。這種轉(zhuǎn)換對(duì)于“國(guó)”和“國(guó)”的這類關(guān)系的轉(zhuǎn)換是可以的,因?yàn)樗麄兪且粚?duì)一的,在任何“國(guó)”出現(xiàn)的地方都可以直接用“國(guó)”來替換而不會(huì)引起任何意義上的變化;但是對(duì)于“發(fā)”字不一樣了,當(dāng)是“頭發(fā)”的時(shí)候,它的繁體形式是“頭髮”,“發(fā)”對(duì)應(yīng)于“髮”;而當(dāng)是“發(fā)展”的時(shí)候,它的繁體形式是“發(fā)展”,“發(fā)”對(duì)應(yīng)于“發(fā)”,這個(gè)例子是一簡(jiǎn)對(duì)多繁,大概有四百對(duì)這種一對(duì)多的方式,多半是基于語義的轉(zhuǎn)換。而一繁對(duì)多簡(jiǎn)的情況也有近80組,而常見的有11組。比如繁體“著”對(duì)應(yīng)于簡(jiǎn)體的“著”和“著”,當(dāng)是“著作”的含義是對(duì)應(yīng)于“著”本身,而當(dāng)是“著火”的時(shí)候?qū)?yīng)是“著”了,這是最為常見的一組。目前基于碼點(diǎn)直接轉(zhuǎn)換的方法有三種:種是直接替代法,最簡(jiǎn)單,耗費(fèi)資源也最少,但是也最不準(zhǔn)確;第二種是基于詞頻的方式,統(tǒng)計(jì)詞頻中字的用度,用度高則首先采用,但也不準(zhǔn)確;第三種是基于詞頻和候選方式,所有候選字按詞頻統(tǒng)計(jì)用度,用度的排在位,其他也提示用戶以便選擇,這樣正確率。第二級(jí)是基于詞義的等效。通常采用的方法是首先對(duì)要轉(zhuǎn)換的文字進(jìn)行切詞,然后以詞為單位查找確定應(yīng)該采用哪個(gè)對(duì)應(yīng)的碼點(diǎn)來替換被轉(zhuǎn)碼點(diǎn)。還以“發(fā)”字為例,如果發(fā)現(xiàn)和“頭”字相連,那么對(duì)應(yīng)“髮”,如果和“展”字相連,那么對(duì)應(yīng)““發(fā)”。這種方法轉(zhuǎn)換正確與否,決定于切詞的正確性,比如“二鍋頭發(fā)展有限公司”,那么如果將“二鍋頭”切詞在一起那么轉(zhuǎn)換結(jié)果是對(duì)的,但是如果將“二鍋”切在一起,而將“頭發(fā)展”切在一起,那么轉(zhuǎn)換結(jié)果是錯(cuò)的。切詞方式的轉(zhuǎn)換是不能保證的,除非切詞工具建立了詞庫“二鍋頭”,否則極有可能的是將“頭”和“發(fā)”切在一起,因此導(dǎo)致錯(cuò)誤。第三級(jí)是基于上下文語義的等效。因?yàn)榇箨懞透郯呐_(tái)使用詞語的習(xí)慣不同,雖然詞語指稱相同,但是表達(dá)方式卻不同,比如英文CD-ROM對(duì)應(yīng)的中文在大陸稱為“光盤”而在臺(tái)灣則稱為“光碟”,這種繁簡(jiǎn)轉(zhuǎn)換實(shí)際上是繁簡(jiǎn)詞語的對(duì)應(yīng)轉(zhuǎn)換,這種轉(zhuǎn)換也需要切詞的準(zhǔn)確性以及對(duì)繁簡(jiǎn)地區(qū)用詞習(xí)慣的詞語收集程度。這種轉(zhuǎn)換類似于英文中美式英語“color”和英式英語“colour”的區(qū)別。第四級(jí)是基于語境的等效。比如“文件”這個(gè)詞在簡(jiǎn)繁體里都是存在的,但是當(dāng)作普通文件的時(shí)候,繁簡(jiǎn)都是“文件”但是如果當(dāng)作計(jì)算機(jī)系統(tǒng)中的“文件”之后,簡(jiǎn)體計(jì)算機(jī)“文件”會(huì)對(duì)應(yīng)到繁體計(jì)算機(jī)“檔案”。是說詞語在基于不同上下文語境的時(shí)候,其對(duì)應(yīng)的詞語也是不一樣的。在簡(jiǎn)化字總表中定義的00多組簡(jiǎn)繁體對(duì)照涉及到的幾乎都是常用字,因?yàn)椴怀S靡餐ǔ2粫?huì)考慮簡(jiǎn)化它,簡(jiǎn)化的目的是為了簡(jiǎn)化使用以便書寫方便。這些簡(jiǎn)體字幾乎占了人們?nèi)粘J褂弥形淖址囊话胍陨,因(yàn)閲?guó)家頒發(fā)的現(xiàn)代漢語常用字表也只有3500字。而00多個(gè)簡(jiǎn)體字中,有一百多組是非一一對(duì)應(yīng)的,這也恰是簡(jiǎn)繁體等效的難點(diǎn)所在,而根據(jù)作者制作對(duì)照表的經(jīng)驗(yàn),這個(gè)問題十分嚴(yán)重。常用的簡(jiǎn)體詞中有大約%有一對(duì)多的情況,而我們統(tǒng)計(jì)現(xiàn)有中文域名注冊(cè)系統(tǒng)中,有接近90%具有簡(jiǎn)繁體等效的問題。隨著中文應(yīng)用的普及,比如中文域名的開發(fā)和中文上網(wǎng)方式的開發(fā)都加劇了對(duì)中文異體等效特別是簡(jiǎn)繁體等效的問題的研究,但是目前已有的簡(jiǎn)繁體等效的技術(shù)方案多存在一些問題,并不能滿足中文簡(jiǎn)繁體等效的處理需求。比如,由于理論研究水平的限制,現(xiàn)存的研究不能保證轉(zhuǎn)換結(jié)果的正確性,即使采用人工智能的方式,也只是盡可能提高轉(zhuǎn)換結(jié)果的正確性,比如95%以上,而不能到。已有方案多半是采用切詞查表的方式來完成轉(zhuǎn)換,但是如果切詞存在錯(cuò)誤,那么查表的結(jié)果必然不會(huì)正確。國(guó)家已經(jīng)啟動(dòng)了中文信息處理詞典的計(jì)劃,大概會(huì)收錄兩千多萬的詞語,以便為信息處理使用,但是在此出臺(tái)前,沒有很好的權(quán)威詞庫供信息處理使用。如果采用人工進(jìn)行轉(zhuǎn)換,雖然正確率會(huì)提高,但是其代價(jià)也會(huì)增高。那么如何分散這種人工的代價(jià)是中文域名的考慮問題,中文域名簡(jiǎn)繁體等效的實(shí)現(xiàn)方案是將繁簡(jiǎn)轉(zhuǎn)換的工作推給用戶,由于域名的注冊(cè)是分散的而且是由注冊(cè)用戶本身進(jìn)行操作的,因此減少了代價(jià)也增加了正確性。CNNIC對(duì)中文繁簡(jiǎn)轉(zhuǎn)換,特別是中文域名中的繁簡(jiǎn)體域名解析的等效問題做了十分深入的研究,并向國(guó)際互聯(lián)網(wǎng)標(biāo)準(zhǔn)組織IETF提交了多項(xiàng)技術(shù)草案,引起了IETF對(duì)中文繁簡(jiǎn)問題的廣泛重視,為互聯(lián)網(wǎng)的中文化做出了很大的貢獻(xiàn)。CNNIC已經(jīng)推出了中文域名的注冊(cè)和解析服務(wù),在未來的中文域名服務(wù)中,CNNIC將逐步引入在此領(lǐng)域內(nèi)的研究成果,為廣大的中文域名用戶提供更好的服務(wù)。 關(guān)于中文域名注冊(cè)的繁簡(jiǎn)問題,請(qǐng)?jiān)L問網(wǎng)站“中文域名注冊(cè)測(cè)試系統(tǒng)”。
    立即預(yù)約