不務(wù)正業(yè):論如何從文字識別語言
本文一般適用于比較大的語言,一些小語言或許也有涉及。歡迎指正。文中語誤,一字不易。

第一步是看字符
形如abcdefghijklmnopqrstuvwxyz等的字母,我在此將其統(tǒng)稱為拉丁字母,它常見于日耳曼諸語(如英語,德語)和羅曼諸語(如拉丁語,意大利語,西班牙語,法語)。
現(xiàn)今語言活力第二大的字母體系是西里爾字母,即абвгдеёжзийклмнопрстуфхцчшщъыьэюя,常見于斯拉夫諸語(如教會斯拉夫語,俄語,白俄語,烏克蘭語)。
既然說到這里就不得不說說它們兩兄弟的的共同源頭——希臘文。希臘語也常見在數(shù)理化等領(lǐng)域。希臘文的字母是這樣的:αβγδεζηθικλμνξοπρστυφχψω。據(jù)我所知,只有希臘語還在全部使用希臘文字母。
而后就不得不提阿拉伯文。呃,阿拉伯文長得是在太鬼畜了。

這種字母常用于伊斯蘭教地區(qū)(如阿拉伯地區(qū))。
此后大一些的語言中只有希伯來文可以說一說了:

相比大家最熟悉的是第一個(gè)字母Alef,被用作數(shù)學(xué)上與無限有關(guān)的東西(比如說Alef0,1,2,...)。使用希伯來文字母的極大概率都是以色列的希伯來文。
然后是亞洲的表音文字。
首先來說印度阿三的語言印地文:

就沒什么好說的了,我相信韓文和日文咱誰都分得出來,蒙古文改用了西里爾文(外蒙古),內(nèi)蒙古的咱也分得出來,維吾爾文那一群基本上是和阿拉伯文長得差不多的。
然后具體點(diǎn)說。
首先說最有影響力的——英語拉丁語!拉丁文是十分好分的,畢竟也沒什么人用,你一看,本來該是元音的地方出了個(gè)Vv,基本上是拉丁文沒跑。拉丁文還有更便捷的分辨方式:元音上有長元音的附標(biāo)???。但是有的文獻(xiàn)上是不會有的。還有比如說像有tion,tio,um,ium這種前綴后綴的要么是拉丁文,要么是從拉丁文借來的。
然后是英語。你就那么定睛一瞧,有qu沒有kv,有tion沒um,有元音沒附標(biāo),準(zhǔn)是英語。
還有意大利語,要是看見基本上是一個(gè)輔音帶一個(gè)元音的語言,例如farfala之類,就該是意大利文了。
德文就更好分了,看見什么??ü之類并且一個(gè)句子里有好幾個(gè)單詞首字母大寫那就該是德文。
然后是法文,要看是不是法文,得找找像les,la這樣的詞。如果通篇只有l(wèi)a那就得注意是不是Esperanto了。這時(shí)候就要看元音附標(biāo),法文的元音附標(biāo)一般是像什么áàéè之類,如果還有?ê之類那就是法文了。
提到這就不得不說土耳其文。我曾經(jīng)天真地以為只有法文才有字母?呢,但我后來發(fā)現(xiàn)土耳其文也有。土耳其文是很簡單的,看一眼有沒有上面帶點(diǎn)的大寫字母I(?)和不帶點(diǎn)的小寫字母i(?)就行了。
然后是西班牙文。西班牙文最好分辨了,看看有沒有????就行。
現(xiàn)在來說西里爾文的這幾個(gè)難兄難弟。
俄語就不說了,看到標(biāo)準(zhǔn)字母表就是俄語。如果查差了ё,就說明文章是懶人寫的,文章比較短,或者這是教會斯拉夫語。
烏克蘭語呢,比較突出的幾點(diǎn)是有i沒и,有?沒э,有?沒ы,有?,沒ё,有'沒ъ。
白俄羅斯文呢,有i沒и,沒щ沒ъ,有?。
保加利亞妖王文呢,沒什么差別,最顯著的只有沒э。
剩下的就不占用過多篇幅了,自己上百科查一查:https://baike.baidu.com/item/%E8%A5%BF%E9%87%8C%E5%B0%94%E5%AD%97%E6%AF%8D?bk_fr=chain_bottom×tamp=1618842100422
成了,那今天就先到這里吧。