貪心NLP自然語言處理高級魔鬼訓(xùn)練營11期
NLP面臨的主要難點(diǎn)
(1)單詞的邊界界定
在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
(2)詞義的消歧
許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。
(3)句法的模糊性
自然語言的文法通常是模棱兩可的,針對一個(gè)句子通常可能會(huì)剖析(Parse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前后文的資訊才能在其中選擇一棵最為適合的剖析樹。
(4)有瑕疵的或不規(guī)范的輸入
例如語音處理時(shí)遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識(shí)別(OCR)的錯(cuò)誤。
(5)語言行為與計(jì)劃
句子常常并不只是字面上的意思,例如,“你能把鹽遞過來嗎”,一個(gè)好的回答應(yīng)當(dāng)是把鹽遞過去,在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設(shè),對于提問“這門課程去年有多少學(xué)生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。
?
標(biāo)簽: