隨著計算機的日益普及和互聯(lián)網(wǎng)的迅猛發(fā)展,社會的信息化程度越來越高,計算機的使用也越來越廣泛,如何清晰、高效、簡潔的同計算機交流,成為各界人士共同關(guān)注的焦點,自然語言理解也被人們寄予高度的期待。
人類自然語言通常以詞為基本構(gòu)成單位,進(jìn)而構(gòu)成句子,再由句子形成篇章。篇章的語義由篇章中包含的所有句子的語義綜合而成,而句子的語義又由句中的詞語語義及一定的語法所確定;作為句子和篇章的基本構(gòu)成單位,詞語具有特定的語義和內(nèi)涵。在詞語層次上,詞語語義分析意味著詞語的內(nèi)涵分析、詞語之間的語義相似度或相關(guān)度分析,這是句子分析和篇章語義分析的基礎(chǔ),也是信息抽取、機器翻譯等應(yīng)用領(lǐng) 域的基礎(chǔ)問題。一個句子,通常是按照特定的語義規(guī)則對若干詞語的一個有序排列。為此,句子的語義分析需要綜合詞語語義和相關(guān)語義規(guī)則分析,它是篇章語義分析的基礎(chǔ),也是自動問答系統(tǒng)等領(lǐng)域的基礎(chǔ)研究課題。篇章級別的語義分析,意味著對文本進(jìn)行主題、類別等語義信息的識別,實現(xiàn)對大規(guī)模文本集合的有效管理與挖掘。
語義是指信息包含的概念和意義。語義不僅表述事物本質(zhì),還表述事物之間的因果、上下位、施事等各種邏輯關(guān)系。因此,語義是對事物的描述和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題,它在自然語言處理、信息檢索、信息過濾、信息分類、語義挖掘等領(lǐng)域有著廣泛的應(yīng)用。在互聯(lián)網(wǎng)時代,面對海量的信息資源,要想準(zhǔn)確地進(jìn)行信息抽取,檢索所需信息、挖掘潛在的信息價值、提供智能的知識服務(wù),都離不開面向機器理解的語義分析。尤其在大數(shù)據(jù)環(huán)境下,語義分析的地位越來越凸顯出來。
按照多數(shù)文獻(xiàn)的觀點首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統(tǒng)計等手段獲得相關(guān)語言信息。其次,句法分析通過使句子成分特征化來分析句子結(jié)構(gòu)特征,通過對句子和短語結(jié)構(gòu)的分析找出詞、短語等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對句法成分做出細(xì)致的語義分類,它一般應(yīng)包括語言層面(即反映語言表面現(xiàn)象的知識,如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語義關(guān)系)、常識層面等。雖然這項工作浩繁,但目前已經(jīng)取得了一些初步成果。最后,篇章分析用于對多個語句、段落之間在結(jié)構(gòu)或者語義上的相互關(guān)系進(jìn)行分析。
北京理工大學(xué)大數(shù)據(jù)實驗室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實體抽取、詞頻統(tǒng)計、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等功能。
在大數(shù)據(jù)時代,對海量文本信息進(jìn)行有效的語義分析已經(jīng)是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。NLPIR大數(shù)據(jù)語義智能技術(shù)將對中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語言理解系統(tǒng)的廣泛應(yīng)用。