隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,能獲得的文本信息集合出現(xiàn)了爆炸性的增長。當(dāng)人們在為如此海量、豐富的文本資源欣喜若狂的同時(shí), 又不得不為很難發(fā)現(xiàn)其中蘊(yùn)含的知識而扼腕嘆惜。在現(xiàn)實(shí)世界中,知識不僅以傳統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)的形式出現(xiàn),還以諸如書籍、研 究論文、新聞文章、Web頁面及電子郵件等各種各樣的形式出現(xiàn)。 由于此類非結(jié)構(gòu)化的數(shù)據(jù)源中也存在著大量的知識,因此也應(yīng)該在這些數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘,提取感興趣的、潛在的有用模式和隱藏的信息。文本挖掘技術(shù)正是在這種背景下產(chǎn)生和發(fā)展起來的。文本挖掘指的是從大量的文本集合中發(fā)現(xiàn)潛在的模式和知識的過程。文本挖掘可以完成不同文檔的比較,進(jìn)行文檔重要性和相關(guān)性排列,或者找出多文檔的模式及趨勢。因此,文本挖掘就成為了數(shù)據(jù)挖掘中的一個(gè)日益流行 且重要的研究課題。
文本挖掘從采集到知識的發(fā)現(xiàn)和使用是一個(gè)復(fù)雜的過程。首先需要確定文本挖掘的應(yīng)用范圍,包括收集應(yīng)用所涉及領(lǐng)域內(nèi)的背景知識,理解應(yīng)用要求并且確定應(yīng)用所要達(dá)到的目標(biāo)等任務(wù)。之后確定目標(biāo)文本集合,選取待處理和分析的文本。利用啟發(fā)式規(guī)則和自然語言 處理技術(shù)從文本中抽取代表其特征的元數(shù)據(jù),并存放在文本特征庫中,作為文本挖掘的基礎(chǔ)。經(jīng)過文本預(yù)處理之后,根據(jù)應(yīng)用的需要和文本的特點(diǎn)選擇適當(dāng)?shù)耐诰蚬δ堋S捎诿恳环N文本挖掘功能都包含有不同的算法,各種算法又都有其自身的特點(diǎn)和適用范圍,所以需要根據(jù)挖掘功能以及文本特點(diǎn)和用戶需求,選取合適的算法,確定算法中包 含的參數(shù)。運(yùn)行文本挖掘算法,尋找文本集合中的有用知識。算法運(yùn)行完成后,以某種方法對發(fā)現(xiàn)的知識進(jìn)行評估,還可根據(jù)需要返回前面的步驟進(jìn)行優(yōu)化,直到滿足要求為止。 解釋說明發(fā)現(xiàn)的知識,以易于理解的方式提供給用戶。把發(fā)現(xiàn)的知識運(yùn)用于解決實(shí)際問題或供決策使用。
靈玖軟件NLPIR大語義智能分析平臺針對中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時(shí)十八年,服務(wù)了全球四十萬家機(jī)構(gòu)用戶,是大時(shí)代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。
NLPIR能夠全方位多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等。
中文信息處理技術(shù)從70年代的蓬勃發(fā)展至今,僅僅經(jīng)歷了短短20多年的時(shí)間,便完成了由初級階段向比較成熟階段的過渡,這是微電子技術(shù)和IT技術(shù)高速發(fā)展以及迫切的應(yīng)用需求所促成的。
隨著信息技術(shù)在我國社會生活各個(gè)領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。NLPIR大語義智能中文信息處理技術(shù)已成為中文信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的提供了重要的幫助,在互聯(lián)網(wǎng)日益成長的今天,NLPIR大語義智能中文信息處理技術(shù)將會更加成熟并創(chuàng)新。