隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通訊技術(shù)、Internet技術(shù)的迅速發(fā)展和電子商務(wù)、辦公自動(dòng)化、管理信息系統(tǒng)、Internet?的普及等,企業(yè)業(yè)務(wù)操作流程日益自動(dòng)化,企業(yè)經(jīng)營(yíng)過(guò)程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和由此產(chǎn)生的信息是企業(yè)的寶貴財(cái)富,它如實(shí)地記錄著企業(yè)經(jīng)營(yíng)的本質(zhì)狀況。但是面對(duì)如此大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法,如數(shù)據(jù)檢索、統(tǒng)計(jì)分析等只能獲得數(shù)據(jù)的表層信息,不能獲得其內(nèi)在的、深層次的信息,管理者面臨著數(shù)據(jù)豐富而知識(shí)貧乏的困境。如何從這些數(shù)據(jù)中挖掘出對(duì)企業(yè)經(jīng)營(yíng)決策有用的知識(shí)是非常重要的,數(shù)據(jù)挖掘便是為適應(yīng)這種需要應(yīng)運(yùn)而生的。
??“大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
???簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過(guò)在過(guò)去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對(duì)大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會(huì)的(Opportunistic)商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。但所有企業(yè)面臨的一個(gè)共同問(wèn)題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
? ??因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR-Parser大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR-Parser大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類開(kāi)發(fā)語(yǔ)言使用。
隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的發(fā)展和完善,相信大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用會(huì)越來(lái)越廣泛和深入,相關(guān)的研究也會(huì)越來(lái)越全面和深入,在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。