隨著計算機技術、網(wǎng)絡技術、通訊技術、Internet技術的迅速發(fā)展和電子商務、辦公自動化、管理信息系統(tǒng)、Internet?的普及等,企業(yè)業(yè)務操作流程日益自動化,企業(yè)經(jīng)營過程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和由此產(chǎn)生的信息是企業(yè)的寶貴財富,它如實地記錄著企業(yè)經(jīng)營的本質狀況。但是面對如此大量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法,如數(shù)據(jù)檢索、統(tǒng)計分析等只能獲得數(shù)據(jù)的表層信息,不能獲得其內(nèi)在的、深層次的信息,管理者面臨著數(shù)據(jù)豐富而知識貧乏的困境。如何從這些數(shù)據(jù)中挖掘出對企業(yè)經(jīng)營決策有用的知識是非常重要的,數(shù)據(jù)挖掘便是為適應這種需要應運而生的。
??“大數(shù)據(jù)”作為時下最火熱的IT行業(yè)的詞匯,隨之數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。
???簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數(shù)據(jù)量進行分析的復雜數(shù)據(jù)分析方法受到很大限制?,F(xiàn)在,由于各行業(yè)業(yè)務自動化的實現(xiàn),商業(yè)領域產(chǎn)生了大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
? ??因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
北京理工大學大數(shù)據(jù)搜索與挖掘實驗室張華平主任研發(fā)的NLPIR-Parser大數(shù)據(jù)語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術鏈條的共享開發(fā)平臺。
NLPIR-Parser大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
隨著云計算、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術的發(fā)展和完善,相信大數(shù)據(jù)在各個領域的應用會越來越廣泛和深入,相關的研究也會越來越全面和深入,在信息管理領域,綜合應用數(shù)據(jù)挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。