在當(dāng)今信息爆炸的時代,伴隨著社會事件和自然活動的大量產(chǎn)生(數(shù)據(jù)的海量增長),人類正面臨著“被信息所淹沒,但卻饑渴于知識”的困境。隨著計算機軟硬件技術(shù)的快速發(fā)展、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫技術(shù)的日臻完善,人類積累的數(shù)據(jù)量正以指數(shù)方式增長? 。面對海量的、雜亂無序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識。
數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、模式識別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計等最新技術(shù)的研究成果,可以用來支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷售、欺詐檢測、顧客流失分析、商品銷量預(yù)測等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對于各行各業(yè)來說,都具有重要的現(xiàn)實意義。
數(shù)據(jù)挖掘技術(shù)具有以下特點:
1.?處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級,甚至更大。
2.?查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。
3.?在一些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。
4.?數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律.因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時,即認(rèn)為有效.因此,利用數(shù)據(jù)挖掘技術(shù)可能會發(fā)現(xiàn)大量的規(guī)則。
5.?數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫中加入新數(shù)據(jù),需要隨時對其進(jìn)行更新。
數(shù)據(jù)挖掘是一種獲得知識的技術(shù)。它的基礎(chǔ)是數(shù)據(jù),手段是各種算法,目的是獲得數(shù)據(jù)中蘊含的知識。發(fā)現(xiàn)知識并非易事,人們總是受到各種各樣的局限,目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識的瓶頸。隨著數(shù)據(jù)采集和存儲技術(shù)的發(fā)展,對大量數(shù)據(jù)的分析和使用成為一個新的難題。對數(shù)據(jù)挖掘應(yīng)用而言,知識的發(fā)現(xiàn)存在兩個極限,一個是數(shù)據(jù)極限,即數(shù)據(jù)要么非常龐大,要么數(shù)據(jù)量足夠小,或者數(shù)據(jù)量小但維度非常大;另一個是算法極限,即針對很多數(shù)據(jù)(不同的性質(zhì),不同的形式)和很多需求,目前所有的算法尚不能很好地解決某些問題。因此,數(shù)據(jù)挖掘應(yīng)用具有三個要素:數(shù)據(jù),算法,知識。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。