隨著計算機技術的發(fā)展,各行各業(yè)都開始采用計算機及相應的信息技術進行管理和運營,這使得企業(yè)生成、收集、存貯和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。企業(yè)數(shù)據(jù)實際上是企業(yè)的經(jīng)驗積累,當其積累到一定程度時,必然會反映出規(guī)律性的東西;所以對企業(yè)來說,這些堆積如山的數(shù)據(jù)無異于一個巨大的寶庫。除此之外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。在缺乏強有力的工具的情況下,這些海量的數(shù)據(jù)已經(jīng)遠遠的超出了人的理解和概括的能力。在這樣的背景下,人們迫切需要新一代的計算技術和工具來開采數(shù)據(jù)庫中蘊藏的寶藏,使其成為有用的知識。在市場需求和技術基礎這兩個因素都具備的環(huán)境下,數(shù)據(jù)挖掘(Data?Mining)的概念與技術就應運而生了。
作為一門交叉學科,數(shù)據(jù)挖掘融合了包括數(shù)據(jù)庫、人工智能、統(tǒng)計學等在內的多個領域的理論和技術。?而數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計是數(shù)據(jù)挖掘技術的三根強大的技術支柱。數(shù)據(jù)挖掘的主要任務是借助關聯(lián)規(guī)則,決策樹、聚類和基于樣例的學習。貝葉斯學習、粗糙集、神經(jīng)網(wǎng)絡、遺傳算法、統(tǒng)計分析等技術.采用數(shù)據(jù)取樣(選取數(shù)據(jù)樣本)、?數(shù)據(jù)探索(可視化數(shù)據(jù)探索與聚類分析和因子分選、數(shù)據(jù)調整(數(shù)據(jù)重組細分與添加?和拆分記錄)、模式化(人工神經(jīng)網(wǎng)絡。決策樹模型,數(shù)理統(tǒng)計分析和時問序列分析)和評價(結論綜合和評價、是否修改數(shù)據(jù)、有新問題產(chǎn)生)等五個基本流程。這一過程可能要反復進行,不斷地得到趨近事物的本質,不斷地優(yōu)化問題的解決方案,通過關聯(lián)分析、分類、聚類、預測和偏差檢測等發(fā)現(xiàn)數(shù)據(jù)間的關系以及數(shù)據(jù)間的模式?。
隨著數(shù)據(jù)庫技術的向前發(fā)展,數(shù)據(jù)庫系統(tǒng)中不斷引入新的數(shù)據(jù)模型,如擴充關系模型、面向對象模型、對象關系模型和演繹模型;根據(jù)數(shù)據(jù)的特性又分為空間的、時間的、多媒體的、主動的和科學的數(shù)據(jù)庫。相應的,這些對數(shù)據(jù)挖掘技術也提出了新的要求,給出了新的發(fā)展方向。
數(shù)據(jù)挖掘技術未來的發(fā)展方向和研究焦點是對各種非結構化數(shù)據(jù)的挖掘,如對文本數(shù)據(jù)、空間數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)進行挖掘,處理的數(shù)據(jù) 會涉及到更多的數(shù)據(jù)類型,它們更復雜,結構更獨特。
北京理工大學大數(shù)據(jù)搜索與挖掘實驗室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術是滿足大數(shù)據(jù)挖掘對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內容處理的全技術鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術及其應用是目前國際上的一個研究熱點,并在許多行業(yè)中得到了很好的應用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿ΑT谛畔⒐芾眍I域,綜合應用數(shù)據(jù)挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。