隨著大數(shù)據(jù)應(yīng)用日益滲透到各行各業(yè)中,數(shù)據(jù)所蘊含著的巨大商業(yè)價值也越來越為人們所重視,數(shù)據(jù)日益成為重要的企業(yè)資產(chǎn)和國家戰(zhàn)略資源。數(shù)據(jù)資源通過交易流通,能釋放更大的價值,提升生產(chǎn)效率,推進產(chǎn)業(yè)創(chuàng)新。通過市場化的手段來促進數(shù)據(jù)流通成為一種趨勢,數(shù)據(jù)交易市場應(yīng)運而生。
大數(shù)據(jù)價值的發(fā)現(xiàn)與其所處的應(yīng)用場景密切相關(guān)。概括起來,大數(shù)據(jù)價值發(fā)現(xiàn)可以劃分為三大類:數(shù)據(jù)服務(wù)、數(shù)據(jù)分析和數(shù)據(jù)探索。數(shù)據(jù)服務(wù)是面向大規(guī)模用戶,提供高性能的數(shù)據(jù)查詢、檢索、預(yù)測等服務(wù),通過直接滿足用戶需求而將數(shù)據(jù)價值變現(xiàn)的形式;數(shù)據(jù)分析是分析人員利用經(jīng)驗,通過對大規(guī)模數(shù)據(jù)使用特定的計算模型進行較為復(fù)雜的運算,從而發(fā)現(xiàn)易于人們理解的數(shù)據(jù)模式或規(guī)律所進行的數(shù)據(jù)價值變現(xiàn)的一種運算形式;數(shù)據(jù)探索是一種利用數(shù)據(jù)分析和人機交互的結(jié)合,通過不斷揭示數(shù)據(jù)的規(guī)律和數(shù)據(jù)間的關(guān)聯(lián),引導(dǎo)分析人員發(fā)現(xiàn)并認識其所未知的數(shù)據(jù)模式或規(guī)律,其價值更多地體現(xiàn)在對未知途徑的數(shù)據(jù)模式和規(guī)律的探索。
1.數(shù)據(jù)服務(wù)
數(shù)據(jù)服務(wù)針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。由于要處理大眾化的服務(wù)請求,每個服務(wù)任務(wù)必須能夠被快速地處理掉,因此,數(shù)據(jù)服務(wù)的單個任務(wù)負載不能過于復(fù)雜,單任務(wù)直接處理的數(shù)據(jù)不能太大,任務(wù)對應(yīng)的用戶需求和采用的數(shù)據(jù)處理方法必須是明確的。一些典型的數(shù)據(jù)服務(wù)包括事務(wù)處理、數(shù)據(jù)查詢、信息檢索、數(shù)據(jù)預(yù)測。
2.數(shù)據(jù)分析
?數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對大量數(shù)據(jù)進行分析或建模,提取有用信息并形成結(jié)論,進而輔助人們決策的過程。在這個過程中,用戶會有一個明確的目標,通過“數(shù)據(jù)清 理、轉(zhuǎn)換、建模、統(tǒng)計”等一系列復(fù)雜的操作,獲得對數(shù)據(jù)的洞察,從而協(xié)助用戶進行決策。常見的數(shù)據(jù)分析任務(wù)又可以被進一步劃分為描述型分析、診斷型分析、預(yù)測型分析、策略型分析。
4.數(shù)據(jù)探索
?數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進行的。它將以找到信息為目的的傳統(tǒng)信息檢索模式變?yōu)橐园l(fā)現(xiàn)、學(xué)習(xí)和決策為目的的信息搜尋模式。這樣的搜索模式結(jié)合了大量的數(shù)據(jù)分析與人機交互過程,適合于人們從數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)更多的內(nèi)容和價值。
對于數(shù)據(jù)探索,用戶可以在微觀層面(數(shù)據(jù)搜索)和宏觀層面(數(shù)據(jù)分析)之間進行自由切換,用交互式的方式探索并發(fā)現(xiàn)數(shù)據(jù)的價值。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個研究熱點,并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。