進入信息時代,保存在計算機中的文件和數據量正在以指數速度增長,同時人們期望從數據中獲得更有用的信息。實際上,這些數據中只有一小部分有用,但人們卻渴求獲得知識,正面臨“數據豐富而知識貧乏”的問題,所以迫切需要一種新的技術從海量數據中自動、高效的提取所需要的有用知識,這時,數據挖掘技術由此而生。
數據挖掘是一個以數據庫、人工智能、數理統(tǒng)計、可視化四大支柱技術為基礎,我們知道,描述或說明一個算法設計分為三個部分:輸入、輸出和處理過程。數據挖掘算法的輸入是數據庫,算法的輸出是要發(fā)現的知識或模式,算法的處理過程則設計具體的搜索方法。從算法的輸入、輸出和處理過程三個角度分,可以確定數據挖掘主要涉及三個方面:挖掘對象、挖掘任務、挖掘方法。挖掘對象包括若干種數據庫或數據源,例如關系數據庫、面向對象數據庫、空間數據庫、時態(tài)數據庫、文本數據庫、多媒體數據庫、歷史數據庫,以及萬維網(WEB)等。挖掘方法可以粗分為:統(tǒng)計方法、機器學習方法、神經網絡方法和數據庫方法。統(tǒng)計方法可細分為:回歸分析、判別分析等。機器學習可細分為:遺傳算法等。神經網絡方法可細分為:前向神經網絡、自組織神經網絡等。數據庫方法主要是多維數據分析方法等。
數據挖掘技術是一個多步驟、可能需多次反復的處理過程。主要包括以下幾步:準備、數據選擇、數據預處理、數據縮減、確定數據挖掘的目標、確定知識發(fā)現算法、數據挖掘(Data?Mining)、模式解釋、知識評價。其中最重要的一個步驟是數據挖掘,它是利用某些特定的知識發(fā)現算法,在可接受的運算效率的限制下,從有效數據中發(fā)現有關的知識。
靈玖軟件NLPIR大數據語義智能分析平臺針對中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務了全球四十萬家機構用戶,是大時代語義智能分析的一大利器。
NLPIR大數據語義智能分析平臺平臺針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發(fā)的基礎工具集。
NLPIR能夠全方位多角度滿足應用者對大數據文本的處理需求,包括大數據完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。
“大數據”的本質實際上是數據生產的社會化,其對統(tǒng)計尤其是政府統(tǒng)計的沖擊是重大的,不僅涉及到整個統(tǒng)計流程,更加對當前的政府統(tǒng)計管理體制、機構設置、數據價值等方面形成了挑戰(zhàn)。可以大膽預測,未來政府統(tǒng)計的政府角色會被統(tǒng)計專業(yè)性取代,經濟分析的職能會被更為專業(yè)的經濟分析部門取代,宏觀數據的重要性會讓位于更有信息價值的微觀數據。
數據挖掘技術是一個發(fā)展十分快的領域,?隨著對數據挖掘技術在各領域日益廣泛的應用,實現了數據資源共享及技術發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。