隨著網(wǎng)絡(luò)時代的到了,用戶可獲得的信息包含了從技術(shù)資料、商業(yè)信息到新聞報道、娛樂資訊等多種類別和形式的文檔,構(gòu)成了一個異常龐大的具有異構(gòu)性、開放性的分布式數(shù)據(jù)庫,而這個數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化的文本數(shù)據(jù)。結(jié)合人工智能研究領(lǐng)域中的自然語言理解和計算機語言學(xué),從數(shù)據(jù)挖掘中派生出了兩類新興的數(shù)據(jù)挖掘研究領(lǐng)域:網(wǎng)絡(luò)挖掘和文本挖掘。網(wǎng)絡(luò)挖掘側(cè)重于分析和挖掘網(wǎng)頁相關(guān)的數(shù)據(jù),包括文本、鏈接結(jié)構(gòu)和訪問統(tǒng)計(最終形成用戶網(wǎng)絡(luò)導(dǎo)航)。一個網(wǎng)頁里面包含了多種不同的數(shù)據(jù)類型。因此網(wǎng)絡(luò)挖掘就包含了文本挖掘、數(shù)據(jù)庫中數(shù)據(jù)挖掘、圖像挖掘等。文本挖掘作為一個新的數(shù)據(jù)挖掘研究領(lǐng)域,目前并沒有給出統(tǒng)一的、確切的定義,但是文本挖掘的目的就是吧文本信息轉(zhuǎn)化為人可利用的知識。
文本挖掘最大的動機是來自于潛藏于電子形式中的大量的文本數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)處理公司大量的文本數(shù)據(jù),?將給企業(yè)帶來巨大的商業(yè)價值。另外人們對于文本挖掘的感興趣的原因還在于:人們有時候并不知道他們到底要找什么,?而挖掘能夠從數(shù)據(jù)庫中抽取出許多有用的信息。
文本挖掘的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識。但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計學(xué)?、數(shù)據(jù)可視化?、數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。
靈玖軟件NLPIR大語義智能分析平臺針對中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務(wù)了全球四十萬家機構(gòu)用戶,是大時代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。
NLPIR能夠全方位多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等。
中文信息處理技術(shù)從70年代的蓬勃發(fā)展至今,僅僅經(jīng)歷了短短20多年的時間,便完成了由初級階段向比較成熟階段的過渡,這是微電子技術(shù)和IT技術(shù)高速發(fā)展以及迫切的應(yīng)用需求所促成的。
隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。NLPIR大語義智能中文信息處理技術(shù)已成為中文信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的提供了重要的幫助,在互聯(lián)網(wǎng)日益成長的今天,NLPIR大語義智能中文信息處理技術(shù)將會更加成熟并創(chuàng)新。