? 推測或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù);
? 檢查數(shù)據(jù)是否合法;
? 給決策制定合理建議;
? 診斷或推斷錯誤原因;
? 預(yù)測未來將要發(fā)生的事情
由于統(tǒng)計數(shù)據(jù)的多樣性,數(shù)據(jù)分析的方法大不相同,可以將數(shù)據(jù)根據(jù)下述標準分為幾類:根據(jù)觀察和測量得到的定性或定量數(shù)據(jù),根據(jù)參數(shù)數(shù)量得到的一元或多元數(shù)據(jù),此外,有些工作對領(lǐng)域相關(guān)的算法進行了總結(jié),Manimom等對數(shù)據(jù)挖掘算法進行了分類,將其分為描述性(deive)、預(yù)測性和驗證性(veryfying),Bhatt等則將多媒體分析方法劃分為特征提取、變形、表示和統(tǒng)計數(shù)據(jù)挖掘,然而并沒有對大數(shù)據(jù)處理方法進行分類的工作,Blackett等根據(jù)數(shù)據(jù)分析深度將數(shù)據(jù)分析分為三個層次:描述性(deive)分析,預(yù)測性分析和規(guī)則性(preive)分析。
基于歷史數(shù)據(jù)描述發(fā)生了什么,例如,利用回歸技術(shù)從數(shù)據(jù)集中發(fā)現(xiàn)簡單的趨勢,可視化技術(shù)用于更有意義地表示數(shù)據(jù),數(shù)據(jù)建模則以更有效的方式收集、存儲和刪減數(shù)據(jù),描述性分析通常應(yīng)用在商業(yè)智能和可見性系統(tǒng)。
用于預(yù)測未來的概率和趨勢,例如,預(yù)測性模型使用線性和對數(shù)回歸等統(tǒng)計技術(shù)發(fā)現(xiàn)數(shù)據(jù)趨勢,預(yù)測未來的輸出結(jié)果,并使用數(shù)據(jù)挖掘技術(shù)提取數(shù)據(jù)模式(pattern)給出預(yù)見。
解決決策制定和提高分析效率,例如,仿真用于分析復(fù)雜系統(tǒng)以了解系統(tǒng)行為并發(fā)現(xiàn)問題,而優(yōu)化技術(shù)則在給定約束條件下給出最優(yōu)解決方案。
數(shù)據(jù)驅(qū)動的應(yīng)用在過去幾十年里已經(jīng)出現(xiàn),例如,20世紀90年代在商業(yè)領(lǐng)域出現(xiàn)的商業(yè)智能,21世紀初期出現(xiàn)的基于數(shù)據(jù)挖掘的web搜索引擎,接下來將介紹在不同時期典型大數(shù)據(jù)領(lǐng)域中具有高影響力的大數(shù)據(jù)分析應(yīng)用的發(fā)展。
早期的商業(yè)數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù),由企業(yè)或公司收集并存儲在關(guān)系數(shù)據(jù)庫管理系統(tǒng)中,這些系統(tǒng)應(yīng)用的數(shù)據(jù)分析技術(shù)通常是直觀簡單的,Gartner總結(jié)了商業(yè)智能應(yīng)用的常用方法,包括報表(reporting)、儀表盤(dashboard)、即時查詢(adhocquery)、基于搜索的商業(yè)智能、在線事務(wù)處理、交互可視化、計分卡、預(yù)測模型和數(shù)據(jù)挖掘。21世紀初期,互聯(lián)網(wǎng)和web使得企業(yè)將其業(yè)務(wù)上線,并能和客戶直接聯(lián)系,大量的產(chǎn)品和客戶信息如點擊流數(shù)據(jù)日志和用戶行為可以通過web收集,通過使用不同的文本和web挖掘技術(shù),可以完成產(chǎn)品放置優(yōu)化,客戶事務(wù)分析,產(chǎn)品推薦和市場結(jié)構(gòu)分析,據(jù)報道,2011年移動手機和平板電腦的數(shù)量首次超過了筆記本和PC機,移動手機和物聯(lián)網(wǎng)構(gòu)建了具有位置感知、個人為中心和上下文感知的革新性應(yīng)用。
早期的網(wǎng)絡(luò)提供電子郵件和網(wǎng)站服務(wù),因此文本分析、數(shù)據(jù)挖掘和網(wǎng)頁分析技術(shù)被用于挖掘郵件內(nèi)容、創(chuàng)建搜索引擎,網(wǎng)絡(luò)數(shù)據(jù)占據(jù)了全球數(shù)據(jù)的絕大部分,包含文本、圖像、視頻、照片和交互式內(nèi)容等多種類型的數(shù)據(jù),隨后,用于半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)的分析技術(shù)得到了發(fā)展,例如,圖像分析技術(shù)可以從照片中提取有意義的信息,多媒體分析技術(shù)可以使商業(yè)或軍事領(lǐng)域的視頻監(jiān)控系統(tǒng)自動化,2004年后,諸如論壇、博客、社交網(wǎng)站、多媒體分享站點等在線社交媒體的出現(xiàn)使得用戶能夠產(chǎn)生、上傳和共享豐富的用戶自主創(chuàng)造內(nèi)容,從這些不同人們發(fā)布社交媒體內(nèi)容中可以挖掘每天的熱門事件和社會政治觀點等,從而提供及時的反饋和意見。
科學(xué)研究的許多領(lǐng)域中高生產(chǎn)量的傳感器和儀器將產(chǎn)生大量的數(shù)據(jù),如天文學(xué)、海洋學(xué)、基因?qū)W和環(huán)境研究等學(xué)科領(lǐng)域,美國NSF宣布對BIGDATA項目進行立項,促進數(shù)據(jù)分享和分析,有些科學(xué)研究學(xué)科以前已開發(fā)出對海量數(shù)據(jù)的分析平臺,并取得了有效地成果,例如在生物學(xué)科,iPlant利用信息基礎(chǔ)設(shè)施,物理計算資源和支持互操作的分析軟件等,向致力于豐富植物科學(xué)知識的研究者、教育者和學(xué)生提供數(shù)據(jù)服務(wù),iPlant數(shù)據(jù)集是多樣性的數(shù)據(jù),包含權(quán)威的和供參考的數(shù)據(jù)、實驗數(shù)據(jù)、仿真建模數(shù)據(jù)、觀察數(shù)據(jù)和其他處理后的數(shù)據(jù)。
.
基于以上的分析,可以將數(shù)據(jù)分析的研究分為6個方向:結(jié)構(gòu)化數(shù)據(jù)分析、文本分析、web數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、社交網(wǎng)絡(luò)數(shù)據(jù)分析和移動數(shù)據(jù)分析,結(jié)構(gòu)化數(shù)據(jù)分析是指傳統(tǒng)的數(shù)據(jù)分析,Web數(shù)據(jù)、多媒體數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)和移動數(shù)據(jù),從數(shù)據(jù)形態(tài)上可能包括結(jié)構(gòu)化數(shù)據(jù)的某些數(shù)據(jù)類型(如文本),但是在特定的應(yīng)用領(lǐng)域里面,具有新的分析要求和特性。
盡管目標和應(yīng)用領(lǐng)域不同,一些常用的分析方法幾乎對所有的數(shù)據(jù)處理都有用,下面將討論三種類型的常用數(shù)據(jù)分析方法。
與信息繪圖學(xué)和信息可視化相關(guān),數(shù)據(jù)可視化的目標是以圖形方式清晰有效地展示信息38),一般來說,圖表和地圖可以幫助人們快速理解信息,但是,當數(shù)據(jù)量增大到大數(shù)據(jù)的級別,傳統(tǒng)的電子表格等技術(shù)已無法處理海量數(shù)據(jù),大數(shù)據(jù)的可視化已成為一個活躍的研究領(lǐng)域,因為它能夠輔助算法設(shè)計和軟件開發(fā),F(xiàn)riedman和Frits分別從信息表示和計算機科學(xué)領(lǐng)域?qū)?shù)據(jù)可視化進行了探討。Tabusvis則是一個輕型的可視化系統(tǒng),提供對多維數(shù)據(jù)的靈活、可定制的數(shù)據(jù)可視化。
基于統(tǒng)計理論,是應(yīng)用數(shù)學(xué)的一個分支,在統(tǒng)計理論中,隨機性和不確定性由概率理論建模,統(tǒng)計分析技術(shù)可以分為描述性統(tǒng)計和推斷性統(tǒng)計,描述性統(tǒng)計技術(shù)對數(shù)據(jù)集進行摘要(summarization)或描述,而推斷性統(tǒng)計則能夠?qū)^程進行推斷,更多的多元統(tǒng)計分析包括回歸、因子分析、聚類和判別分析。
是發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)模式的計算過程,許多數(shù)據(jù)挖掘算法已經(jīng)在人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計和數(shù)據(jù)庫領(lǐng)域得到了應(yīng)用。此外,一些其他的先進技術(shù)如神經(jīng)網(wǎng)絡(luò)和基因算法也被用于不同應(yīng)用的數(shù)據(jù)挖據(jù)。有時候,幾乎可以認為很多方法間的界線逐漸淡化,例如數(shù)據(jù)挖掘、機器學(xué)習(xí)、模式識別、甚至視覺信息處理、媒體信息處理等等,此處以“數(shù)據(jù)挖掘”作為一個通稱。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
網(wǎng)頁名稱:深入淺出學(xué)習(xí)大數(shù)據(jù):核心篇之大數(shù)據(jù)分析!-創(chuàng)新互聯(lián)
標題鏈接:http://www.2m8n56k.cn/article8/gjpip.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、商城網(wǎng)站、定制網(wǎng)站、手機網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、App設(shè)計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:[email protected]。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容