Hadoop和大數(shù)據(jù)是這兩年最火的詞兒們之一,越來越多的公司對這個東西感興趣,但是我接觸到的大多數(shù)公司里的人,無論是技術人員還是老板。都不知道怎么能把這些東西用于改善自己公司的業(yè)務。在解答的過程中,提煉出幾個要點,記錄一下。
大數(shù)據(jù)和云是不是一回事?
這是最容易混淆的概念之一,我個人認為這是兩回事,云服務,無論是云主機還是云存儲還是云的其他應用,都是向用戶提供一個接口,但這個接口的后端是虛擬機技術,或者分布式存儲技術,或者其他分布式計算技術等等。簡而言之,云的概念就是我向你提供服務,而你不需要關心這種服務的架構(gòu)或者技術實現(xiàn)有多么復雜。打個比方,就好象是,云之前的時代我們要用電,就需要自己造一個電廠發(fā)電,造機組,造變電站,然后再去用它。而云服務就好象是別人搭好了一個電廠,電線直接進你家,你要用,只需要插上插頭,不需要關心電是怎么被制造出來的。電力的生產(chǎn)和電力設備的維護都由國家電網(wǎng)承擔。聯(lián)系到網(wǎng)絡方面,就是,我們以前要自己買服務器,自己裝系統(tǒng),自己上架,自己做負載均衡,自己維護軟硬件環(huán)境。有了云之后,這些都通過云服務商的虛擬機技術完成了。數(shù)據(jù)安全和網(wǎng)絡安全都由云服務商提供,你也不需要專門請人維護一堆設備。
如果你想要學好大數(shù)據(jù)最好加入一個好的學習環(huán)境,可以來這個Q群251956502 這樣大家學習的話就比較方便,還能夠共同交流和分享資料
而說到大數(shù)據(jù),這個可以是基于云的,也可以是不基于云的。大數(shù)據(jù)的處理技術與提供云服務的技術是不盡相同的,但是又有所交集??梢哉f,云服務是基礎設施,是市政工程,而大數(shù)據(jù)是城市里的高樓大廈。大數(shù)據(jù)可以基于云,也可以不基于云。
從技術角度上說,國內(nèi)的大多數(shù)云服務商,主要提供的是虛擬機服務,這是一種分的概念,把一臺物理服務器拆成多個虛擬的小服務器,盡可能多的使用其物理資源,避免浪費。而大數(shù)據(jù)是合的思想,是把很多臺服務器合并成一個虛擬的巨型服務器,通過分配計算資源使數(shù)據(jù)可以快速的為生產(chǎn)力服務。用一句中國的老話形容大數(shù)據(jù)和Hadoop就是:三個臭皮匠頂個諸葛亮。用合并起來的計算資源超越小型機或者中型機的計算能力。這里面當然也有云的概念存在著,就是說,你不需要關心數(shù)據(jù)的存儲和計算到底是怎么完成的,你只需要用就可以了。
大數(shù)據(jù)技術是不是一定需要數(shù)據(jù)量大才可以,數(shù)據(jù)量不大就不需要用?
通常是這樣認為的,但是并不絕對,計算維度大,計算過程復雜也都可以認為是大數(shù)據(jù)。換句話說,就是,如果你所需要的數(shù)據(jù),在你所需要的時間內(nèi)無法正常計算出來,你可能就需要用到大數(shù)據(jù)的技術了。
一方面,你的數(shù)據(jù)需要的存儲量超過數(shù)據(jù)庫或者數(shù)據(jù)倉庫的能力范圍,你可能需要大數(shù)據(jù)技術;另一方面,你的計算量超過傳統(tǒng)的數(shù)據(jù)處理手段的時效性能力范圍之外,你也可能需要大數(shù)據(jù)技術。而典型的計算能力的挑戰(zhàn)就是來自于數(shù)據(jù)挖掘和多維度分析??赡軘?shù)據(jù)量不大,但是算法和過程很復雜,也可能會需要大數(shù)據(jù)的技術。比如對用戶做推薦,基于用戶群的分類做精準的廣告投放?;蛘咴趥鹘y(tǒng)行業(yè)計算氣象預報,計算地質(zhì)數(shù)據(jù)做石油探測,礦產(chǎn)探測。又或者用在金融行業(yè),通過對歷史數(shù)據(jù)建立數(shù)學模型,對證券和期貨貸款等做風險預估。之所以阿里巴巴對于中國的經(jīng)濟和進出口的預測比商務部和統(tǒng)計局更精準,除了他們有一群數(shù)學和統(tǒng)計專家外,大數(shù)據(jù)是完全不可或缺的技術手段。
大數(shù)據(jù)技術是不是就是那個什么憨杜普?
顯然不是,大數(shù)據(jù)領域存在很多廠商和應用,有開源的,有收費的。比如一些非Hadoop大數(shù)據(jù)處理的公司和軟件,EMC的Greenplum,Splunk公司的splunk等等。這些都不是基于Hadoop的,但是也有共同的缺陷,就是很貴。所以,大多數(shù)公司采用開源軟件來完成大數(shù)據(jù)的業(yè)務處理。而開源領域做得最好的,應該就是hadoop了。所以現(xiàn)在hadoop基本成了大數(shù)據(jù)處理的代名詞了?;贖adoop衍生了很多家商業(yè)公司,因為Apache的許可協(xié)議并不拒絕商業(yè)。像國內(nèi)比較知名的Cloudera,MapR,他們的商業(yè)產(chǎn)品都是基于Hadoop及其周邊的生態(tài)軟件。
大數(shù)據(jù)應該怎么推進公司業(yè)務的發(fā)展?
這是個關乎想象力的事情,有了大容量和大計算,至于怎么用,這只能自己想。原來數(shù)據(jù)怎么做現(xiàn)在還怎么做,不過除了啤酒與尿布,口香糖與避孕套之外,還有一個比較生動的案例大約是這樣的:美國有一個公司,在各產(chǎn)糧區(qū)每隔一英里插一個傳感器,收集空氣濕度和土壤含氮量等數(shù)據(jù)。收集上來以后通過大數(shù)據(jù)的處理手段和算法,預測出該地區(qū)的收成可能會是什么情況,然后把預測報告賣給美國的農(nóng)業(yè)保險公司。
Hadoop有什么優(yōu)缺點?
Hadoop的優(yōu)點是數(shù)據(jù)的容量和計算能力以及數(shù)據(jù)的備份安全性有了很大程度的提升,1.0大可以支持到大約4000臺服務器的并行存儲和運算,而2.0大約可以支持6000臺服務器。不過2.0現(xiàn)在還不是很完善,所以生產(chǎn)環(huán)境還是建議用1.0。我認為4000臺集群的容量和計算能力足以匹敵IBM的大型機,從去年12月15號的中國銀行大型機宕機事件來看。大型機就算安全性再有保障,也畢竟是單點。真出了故障,誰也不敢拍板切換到備份大型機上。Hadoop 1.0已經(jīng)有了很多方案去解決單點問題,2.0自己就支持單點故障切換?;蛟S未來繼續(xù)發(fā)展,將全面超越大型機。事實上,IBM已經(jīng)開始出自己的Hadoop發(fā)行版了。
至于缺點,就是Hadoop1.0還是存在單點問題,但是可以通過其他技術手段彌補做到熱切換,只是要求維護人員的技術水平較高。另外一個缺點是計算的時間會比較長,還無法做到實時查詢和快速決策響應。但是有很多其他的方案在彌補Hadoop的這個問題,像Apache出的跟Google Dremel競爭的Drill,Cloudera推出的Impala,和其他一些產(chǎn)品。而實時計算則有Twitter開源的Storm集群,設計理念跟Hadoop是一樣的,但是可以對實時數(shù)據(jù)流進行計算,并即刻生成計算結(jié)果。做到隨查隨出。
在各個開源社區(qū)的支持下,在全世界程序員的共同努力下,大數(shù)據(jù)的處理能力也在高速的發(fā)展,程序員們正在用自己的智慧改造這個世界。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
新聞名稱:大數(shù)據(jù)能做什么,為什么學習大數(shù)據(jù)-創(chuàng)新互聯(lián)
標題網(wǎng)址:http://www.2m8n56k.cn/article0/dhscio.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、營銷型網(wǎng)站建設、商城網(wǎng)站、云服務器、網(wǎng)站排名、面包屑導航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:[email protected]。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)