一、大數據簡介

大數據(Big Data),亦稱作海量資料、巨量資料或大資料。該名詞最早由IBM提出,每個人每天的活動都可記錄下來變成資料,每天的資料就將近2.5百萬兆位元組,隨著資訊技術的發展,資料累計的速度幾乎是以倍數成長,現在世界資料總量的90%大多是過去兩年內所建立的。這些資料的來源不光是由實驗或是訪問而取得的,還包括了蒐集氣象資訊的感應器,社交網站的貼文、照片和影像、交易紀錄,甚至是行動電話的GPS等等,這些來源多元的資料就累積而成大數據。
(http://www-01.ibm.com/software/tw/data/bigdata/)

或許有人認為大數據不就只是資料大一點而已嗎?為什麼要特別提出來討論?那是因為現在的資料型態和以往截然不同,從前的資料大多是文字或是數字資料,而現在的資料還包括照片、圖片及影片等。而資料蒐集的方法也不再像之前一樣是做實驗或是觀察得到的資料,透過網路可以蒐集到更多的資料。舉例來說,大家上Yahoo奇摩網頁,首頁不是都會出現一些購物中心的廣告嗎,網站系統可以經由你常點選的網頁或購物瀏覽的內容,判斷你會對哪些產品較有興趣,進而選擇放入這些產品的廣告。比如說連續一個星期你都透過購物網看球鞋,之後你會發現你的Yahoo 奇摩首頁的廣告大多變成球鞋的廣告,是不是很有趣呢,大家可以試試看。

另外,大數據的涵義不只是指龐大的資料而已,還包括了如何處理這些龐大資料的技術、分析工具及程序等,更重要的是該如何運用這些資料及方法。我們要如何從像海一般大的資料量中找到我們需要的資料進行分析,才是個重大的議題。在許多的領域中,由於資料量龐大,在分析上往往會遭到阻礙或限制,好比說社會學、氣象資料、生物環境學、醫療、交通、經濟及商業等等。

一般提到大數據都會提到3個V,分別是描述資料大小的「量」(volume),資料傳輸速度的「速」(velocity)和形容資料多元性的「多變」(variety),這三者合稱為「3V」(也可稱為「3Vs」)。也就是說大數據是個數量龐大、快速累積以及變化多端的資訊資產,因此我們需要採用新的方式處理資料,以便做出更好的觀察、決策和處理。另外,也有人在3V之外定義了第4個V:真實性(veracity),指的是當資料的來源越來越多元,這些資料是否能夠反映真實,是否可靠,會不會造成分析結果的錯誤。以下對4Vs更詳細之解釋(維基百科:http://zh.wikipedia.org/wiki/大數據

  • Volume(資料量)
    電腦與網路尚未普及之前,是以「手動」記錄資料或數據;現在資料是從機器、網路、全球各地人與人之間的社群互動生成。從點擊的滑鼠、傳訊息、搜尋、線上交易,全球每天都在生成並累積龐大數據,其資料量少則TB(Tera Bytes,1,000 GB)、多則PB(Peta Bytes,1,000,000 GB)甚至到EB(Exa Bytes,1,000,000,000 GB)。
  • Velocity(資料輸入輸出速度)
    資料傳輸流動是連續且快速的,且機器、網路使用者持續不停增加,每天都在輸出更多的內容。在面對如此龐大且迅速的資訊,公司要如何即時回應或反應這些資料亦成為一個最大的挑戰。由於要能即時得到結果才能發揮最大的價值,因此也有人認為Velocity是「時效性」。
  • Variety(資料類型)
    大數據資料來源種類包羅萬象,最簡單分類為結構化與非結構化。非結構化資料從早期的文字資料類型,已擴展到網路影片、視訊、音樂、圖片等等,複雜的非結構化資料類型造成儲存、探勘、分析的困難。
  • Veracity(資料真實性)
    該名詞是由Inderpal Bhandar (Express Scripts Chief Data officer)在波士頓大數據創新高峰會(Big Data innovation Summit)的演講中提出。因大數據資料過於雜亂,分析之前須過濾資料偏差、偽造或異常的訊息,避免「Dirt y Data」干擾到資料系統的正確性,進而影響決策結果。
  • 大數據持續發燒,也有越來越多人提出更多的「V」來解釋大數據,如Value、Valisity、Victory等

同學們都有使用臉書(Facebook)的習慣嗎?不論是否有使用,都對「打卡」、「按讚」這些詞彙都不陌生吧!當你打卡時,系統會記錄你去的場所,把所有臉書用戶打卡的場所都記錄下來,便能夠了解某一時間、地點,用戶都在做些什麼事,也可以藉此選擇要廣告的場所地點;當某廠商想要開設新店面時,就可以參考這個資料來判斷人潮多寡,以及附近是否有競爭對手等等資訊。當你按讚時,系統一樣記錄下來你對哪一篇文章按讚,將所有的資料蒐集來後,就可以知道大多數人對什麼樣的文章較容易產生興趣。如果是針對公司行號的廣告行銷文章按讚,公司就可以藉此知道自己的行銷是否成功。大數據資料很貼近大家的生活,並非遙不可及的另外一門學問,同學們不一定要學會分析大數據的資料和技術,可是一定要去了解它的應用情況。

二、大數據及資料科學相關文章

三、大數據資料統計分析相關論文

四、大數據資料統計分析書籍

五、大數據資料相關網站