在R環境下執行大數據運算

管學中心 商業大數據工作坊(一) R:大數據運算

    ◇ 時間:09/20 (五) 14:00~17:00      ◇ 地點:CM3038
🦋 本學期(108.1)管院規劃了一系列的課程和活動來幫助同學們繼續學習商業數據分析,除了康老師的「大數據分析、機器學習、與人工智慧方法(CM503)」之外,管學中心將推出一系列的『商業大數據工作坊』;為了讓同學們在學校就能實際操作產業規模的巨量資料,我們已經在管院的大數據平台之中預先布置了一批不同屬性的巨量資料集,每一個工作坊我們都會直接以程式導讀的方式、教同學們如何在R語言的環境中操作大數據運算、運用商業分析技巧來進行策略規劃。 這一系列工作坊的內容是為非技術背景的管院同學設計的,所以各位同學不需要有資訊、電算的背景,只要你會用R語言和RStudio,就可以參加;透過這一次學習,你將會發現,在R的環境之下,只要你用對工具和方法,要分析幾十億、甚至於幾百億筆的資料,其實都不會有問題。 ⛱
內容大綱:
1. 大數據運算的系統架構和基本觀念
2. Acquire資料集:三億五千萬筆零售交易項目
3. 在R語言的環境中操作大數據運算
4. 巨量資料的彙整:項目、訂單、顧客
5. 巨量資料的探索:產品部門和零售通路的對應關係
6. 回傳大數據運算的結果
7. 資料視覺化:顧客標籤、族群屬性、行銷策略
參考連結:
§ Spark 2.1.0
§ sparklyr: R interface for Apache Spark
檔案下載:
§ spark_demo.R
§ 大數據運算平台.pptx
課程影片:
§ 商業大數據工作坊(一) R:大數據運算