商業大數據分析資料案例
課程安排
商業數據分析最終的目標是使用數據幫助我們做商業決策,通常在一個完整的決策過程中我們會用到一系列的分析方法,一開始我們需要使用探索性(explorative)的方法,配合資料視覺化,從資料中找到其中隱含的結構和趨勢,幫助我們看到關鍵的問題,接下來我們可能會用診斷性(diagnostic)的方法,找出問題之間的因果關係,或者我們需要使用預測性(predictive)的方法,預測未來可能會遭遇的情境,也需要使用模擬(simulation)和優化(optimization)工具,幫助我們在各個不同的情境裡面找到最佳的決策和最佳的策略,找出可行的策略之後我們可能又需要用到視覺化工具幫助我們策略溝通,在企業數位化的過程中,我們需要不斷重複使用這幾個步驟來幫我們調整方向,一個數位化的企業,更是會重覆使用這些步驟來調整自己的策略。因此在介紹完一系列的分析方法和分析工具之後,每一個學程的最後一個專業課程,我們會依不同的商業情境設計一系列的資料個案,引導同學們活用所學過的各種分析方法,並結合各項分析的結果來進行策略規劃。
在一般商業管理資料個案分析之中,我們計畫參考「MIT史隆商學院Analytics Edge」這個線上課程裡面的個案,幫助同學們認識商業數據分析在運動、醫療、警政、法務、保險、交友網站等不同產業的創新應用;我們也計畫參考「華頓商學院Business Analytics Specialization」這一系列線上課程的作法,分別從策略管理、顧客管理、管理會計、人資管理、作業管理這幾個層面設計資料個案,讓同學們練習使用數據來加強公司的內部管理。此外,我們也計畫仿照「哈佛商學院的模擬個案」,使用互動式網頁模擬市場區隔、差別定價、產品設計、產品線規劃、產品差異化與價格競爭等等狀況,讓同學體驗面對市場競爭、在時間壓力之下需要做出決策的真實商務情境
除了依特定的商業設計的資料個案之外,我們計劃每一個專業課程的最後都會使用帶有非結構化資料的大型關聯式資料集(如:Yelp Academy Challenge)來做Capstone Project,這個Project只會提供資料和情境,不會指定目標,各小組需要依據資料和情境自行判斷合適的分析方法,透過資料探索找出關鍵的問題、選擇分析的目標,目的是讓同學練習,面對產業規模的巨量資料的時候,能夠運用大數據運算工具整理資料、使用探索性方法找到關鍵性的問題,自行根據關鍵問題設定分析的題目,然後活用學過的各種分析方法分析資料,並結合各項分析的結果來決定策略。
教學目標
透過一般商業管理資料個案,讓同學們練習在各種不同的商業情境之下、靈活運用探索性、診斷性和預測性的分析方法,配合模擬與優化工具來判斷局勢、預測情境、模擬狀況、溝通策略和規劃對策。
課程大綱
PART-I 公司內部管理資料案例
- 顧客價值管理案例
- 策略人資管理案例
- 管理會計案例
- 作業(供應鏈)管理案例
PART-II 經營管理資料案例
- 職業運動經理案例
- 醫療保險公司案例
- 新產品銷售預估案例
- 航空公司營收管理案例
- 高雄市房地產實價登錄案例
- 糖尿病預防醫療案例
- 零售業顧客價值管理案例
- Acquire Valued Shoppers Challenge (Kaggle)
- 349,655,789筆交易項目,26,500,000筆交易,311,500位顧客
- 電商網站推薦系統案例
- Instacart Market Basket Analysis (Kaggle)
- 22,026,608筆交易項,2,178,586筆交易,131,209位顧客,49,688項產品
- 零售業折價券效率預測案例
- Coupon Purchase Prediction (Kaggle)
- 2,833,178次產品網頁點擊,1,046,668網站造訪人次
- 168,996筆交易,22,873位顧客
- 電商網站瀏覽記錄案例
- Yoochoose RecSys 2015 Competition Dataset
- 33,003,944 clicks,9,297,691 sessions
PART-III 一般管理Capstone
- 資料內容 Yelp Academy Challenge Round 12
- 5,996,996篇評論文章 (2005~2018),
- 280,992張照片,
- 1,518,169評論人,
- 188,583商店
- 分析步驟:
- 使用大數據分析平台整理結構與非結構化資料,
- 使用探索性分析方法和資料視覺化工具看出出隱藏在資料之中的結構和趨勢,
- 從結構和和趨勢之中自行提出關鍵的問題,
- 使用預測性和診斷性方法以及模擬與優化工具,
- 對關鍵問題提出可行的對策
- 製作、準備期末簡報
- 可能的分析項目:
- 商業類別分析
- 評論內容分析
- 評論文字效果分析
- 圖像(照片)效果分析
- 評論者網路分析
- 社群媒體內容分析
自製教材
本課程不使用教科書,我們將以過去的自製教材為基礎,依據課程需要重新編製教材,教材項目包括:
- 課程網站:整合自製教材與線上資源,促進互助學習 (HTML)
- 導讀影片:幫助同學了解線上預習內容(線上課程原文教學影片)
- 講義:每一單元的講義投影片 (PPT)
- 課堂筆記:每一單元的課堂所使用的程式碼(R-Notebook)
- 作業筆記:每一單元的作業(R-Notebook)
- 線上模擬程式:以互動模擬的方式幫助同學了解比較複雜的概念 (R:Shiny)
- 上課錄影: 方便同學複習或補課 (YouTube)
請透過以上網路連結審閱我們的自製教材範例。
中山管院大數據運算資源
本課程之中將使用超過三億筆資料的巨型資料集,學生可以透過學生帳號使用中山管院:商業大數據平台之中的大數據運算資源,包括:
- 所有的大型資料集將事先布置在Hadoop網路檔案系統之中
- 巨量資料可以載入Spark整合分析引擎,以資料框介面處理資料,
- 巨量資料也可以載入GreenPlum分散式資料庫,透過SQL介面進行處理
- 除了資料框和SQL介面之外,整合分析平台也提供了簡易的資料上傳和探索功能
- 透過平台可以使用高階介面(Keras)使用配備有GPU的深度運算主機建立人工智慧模型
- 使用者第一次登錄,即可透過根目錄之下的示範程式,(練習)使用以上各項資源
- 使用者可以透過文字分析平台,以半自動化的方式上傳、分析文集資料,目前文字平台之中已經存有過去10年間PTT網站多數版面的文字資料,使用者可以直接使用關鍵字和日期篩選PO文內容,進行分析
線上課程
我們也會參考以下線上課程(MOOC’s):
- 麻省理工學院開設的Analytics Edge線上課程 (edX)
- 華頓商學院開設的Business Analytics Specialization系列線上課程
從其中截取合適的教學單元、作業習題或資料案例,直接引用為預習教材、參考教材,或以其作為自編教材的素材。
開放資料來源
本課程將從以下開放資料網站蒐集資料集,藉以編輯管理資料案例:
R語言的特殊用途套件
除了R和RStudio之外,本課程會使用以下特殊用途套件:
- 互動式網頁圖形套件 (htmlwidget, …)
- 互動式模擬套件 (shiny, shinyWidgets, shinydashboard)
- 圖資處理套件 (sf, tmap)
- 產品推薦系統套件 (recommaenderlab)
- 營收管理套件 (fPortfolio, quantmod)
- 投資組合管理套件 (fPortfolio, quantmod)
- 非線性規劃(最佳化)套件 (modopt.matlab)
其他線上資源
此外,我們也計畫在課程中指導學生以免費試用方式使用以下線上服務:
- 透過 Google Cloud Platform (GCP) 租用、架設雲端深度學習主機
- 透過 IBM Watson Analytics 練習使用自動機器學習系統
- 透過 IBM Watson Analytics for Social Media 練習操作社群網路監聽和文字內容分析
參考書目
本課程的參考書目暫定如下:
- Albright, S., & Winston, W. (2014). Business analytics: Data analysis & decision making. Nelson Education.
- Edwards, M. R. & Edwards, K. (2016). Predictive HR Analytics: Mastering the HR Metric. Kogan Page.
- Mizik, N. & Hanssens, D. M. (2018). Handbook of Marketing Analytics: Methods and Applications in Marketing Management, Public Policy, and Litigation Support. Edward Elgar Pub.
- Venkatesan, R., Farris, P., & Wilcox, R. T. (2015). Cutting-edge marketing analytics: real world cases and data sets for hands on learning. Pearson Education.