大數據運算、機器學習與人工智慧

大數據運算、機器學習與人工智慧

課程安排

本學程的第二個共同課程,我們將開始介紹大數據運算、機器學習與人工智慧這三項資料科學之中發展的最快、也最熱門的技術領域;一般資工管的系所通常會將這一些科目定位為進階課程,把重點擺在分散式檔案系統和叢集運算的系統架構和機器(深度)學習的演算法,這樣的課程對非資工管科系的同學來說顯然是不合適的。從商業數據分析的立場出發,我們會把這個課程的教學重點放在大數據運算機器學習人工智慧這些技術的商業應用,而不會花太多時間去討論系統架構和演算法的細節。

大數據運算課程:
運用了中山管院:商業大數據平台,有完善的大數據運算叢集和深度學習主機群,而且在這些標準的系統之外,我們又分別針對網路分散式檔案系統、平行運算叢集和機器(深度)學習開發了一系列的演示程式和程式模板;這些程式擺置在學生帳號的根目錄之下,讓同學在拿到帳號之後,馬上就能夠使用簡單的URL和資料集(Data Frame)介面、透過大數據運算叢集處理擺置在網路檔案系統裡面的巨量資料。

機器學習課程:
我們傾向於將機器學習模型視為一個黑箱,將個別演算法和各種模型的複雜度包覆在黑箱內部,而把教學重點擺在監督式和非監督式學習的流程操作上面,接著把基本的機器學習流程先做成模板程式,透過修改這些模板,同學們就可以在(半)自動化程式套件的幫助之下,操練各種不同的機器學習方法。

人工智慧課程:
我們的教學重點一樣會擺在讓同學們認識各種形式的類神經網路以及它們可能的商業應用。考慮到同學的程度,在這個階段我們會使用高階程式介面(如R的Keras套件)、提供寫好的程式讓同學們做修改,而不會直接讓同學們從頭去做複雜的深度學習模型;人工智慧在商業數據分析裡面的應用跟它在工程上的應用並不太一樣,在工程上它比較偏重視即時性的情境辨識和自動控制,而在商業數據分析這個領域裡面,人工智慧、深度學習模型和機器學習模型一樣,主要都是拿來做預測,我們也會把機器學習模型跟人工智慧模型之間的差異,以及使用預先訓練好的模型從多媒體資料之中擷取特徵,當作這一個階段的教學重點。

除了這三個比較大的技術領域之外,雲端資源的使用也是這一個課程的教學重點;在這個課程裡面,我們會利用中山管院自行建置的文字分析平台,教同學從網路上抓取文字資料並且進行文字分析,也會利用免費試用帳號,帶同學使用自動化的線上分析工具(如:IBM Waston Analytics);另外,由於我們的深度學習主機群在初期的容量可能沒有辦法讓所有的學生一起上線,我們會以雲端深度學習工作坊的模式,教同學們利用Google Cloud Platform(GCP)所提供的免費使用額度在雲端租用、架設深度學習主機,並在雲端建立深度學習模型。

教學目標

作為這一個課程的首要教學目標,我們希望讓同學們感受到,從商業應用的角度來看,大數據其實並不困難,只要選對工具、用對方法,處理幾十億筆的巨量資料就跟處理幾千筆的資料一樣,兩者之間並沒有很大的差異。並且學習讓機器幫我們找出隱藏在眾多的預測變數裡面的、有用的資訊,機器只是一個工具,而不是目的。所以這一個學程的教學重點不是要去使用一台非常強大的機器來開發出預測能力最強的模型,而是要依據不同的商業情境、靈活的運用我們手邊的工具,幫我們解決商業問題。


課程大綱

PART-I 大數據運算與機器學習
  • 機器學習基礎介紹
    • 資料、方法、與模型
    • 訓練誤差、測試誤差
    • 參數調校(Parameter Tuning)、監督式與非監督式學習
    • 整合模型學習(Ensemble Learning)
  • 大數據分析與分散式運算基礎
    • 分散式檔案系統介紹
    • Hadoop、Spark、與 H2O 簡介
    • 中山管院大數據運算與商業數據分析平台
    • 大數據運算示範案例
  • 非結構化文字資料分析
    • 非結構化資料(Unstructured Data)介紹
    • 文字分析(Text Analysis)
    • 文字分析的應用與高階工具
  • 深度學習基礎與應用
    • 深度學習模型
    • 文字/人臉辨識
    • 物件辨識
PART-II 大數據與雲端資源應用
  • 商務應用
    • 顧客價值管理
    • 行銷數據分析
    • 產品銷售資訊
  • 雲端資源利用
    • 中山管院大數據平台介紹
    • 文字分析平台
    • 自動化線上分析工具
  • 雲端深度學習工作坊
    • 線上模擬:神經網絡模型
    • 架設雲端深度學習主機(Google Cloud Platform)
    • 案例與應用

 


自製教材

本課程不使用教科書,我們將以過去的自製教材為基礎,依據課程需要重新編製教材,教材項目包括:

  • 課程網站:整合自製教材與線上資源,促進互助學習 (HTML)
  • 導讀影片:幫助同學了解線上預習內容(線上課程原文教學影片)
  • 講義:每一單元的講義投影片 (PPT)
  • 課堂筆記:每一單元的課堂所使用的程式碼(R-Notebook)
  • 作業筆記:每一單元的作業(R-Notebook)
  • 線上模擬程式:以互動模擬的方式幫助同學了解比較複雜的概念 (R:Shiny)
  • 上課錄影: 方便同學複習或補課 (YouTube)

請透過以上網路連結審閱我們的自製教材範例。

 


線上課程

我們會利用DataCamp for Classroom的這個機制,根據我們事先編好的R語言自學地圖,要求並審核每一位同學確實完成以下線上課程(自助學習單元):

從其中截取合適的教學單元、作業習題或資料案例,直接引用為預習教材、參考教材,或以其作為自編教材的素材。


參考書目

本課程的參考書目暫定如下:

  1. EMC Education Services, Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons, 2015.
  2. James, D. Witten, T. Hastie, and R. Tibshirani, An Introduction to Statistical Learning: with Applications in R, 6 edition., 2013 (Available free online: http://www-bcf.usc.edu/~gareth/ISL/)
  3. Hwang and M. Chen, Big-Data Analytics for Cloud, IoT and Cognitive Computing, 1st ed. Wiley Publishing, 2018
  4. F. Chollet and J. J. Allaire, Deep Learning with R, 1 edition. Manning Publications, 2018