2021 BigVis Online Seminar

活動內容

本次研討會將介紹本社團如何使用 Spark、Hadoop、Shiny APP 等技術實作大數據視覺化,藉由 PTT 以及 Yelp 兩文集進行大數據文字分析,並製作成互動式的 Shiny APP,利用泡泡圖、文字雲、雙中心網路圖呈現,進而分析文字與情緒、話題、字根、關鍵字間的關係。

※時間:2021/03/24 (三) 19:00~20:10
※主講人:卓雍然教授、大數據應用程式開發學習小組、大數據中文文集應用學習小組
※地點:Youtube 線上直播 / 中山大學管理學院 CM 3038 教室(現場限制40人)

社團簡介

數據分析為現今重要的議題,商管領域也致力於數據分析的應用,將資料視覺化並寫成 Shiny APP,供使用者依自身需求查看結果。不同於一般的數據分析,大數據分析因資料量龐大,背後的運算相對複雜,在製作 Shiny APP 時受到許多限制,如:APP 開啟的速度較慢等,造成使用者的不便。 因此,本學習小組成立的目的在於透過小組成員間針對相關議題的分享、討論及共同研究,結合各自具備的專長與技能,使用 PTT 美妝版文集資料以及 Yelp 評論文集完成以大數據為基礎的 APP,解決製作大數據 APP 時的諸多限制。

資料介紹

PTT

82 個版面

2005~2019年資料

約 1,000 萬筆 PO 文

3 億則回應

Yelp

8,021,122 則評論

209,393 個商業類別

1,968,703 位使用者

超過140萬個商業屬性

社群與製作團隊

在社團內又分為兩個小組,分別針對 PTT 美妝版、Yelp 網站,以讀書會形式讓同學們自學線上及書籍教學資源,並透過與老師討論和實作交流,更快速的學到資料處理的專業知識和數位資訊的推播技巧,讓大家相互交流、共同成長。

※ PTT 美妝品牌網絡分析

透過使用者輸入我們在字典中分類出來的品牌,並調整網絡圖的節點數量和連結強度(共同出現次數或是相關係數),顯示網絡圖展示出不同分類的關鍵字類別字和字之間的關聯強度。

※ Yelp 網路評論內容分析

透過使用者選擇類別集群或商業類別,以及讀者互動方式(cool/funny/useful),展現出在不同商業類別下,讀者對於不同主題、情緒、字根的評論所做出的反應

※ Yelp 文字雲 Shiny APP

透過使用者選擇年份、商業類別,以及字詞數量、詞頻遮罩、個數遮罩等,展示不同年份、商業類別在評論中常顯示的字詞,亦可同時呈現兩張文字雲進行比較。

歡迎追蹤/訂閱我們