數據分析基本-相關分析與可視化(R語言)

介紹幾個相關的函數:rcorr(),corrplot(),ggpairs()與chart.Correlation()

在做數據分析時,滿常會遇到相關性分析,以電商來說,我們想提升的目標是GMV,可能和用戶收藏商品次數、 購買次數、購買頻率、單次購買金額有相關,相關性有多大。了解這些數據才知道如何引導用戶,進而提升目標。

常見的機器學習,例如預測、分類模型,modeling前也可以用相關性分析來做初步的特徵探索。

此階段的分析大致會經歷以下四個步驟:

  1. 找全相關的特徵
  2. 數據清洗與轉換
  3. 相關性及顯著性
  4. 可視化

邀請你至Blog閱讀全文:數據分析基本-相關性分析與可視化(R語言)

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

一、找全相關的特徵

我覺得結合業務經驗先進行篩選是最重要的,首先規劃好完整的思路,哪些行為可能跟目標有相關的?

也可以在此階段引入業務專家的意見,因為業務專家的商業敏感性可以有效縮小自變量的考察範圍

然后對這些行為+時間維度、屬性維度延伸, 比如點擊行為,就可已有近7天、近30天登入天數;交易行為可以有近90天3C商品購買次數、近90天母嬰商品購買次數…等。

這些需求數據的生成,一般在hive中取數。

Hive取數不熟悉的朋友,歡迎參考我在Hahow的課程<入門數據分析,掌握Hive SQL取數能力>,有任何問題都可以臉書小窗詢問。

二、數據清洗與轉換

髒數據的清洗可以說佔了分析項目的60%時間,R語言可以透過str()summary()了解數據基本情況。數據清洗多屬於數據質量問題,這之後再專門寫一篇,先舉例如下:

  • A字段少數樣本夾雜中文,與大多數觀察值的數據格式不同,剔除該樣本
  • B字段有50%以上是NULL,刪除該字段
  • C字段是類別變量,但以中文文字儲存,將其轉化為數字格式的類別變量(例如1=是、0=否)
  • D字段有20%是空值,經業務理解,這些空值就是代表0,因此將所有空值替代為0
  • 其他處理:數據轉換,利用對數(log)轉換、指數轉換、標準化等方式,解除一些不對稱分佈問題

決定好處方方式後,具體實現可以在分析工具中處理,生成比較乾淨的數據,但我自己是習慣回到hive處理。

邀請你至Blog閱讀全文:數據分析基本-相關性分析與可視化(R語言)

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

1. Hello All:主站遷移至👉https://andyrockdata.com/ ,請改至『ROCK DATA』Blog 閱讀新文章完整內容,如果喜歡我的文章,可以訂閱我的電子報(Medium站仍將張貼新文章訊息)2.立即追蹤👉ROCK DATA臉書粉絲頁ROCK DATA IG(@andyrockdata)3.【入門數據分析,掌握HiveSQL取數能力】在hahow上架啦,購買連結👉 http://hahow.in/cr/andyrockhive4. 往期的數據相關文章可以參考以下link

--

--

邱國欣(Andy Chiu)
邱國欣(Andy Chiu)

Written by 邱國欣(Andy Chiu)

文章內容以數據為主軸,分享工作跟生活的心得與總結,希望我的經歷,可以或多或少幫助到大家。如果你熱愛你所做的事,那麼你肯定會暫時遺忘了時間!「 ROCK DATA | 玩搖滾的數據人 」Blog:https://www.andyrockdata.com

No responses yet