數據分析基本-相關分析與可視化(R語言)
介紹幾個相關的函數:rcorr(),corrplot(),ggpairs()與chart.Correlation()
在做數據分析時,滿常會遇到相關性分析,以電商來說,我們想提升的目標是GMV,可能和用戶收藏商品次數、 購買次數、購買頻率、單次購買金額有相關,相關性有多大。了解這些數據才知道如何引導用戶,進而提升目標。
常見的機器學習,例如預測、分類模型,modeling前也可以用相關性分析來做初步的特徵探索。
此階段的分析大致會經歷以下四個步驟:
- 找全相關的特徵
- 數據清洗與轉換
- 相關性及顯著性
- 可視化
邀請你至Blog閱讀全文:數據分析基本-相關性分析與可視化(R語言)
如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作
一、找全相關的特徵
我覺得結合業務經驗先進行篩選是最重要的,首先規劃好完整的思路,哪些行為可能跟目標有相關的?
也可以在此階段引入業務專家的意見,因為業務專家的商業敏感性可以有效縮小自變量的考察範圍
然后對這些行為+時間維度、屬性維度延伸, 比如點擊行為,就可已有近7天、近30天登入天數;交易行為可以有近90天3C商品購買次數、近90天母嬰商品購買次數…等。
這些需求數據的生成,一般在hive中取數。
Hive取數不熟悉的朋友,歡迎參考我在Hahow的課程<入門數據分析,掌握Hive SQL取數能力>,有任何問題都可以臉書小窗詢問。
二、數據清洗與轉換
髒數據的清洗可以說佔了分析項目的60%時間,R語言可以透過str()
或summary()
了解數據基本情況。數據清洗多屬於數據質量問題,這之後再專門寫一篇,先舉例如下:
- A字段少數樣本夾雜中文,與大多數觀察值的數據格式不同,剔除該樣本
- B字段有50%以上是NULL,刪除該字段
- C字段是類別變量,但以中文文字儲存,將其轉化為數字格式的類別變量(例如1=是、0=否)
- D字段有20%是空值,經業務理解,這些空值就是代表0,因此將所有空值替代為0
- 其他處理:數據轉換,利用對數(log)轉換、指數轉換、標準化等方式,解除一些不對稱分佈問題
決定好處方方式後,具體實現可以在分析工具中處理,生成比較乾淨的數據,但我自己是習慣回到hive處理。
邀請你至Blog閱讀全文:數據分析基本-相關性分析與可視化(R語言)
如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作
1. Hello All:主站遷移至👉https://andyrockdata.com/ ,請改至『ROCK DATA』Blog 閱讀新文章完整內容,如果喜歡我的文章,可以訂閱我的電子報(Medium站仍將張貼新文章訊息)2.立即追蹤👉ROCK DATA臉書粉絲頁跟ROCK DATA IG(@andyrockdata)3.【入門數據分析,掌握HiveSQL取數能力】在hahow上架啦,購買連結👉 http://hahow.in/cr/andyrockhive4. 往期的數據相關文章可以參考以下link
- 數據分析系列1:談談數據分析的眾多Title
- 數據分析系列2:數據分析的一週工作日程
- 數據分析系列3:身為資料分析師,你該如何展現工作中的價值?
- 數據分析系列4:如何量化職場規劃?我這次的轉職規劃與Offer選擇
- 數據分析系列5:為什麼要關心資料來源?談談埋點數據的陷阱
- 數據分析系列6:精選幾個機器學習的學習資源
- 數據分析系列7:數位化決策轉型與企業文化的一些思考
- 數據分析系列8:中山大學經濟所職涯座談(ㄧ):”了解自己”的重要&我怎麼成為數據分析師
- 數據分析系列9:中山大學經濟所職涯座談(二):想從事資料分析?你需要具備這8個能力
- 數據分析系列10:中山大學經濟所職涯座談(三) :讓資料變商機 — 資料分析在我們生活中的應用
- 數據分析系列11:面試時,資料分析師該怎麼準備作品集?
- 數據分析系列12:2018年終工作總結(數據分析師)
- 數據分析系列13:數據化運營中玩過的分析項目:一個數據分析師的經驗總結
- 數據分析系列14:如何提升運營/產品的優化效率?或許數據指標體系的搭建可以幫到忙
- 數據分析系列15:用戶畫像很重要,那你知道是怎麼畫出來的嗎?
- 數據分析系列16:給剛入行的數據分析師:想產生價值,在試用期要做的三件事
- 數據分析系列17:2019 數據分析工作總結_關鍵詞:數倉構建、BI可視化看板、用戶畫像(標籤)與精準行銷
- 數據分析系列18:入門數據分析的第一個大門檻:SQL/Hive取數-聊聊自身學習SQL的經歷以及三個自學網站分享
- 數據分析系列19:身為數據分析師,我怎麼看hahow上”R語言和商業分析”這門課
- 數據分析系列20:直接用SQL來分析數據?怎麼沒用python/R?3個面向來考量分析工具的選擇
- 數據分析系列21:數據分析的”橫向”學習之路-珍藏的網上文章重新整理放上github
- 數據分析系列22:透過埋點,讓數據說話:埋點基本知識
- 數據分析系列23:以數據為核心的CRM進化產品:帶你了解CDP(客戶數據平台)開發過程與難點
- 數據分析系列24:SQL不難啊,為什麼不容易精通?自學與實務的4個落差
- 數據分析系列25:數據分析基本-相關分析與可視化(R語言)
- 數據分析系列26:刷完了Leetcode SQL Hard Level的28道題:歡迎領取參考答案
- 數據分析系列27:數據太髒了!3個步驟做好數據質量管理
- 數據分析系列28:跨部門溝通成本太高?數據人實現高效跨部門溝通的4個方式
- 數據分析系列29:數據分析師職場發展的另類出路
- 數據分析系列30:Databrick為何收購BI產品Redash?產品視角來看Redash的功能與價值
- 數據分析系列31:數據分析師要失業了?解讀<2022 Gartner BI魔力象限> BI產品趨勢
- 數據分析系列32:Google Data Catalog如何幫忙管理數據? 產品介紹與體驗心得
- 數據分析系列33:復盤:數據產品從0到1的建設過程,我的9點感觸
- 數據分析系列34:Shopline-數據分析中心(Shoplytics)產品體驗
- 數據分析系列35:搞數據還是做產品?淺談『數據產品經理』