用戶畫像很重要,那你知道是怎麼畫出來的嗎?

邱國欣(Andy Chiu)
11 min readAug 31, 2019

--

最近工作80%時間在建數據庫模型,雖然不是沒做過,但以前是基於已有的模型對業務屬再拓展,還沒有重最底層建過。目的除了對分析工作長期開展的的長治久安外,很大一部分是想支持用戶畫像的開發。

進行了將近3個月,有了一些階段性成果,構想也越來越具體。然沒有進行過系統的總結,總歸不是自己的東西。這篇文章,結合自己的實踐and網上參考資料的整理與理解。

對構建用戶畫像的方法進行總結歸納,用戶畫像的構建大致可以分為目標分析、體系構建、畫像建立三步,涉及的知識有數據鍊路梳理、業務理解 、數據庫建模、 數據清洗 、算法

邀請你至Blog閱讀全文:
用戶畫像很重要,那你知道是怎麼畫出來的嗎?

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

什麼是用戶畫像

一言以蔽之,用戶畫像就是對用戶打上各種標籤,一個標籤通常是人為高度精煉的特徵標識

用戶畫像的應用相當廣泛,從廣告投放,推薦、搜索乃至業務決策都會用到,我印象台灣花旗銀行很重視員工要Know your cistomer,也是用戶畫像的體現。

用戶畫像(persona)的概念最早由交互設計之父Alan Cooper提出:是指真實用戶的虛擬代表,是建立在一系列内容數據之上的目標用戶模型。隨著互聯網的發展,現在我們說的用戶畫像是根據用戶人口學特徵、網路流覽內容、網絡社交活動和消費行為等資訊而抽象出的一個標籤化的用戶模型。通過各個維度對用戶或者產品特徵内容的刻畫,並對這些特徵分析統計挖掘潜在價值資訊

一言以蔽之,就是對用戶打上各種“標籤”,一個標籤通常是人為規定的高度精煉的特徵標識。例如“高購買用戶”,“有車一族”…等。

而要建構這種較為抽象的標籤,我們或多或少需要算法的能力,例如用回歸分析預測購買機率、FRM模型分類高價值用戶、聚類分析對客戶群體分群…

往前一步,要先從事實數據出發。例如剛提到的”高購買用戶”,假設可以由“購買前諮詢過客服次數”+“功能點擊次數”+“頁面停留時間”這三個變量決定,這三個變量又可被歸納為三種不同行為:即“諮詢行為”、“使用行為”、“瀏覽行為”。

從上往下拆解,建構標籤的難易度和各類標籤的依存關係為原始數據→事實標籤 →模型標籤→高級標籤

用戶畫像各類標籤的依存關係

過程1-數據鏈路梳理

首先對原數據進行梳理,有哪些表?在業務系統紀錄的邏輯?存了哪些數據?表跟表間彼此的關聯關係?

聽起來很簡單,但做起來真的不容易… 數據表主鍵都是id,但功能模塊可能涉及不同開發,產生不同表邏輯,根本不清楚這id是什麼id…

這問題的解法,我得到一個比較有效的經驗是直接打開前端頁面結合數據表跟開發當面溝通。

摸得差不多後,開始把表分類並聚合,構建基礎的模型框架,劃分維度/域-主題的概念。舉例來說, 我分成了客戶主題、用戶主題、營銷主題、交易主題、 服務管理主題、日誌-登入主題…等。

開頭提到,標籤是人為規定的高度 精煉的標識,因此劃分的方式還是依不同的產業而定,像電商產業我想還會有綁卡主題、商品類別交易主題、日誌-購物車主題、日誌-搜索主題、商品評論主題、用戶蒐藏主題等。

(喔對了我最害怕日誌了,除了處理比較複雜、再來點位天然存在丟失情況、沒有埋點、埋點不規範前後邏輯不一治等問題一堆,校驗時很考驗耐心)

旅遊產業的數倉主題

邀請你至Blog閱讀全文:
用戶畫像很重要,那你知道是怎麼畫出來的嗎?

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

過程2-數據庫建模/數據清洗

建模方式參照阿里,從ODS層往DW層聚合,最終結果為通用的DWS中間層。主要會思考是不是要用拉鍊表?哪些表要全量?哪些表用增量?並處理掉基本的髒數據 (例如id有NULL、空值、或本文,要清除)。

要檢查主鍵是否唯一,若發散的話,可能表關聯錯誤、可能對隨時間變化的值做了分區表、也可能本身就有髒數據造成。

雖然只有短短幾句話描述,但是這步驟很燒腦、SQL寫的眼睛都花了,尤其越底層一開始沒弄好的話,後面想修改時所涉及下游表字段甚至邏輯都可能要重構。

過程3-事實標籤

事實標籤的構造過程,也加深了對數據的理解。

相對前兩步驟,這步對我來說反而是最簡單的。

搭建好DWS中間層後,每個主題均以用戶id為唯一主鍵,對表進行簡單統計,產生用戶在不同主題的行為統計數據。例如客戶交易行為表、客戶諮詢行為表、客戶登入行為表等等,並且要規範好統一口徑(例如支付成功數限制支付狀態=成功且支付金額>0)

以客戶交易行為為例,表的字段會有:

  • 總購買次數、第一次消費時間、最近一次消費時間、首單距今時間、尾單距今時間 →分析用戶什麼時候來購買商品以及多久沒有購買
  • 最小消費金額、最大消費金額,累計消費金額、累計使用代金券金額、累計使用代金券次數。况。客單價、近60天客單價) →分析用戶總體消費情及消費水準
  • 常用收貨地址、常用支付方式 →分析用戶常用的消費内容,方便做定向行銷

事實標籤的構造過程,也加深了對數據的理解。除了完成了數據的處理與加工,也對數據的分佈有了一定的瞭解,可以為高級標籤的構造做準備。

過程4-模型標籤/過程5-高級標籤

還沒開始做,以下為網上的說法&案例

模型標籤是標籤體系的核心,也是用戶畫像工作量最大的部分,大多數用戶標籤的核心都是模型標籤。模型標籤的構造大多需要用到機器學習和自然語言處理。

最後構造的是高級標籤,高級標籤是基於事實標籤和模型標籤進行統計建模得出的,它的構造多與實際的業務名額緊密聯系。只有完成基礎標籤的構建,才能够構造高級標籤。構建高級標籤使用的模型,可以是簡單的資料統計,也可以是複雜的機器學習模型。

  1. 例如手機產業,用購買週期,使用度使用時常預測
  2. 模型算法 — -用戶忠誠度模型: 忠誠度分類:(1=忠誠型用戶、2=偶爾型用戶、3=投資型用戶、4=遊覽型用戶、-1=未識別)、總體規則是判斷+聚類演算法(ex 遊覽用戶型=只遊覽不購買的,忠誠用戶=購買天數大於一定天數的,投資型用戶=購買天數小於一定天數,大部分是有優惠才購買的)
  3. 很多產品(如QQ、facebook等)都會引導用戶填寫基本資訊,這些資訊就包括年齡、性別、收入等大多數的人口内容,但完整填寫個人資訊的用戶只占很少一部分。而對於無社交内容的產品(如輸入法、團購APP、視頻網站等)用戶資訊的填充率非常低,有的甚至不足5%。在這種情況下,我們一般會用填寫了資訊的這部分用戶作為樣本,把用戶的行為數據作為特徵訓練模型,對無標籤的用戶進行人口内容的預測。這種模型把用戶的標籤傳給和他行為相似的用戶,可以認為是對人群進行了標籤擴散,囙此常被稱為標籤擴散模型。
  4. 模型算法 — -用戶身高尺碼模型:通過得到用戶身材身高尺碼來判斷推薦用戶適合的服裝鞋帽等等。

邀請你至Blog閱讀全文:
用戶畫像很重要,那你知道是怎麼畫出來的嗎?

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

最後

  • 資料倉庫為用戶畫像數據的主要處理工具,依據業務場景和畫像需求將原始數據進行分類、篩選、歸納、加工等,生成用戶畫像需要的原始數據。
  • 用戶畫像開發,主要是對資料倉庫中的業務表、日誌表、埋點表中的相關資料進行各維度建模。所以要對資料倉庫和中繼資料非常熟悉。
  • 用戶畫像具有很重的場景因素,不同企業對於用戶畫像有著不同對理解和需求。每個行業都有一套適合自己行業的用戶畫像方法,但是其重心都是為客戶服務,為業務場景服務
  • <錯誤觀念>:認為用戶畫像數據緯度越多越好,畫像數據越豐富越好,某些輸入的數據還設定了權重甚至建立了模型,搞的用戶畫像是一個巨大而複雜的工程。但是費力很大力氣進行了畫像之後,卻發現只剩下了用戶畫像,和業務相聚甚遠,沒有辦法直接支持業務運營,投入精力巨大但是回報微小。
畫像系統架構

參考:

邀請你至Blog閱讀全文:
用戶畫像很重要,那你知道是怎麼畫出來的嗎?

如果你喜歡我的文章,也邀請你訂閱『Rock Data』電子報,支持我持續創作

1. Hello All:主站遷移至👉https://andyrockdata.com/ ,請改至『ROCK DATA』Blog 閱讀新文章完整內容,如果喜歡我的文章,可以訂閱我的電子報(Medium站仍將張貼新文章訊息)2.立即追蹤👉ROCK DATA臉書粉絲頁ROCK DATA IG(@andyrockdata)3.【入門數據分析,掌握HiveSQL取數能力】在hahow上架啦,購買連結👉 http://hahow.in/cr/andyrockhive4. 往期的數據相關文章可以參考以下link

--

--

邱國欣(Andy Chiu)
邱國欣(Andy Chiu)

Written by 邱國欣(Andy Chiu)

文章內容以數據為主軸,分享工作跟生活的心得與總結,希望我的經歷,可以或多或少幫助到大家。如果你熱愛你所做的事,那麼你肯定會暫時遺忘了時間!「 ROCK DATA | 玩搖滾的數據人 」Blog:https://www.andyrockdata.com

No responses yet