網站的迷失度度量

2011年5月10日由 joegh 留言 »

　　在博客之前的文章——優化網站信息架構我曾經提到過關於迷失用戶（Lost Visits）的定義，以及如何使用Google Analytics的高級群組（Advanced Segment）去區分出這批用戶。最近在看《用戶體驗度量（Measuring the User Experience）》，發現自己實在太嫩了，人家Smith早在1996年就對迷失度（Lostness）有了定義，同時給出了迷失度L的計算公式，這裡借花獻佛，分享給大家。

即，L = sqrt[ (N/S-1)² + (R/N-1)² ]

L：迷失度

N：訪問的不同頁面數（Unique Pageviews）

S：訪問的總頁面數（Pageviews）

R：完成任務必需的最小頁面數

　　Smith同時給出了迷失度的評定標准：最佳迷失度為0，迷失度小於0.4時，用戶不會顯示任何可觀察到的迷失特征；迷失度大於0.5時，用戶顯現迷失特征。

　　結合公式，我們可以看到這裡對迷失度的定義主要考慮到的是：1、重復訪問相同的頁面，2、沒有能夠用最簡單的方式完成任務，過多地在網站中徘徊。其實第一眼看去這個公式有一定的道理，但細想一下其實也存在著不合理的地方。通常我們需要去獲取知識，閱讀和總結他人的經驗，但如果只是一味地套用書本或者別人的東西，那麼你就輸了，尤其是在發展如此迅速的互聯網領域。那麼我們來看看這個公式有何不妥：

　　我們先思考這樣一個問題：迷失的用戶會表現怎樣的特征？顯然，當用戶在網站中找不到自己需要的東西的時候會來回地點擊各種頁面，頻繁地返回首頁或者索引頁面，那麼從這個角度看，顯然這個公式是成立的，迷失用戶的表現特征就是頻繁地重復瀏覽同一頁面，並且瀏覽的頁面數會比正常訪問多得多。但再換一個角度思考，逆向思考下前面的問題：一個正常的用戶會不會出現重復瀏覽同一頁面或者瀏覽頁面數較多的情況？顯然也是可能的，簡單的例子，如果你對我的博客非常感興趣，看了一篇文章後還想看另外的文章……於是你來回於博客的文章頁面和文章專題推薦或者網站地圖頁面之間，於是這些列出了文章索引的頁面被一次又一次地重復訪問著；再如，如果一個用戶上電子商務網站的目的不是購物，而是閒逛，看看有沒有便宜貨，或者只是針對某類商品比對下商品的好壞及價格的差異，以伺機下手，那麼這個時候這些用戶的訪問頁面數就會異常的多，但他們其實都沒有迷失。所以，上面的公式無法為你從所有的用戶中挑出那些迷失的用戶，最多只能對已知的迷失用戶計算他們的迷失度，哪些是低度迷失，哪些是高度迷失。

　　但其實Smith沒有錯，錯的是這個高速發展的時代，這也是我為什麼說尤其在互聯網領域不要直接照搬一些東西來直接應用於自身的原因。1996年，很明顯還處於WEB1.0時代，完全沒有現在網站的那些復雜交互和多樣的功能，當時的網站大部分做的只是信息的單向發布，而用戶訪問網站的任務也是單一的，可能就是查找到自己想要的那個信息頁面。所以我反而覺得這個迷失度公式在當時絕對是適用的，而且Smith在當時就能總結得出這個的度量公式足見其對如今大熱的「用戶體驗」的先知先覺以及對用戶體驗度量的智慧。同時這個公式對於當前網站的迷失度衡量也不是完全無效，如果是用戶體驗的小組在做可用性實驗，為實驗設定的情景是需要用戶在網站中完成一個特定的任務，那麼這個公式完全是有效的，所以總結起來就是這個公式對復雜的多任務的網站迷失度衡量無效，而對基於單任務的簡單網站或者實驗環境是有效的。

　　既然這個公式對於當前的網站大部分時間不適用，我們就需要對其進行改良，使其適用於普遍的網站。再觀察下這個公式，我們會發現其實它跟數據挖掘裡面的歐幾裡得距離度量的計算方式十分相似，可以理解為所有的比例為1時是最理想的狀態，公式計算的結果就是每個樣本點與這個1的理想點的距離，距離越近迷失度越低，距離越遠迷失度越高。所以這個思路完全可以借鑑，但顯然只考慮瀏覽頁面的這些度量還不夠，我們需要加入其他的網站分析度量。

　　對於現在的大部分網站而言，功能是多樣化的，用戶使用網站的任務不再是單一的，所以無法為不同任務的用戶確定一個統一的完成任務的最小訪問頁面數，而公式的前半部分依然有效，我們嘗試用其他度量來替換後半部分。於是自然而然的想到了停留時間，當用戶沒有迷失時他們會在自己感興趣的頁面停留一段時間，那麼頁面平均停留時長（Avg. Time on Page）不會很小，所以改進後的公式如下：

即，L = sqrt[ (N/S-1)² + (T/R-1)² ]

L：迷失度

N：訪問的不同頁面數（Unique Pageviews）

S：訪問的總頁面數（Pageviews）

T：訪問頁面的平均停留時間（Avg. Time on Page）

R：網站正常的頁面平均停留時長（既定值）

　　這個公式同樣有幾點需要注意，首先N/S和T/R要保證小於等於1，這樣迷失度L計算的結果才會落在[0,sqrt(2)]之間，才有評定是否迷失的可行性。N/S可以保證小於等於1，但T/R無法保證，所以再套用公式之前需要做一步數據篩選的工作，也就是過濾那些可以被簡單認定不是迷失的訪問（建議過濾訪問頁面數小於3或者頁面平均停留時間大於R的所有訪問），篩選後的所有訪問即是需要去認定是否具有迷失傾向的訪問，同時有保證了T/R小於等於1這個規則。至於R的值如何確定，可以先看一下你自己網站的幾個數據：

　　從近一個月的數據觀察，我的博客的頁面平均停留時間（Avg. Time on Page）為2分鐘半左右，所以我暫定公式中的R（網站正常的頁面平均停留時長）為2分鐘，用高級過濾器查看所有Time on Page小於2分鐘的訪問大概佔到了網站所有訪問的45%。同時，上圖給出的3個指標恰恰就是公式中需要用到的上需要用到的3個指標，結合剛剛給定的R值，公式中所有需要的變量我們都已經可以拿到了，下面來看看幾個示例：

序號	N	S	T	R	L
1	4	5	60	120	0.5385
2	5	8	25	120	0.8760
3	4	5	20	120	0.8570

　　上表中計算得到了3個訪問樣本的迷失度度量L的值，很顯然我們當前沒法判定到底哪個迷失了哪個沒有，所以還缺少一個判定基准（Benchmark），正如上面Smith給出的0.4和0.5，因為公式的變更我們可能需要重新定義這個基准。當然，如果你要用非常嚴謹科學的態度去定義這個基准線的話，這個過程完全可以作為一個研究課題，進行可用性的實驗，觀察實驗用戶的迷失情況，結合每個實驗用戶的指標數據最終給出一個迷失度的判斷基准。當然如果你有興趣，這個完全可以作為你的畢業設計或者學校科研課題去展開研究，我這邊沒有時間和資源去完成這個龐大的項目，只能按照經驗值進行預估，針對我的博客，我認為當用戶的重復訪問頁面比例超過1/3，並且頁面平均停留時間不到30秒時，用戶可能已經表現出一定的迷失傾向，將這個數值代入公式得到的迷失度L的值約為0.82，那麼這個就可以作為衡量用戶迷失的一個基准線，當L大於0.82時用戶表現迷失的傾向，小於0.82則為正常訪問。

　　當然我這裡提出的迷失度度量公式同樣存在優化空間，如果你有更好的想法，可以一起交流，歡迎在評論裡面提出你的想法。

　　可能這篇文章的中間寫了一大堆「廢話」，主要是自己當時看到這個公式時思考如何將它有效地應用到實際的一個過程，實在沒有耐心的朋友可以直接跳過，不影響文章的整體實現思路，不要抱怨：「怎麼不早說，現在才提，我看都已經看下來了」，如果你看完了，就證明你有一顆足夠淡定的心。其實我自己覺得在獲取信息的時候（無論是看書還是看網上的文章）思考過程才是最重要的，這是對信息的一個有效過濾的過程，只有思考之後你獲取的信息才是優質的，才是被你真正吸收的。但也有一個弊端，就是發現自己看書實在太慢太拖沓，現在手上正在閱讀的有4本書，都是現在進行時，每本書的進度在1/3到1/2不等，涉及數據分析、用戶體驗、數據挖掘和報表展現，精力不夠集中，一段時間不能同時兼顧太多呀，反而拖慢進度。

　» 本文采用 BY-NC-SA 協議，轉載請注明來源：網站數據分析 » 《網站的迷失度度量》

http://webdataanalysis.net/personal-view/measure-of-lostness/

Knowledge Store

2013年11月24日星期日