查網站電商媒體電商數據流量排行數據報告 工具對手對戰API關於
轉換與優化

電商 A/B 測試實戰指南

電商 A/B 測試實戰指南|ECPRO 電商博士
本文重點
  • 第一步:把「想法」變成可驗證的假設
  • 第二步:一次只改一個變因
  • 第三步:先估樣本量,再決定要跑多久
  • 第四步:跑測試時的紀律
  • 第五步:怎麼判讀結果

先講結論:A/B 測試最大的浪費不是測錯按鈕顏色,而是「樣本不夠就下結論」與「贏家其實只是雜訊」。我們在 ECPRO 電商博士編輯部看過太多測試,看到 B 版高 0.3% 就全站換上,結果營收沒動。要讓測試真的省錢,關鍵在開始前就把假設與樣本量定好,而不是看到數字漂亮才停。

第一步:把「想法」變成可驗證的假設

好的假設有三段式結構:因為觀察到什麼、我打算改什麼、預期哪個指標會往哪個方向變。少了任何一段,測完都不知道學到了什麼。

  • 不好的假設:「把結帳按鈕改成綠色應該比較好。」沒有依據、沒有預期指標。
  • 好的假設:「因為漏斗顯示 60% 的人在結帳頁離開,且問卷反映運費不透明;若在結帳頁上方加上『滿 X 元免運』提示,預期 begin_checkout 到 purchase 的轉換率提升。」

假設要綁在數據觀察上,而不是個人喜好。先用漏斗營收試算工具找出流失最嚴重、金額最大的環節,把測試火力集中在那裡,投報率最高。對指標名詞不確定可查電商數據名詞表

第二步:一次只改一個變因

A/B 測試的價值來自「能歸因」。如果你同時改了按鈕文案、版面與運費規則,就算 B 版贏了,也說不出是哪一項奏效,下次無法複製。想同時測多個元素,要用多變量測試(MVT)並準備更大的流量,一般中小型電商先做乾淨的單變因 A/B 即可。

第三步:先估樣本量,再決定要跑多久

這是最多人跳過、也最致命的一步。樣本量取決於三件事:你目前的基準轉換率、你想偵測的最小提升幅度(MDE),以及你能接受的誤判風險。

  • 基準轉換率越低,需要的樣本越多。台灣電商整體轉換率多落在個位數百分比的級距,這代表你通常需要相當可觀的訪客量才測得出小幅變化。
  • 想偵測的提升越小,樣本量需求越大。要抓出 1% 的相對提升,遠比抓出 10% 的提升需要更多人。
  • 建議用線上樣本量計算機,輸入基準轉換率與目標 MDE,先算出每組所需樣本,再回推大約要跑幾週。

一個務實的判斷:流量不夠就別硬測小改動

如果你的站每週訂單只有兩、三位數的級距,硬測「按鈕文案」這種小幅改動,可能要跑好幾個月才有結論,期間市場早就變了。流量小的店,應該優先測「會大幅改變行為」的方案,例如整頁改版、運費策略、主打商品,這類改動的效果夠大,較小的樣本就測得出來。轉換率提升能換算多少營收,可先用轉換率提升試算評估值不值得測。

別忘了區隔與外部因素

估樣本量時也要想清楚你打算怎麼拆解結果。若你預期效果只對新客有效,那實際進入分析的就只有新客流量,所需週期會比想像中長。另外要避開外部干擾期:大型促銷檔期、改版上線、廣告大幅加碼或停投,都會讓兩組基準同時偏移,這種期間跑出來的結果可信度低,建議避開或延後。把這些前置條件想清楚,測試才不會白跑一輪。

第四步:跑測試時的紀律

測試開始後最忌諱手癢。以下三個紀律請務必遵守。

  • 跑滿預定樣本與完整週期:至少涵蓋一到兩個完整的星期,把平日與週末的行為差異都包進去,避免被單日活動誤導。
  • 不要「偷看就停」:每天盯著看,一看到顯著就喊停,會大幅拉高誤判機率。請以事先設定的樣本量為停止條件。
  • 流量分配要隨機且穩定:不要中途調整分流比例,也避免讓老客與新客比例在兩組間失衡。

第五步:怎麼判讀結果

看結果要同時過兩關:統計顯著與商業意義,兩者都過才算數。

  • 統計顯著:常以 p 值與信賴區間表示。一般以 95% 信心水準為門檻,意思是「這個差異純屬運氣」的機率夠低。若工具顯示信賴區間橫跨 0(可能變好也可能變壞),代表還不能下結論。
  • 商業意義:就算統計上顯著,也要問提升幅度乘上你的流量與客單,一年實際多賺多少。0.2% 的提升若量體夠大可能很可觀,量體小則可能不值得為此增加維護成本。
  • 看區隔:贏家可能只對新客有效、對老客無感。把結果依新舊客、裝置、流量來源拆開看,常能挖出更精準的洞察。

測完無論輸贏都要寫下來:假設是什麼、結果如何、學到什麼。輸的測試一樣有價值,它幫你排除了一條錯路。更多測試案例與數據方法可看ECPRO 電商博士部落格,把每次測試都變成團隊的知識資產。

電商博士小教室

本文相關的 KPI 公式

轉換率CVR
轉換率 = 下單人數 ÷ 總訪客數 × 100%

每 100 個進站的人,最後有幾個真的下單。衡量網站「把流量變訂單」的能力。

看完整電商 KPI 公式庫 →
ECPRO 數據觀察

用真實數據延伸這個主題

ECPRO 電商博士實測逾 10 萬個台灣電商網站。想用數據驗證本文觀點,延伸閱讀這幾份實測報告:

常見問題

A/B 測試要跑多久才能停?

不是看天數,而是看是否達到事先估好的樣本量,且至少涵蓋一到兩個完整週期以納入平日與週末差異。最忌諱「看到顯著就停」,這會大幅提高誤判率。請在開始前用樣本量計算機算出每組所需人數,達標後再判讀,期間不要因為數字漂亮提早結束。

流量很小的電商還適合做 A/B 測試嗎?

適合,但要選對題目。流量小時測「按鈕文案」這種小改動可能要跑數月才有結論。建議改測效果夠大的方案,例如整頁改版、運費策略、主打商品,這類改動行為差異明顯,較小樣本就測得出來。小幅優化則可累積多輪後再評估。

B 版贏了統計顯著,就一定要全站採用嗎?

不一定。統計顯著只代表差異不太可能是運氣,還要看商業意義:提升幅度乘上流量與客單,一年實際多賺多少,是否足以抵過維護成本。也建議依新舊客、裝置拆開看,確認不是只對某一族群有效,避免全站套用後整體效益被稀釋。

訂閱電商情報每週一封,台灣電商數據與經營洞察。
延伸閱讀