轉換與優化

電商 A/B 測試實戰指南

ECPRO 電商博士編輯部 ·2026-06-20 ·約 4 分鐘閱讀

本文重點

第一步：把「想法」變成可驗證的假設
第二步：一次只改一個變因
第三步：先估樣本量，再決定要跑多久
第四步：跑測試時的紀律
第五步：怎麼判讀結果

先講結論：A/B 測試最大的浪費不是測錯按鈕顏色，而是「樣本不夠就下結論」與「贏家其實只是雜訊」。我們在 ECPRO 電商博士編輯部看過太多測試，看到 B 版高 0.3% 就全站換上，結果營收沒動。要讓測試真的省錢，關鍵在開始前就把假設與樣本量定好，而不是看到數字漂亮才停。

第一步：把「想法」變成可驗證的假設

好的假設有三段式結構：因為觀察到什麼、我打算改什麼、預期哪個指標會往哪個方向變。少了任何一段，測完都不知道學到了什麼。

不好的假設：「把結帳按鈕改成綠色應該比較好。」沒有依據、沒有預期指標。
好的假設：「因為漏斗顯示 60% 的人在結帳頁離開，且問卷反映運費不透明；若在結帳頁上方加上『滿 X 元免運』提示，預期 begin_checkout 到 purchase 的轉換率提升。」

假設要綁在數據觀察上，而不是個人喜好。先用漏斗營收試算工具找出流失最嚴重、金額最大的環節，把測試火力集中在那裡，投報率最高。對指標名詞不確定可查電商數據名詞表。

第二步：一次只改一個變因

A/B 測試的價值來自「能歸因」。如果你同時改了按鈕文案、版面與運費規則，就算 B 版贏了，也說不出是哪一項奏效，下次無法複製。想同時測多個元素，要用多變量測試（MVT）並準備更大的流量，一般中小型電商先做乾淨的單變因 A/B 即可。

第三步：先估樣本量，再決定要跑多久

這是最多人跳過、也最致命的一步。樣本量取決於三件事：你目前的基準轉換率、你想偵測的最小提升幅度（MDE），以及你能接受的誤判風險。

基準轉換率越低，需要的樣本越多。台灣電商整體轉換率多落在個位數百分比的級距，這代表你通常需要相當可觀的訪客量才測得出小幅變化。
想偵測的提升越小，樣本量需求越大。要抓出 1% 的相對提升，遠比抓出 10% 的提升需要更多人。
建議用線上樣本量計算機，輸入基準轉換率與目標 MDE，先算出每組所需樣本，再回推大約要跑幾週。

一個務實的判斷：流量不夠就別硬測小改動

如果你的站每週訂單只有兩、三位數的級距，硬測「按鈕文案」這種小幅改動，可能要跑好幾個月才有結論，期間市場早就變了。流量小的店，應該優先測「會大幅改變行為」的方案，例如整頁改版、運費策略、主打商品，這類改動的效果夠大，較小的樣本就測得出來。轉換率提升能換算多少營收，可先用轉換率提升試算評估值不值得測。

別忘了區隔與外部因素

估樣本量時也要想清楚你打算怎麼拆解結果。若你預期效果只對新客有效，那實際進入分析的就只有新客流量，所需週期會比想像中長。另外要避開外部干擾期：大型促銷檔期、改版上線、廣告大幅加碼或停投，都會讓兩組基準同時偏移，這種期間跑出來的結果可信度低，建議避開或延後。把這些前置條件想清楚，測試才不會白跑一輪。

第四步：跑測試時的紀律

測試開始後最忌諱手癢。以下三個紀律請務必遵守。

跑滿預定樣本與完整週期：至少涵蓋一到兩個完整的星期，把平日與週末的行為差異都包進去，避免被單日活動誤導。
不要「偷看就停」：每天盯著看，一看到顯著就喊停，會大幅拉高誤判機率。請以事先設定的樣本量為停止條件。
流量分配要隨機且穩定：不要中途調整分流比例，也避免讓老客與新客比例在兩組間失衡。

第五步：怎麼判讀結果

看結果要同時過兩關：統計顯著與商業意義，兩者都過才算數。

統計顯著：常以 p 值與信賴區間表示。一般以 95% 信心水準為門檻，意思是「這個差異純屬運氣」的機率夠低。若工具顯示信賴區間橫跨 0（可能變好也可能變壞），代表還不能下結論。
商業意義：就算統計上顯著，也要問提升幅度乘上你的流量與客單，一年實際多賺多少。0.2% 的提升若量體夠大可能很可觀，量體小則可能不值得為此增加維護成本。
看區隔：贏家可能只對新客有效、對老客無感。把結果依新舊客、裝置、流量來源拆開看，常能挖出更精準的洞察。

測完無論輸贏都要寫下來：假設是什麼、結果如何、學到什麼。輸的測試一樣有價值，它幫你排除了一條錯路。更多測試案例與數據方法可看ECPRO 電商博士部落格，把每次測試都變成團隊的知識資產。

電商博士小教室

本文相關的 KPI 公式

轉換率CVR

轉換率 = 下單人數 ÷ 總訪客數 × 100%

每 100 個進站的人，最後有幾個真的下單。衡量網站「把流量變訂單」的能力。

看完整電商 KPI 公式庫 →

ECPRO 數據觀察

用真實數據延伸這個主題

ECPRO 電商博士實測逾 10 萬個台灣電商網站。想用數據驗證本文觀點，延伸閱讀這幾份實測報告：

台灣網站數據分析工具普及 →台灣流量 100 大網站排行 →2026 台灣電商平台市佔報告 →

常見問題

A/B 測試要跑多久才能停？

不是看天數，而是看是否達到事先估好的樣本量，且至少涵蓋一到兩個完整週期以納入平日與週末差異。最忌諱「看到顯著就停」，這會大幅提高誤判率。請在開始前用樣本量計算機算出每組所需人數，達標後再判讀，期間不要因為數字漂亮提早結束。

流量很小的電商還適合做 A/B 測試嗎？

適合，但要選對題目。流量小時測「按鈕文案」這種小改動可能要跑數月才有結論。建議改測效果夠大的方案，例如整頁改版、運費策略、主打商品，這類改動行為差異明顯，較小樣本就測得出來。小幅優化則可累積多輪後再評估。

B 版贏了統計顯著，就一定要全站採用嗎？

不一定。統計顯著只代表差異不太可能是運氣，還要看商業意義：提升幅度乘上流量與客單，一年實際多賺多少，是否足以抵過維護成本。也建議依新舊客、裝置拆開看，確認不是只對某一族群有效，避免全站套用後整體效益被稀釋。

訂閱電商情報每週一封，台灣電商數據與經營洞察。