Webのアクセス分析の時系列予測をBigQueryMLで行っています。
皆さんが、今見ているこのWebサイトのPageViewについて、Google CoudのBigQueryMLにある、時系列予測のARIMA PLUSのモデルを使って、どの程度有益なのかを確認しています。確認というよりは、体験に近いのです。
使ったデータの前回の予測は、「BigQueryMLのWebのアクセス予測を、公開実験してみる(1)」で説明しています。
今回は、その予測の答え合わせです。「BigQueryMLのWebのアクセス予測を、公開実験してみる(1)」では、2024/9/12から2024/10/11までの予測を行いました。そして、今回は、その前半部分の、2024/9/12から2024/9/24のGoogle Analytics(GA4)のPage Viewsの結果が出たので、答え合わせをしてみましょう。
結果、絶対値は異なるが、時系列の推移はかなり予測精度が高い
まず、予測と結果のGoogle Analytics(GA4)のPage Viewsを比較しましょう。
date | predicted_pageviews | fact |
2024/09/12 | 161.2 | 90 |
2024/09/13 | 130.0 | 64 |
2024/09/14 | 51.2 | 30 |
2024/09/15 | 22.9 | 29 |
2024/09/16 | 112.6 | 50 |
2024/09/17 | 125.8 | 59 |
2024/09/18 | 146.1 | 75 |
2024/09/19 | 192.4 | 76 |
2024/09/20 | 125.0 | 98 |
2024/09/21 | 36.0 | 20 |
2024/09/22 | 42.1 | 21 |
2024/09/23 | 110.0 | 21 |
2024/09/24 | 123.9 | 97 |
このように、数字だけを見ると、かなり違い印象を受けますね。そこで、この数値を、グラフにしてみましょう。
このように見ると、トレンド、推移はとても似た形状になります。
ある意味、ここまでの予測が、ほぼ無料のコンピューティング環境で、行えることは、とても驚きで、今後予測モデルや、蓄積データを増やすことで、この予測精度を高めることはできそうです。
ARIMA PLUSでWebアクセス分析の予測を行う留意点
一般に、WebサイトのPage Viewの予測を行うには、以下のようなことに留意しないといけなことが知られています。
データの頻度と期間
Page Viewsデータを適切な頻度(例:日次、時間単位)で収集する必要があります。
十分な履歴データ(少なくとも1年以上が望ましい)を用意しましょう。これにより、季節性パターンを正確に捉えることができます。
外部要因の考慮
ARIMA PLUSは主に過去のデータパターンに基づいて予測を行います。
マーケティングキャンペーン、イベント、季節性など、Page Viewsに影響を与える外部要因がある場合、それらを別途考慮する必要があるかもしれません。
データの前処理
異常値や欠損値を適切に処理しましょう。これらはモデルの精度に大きく影響します。
トレンドや季節性が強い場合、データの定常化処理が必要になる可能性があります。
モデルのパラメータ調整
ARIMA PLUSは自動的にパラメータを選択しますが、必要に応じて手動で調整することも検討しましょう。
ホライズン(予測期間)の設定は重要です。短期予測と長期予測では精度が異なる可能性があります。
予測の評価
MAE(平均絶対誤差)やRMSE(平方根平均二乗誤差)などの指標を使って予測精度を評価しましょう。
ホールドアウトデータセットを使用して、モデルの汎化性能を確認することが重要です。
リアルタイム性の考慮
Page Viewsの予測をリアルタイムで行う必要がある場合、ARIMA PLUSの処理時間と更新頻度を考慮する必要があります。
トラフィックパターンの変化
Webサイトの大きな変更や新機能の追加など、トラフィックパターンに影響を与える要因がある場合、モデルの再学習や調整が必要になる可能性があります。
複数のモデルの比較
ARIMA PLUSだけでなく、他の時系列予測モデル(例:Prophet、LSTM)との比較を行い、最適なモデルを選択することも検討しましょう。
Comments