2019.5.16
○ スタートアップゼミの発表に関するメモ
・MNL
ハフモデル 商圏の分析に利用、店舗の魅力度として売場面積を採用
尤度比 モデルとしての精度
基本的に説明変数を増やして、モデルの尤度比をあげる。選択肢固有定数は1番最後。
説明変数同士に強い相関があるとダメ。多重共線型性。
選択肢ごとにも個人ごとにも値が異なる説明変数のみ、パラメータをすべての選択肢に入れて良い
・PP
probeデータを過去の地図に重ねることで、古町の衰退がわかる。probeの良さを全てなくすような手法だが、だからこそ面白い
locationデータから個人属性割とわかる
PPデータから動画を作成するツールがあった
○ 理論談話会
・RL
経路選択において、MNLは経路列挙型であるのに対し、経路選択肢を非列挙。マルコフ連鎖もそう。
ある状態kにおいて、次の状態aへ遷移する効用は、k→aの遷移による効用と、aからDまでの期待効用の最大値との和なる。これは再帰的な定式化になっているので、どんどん引き戻していくことができる。
これはBellman方程式の形になっていて、行列表示することで、解ける!
各効用がわかれば、各状態遷移の確率を例のexpの分数の形で出せて、それが分かれば経路の選択確率を各状態遷移確率の積で出せて、また、各リンク交通量も出せる。
また、path size logit でやったような、異なる経路におけるパスの重複において効用を下げる効果も見積らねばならない。
MNLだと、経路列挙型なので、純粋に重複しているパスの長さをカウントできるが、RLは経路非列挙なので、そういうやり方はできない。
そこで、単位交通量を流した時の、各リンク交通量を用いて、パスの重複を考慮する。Link size 修正項。
将棋とかオセロとかチェスは、評価関数が適当でも割と良い勝率を出せるので良かったが、囲碁はそうはいかない。
評価関数が出しにくい時に、モンテカルロ的にランダムに手を試すことで、どの手の勝率が高いかを試す。ただ、全部を試すことはできないから、実際に試す手をいかにうまく制限するかがポイント。
たとえば、Multi-Armed Bandit問題、沢山のスロットでどれが1番良いやつかを当てる問題、の解法である、UCB1アルゴリズムを用いる。
UVB1アルゴリズムは、
1. まず全てのスロットにコインを1枚ずつ投入
2. UCB1値が最大のものにコインを投入することを繰り返す。
端末jのUCB1値 = 端末jのこれまでの報酬の平均値 + \sqrt{2log(n)/n_j}
nはこれまでに投入した全コインの枚数
こうすると、最善でないスロットに投入されるコインの枚数はO(log(n))で抑えられるので、n→∞において、最も期待値の大きいスロットのみにコインを投入できる。すごい!
これは、これまでの各端末の期待値だけでなく、第2項で、投入枚数が少ない時は、揺らぎが大きくなることを考慮に入れていることがポイント。