こんにちは。ミルクおじさんです。
緊急事態宣言が出て、おうち時間が増える中いかがお過ごしでしょうか?
最近の興味は、最近の投稿からもお判りいただけますが、「宝くじの統計データからの予測」です。
いつもはエクセルだけで処理をしていましたが、
データサイエンスの手法(python)を取り入れてやってみようと思います。
狙いは2021年9月10日の抽選日です。
それではいってみましょう。
①エクセルによる次の数字の予測
まず、はじめに各数字の傾向線と傾向線との差を求めます。
どんな感じで行うか知りたい方は、前のサイトをご参照いただきたく思います。
その差を抽選日から一回ずつずらしてその数字の自己相関係数数を求めます。
また、ずらし日(回)の差を次の傾向線の値(データ数86で解析したら、87を入力)と足して、予想数字を求めます。
その予想数字とその差の自己相関係数は紐づいていますので、自己相関係数の高い順に予想数字を並べ替えます。
ずらし日(回)を15回分の自己相関係数を求めるた場合、15個の候補数字がでます。
各数字(ロト7では、1~7)およびボーナス数字2つに対して行います。
*予想数字が同じ数字が出現した場合は、ボーナス数字から補填いたします。
結果を示します。
②Pythonによる主成分分析とK平均法を使用してクラス分け
次にPythonによる主成分分析とK平均法を使用して、これまでのデータのクラス分けをします。
次に出現するクラスはわかりませんが、①で求めた中で一番頻度が高いクラスが出現するとします。
やり方をざっと説明します。
1)まず、データを読み込み、数字の統計量を確認します。
2)データフレームに数字1~7を格納し、標準化したのち主成分分析を行います。
3)第一主成分を横軸に示し、第二主成分を横軸に示します。
4)そして、K平均法によって、最適なクラスター数を見つけ、クラスを色分けします。
*そうすると13のクラスにわけることができました。
5) ①で求めた数字がどのクラスに分類されるか予想してみます。
6)予想した数字群について、どのクラスが多いか見てみます。
*クラス9が一番多いことがわかりました。あくまで予想の予想ですが、、、、。
7)クラス9の範囲がどんな範囲かみてみます。
8)予想した数字に色をつけてみてみます。
③まとめ
エクセルとPythonを使用して次週のロト7の予想をしてみました。
主にPythonは、エクセルが出した数字の妥当性検証みたいになってますが、、、。
当たるか当たらないかは神のみぞ知るです。
万が一当たらなくても恨みっこなしです。
Pythonの使い方も含めて楽しんでいただけたら幸いです。
エクセルで予想した数字の妥当性については、現在、ランダムフォレストを使用して検証中です。
ではまた。
コメント
面白く拝読しました。
一等当たると育児が楽になりますね。
是非、機械&深層学習の参考テキストなどの紹介もお願いします。
コメントありがとうございます。
少しでも予想出来たらと好奇心で始めました。
テキストの紹介もやっていきたいと思います。
今後ともよろしくお願いいたします。