2019年8月31日土曜日

Pythonによる実質GDPの相関分析(たったの9行)

Phthonの学習は「自分の英語レベルくらいはある機械学習エージェントを作成してみたい」ということで始めましたが、今は機械学習の一歩手前の「データ分析」の段階です。この段階で学んだ成果の一つですが、Phythonは例えばある時系列データと別の時系列データの相関係数を簡単に求めることができます。

今回やったこと
 世界銀行が公開している各国の実質GDP(インフレの影響を除いたGDP)のエクセルファイルをダウンロードして、1960年から2018年までのGDP推移を使って、日本と各国(ただしデータが全てそろっている国)の相関を調べてみました。

世界銀行 実績GDP公開URL
https://data.worldbank.org/indicator/NY.GDP.MKTP.KD

分かったこと
1.GDP推移(1960年~2018年)が、日本(JPN)と最も相関している国はイタリア(ITA)です。その対極にいるのは中国(CHN)です。
グラフ:日本(JPN)、イタリア(ITA)、中国(CHN)の
実質GDP推移(Pythonのグラフ描画コード付き)

2. ライブラリのインポート、エクセルファイルの読み込みから相関分析してイタリア・中国にたどり着くまでのPythonコードは、な、なんと、9行です。(あくまで、感覚ですけどC言語なら1,000 行はくだらない。)

データ分析のPythonコード紹介
(注意事項)以下で紹介するコードの先頭行(=コメント)と最終行(確認のためデータを表示する行)、並びに確認用の表示データは9行には含まれません。

1.Pandas (データ編集ライブラリ)のインポート(1行)

2.エクセルファイルを読み込み、不要な列を削除し、1960年から2018年までのデータがそろっている国(118カ国)の実質GDPのみを取り出し、相関分析の準備として行と列を入れ替える(5行)

3.118カ国のGDP推移の、全ての組み合わせの相関係数を求める(1行)

4.上記の組み合わせから日本が関わる部分を抜き出して、相関係数で降順ソート(2行)―おしまい

おまけ
 GDP推移(1960年~2018年)が、中国と最も相関していた国は、ガーナ、続いてミャンマーでした。要チェック!


グラフ(おまけ):ガーナ(GHA)、ミャンマー(MMR)の
実質GDP推移(Pythonのグラフ描画コード付き)

それでは、また!

今日の流行言葉ーゴリゴリの(die-hard)

あけましておめでとうございます。 令和2年の幕開けは、若者の流行言葉「ゴリゴリの」です。 例文: 私の兄は、ゴリゴリの映画ファンです。 My brother is a die-hard movie fan. 今回の「ゴリゴリの」は、ティーンエイジャーの息子と娘の会話...