環境構築とデータ準備 (Google Colab)
機械学習プロジェクトを始めるにあたり、最初のステップは環境構築です。ここでは、面倒なインストール作業が不要で、ブラウザさえあればすぐにPythonと機械学習ライブラリを使えるGoogle Colaboratory (Colab) を利用します。
1. Google Colaboratoryとは?
Google Colabは、Googleが提供する無料のクラウドベースのJupyterノートブック環境です。
主なメリット:
- 環境構築が不要: Pythonや主要なライブラリ(Pandas, NumPy, Scikit-learn, Matplotlibなど)がプリインストールされています。
- 無料のGPU/TPU: ディープラーニングなど、計算負荷の高い処理も無料のGPUを使って高速に実行できます。
- Google Driveとの連携: Google Drive上のファイルを簡単に読み書きできます。
- 共有が簡単: 作成したノートブックはリンクを共有するだけで、他の人も閲覧・実行できます。
https://colab.research.google.com/ にアクセスし、Googleアカウントでログインすればすぐに使い始められます。
2. タイタニックのデータを準備する
機械学習モデルを学習させるには、元となるデータが必要です。Kaggleのタイタニックコンペティションページからデータをダウンロードしましょう。
ステップ1: Kaggleからデータをダウンロード
- Kaggleのタイタニックコンペティションページにアクセスします。
- Kaggleアカウントにログインします。(持っていない場合は作成してください)
- 「Data」タブをクリックします。
- ページを少し下にスクロールし、以下の3つのファイルをダウンロードします。
train.csv: モデルの学習に使用するデータ(乗客情報 + 生存結果)test.csv: モデルで生存予測を行う対象のデータ(乗客情報のみ)gender_submission.csv: 提出ファイルのフォーマット例
ステップ2: Google Colabにデータをアップロード
ダウンロードしたファイルをColabノートブックから使えるようにします。一番簡単なのは、セッションストレージに直接アップロードする方法です。
- 新しいColabノートブックを開きます。
- 左側のメニューからファイルアイコンをクリックして、ファイルブラウザを開きます。
- 「アップロード」アイコンをクリックし、先ほどダウンロードした
train.csvとtest.csvを選択します。
注意点: この方法でアップロードしたファイルは、ランタイムがリセットされると消えてしまいます。長時間作業する場合やファイルを永続的に保存したい場合は、Google Driveをマウントする方法がおすすめです。(今回は簡単のため、直接アップロードで進めます)
3. データを読み込んで確認する (実践)
データがアップロードできたら、さっそくPythonコードを書いてデータを読み込んでみましょう。データ分析にはPandasというライブラリを使うのが定番です。
Colabのコードセルに以下のコードを貼り付けて、**再生ボタン▶**またはShift + Enterで実行してみてください。
# データ分析の必須ライブラリ、Pandasをインポートします。
# "pd"という愛称(エイリアス)で使うのが慣例です。
import pandas as pd
# アップロードしたtrain.csvを読み込み、'train_df'という名前の変数に格納します。
# 'df'はデータフレーム(DataFrame)の略で、Pandasで扱う表形式のデータを指します。
train_df = pd.read_csv('train.csv')
# test.csvも同様に読み込みます。
test_df = pd.read_csv('test.csv')
# 読み込んだデータの中身を確認します。
# .head()は、データの最初の5行を表示する命令です。
print("--- 学習データ (train.csv) ---")
print(train_df.head())
print("\n--- テストデータ (test.csv) ---")
print(test_df.head())
実行結果の例:
--- 学習データ (train.csv) ---
PassengerId Survived Pclass ... Fare Cabin Embarked
0 1 0 3 ... 7.2500 NaN S
1 2 1 1 ... 71.2833 C85 C
2 3 1 3 ... 7.9250 NaN S
3 4 1 1 ... 53.1000 C123 S
4. 5 0 3 ... 8.0500 NaN S
[5 rows x 12 columns]
--- テストデータ (test.csv) ---
PassengerId Pclass Name ... Fare Cabin Embarked
0 892 3 Kelly, Mr. James ... 7.8292 NaN Q
1 893 3 Wilkes, Mrs. James (Ellen Needs) ... 7.0000 NaN S
2 894 2 Myles, Mr. Thomas Francis ... 9.6875 NaN Q
3 895 3 Wirz, Mr. Albert ... 8.6625 NaN S
4 896 3 Hirvonen, Mrs. Alexander (Helga E Lindqvist) ... 12.2875 NaN S
[5 rows x 11 columns]
このように、train.csvとtest.csvの中身が表形式で表示されれば、データの準備は完了です。test.csvにはSurvivedカラム(列)がないことが確認できますね。
次のセクションでは、このPandasをさらに詳しく学び、データを自在に操るための練習をしていきます。