環境構築とデータ準備 (Google Colab)

機械学習プロジェクトを始めるにあたり、最初のステップは環境構築です。ここでは、面倒なインストール作業が不要で、ブラウザさえあればすぐにPythonと機械学習ライブラリを使えるGoogle Colaboratory (Colab) を利用します。

1. Google Colaboratoryとは？

Google Colabは、Googleが提供する無料のクラウドベースのJupyterノートブック環境です。

主なメリット:

環境構築が不要: Pythonや主要なライブラリ（Pandas, NumPy, Scikit-learn, Matplotlibなど）がプリインストールされています。
無料のGPU/TPU: ディープラーニングなど、計算負荷の高い処理も無料のGPUを使って高速に実行できます。
Google Driveとの連携: Google Drive上のファイルを簡単に読み書きできます。
共有が簡単: 作成したノートブックはリンクを共有するだけで、他の人も閲覧・実行できます。

https://colab.research.google.com/ にアクセスし、Googleアカウントでログインすればすぐに使い始められます。

2. タイタニックのデータを準備する

機械学習モデルを学習させるには、元となるデータが必要です。Kaggleのタイタニックコンペティションページからデータをダウンロードしましょう。

ステップ1: Kaggleからデータをダウンロード

Kaggleのタイタニックコンペティションページにアクセスします。
Kaggleアカウントにログインします。（持っていない場合は作成してください）
「Data」タブをクリックします。
ページを少し下にスクロールし、以下の3つのファイルをダウンロードします。
- train.csv: モデルの学習に使用するデータ（乗客情報 + 生存結果）
- test.csv: モデルで生存予測を行う対象のデータ（乗客情報のみ）
- gender_submission.csv: 提出ファイルのフォーマット例

ステップ2: Google Colabにデータをアップロード

ダウンロードしたファイルをColabノートブックから使えるようにします。一番簡単なのは、セッションストレージに直接アップロードする方法です。

新しいColabノートブックを開きます。
左側のメニューからファイルアイコンをクリックして、ファイルブラウザを開きます。
「アップロード」アイコンをクリックし、先ほどダウンロードしたtrain.csvとtest.csvを選択します。

注意点: この方法でアップロードしたファイルは、ランタイムがリセットされると消えてしまいます。長時間作業する場合やファイルを永続的に保存したい場合は、Google Driveをマウントする方法がおすすめです。（今回は簡単のため、直接アップロードで進めます）

3. データを読み込んで確認する (実践)

データがアップロードできたら、さっそくPythonコードを書いてデータを読み込んでみましょう。データ分析にはPandasというライブラリを使うのが定番です。

Colabのコードセルに以下のコードを貼り付けて、**再生ボタン▶**またはShift + Enterで実行してみてください。

# データ分析の必須ライブラリ、Pandasをインポートします。
# "pd"という愛称（エイリアス）で使うのが慣例です。
import pandas as pd

# アップロードしたtrain.csvを読み込み、'train_df'という名前の変数に格納します。
# 'df'はデータフレーム(DataFrame)の略で、Pandasで扱う表形式のデータを指します。
train_df = pd.read_csv('train.csv')

# test.csvも同様に読み込みます。
test_df = pd.read_csv('test.csv')

# 読み込んだデータの中身を確認します。
# .head()は、データの最初の5行を表示する命令です。
print("--- 学習データ (train.csv) ---")
print(train_df.head())

print("\n--- テストデータ (test.csv) ---")
print(test_df.head())

実行結果の例:

--- 学習データ (train.csv) ---
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4.           5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]

--- テストデータ (test.csv) ---
   PassengerId  Pclass                                               Name  ...     Fare Cabin  Embarked
0          892       3                              Kelly, Mr. James  ...   7.8292   NaN         Q
1          893       3              Wilkes, Mrs. James (Ellen Needs)  ...   7.0000   NaN         S
2          894       2                     Myles, Mr. Thomas Francis  ...   9.6875   NaN         Q
3          895       3                              Wirz, Mr. Albert  ...   8.6625   NaN         S
4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  ...  12.2875   NaN         S

[5 rows x 11 columns]

このように、train.csvとtest.csvの中身が表形式で表示されれば、データの準備は完了です。test.csvにはSurvivedカラム（列）がないことが確認できますね。

次のセクションでは、このPandasをさらに詳しく学び、データを自在に操るための練習をしていきます。

1. Google Colaboratoryとは？​

2. タイタニックのデータを準備する​

ステップ1: Kaggleからデータをダウンロード​

ステップ2: Google Colabにデータをアップロード​

3. データを読み込んで確認する (実践)​

1. Google Colaboratoryとは？

2. タイタニックのデータを準備する

ステップ1: Kaggleからデータをダウンロード

ステップ2: Google Colabにデータをアップロード

3. データを読み込んで確認する (実践)