1. はじめに
データ分析や機械学習のプロジェクトでは、外部からデータを入力するためのインターフェースが必要なことが多々あります。ファイルアップローダはその代表的な手法の一つです。Streamlitは、Pythonで簡単にインタラクティブなWebアプリケーションを作成できるライブラリで、ファイルアップロード機能を簡単に実装することができます。本記事では、Streamlitを使用してファイルアップローダを作成する方法について、具体的な例を交えながら詳しく解説します。
2. Streamlitとは?
Streamlitは、Pythonコードを用いて迅速にWebアプリケーションを作成できるフレームワークです。データサイエンティストや機械学習エンジニア向けに設計されており、以下のような特徴があります:
- 簡単なインストールと使用:Pythonの環境で簡単にインストールして使うことができます。
- リアルタイムでの更新:コードを変更するたびに、ブラウザにリアルタイムで反映されます。
- 豊富なUIコンポーネント:グラフ、テキスト、データフレーム、ボタンなど、さまざまなUIコンポーネントが簡単に使用できます。
3. Streamlitのインストール
まずは、Streamlitをインストールしましょう。以下のコマンドを使用してインストールします。
pip install streamlit
インストールが完了したら、次にStreamlitアプリケーションの基本的な構成について説明します。
4. 基本的なStreamlitアプリケーションの作成
StreamlitアプリケーションはPythonスクリプトとして作成します。以下のようなシンプルなスクリプトを作成し、app.py
という名前で保存します。
import streamlit as st
st.title('ファイルアップローダーのデモ')
st.write('ファイルをアップロードしてください。')
このスクリプトを実行するには、以下のコマンドを使用します。
streamlit run app.py
ブラウザが自動的に開き、タイトルと説明が表示されます。これで、基本的なStreamlitアプリケーションが動作していることが確認できます。
5. ファイルアップロード機能の追加
次に、Streamlitでファイルアップローダを実装してみましょう。Streamlitはst.file_uploader
関数を提供しており、これを使用することで簡単にファイルアップローダを追加できます。
以下のコードを追加して、ファイルアップロード機能を実装します。
import streamlit as st
st.title('ファイルアップローダーのデモ')
st.write('ファイルをアップロードしてください。')
uploaded_file = st.file_uploader("ファイルを選択", type=["csv", "txt", "xlsx"])
if uploaded_file is not None:
st.write("ファイル名:", uploaded_file.name)
st.write("ファイルタイプ:", uploaded_file.type)
st.write("ファイルサイズ:", uploaded_file.size, "bytes")
このスクリプトを実行すると、ファイル選択ボタンが表示され、ユーザーがファイルをアップロードすると、そのファイルの名前、タイプ、サイズが表示されます。
6. アップロードされたファイルの処理
アップロードされたファイルの情報を表示するだけでなく、その内容を処理することが重要です。ここでは、アップロードされたCSVファイルを読み込み、その内容を表示する方法を説明します。
import streamlit as st
import pandas as pd
st.title('ファイルアップローダーのデモ')
st.write('ファイルをアップロードしてください。')
uploaded_file = st.file_uploader("ファイルを選択", type=["csv", "txt", "xlsx"])
if uploaded_file is not None:
st.write("ファイル名:", uploaded_file.name)
st.write("ファイルタイプ:", uploaded_file.type)
st.write("ファイルサイズ:", uploaded_file.size, "bytes")
if uploaded_file.type == "text/csv":
data = pd.read_csv(uploaded_file)
elif uploaded_file.type == "text/plain":
data = pd.read_csv(uploaded_file, delimiter="\t")
elif uploaded_file.type == "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet":
data = pd.read_excel(uploaded_file)
st.write("ファイルの内容:")
st.write(data)
このスクリプトでは、アップロードされたファイルがCSV、テキスト、またはExcel形式の場合、その内容を読み込み、Streamlit上に表示します。
7. インタラクティブなデータ処理
Streamlitを使うと、アップロードされたファイルのデータをインタラクティブに処理することも簡単です。例えば、データの統計情報を表示したり、グラフを作成したりすることができます。
以下の例では、アップロードされたCSVファイルのデータに対して、基本的な統計情報を表示し、ヒストグラムを描画します。
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
st.title('ファイルアップローダーのデモ')
st.write('ファイルをアップロードしてください。')
uploaded_file = st.file_uploader("ファイルを選択", type=["csv", "txt", "xlsx"])
if uploaded_file is not None:
st.write("ファイル名:", uploaded_file.name)
st.write("ファイルタイプ:", uploaded_file.type)
st.write("ファイルサイズ:", uploaded_file.size, "bytes")
if uploaded_file.type == "text/csv":
data = pd.read_csv(uploaded_file)
elif uploaded_file.type == "text/plain":
data = pd.read_csv(uploaded_file, delimiter="\t")
elif uploaded_file.type == "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet":
data = pd.read_excel(uploaded_file)
st.write("ファイルの内容:")
st.write(data)
st.write("基本統計情報:")
st.write(data.describe())
st.write("データのヒストグラム:")
column = st.selectbox("列を選択", data.columns)
fig, ax = plt.subplots()
ax.hist(data[column], bins=30)
st.pyplot(fig)
このスクリプトを実行すると、ユーザーはアップロードされたデータの基本統計情報を確認し、特定の列のヒストグラムを選択して表示することができます。
8. ファイルアップローダを活用したアプリケーション例
最後に、実際のアプリケーション例として、アップロードされたCSVファイルを使って機械学習モデルの予測を行うアプリケーションを作成してみましょう。
以下の例では、アップロードされたデータを使って線形回帰モデルを訓練し、新しいデータに対して予測を行います。
import streamlit as st
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
st.title('ファイルアップローダーを使った機械学習アプリケーション')
st.write('CSVファイルをアップロードしてください。')
uploaded_file = st.file_uploader("ファイルを選択", type=["csv"])
if uploaded_file is not None:
data = pd.read_csv(uploaded_file)
st.write("アップロードされたデータ:")
st.write(data)
# 入力と出力の列を選択
input_columns = st.multiselect("入力列を選択", data.columns)
output_column = st.selectbox("出力列を選択", data.columns)
if st.button("モデルを訓練"):
if len(input_columns) > 0 and output_column:
X = data[input_columns]
y = data[output_column]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
st.write("モデルの訓練が完了しました。")
st.write("R²スコア:", model.score(X_test, y_test))
# 新しいデータに対する予測
new_data = {col: st.number_input(f"{col}の値", value=0.0) for col in input_columns}
new_df = pd.DataFrame(new_data, index=[0])
prediction = model.predict(new_df)
st.write("予測結果:", prediction[0])
else:
st.write("入力列と出力列を選択してください。")
このスクリプトを実行すると、ユーザーはCSVファイルをアップロードし、入力列と出力
列を選択して、線形回帰モデルを訓練することができます。さらに、新しいデータを入力して予測結果を確認することができます。
9. まとめ
Streamlitを使えば、Pythonコードを使って簡単にインタラクティブなWebアプリケーションを作成でき、ファイルアップローダの実装も非常に簡単です。本記事では、基本的なファイルアップローダの作成から、データの表示、統計情報の計算、グラフの描画、さらには機械学習モデルの訓練と予測まで、さまざまな機能を実装する方法を紹介しました。Streamlitを活用して、あなたのデータプロジェクトをよりインタラクティブでユーザーフレンドリーなものにしてみてください。