Kaggle实战教程：泰坦尼克数据分析入门

2023-12-25 19:26:26

掌握机器学习和数据挖掘的泰坦尼克数据分析入门教程

简介

准备好踏入机器学习和数据挖掘的迷人世界了吗？何不从备受赞誉的泰坦尼克数据分析教程开始？本教程将引导您逐步完成泰坦尼克号悲剧中乘客生存与否的预测分析，让您亲身体验这些激动人心的领域。

数据准备：了解数据

第一步是准备我们的数据。幸运的是，Kaggle提供了一个包含泰坦尼克号乘客信息的完整数据集。我们将使用Python的pandas库加载并探索数据。

import pandas as pd

# 加载数据
data = pd.read_csv('titanic.csv')

# 查看数据的前几行
print(data.head())

数据清洗：让数据焕然一新

探索数据后，我们需要进行数据清洗。这包括处理缺失值、异常值和错误数据。

# 处理缺失值
data = data.fillna(data.mean())

# 处理异常值
data = data[data['Age'] < 100]

# 处理错误数据
data = data[data['Sex'] != '']

特征工程：提升模型

接下来是特征工程，它将原始数据转换为模型更容易理解和处理的形式。我们将创建新特征、选择重要特征并标准化特征。

# 创建新的特征
data['AgeGroup'] = pd.cut(data['Age'], bins=[0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

# 选择重要的特征
features = ['Pclass', 'Sex', 'AgeGroup', 'Fare']

# 标准化特征
data[features] = data[features].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

模型训练：让机器学习

现在到了训练模型的时候了。我们将使用scikit-learn库中的逻辑回归模型。

from sklearn.linear_model import LogisticRegression

# 创建模型
model = LogisticRegression()

# 训练模型
model.fit(data[features], data['Survived'])

模型评估：验证性能

训练完成后，我们需要评估模型的性能。我们将使用准确率指标。

from sklearn.metrics import accuracy_score

# 预测
y_pred = model.predict(data[features])

# 评估
accuracy = accuracy_score(data['Survived'], y_pred)
print(accuracy)

模型部署：让模型发挥作用

现在，是时候让我们的模型发挥作用了。我们将使用Flask库部署模型。

from flask import Flask, request, jsonify

# 创建应用
app = Flask(__name__)

# 部署模型
@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json()
    features = [data['Pclass'], data['Sex'], data['AgeGroup'], data['Fare']]
    prediction = model.predict([features])
    return jsonify({'prediction': prediction[0]})

# 运行应用
if __name__ == '__main__':
    app.run()