pandas库用来对数据进行分割,而sklearn库则用来对数据进行处理
常用方法
train_test_split()分割数据集为训练集和测试集
- 功能:分割数据集为训练集和测试集
- 用法:
-
import numpy as np from sklearn.model_selection import train_test_split X, y = np.arange(10).reshape((5, 2)), range(5) “”“ X array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]]) list(y) [0, 1, 2, 3, 4] ”“”X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33,random_state=42)""" X_train array([[4, 5],[0, 1],[6, 7]]) y_train [2, 0, 3]X_test array([[2, 3],[8, 9]]) y_test [1, 4] """
- 参数:
-
sklearn.model_selection.train_test_split (*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
- *arrays表示需要分割的数据集
- test_size:
- train_size:
- 属于0-1时表示test数据集所占的比例
- 是integer时表示一个具体的数量
-
- 相关链接
- 相关链接1
- 相关链接2
- 相关链接3
-