from sklearn.datasets import make_blobs
###6.3.1 生成用于聚类的各向同性高斯斑点
## sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0,
# center_box=(-10.0, 10.0), shuffle=True, random_state=None, return_centers=False)
X, y = make_blobs(n_samples=10, centers=3, n_features=2,random_state=0)
print(X.shape)
(10, 2)
y
array([0, 0, 1, 0, 2, 2, 2, 1, 1, 0])
## 总结
#1、为了在控制数据的统计特性(通常是特征的 correlation (相关性)和 informativeness (信息性))的同时
# 评估数据集 (n_samples 和 n_features) 的规模的影响,也可以生成综合数据。
#2、此处只列举了make_blobs方法,更多的方法请参考 https://scikit-learn.org/stable/datasets/sample_generators.html