Phân cụm kết tụ. Nội dung chính ShowShow
Sao hợp lại cặp cụm dữ liệu mẫu; Sử dụng khoảng cách liên kết.
Đọc thêm trong Hướng dẫn sử dụng.User Guide.User Guide.
Tham số: n_clustersint hoặc none, mặc định = 2:n_clustersint or None, default=2:n_clustersint or None, default=2Số lượng cụm để tìm. Phải là None
nếu distance_threshold
không phải là None
.
Số liệu được sử dụng để tính toán liên kết. Có thể là người Euclide, người khác, L1, L2, L2 ,, Nếu liên kết là phường Ward Ward, thì chỉ có Euclidean được chấp nhận. Nếu có tính hợp đồng với nhau, một ma trận khoảng cách [thay vì ma trận tương tự] là đầu vào cho phương thức phù hợp.
bộ nhớ hoặc đối tượng với giao diện joblib.memory, default = nonestr or object with the joblib.Memory interface, default=Nonestr or object with the joblib.Memory interface, default=NoneĐược sử dụng để lưu trữ đầu ra của tính toán của cây. Theo mặc định, không có bộ nhớ đệm được thực hiện. Nếu một chuỗi được đưa ra, đó là đường dẫn đến thư mục bộ đệm.
ConnectivityArray-giống như hoặc có thể gọi được, mặc định = khôngarray-like or callable, default=Nonearray-like or callable, default=NoneMa trận kết nối. Xác định cho mỗi mẫu các mẫu lân cận theo một cấu trúc nhất định của dữ liệu. Đây có thể là một ma trận kết nối hoặc một mức độ có thể gọi được chuyển đổi dữ liệu thành một ma trận kết nối, chẳng hạn như có nguồn gốc từ kneighbors_graph
. Mặc định là None
, tức là thuật toán phân cụm phân cấp là không cấu trúc.
Dừng sớm việc xây dựng cây tại n_clusters
. Điều này rất hữu ích để giảm thời gian tính toán nếu số lượng cụm không nhỏ so với số lượng mẫu. Tùy chọn này chỉ hữu ích khi chỉ định ma trận kết nối. Cũng lưu ý rằng khi thay đổi số lượng cụm và sử dụng bộ nhớ đệm, có thể thuận lợi để tính toán cây đầy đủ. Phải là True
nếu distance_threshold
không phải là None
. Theo mặc định, ____10 là Auto Auto, tương đương với True
khi distance_threshold
không phải là None
hoặc n_clusters
kém hơn tối đa từ 100 hoặc None
5. Mặt khác, tự động tự động tương đương với None
6.
Tiêu chí liên kết nào để sử dụng. Tiêu chí liên kết xác định khoảng cách sử dụng giữa các bộ quan sát. Thuật toán sẽ hợp nhất các cặp cụm giảm thiểu tiêu chí này.
Ward Ward giảm thiểu phương sai của các cụm được hợp nhất.
Trung bình sử dụng trung bình của khoảng cách của mỗi quan sát của hai bộ.
’Hoàn thành liên kết hoặc‘ tối đa, sử dụng khoảng cách tối đa giữa tất cả các quan sát của hai bộ.
Độc thân sử dụng tối thiểu khoảng cách giữa tất cả các quan sát của hai bộ.
Mới trong phiên bản 0.20: Đã thêm tùy chọn ‘Single SingleAdded the ‘single’ optionAdded the ‘single’ option
distcent_thresholdFloat, mặc định = không cófloat, default=Nonefloat, default=NoneNgưỡng khoảng cách liên kết trên đó, các cụm sẽ không được hợp nhất. Nếu không None
, n_clusters
phải là None
và None
0 phải là True
.
Mới trong phiên bản 0.21.
compute_distancesbool, mặc định = falsebool, default=Falsebool, default=FalseTính toán khoảng cách giữa các cụm ngay cả khi distance_threshold
không được sử dụng. Điều này có thể được sử dụng để làm cho trực quan hóa dendrogram, nhưng giới thiệu một chi phí tính toán và bộ nhớ.
Mới trong phiên bản 0.24.
Attributes:n_clusters_int:n_clusters_int:n_clusters_intSố lượng cụm được tìm thấy bởi thuật toán. Nếu distance_threshold
3, nó sẽ bằng với n_clusters
đã cho.
Nhãn cụm cho mỗi điểm.
n_leaves_intintintSố lượng lá trong cây phân cấp.
n_connected_components_intintintSố lượng các thành phần được kết nối trong biểu đồ.
Mới trong phiên bản 0.21: distance_threshold
5 đã được thêm vào để thay thế distance_threshold
6.distance_threshold
5 was added to replace distance_threshold
6.distance_threshold
5 was added to replace distance_threshold
6.
Số lượng các tính năng nhìn thấy trong quá trình phù hợp.fit.fit.
Mới trong phiên bản 0.24.
Số lượng cụm được tìm thấy bởi thuật toán. Nếudistance_threshold
3, nó sẽ bằng với n_clusters
đã cho.ndarray of shape [distance_threshold
7,]Labels_ndarray của hình dạng [n_samples]ndarray of shape [n_samples]fit. Defined only when
distance_threshold
8 has feature names that are all strings.
Nhãn cụm cho mỗi điểm.
Số lượng lá trong cây phân cấp.array-like of shape [n_samples-1, 2]array-like of shape [n_samples-1, 2]Số lượng các thành phần được kết nối trong biểu đồ.
Mới trong phiên bản 0.21:distance_threshold
5 đã được thêm vào để thay thế distance_threshold
6.array-like of shape [n_nodes-1,]array-like of shape [n_nodes-1,]Số lượng các tính năng nhìn thấy trong quá trình phù hợp.
tính năng_names_in_ndarray của hình dạng [distance_threshold
7,]
>>> from sklearn.cluster import AgglomerativeClustering >>> import numpy as np >>> X = np.array[[[1, 2], [1, 4], [1, 0], ... [4, 2], [4, 4], [4, 0]]] >>> clustering = AgglomerativeClustering[].fit[X] >>> clustering AgglomerativeClustering[] >>> clustering.labels_ array[[1, 1, 1, 0, 0, 0]]
Tên của các tính năng nhìn thấy trong quá trình phù hợp. Chỉ được xác định khi distance_threshold
8 có tên tính năng là tất cả các chuỗi.
| Mới trong phiên bản 1.0. |
| Children_array giống như hình dạng [N_Samples-1, 2] |
| Nhận tham số cho công cụ ước tính này. |
| Đặt các tham số của công cụ ước tính này. |
Phù hợp với phân cụm phân cấp từ các tính năng hoặc ma trận khoảng cách.
Các tham số: Xarray giống như, hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]:Xarray-like, shape [n_samples, n_features] or [n_samples, n_samples]:Xarray-like, shape [n_samples, n_features] or [n_samples, n_samples]Các trường hợp đào tạo đến cụm, hoặc khoảng cách giữa các trường hợp nếu kneighbors_graph
2.
Không được sử dụng, có mặt ở đây cho tính nhất quán API theo quy ước.
Returns:selfobject:selfobject:selfobjectTrả về các trường hợp được trang bị.
fit_predict [x, y = none] [nguồn] ¶[X, y=None][source]¶[X, y=None][source]¶Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.
Ngoài việc phù hợp, phương pháp này cũng trả về kết quả của gán phân cụm cho mỗi mẫu trong tập huấn luyện.
Tham số: Xarray giống như hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]:Xarray-like of shape [n_samples, n_features] or [n_samples, n_samples]:Xarray-like of shape [n_samples, n_features] or [n_samples, n_samples]Các trường hợp đào tạo đến cụm, hoặc khoảng cách giữa các trường hợp nếu kneighbors_graph
2.
Không được sử dụng, có mặt ở đây cho tính nhất quán API theo quy ước.
Trả về các trường hợp được trang bị.:labelsndarray of shape [n_samples,]fit_predict [x, y = none] [nguồn] ¶[X, y=None][source]¶
Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.[deep=True][source]¶Nhận tham số cho công cụ ước tính này.
Đặt các tham số của công cụ ước tính này.:deepbool, default=Truephù hợp [x, y = none] [nguồn] ¶[X, y=None][source]¶
Returns:paramsdict:paramsdict: paramsdictPhù hợp với phân cụm phân cấp từ các tính năng hoặc ma trận khoảng cách.
Các tham số: Xarray giống như, hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]:Xarray-like, shape [n_samples, n_features] or [n_samples, n_samples][**params][source]¶Đặt các tham số của công cụ ước tính này.
phù hợp [x, y = none] [nguồn] ¶[X, y=None][source]¶
Parameters:**paramsdict:**paramsdict:**paramsdictPhù hợp với phân cụm phân cấp từ các tính năng hoặc ma trận khoảng cách.
Các tham số: Xarray giống như, hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]:Xarray-like, shape [n_samples, n_features] or [n_samples, n_samples]:selfestimator instanceCác trường hợp đào tạo đến cụm, hoặc khoảng cách giữa các trường hợp nếu kneighbors_graph
2.
yignoredIgnored
Không được sử dụng, có mặt ở đây cho tính nhất quán API theo quy ước.
Trả về các trường hợp được trang bị..
fit_predict [x, y = none] [nguồn] ¶[X, y=None][source]¶
Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.
Ngoài việc phù hợp, phương pháp này cũng trả về kết quả của gán phân cụm cho mỗi mẫu trong tập huấn luyện.
Tham số: Xarray giống như hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]:Xarray-like of shape [n_samples, n_features] or [n_samples, n_samples]
Trả về các trường hợp được trang bị.:labelsndarray of shape [n_samples,]
fit_predict [x, y = none] [nguồn] ¶a type of hierarchical clustering that follows a bottom up approach. We begin by treating each data point as its own cluster. Then, we join clusters together that have the shortest distance between them to create larger clusters.
Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.[deep=True][source]¶
Ngoài việc phù hợp, phương pháp này cũng trả về kết quả của gán phân cụm cho mỗi mẫu trong tập huấn luyện.:deepbool, default=True.
Tham số: Xarray giống như hình dạng [n_samples, n_features] hoặc [n_samples, n_samples]
Trả về: LabelSndArray của hình dạng [n_samples,]
Nhãn cụm.[**params][source]¶
get_params [sâu = true] [nguồn] ¶
Tham số: DeepBool, Default = true
Nếu đúng, sẽ trả về các tham số cho công cụ ước tính này và chứa các tiểu mục là công cụ ước tính.:selfestimator instance
Tên tham số được ánh xạ tới giá trị của chúng..
set_params [** params] [nguồn] ¶
Làm thế nào để bạn vẽ các cụm kết tụ trong Python?
Ở cấp 1, lưu ý rằng sẽ có 5 cụm ...