Bạn có thể lấy thông tin cơ bản về GPU NVIDIA và mức sử dụng hiện tại của nó bằng chương trình “Giao diện quản lý hệ thống” của NVIDIA ________ 14. Xem trang hướng dẫn của nó để biết chi tiết
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
5 hoặc chạy nó với tùy chọn -h i. e. hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
6 để được giúp đỡ. Xem Kiểm tra khả năng của thiết bị để tìm hiểu thông tin chi tiết về thẻXin lưu ý. Không sử dụng lệnh nvidia-smi với tùy chọn
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
7, cũng như với lệnh hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
8. Chạy nvidia-smi liên tục bằng vòng lặp sẽ tiêu tốn tài nguyên GPU và sẽ làm chậm công việc của mọi ngườiBạn cần đăng nhập vào nút GPU để chạy lệnh này
Đây là một ví dụ về đầu ra của nó
GPUNode $
$ nvidia-smi
Mon Jun 28 14:13:56 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 465.19.01 Driver Version: 465.19.01 CUDA Version: 11.3 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-PCIE.. Off | 00000000:3B:00.0 Off | 0 |
| N/A 61C P0 155W / 250W | 17289MiB / 32510MiB | 91% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 Tesla V100-PCIE.. Off | 00000000:D8:00.0 Off | 0 |
| N/A 62C P0 152W / 250W | 17289MiB / 32510MiB | 89% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 57573 C python 17283MiB |
| 1 N/A N/A 57573 C python 17283MiB |
+-----------------------------------------------------------------------------+
$
Bạn có thể thấy rằng nút này đã cài đặt hai GPU Tesla V100. Cả hai đều đang chạy với mức sử dụng bộ nhớ khoảng 50% và mức sử dụng GPU là 90%
Bạn có thể nhận danh sách hai GPU và UUID của chúng bằng cái này
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
Bạn có thể chỉ định thông tin nào bạn muốn xem bằng cách sử dụng tùy chọn
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
9 với tham số hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
0 e. g$ nvidia-smi -q -d MEMORY,COMPUTE,UTILIZATION
Ở trên sẽ hiển thị dữ liệu cho cả hai GPU. Nếu bạn chỉ muốn xem thông tin cho một GPU cụ thể thì bạn có thể chỉ định UUID để truy vấn
$ nvidia-smi -q -d MEMORY,COMPUTE,UTILIZATION -i GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70 --loop=600
Lưu ý trong ví dụ trên tôi cũng đã sử dụng tùy chọn
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
1. Điều này có thể rất hữu ích nhưng xin vui lòng không sử dụng điều này liên tục với khoảng thời gian ngắn Tôi đang chạy một mô hình ở chế độ eval. Tôi đã viết những dòng mã này sau khi chuyển tiếp để xem bộ nhớ đang sử dụng
print["torch.cuda.memory_allocated: %fGB"%[torch.cuda.memory_allocated[0]/1024/1024/1024]]
print["torch.cuda.memory_reserved: %fGB"%[torch.cuda.memory_reserved[0]/1024/1024/1024]]
print["torch.cuda.max_memory_reserved: %fGB"%[torch.cuda.max_memory_reserved[0]/1024/1024/1024]]
cái nào in ra
ngọn đuốc. cuda. bộ nhớ_được phân bổ. 0. 004499GB
đèn pin. cuda. memory_reserve. 0. 007812GB
đèn pin. cuda. max_memory_reserve. 0. 007812GB
Tuy nhiên, chạy
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
4 cho tôi biết rằng python đang sử dụng 1. 349 GB. Điều gì gây ra sự khác biệt?+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A |
| N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB |
| 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB |
| 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB |
| 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB |
| 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB |
| 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB |
| 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB |
| 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB |
| 0 N/A N/A 25867 C python 1349MiB |
+-----------------------------------------------------------------------------+
Cảm ơn bạn đã trả lời. Tôi thực sự đang sử dụng một mô hình rất nhỏ với tổng số thông số chỉ khoảng 200 nghìn trong quá trình đào tạo. Các giá trị trên là khi tôi đặt mô hình ở chế độ eval và kích thước lô là 128. Tôi cũng đã sử dụng một chức năng khác
hpcnode10 $ nvidia-smi --list-gpus
GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70]
GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
1 để in như sauđiều này cũng cho thấy rằng mô hình của tôi đang sử dụng 4717 KB [bộ nhớ được phân bổ] tại thời điểm thử nghiệm, tương đương với 0. 004499GB
Tôi có hai câu hỏi cuối xin vui lòng
Kích thước lô 128 bản in
2 trong khi tăng lên 1024 bản inhpcnode10 $ nvidia-smi --list-gpus GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70] GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
3. Tôi có thể xác nhận rằng sự khác biệt khoảng 1 MB chỉ là do kích thước lô tăng lên không?hpcnode10 $ nvidia-smi --list-gpus GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70] GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
Và có lý do nào khiến
4 chuyển từhpcnode10 $ nvidia-smi --list-gpus GPU 0: Tesla V100-PCIE-32GB [UUID: GPU-37f061b1-7948-e188-56a7-d30f5e0ffc70] GPU 1: Tesla V100-PCIE-32GB [UUID: GPU-151b0546-4c5b-039a-e1e2-0acaa0098909]
0 sang+-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A | | N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB | | 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB | | 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB | | 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB | | 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB | | 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB | | 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB | | 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB | | 0 N/A N/A 25867 C python 1349MiB | +-----------------------------------------------------------------------------+
1 khi chuyển từ kích thước lô 128 sang 1024 không? . Có phải bộ nhớ được sử dụng bởi bối cảnh CUDA cũng thay đổi dựa trên kích thước lô không?+-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A | | N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB | | 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB | | 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB | | 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB | | 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB | | 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB | | 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB | | 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB | | 0 N/A N/A 25867 C python 1349MiB | +-----------------------------------------------------------------------------+
Đây là định nghĩa mô hình. Kích thước nằm dưới định nghĩa. Mô hình được tạo thành từ 2 VAE. Đầu vào
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A |
| N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB |
| 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB |
| 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB |
| 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB |
| 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB |
| 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB |
| 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB |
| 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB |
| 0 N/A N/A 25867 C python 1349MiB |
+-----------------------------------------------------------------------------+
2 và +-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A |
| N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB |
| 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB |
| 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB |
| 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB |
| 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB |
| 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB |
| 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB |
| 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB |
| 0 N/A N/A 25867 C python 1349MiB |
+-----------------------------------------------------------------------------+
3 đều là +-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce .. Off | 00000000:01:00.0 On | N/A |
| N/A 57C P0 33W / N/A | 2392MiB / 7982MiB | 3% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1103 G /usr/lib/xorg/Xorg 106MiB |
| 0 N/A N/A 1702 G /usr/lib/xorg/Xorg 476MiB |
| 0 N/A N/A 1874 G /usr/bin/gnome-shell 87MiB |
| 0 N/A N/A 2331 G ...AAAAAAAAA= --shared-files 51MiB |
| 0 N/A N/A 4307 G /usr/lib/firefox/firefox 175MiB |
| 0 N/A N/A 4569 G /usr/lib/firefox/firefox 37MiB |
| 0 N/A N/A 21370 G ...AAAAAAAAA= --shared-files 33MiB |
| 0 N/A N/A 24668 G ...AAAAAAAAA= --shared-files 56MiB |
| 0 N/A N/A 25867 C python 1349MiB |
+-----------------------------------------------------------------------------+
4