Xử lý sự cố nút của bạn

Dưới đây là một số sự cố phổ biến mà bạn có thể gặp phải với node của mình, đây là cách khắc phục chúng!

Hệ thống không tìm thấy thư viện CUDA

Đôi khi, bộ công cụ CUDA được cài đặt ở vị trí không chuẩn. Thông báo lỗi ở đây thường không thể tìm thấy thư viện*12. Ví dụ, bạn có thể đã cài đặt CUDA với thiết lập Python của mình. Lệnh sau sẽ cài đặt CUDA vào môi trường Python.

sudo apt cài đặt python3-pip -y pip3 cài đặt --upgrade fschat tăng tốc autoawq vllm

Cách dễ nhất để sửa lỗi là chỉ cần liên kết các thư viện CUDA không chuẩn đó với vị trí chuẩn, như thế này:

ln -s /usr/local/lib/python3.10/dist-packages/nvidia/cublas/lib/libcublas.so.12 /usr/lib/libcublas.so.12 ln -s /usr/local/lib/python3.10/dist-packages/nvidia/cuda_runtime/lib/libcudart.so.12 /usr/lib/libcudart.so.12 ln -s /usr/local/lib/python3.10/dist-packages/nvidia/cublas/lib/libcublasLt.so.12 /usr/lib/libcublasLt.so.12

Không thể khôi phục từ ảnh chụp nhanh thu thập trên Windows WSL

Trên Windows WSL, bạn có thể thấy lỗi này khi chạy gaianet khởi tạo:

Import the Qdrant collection snapshot ... The process may take a few minutes. Please wait ... * [Error] Failed to recover from the collection snapshot. {"status":{"error":"Service internal error: Tokio task join error: task 1242 panicked"},"time":0.697784244}

Khi bạn nhìn vào ~/gaianet/log/init-qdrant.log file, bạn có thể thấy dòng lỗi này:

2024-05-20T07:24:52.900895Z ERROR qdrant::startup: Panic occurred in file /home/runner/.cargo/registry/src/index.crates.io-6f17d22bba15001f/cgroups-rs-0.3.4/src/memory.rs at line 587: called `Result::unwrap()` on an `Err` value: Error { kind: ReadFailed("/sys/fs/cgroup/memory.high"), cause: Some(Os { code: 2, kind: NotFound, message: "No such file or directory" }) }  

Giải pháp là vô hiệu hóa autoMemoryReclaim tính năng trong WSL. Các bước để bật/tắt tính năng này:

  1. Biên tập C:\Users<Your user name>.wslconfig

  2. Xóa hoặc bình luận ra autoMemoryReclaim TRONG [thử nghiệm] phần.

Bạn có thể tìm hiểu thêm về nó đây, điều này đã được phát hiện bởi RoggeOhta.

Không thể khởi động nút với thông báo lỗi Cổng 8080 đang được sử dụng. Thoát ...

Bạn có thể thấy lỗi sau khi chạy gaianet bắt đầu.

gaianet start [+] Đang kiểm tra tệp config.json ...
Bạn đã có khóa riêng. [+] Đang khởi động LlamaEdge API Server ...
Cổng 8080 đang được sử dụng. Thoát ...

Giải pháp là chạy gaianet dừng lại đầu tiên là giết tất cả các tiến trình, sau đó chạy gaianet bắt đầu để bắt đầu nút.

Tải thư viện không thành công: libgomp.so.1: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục nào như vậy

Trên Windows WSL, bạn có thể thấy lỗi này khi chạy curl -sSfL 'https://github.com/GaiaNet-AI/gaianet-node/releases/latest/download/install.sh' | bash

* Tạo nút IS [2024-07-02 17:50:55.175] [lỗi] tải không thành công: đường dẫn không hợp lệ, Mã: 0x20 [2024-07-02 17:50:55.175] [lỗi] tải thư viện không thành công: libgomp.so.1: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục nào như vậy [2024-07-02 17:50:55.176] [lỗi] tải không thành công: đường dẫn không hợp lệ, Mã: 0x20 [2024-07-02 17:50:55.176] [lỗi] tải thư viện không thành công: libgomp.so.1: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục nào như vậy

Lỗi này là do thiếu libgomp.so.1, một thư viện mặc định sẽ được tự động cài đặt trên Ubuntu.

Để giải quyết vấn đề này, bạn phải cài đặt libgomp.so.1 thư viện:

sudo apt-get cập nhật sudo apt-get cài đặt libgomp1

Nếu bạn đang sử dụng CentOS, bạn có thể sử dụng:

yum cài đặt libgomp

Vấn đề này đã được khắc phục trong phiên bản 0.2.2.

Không thể xóa bộ sưu tập mặc định

Failed to remove the default collection. {"status":{"error":"Service internal error: No such file or directory (os error 2)"},"time":0.050924542}

Thông thường, điều này chỉ ra rằng phiên bản Qdrant không được tắt đúng cách trước khi bạn thử khởi tạo lại bằng một bản chụp nhanh mới. Giải pháp là dừng nút GaiaNet trước:

gaianet dừng lại

Ngoài ra, bạn có thể tắt thủ công các tiến trình từ thiết bị đầu cuối hoặc trong Activity Monitor của hệ điều hành:

sudo pkill -9 qdrant sudo pkill -9 wasmedge sudo pkill -9 frpc

Sau đó bạn có thể chạy gaianet khởi tạo và sau đó gaianet bắt đầu lại.

Lỗi I/O tập tin

* Nhập ảnh chụp nhanh bộ sưu tập Qdrant ... Quá trình này có thể mất vài phút. Vui lòng đợi ... * [Lỗi] Không khôi phục được từ ảnh chụp nhanh bộ sưu tập. Đã xảy ra lỗi khi xử lý trường `snapshot`: Lỗi I/O tệp: Hoạt động không được phép (lỗi hệ điều hành 1)

Thông thường, điều này chỉ ra rằng phiên bản Qdrant không được tắt đúng cách trước khi bạn thử khởi tạo lại bằng một bản chụp nhanh mới. Giải pháp là dừng nút GaiaNet trước:

gaianet dừng lại

Ngoài ra, bạn có thể tắt thủ công các tiến trình từ thiết bị đầu cuối hoặc trong Activity Monitor của hệ điều hành.

sudo pkill -9 qdrant sudo pkill -9 wasmedge sudo pkill -9 frpc

Sau đó bạn có thể chạy gaianet khởi tạo và sau đó gaianet bắt đầu lại.

Lỗi "Không mở được tệp"

Cảnh báo: Không mở được tệp Cảnh báo: https://huggingface.co/datasets/max-id/gaianet-qdrant-snapshot/resolve Cảnh báo: /main/consensus/consensus.snapshot: Không có tệp hoặc thư mục nào như vậy curl: (23) Không ghi được đầu ra vào đích

Lý do cho loại lỗi này là do cấu hình sai cấu hình.json tập tin. Giải pháp là xóa các bình luận trong cấu hình.json và chạy lại gaianet khởi tạo yêu cầu.

Lỗi "Quá nhiều tệp đang mở" trên macOS

Khi chạy gaianet khởi tạo để khởi tạo một nút mới trên macOS, bạn có thể gặp lỗi liên quan đến khôi phục ảnh chụp nhanh nếu ảnh chụp nhanh của bạn chứa một lượng lớn văn bản. Thông báo lỗi có thể như sau:

 * [Error] Failed to recover from the collection snapshot. {"status":{"error":"Service internal error: Too many open files (os error 24)"},"time":1.574064833}
    * [Error] Failed to recover from the collection snapshot. {"status":{"error":"Service internal error: Too many open files (os error 24)"},"time":1.574064833}

Sự cố này là do giới hạn mô tả tệp (FD) mặc định trên macOS được đặt ở giá trị tương đối thấp là 256.

Để giải quyết vấn đề này, bạn có thể tăng giới hạn FD mặc định trên hệ thống của mình. Để thực hiện, hãy chạy lệnh sau:

giới hạn -n 10000

Điều này sẽ tạm thời đặt giới hạn FD thành 10.000. Tiếp theo, sử dụng gaianet khởi tạogaianet bắt đầu lệnh trong CÙNG một thiết bị đầu cuối.

Quyền bị từ chối khi sử dụng tập lệnh cài đặt để cài đặt WasmEdge

Khi chạy curl -sSfL 'https://github.com/GaiaNet-AI/gaianet-node/releases/latest/download/install.sh' | bash để cài đặt phần mềm GaiaNet node, bạn có thể gặp lỗi từ chối cấp phép, đặc biệt là khi cài đặt WasmEdge runtime.

Lỗi này là do thiếu /tmp quyền viết. Bạn có thể sử dụng --tmpdir để chỉ định nơi bạn muốn cài đặt thời gian chạy WasmEdge. Xin lưu ý, bạn sẽ cần phải có sự cho phép bằng văn bản đối với <YOUR_PATH> thư mục.

curl -sSfL 'https://github.com/GaiaNet-AI/gaianet-node/releases/latest/download/install.sh' | bash -s -- --tmpdir ĐƯỜNG_DẪN_CỦA_BẠN

Vấn đề này đã được khắc phục trong phiên bản 0.2.3.

Cập nhật lần cuối

Thông tin này có hữu ích không?