Bộ dữ liệu Smack
Bộ dữ liệu Smack không tồn tại. Trong tương lai, nếu nó xuất hiện, nó sẽ là một bản build libre của t
Ghi chú
Parrot đang ở trong giai đoạn phát triển sơ khai, không sẵn sàng cho người dùng cuối.
Dữ liệu Meta của Nhóm
Chính xác. Dữ liệu được lưu trữ trong một kho dữ liệu riêng biệ
Liên kết đến kho lưu trữ Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Tải xuống Metadata
Dữ liệu meta dưới dạng này không đầy đủ mà vẫn rất lớn so với toàn bộ tập dữ liệu. Kho lưu trữ metadata Git của chúng ta khoảng một terabyte.
Đang đọc dữ liệu meta
Thông tin hồ sơ của ngăn xếp được lưu trữ dưới dạng parquet. Các tập tin parquet bắt buộc phải có dung lượng 562 GB và gồm
Chọn kho lưu trữ
Viết một đoạn mã để lọc các kho lưu trữ phù hợp dựa trên tiêu chuẩn mã nguồn mở.
Lặp lại kho lưu trữ
Viết một tập lệnh để sao chép kho lưu trữ đã chọn.
Tàu hoả
Sử dụng mã nguồn miễn phí từ Bigcode (sáng lập viên của The Stack) để huấn luyện mô hình.
Tập lệnh
Các script sau có sẵn:
the-stack-headers
-- Retrieves header names from The Stack's parquet files.the-stack-licenses
-- Extracts licenses and records from The Stack's license file.
Hỗ trợ mã
Các tập lệnh sau đã được phát triển sử dụng mã hỗ trợ Parrot:
the-stack-headers
the-stack-licenses
Chúng tôi đã viết những đoạn mã này bằng cách sử dụng mô hình The Phind-CodeLlama-34B-v2_q8.guff từ TheBloke.
Ghi chú
Tài liệu của Parrot được viết bằng tiếng Anh và sử dụng máy móc chuyển đổi ngôn ngữ nhân tạo cho các ngôn ngữ khác.