Bộ dữ liệu Smack

Bộ dữ liệu Smack không tồn tại. Trong tương lai, nếu nó xuất hiện, nó sẽ là một bản build libre của t

Ghi chú

Parrot đang ở trong giai đoạn phát triển sơ khai, không sẵn sàng cho người dùng cuối.

Dữ liệu Meta của Nhóm

Chính xác. Dữ liệu được lưu trữ trong một kho dữ liệu riêng biệ

Liên kết đến kho lưu trữ Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Tải xuống Metadata

Dữ liệu meta dưới dạng này không đầy đủ mà vẫn rất lớn so với toàn bộ tập dữ liệu. Kho lưu trữ metadata Git của chúng ta khoảng một terabyte.

Đang đọc dữ liệu meta

Thông tin hồ sơ của ngăn xếp được lưu trữ dưới dạng parquet. Các tập tin parquet bắt buộc phải có dung lượng 562 GB và gồm

Chọn kho lưu trữ

Viết một đoạn mã để lọc các kho lưu trữ phù hợp dựa trên tiêu chuẩn mã nguồn mở.

Lặp lại kho lưu trữ

Viết một tập lệnh để sao chép kho lưu trữ đã chọn.

Tàu hoả

Sử dụng mã nguồn miễn phí từ Bigcode (sáng lập viên của The Stack) để huấn luyện mô hình.

Tập lệnh

Các script sau có sẵn:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • the-stack-licenses -- Extracts licenses and records from The Stack's license file.

Hỗ trợ mã

Các tập lệnh sau đã được phát triển sử dụng mã hỗ trợ Parrot:

  • the-stack-headers

  • the-stack-licenses

Chúng tôi đã viết những đoạn mã này bằng cách sử dụng mô hình The Phind-CodeLlama-34B-v2_q8.guff từ TheBloke.

Ghi chú

Tài liệu của Parrot được viết bằng tiếng Anh và sử dụng máy móc chuyển đổi ngôn ngữ nhân tạo cho các ngôn ngữ khác.