Zestaw danych Smack
Zestaw danych Smack nie istnieje. W przyszłości, jeśli się pojawi, będzie to swobodna wersja The Stack Dataset bez używania oryginalnego zestawu danych bezpośrednio
Informacja
Parrot jest w przedsprzedaży, nie jest jeszcze gotowy dla użytkowników końcowych.
Dane metadanych stosu
Stos ma oddzielne repozytorium metadanych zawierające informacje o zestawie danych bez hostowania samego zestawu danych.
Łącze do repozytorium Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Pobieranie metadanych
Dane metadanych są znacznie mniejsze niż cały zestaw danych, ale nadal bardzo duże. Repozytorium metadanych Git ma około jednego terabajta.
Odczyt metadanych
Metadane stosu są przechowywane w formacie parquet. Pliki parquet obejmują 562 gigabajty i składają się z 2832 oddzielnych plików w 945 katalogach.
Wybieranie Repozytoriów
Napisz skrypt do filtrowania odpowiednich repozytoriów na podstawie kryteriów swobodnego oprogramowania.
Klonowanie repozytoriów
Napisz skrypt, aby sklonować wybrane repozytoria.
Pociąg
Wykorzystaj bezpłatny kod z Bigcode (twórców The Stack) do treningu modelu.
Skrypty
Dostępne są następujące skrypty:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Asystent Kodu
Skrypty te zostały opracowane przy użyciu kodu asystenta Parrot:
the-stack-headers
the-stack-licenses
Te skrypty zostały stworzone z modelem The Phind-CodeLlama-34B-v2_q8.guff od TheBloke.
Informacja
Dokumentacja Parrot jest napisana w języku angielskim i używa tłumaczenia maszynowego opartego na sztucznej inteligencji dla innych języków.