Zestaw danych Smack

Zestaw danych Smack nie istnieje. W przyszłości, jeśli się pojawi, będzie to swobodna wersja The Stack Dataset bez używania oryginalnego zestawu danych bezpośrednio

Informacja

Parrot jest w przedsprzedaży, nie jest jeszcze gotowy dla użytkowników końcowych.

Dane metadanych stosu

Stos ma oddzielne repozytorium metadanych zawierające informacje o zestawie danych bez hostowania samego zestawu danych.

Łącze do repozytorium Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Pobieranie metadanych

Dane metadanych są znacznie mniejsze niż cały zestaw danych, ale nadal bardzo duże. Repozytorium metadanych Git ma około jednego terabajta.

Odczyt metadanych

Metadane stosu są przechowywane w formacie parquet. Pliki parquet obejmują 562 gigabajty i składają się z 2832 oddzielnych plików w 945 katalogach.

Wybieranie Repozytoriów

Napisz skrypt do filtrowania odpowiednich repozytoriów na podstawie kryteriów swobodnego oprogramowania.

Klonowanie repozytoriów

Napisz skrypt, aby sklonować wybrane repozytoria.

Pociąg

Wykorzystaj bezpłatny kod z Bigcode (twórców The Stack) do treningu modelu.

Skrypty

Dostępne są następujące skrypty:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Asystent Kodu

Skrypty te zostały opracowane przy użyciu kodu asystenta Parrot:

  • the-stack-headers

  • the-stack-licenses

Te skrypty zostały stworzone z modelem The Phind-CodeLlama-34B-v2_q8.guff od TheBloke.

Informacja

Dokumentacja Parrot jest napisana w języku angielskim i używa tłumaczenia maszynowego opartego na sztucznej inteligencji dla innych języków.