Den Smack Datamängd

Det smaka datauppsättningen existerar inte. I framtiden, om det uppstår, kommer det att vara en fri konstruktion av The Stack-datauppsättningen utan att använda den ursprungliga datauppsättningen direkt

Observera

Parroten är under tidig utveckling och inte redo för slutanvändare.

Stapels metadata

Stacken har en separat metadata-lagringsplats som innehåller information om datamängden utan att vara värd för datamängden sj

Länk till Git-lagringsplatsen:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Hämtar metadata

Metadata är betydligt mindre än hela datasätet, men ändå avsevärt stort. Git-metadataarkivet är ungefär en terabyte i storlek.

Läser metadata

Stackens metadata lagras i parquet-format. Parquet-filerna sträcker sig över 562 gigabyte och består av 2 832 enskilda filer över 945 kataloger.

Välj databaser

Write a script to filter appropriate repositories based on libre criteria.

Klonar databaser

Write a script to clone the selected repositories.

Tåg

Använd fri kod från Bigcode (skaparna av The Stack) för modellträning.

Skript

Följande skript är tillgängliga:

the-stack-headers – Retrieves header names from The Stack’s parquet files.
the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Kodhjälp

Skripten utvecklades med hjälp av Parrot-koden:

the-stack-headers
the-stack-licenses

Dessa skript skapades med The Phind-CodeLlama-34B-v2_q8.guff-modellen från TheBloke.

Observera

Parrotdokumentationen är skriven på engelska och använder AI-maskinöversättning för andra språk.