Den Smack Datamängd
Det smaka datauppsättningen existerar inte. I framtiden, om det uppstår, kommer det att vara en fri konstruktion av The Stack-datauppsättningen utan att använda den ursprungliga datauppsättningen direkt
Observera
Parroten är under tidig utveckling och inte redo för slutanvändare.
Stapels metadata
Stacken har en separat metadata-lagringsplats som innehåller information om datamängden utan att vara värd för datamängden sj
Länk till Git-lagringsplatsen:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Hämtar metadata
Metadata är betydligt mindre än hela datasätet, men ändå avsevärt stort. Git-metadataarkivet är ungefär en terabyte i storlek.
Läser metadata
Stackens metadata lagras i parquet-format. Parquet-filerna sträcker sig över 562 gigabyte och består av 2 832 enskilda filer över 945 kataloger.
Välj databaser
Write a script to filter appropriate repositories based on libre criteria.
Klonar databaser
Write a script to clone the selected repositories.
Tåg
Använd fri kod från Bigcode (skaparna av The Stack) för modellträning.
Skript
Följande skript är tillgängliga:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Kodhjälp
Skripten utvecklades med hjälp av Parrot-koden:
the-stack-headers
the-stack-licenses
Dessa skript skapades med The Phind-CodeLlama-34B-v2_q8.guff-modellen från TheBloke.
Observera
Parrotdokumentationen är skriven på engelska och använder AI-maskinöversättning för andra språk.