Das Smack-Datenset
Das Smack-Datensatz existiert nicht. Wenn es in der Zukunft auftritt, wird es ein libre Bau des Stack-Datensatzes sein, ohne den Originaldatensatz direkt zu verwenden, aufgrund von Nicht-Libre (nicht „Open Source“)
Bemerkung
Parrot ist in der frühen Entwicklungsphase und nicht für Endbenutzer bereit.
Die Stack-Metadaten
Das Stack hat ein separates Metadaten-Repository, das Informationen über das Dataset enthält, ohne das Dataset selbst zu hosten. Diese Praxis ist vorteilhaft
Link to the Git Repository:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Herunterladen von Metadaten
Die Metadaten sind erheblich kleiner als das gesamte Dataset, aber dennoch beträchtlich groß. Der Git-Metadatenrepository ist ungefähr ein Terabyte groß.
Lesen von Metadaten
Das Metadaten-Stack ist im parquet-Format gespeichert. Die parquet-Dateien umfassen 562 Gigabyte und setzen sich aus 2.832 einzelnen Dateien zusammen, die über 945 Verzeichnisse verteilen.
Auswählen von Repositories
Schreiben Sie ein Skript, um geeignete Repositories basierend auf den Kriterien von „libre“ zu filtern.
Klonen von Depots
Schreiben Sie ein Skript, um die ausgewählten Repositories zu klonen.
Zug
Nutzen Sie freien Code von Bigcode (Erschaffer von The Stack) für Modelltraining.
Skripte
Die folgenden Skripte sind verfügbar:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Coder Assistent
Die folgenden Skripte wurden mit Hilfe von Parrot-Codeassistent entwickelt:
the-stack-headers
the-stack-licenses
Diese Skripte wurden mit dem Modell The Phind-CodeLlama-34B-v2_q8.guff von TheBloke erstellt.
Bemerkung
Die Parrot-Dokumentation ist auf Englisch verfasst und verwendet künstliche Intelligenz für maschinelle Übersetzungen in andere Sprachen.