Das Smack-Datenset

Das Smack-Datensatz existiert nicht. Wenn es in der Zukunft auftritt, wird es ein libre Bau des Stack-Datensatzes sein, ohne den Originaldatensatz direkt zu verwenden, aufgrund von Nicht-Libre (nicht „Open Source“)

Bemerkung

Parrot ist in der frühen Entwicklungsphase und nicht für Endbenutzer bereit.

Die Stack-Metadaten

Das Stack hat ein separates Metadaten-Repository, das Informationen über das Dataset enthält, ohne das Dataset selbst zu hosten. Diese Praxis ist vorteilhaft

Link to the Git Repository:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Herunterladen von Metadaten

Die Metadaten sind erheblich kleiner als das gesamte Dataset, aber dennoch beträchtlich groß. Der Git-Metadatenrepository ist ungefähr ein Terabyte groß.

Lesen von Metadaten

Das Metadaten-Stack ist im parquet-Format gespeichert. Die parquet-Dateien umfassen 562 Gigabyte und setzen sich aus 2.832 einzelnen Dateien zusammen, die über 945 Verzeichnisse verteilen.

Auswählen von Repositories

Schreiben Sie ein Skript, um geeignete Repositories basierend auf den Kriterien von „libre“ zu filtern.

Klonen von Depots

Schreiben Sie ein Skript, um die ausgewählten Repositories zu klonen.

Zug

Nutzen Sie freien Code von Bigcode (Erschaffer von The Stack) für Modelltraining.

Skripte

Die folgenden Skripte sind verfügbar:

the-stack-headers – Retrieves header names from The Stack’s parquet files.
the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Coder Assistent

Die folgenden Skripte wurden mit Hilfe von Parrot-Codeassistent entwickelt:

the-stack-headers
the-stack-licenses

Diese Skripte wurden mit dem Modell The Phind-CodeLlama-34B-v2_q8.guff von TheBloke erstellt.

Bemerkung

Die Parrot-Dokumentation ist auf Englisch verfasst und verwendet künstliche Intelligenz für maschinelle Übersetzungen in andere Sprachen.