Il dataset Smack

Lo Smack Dataset non esiste. Nel futuro, se si verifica, sarà una build libre di The Stack dataset senza utilizzare direttamente il dataset originale a causa delle restrizioni della licenza non libera («open source»).

Nota

Il Parrot è in fase di sviluppo precoce, non è pronto per gli utenti finali.

I Metadati dello Stack

The Stack has a separate metadata repository containing information about the dataset without hosting the dataset itself. This practice is beneficial as it allows researchers to understand dataset contents without being bound by licenses. For instance, how can one agree to a license when they’re unaware of the content’s licenses? By using metadata files, this issue can be mitigated.

Link to the Git Repository:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Scaricamento dei metadati

I metadati sono notevolmente meno dell’intero set di dati, ma ancora considerevolmente ampio. Il repository dei metadati Git ha un’apertura di circa un terabyte.

Reading Metadata

I metadati dello stack sono memorizzati nel formato parquet. I file parquet occupano 562 gigabyte e consistono in 2.832 file individuali distribuiti su 945 directory.

Selezionare i depositi

Scrivi uno script per filtrare i repository appropriati in base ai criteri liberi.

Clonazione dei Repositori

Scrivi uno script per clonare i repository selezionati.

Treno

Utilizzare codice libero da Bigcode (creatori di The Stack) per la formazione del modello.

Scripts it-IT

Gli script disponibili sono i seguenti:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • la-pila-licenze – Estrae le licenze e i record dal file delle licenze di The Stack.

Assistente di Codice

Gli script seguenti sono stati sviluppati utilizzando l’assistenza al codice di Parrot:

  • the-stack-headers

  • the-stack-licenses

Questi script sono stati creati con il modello The Phind-CodeLlama-34B-v2_q8.guff da TheBloke.

Nota

La documentazione di Parrot è scritta in inglese e utilizza il traduzione automatica del machin per altre lingue.