Ang Smack Dataset

Ang Smack Dataset ay wala lamang. Kung maaaring mangyari sa ilalim ng kasamtangan, ito ay isang libre build ng The Stack dataset na hindi gumagamit ng orihinal na dataset direktang para sa m

Note

Ang Parrot ay nasa unang bataan ng pag-develop, hindi pa layon para sa mga tagagamit na kasamang-gamit.

Ang Metadata ng Stack

Ang Stack ay may kahangalang repository ng metadata na naglalaman ng impormasyon tungkol sa dataset nang walang mag-host ng isang dataset

Sumpay sa Git Repository:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Ikakargado ang Metadata

Ang metadata ay nang malaki kaysa sa buong dataset, subalit pa rin maraming mataas. Ang Git metadata repository ay humigit-kumulang isang terabyte sa laki.

Basahin ang metadata

Ang metadata ng Stack ay nakalagay sa parquet format. Ang mga parquet file ay nagspan ng 562 gigabites at kumpletong 2,832 individung file sa loob ng 945 mga directoryo.

Piliin ang mga Repo

Tulungan ang isang script upang mag-filter ang mga kapatidong repository na nagmumuno sa libre na katawan.

Ikinlon ng mga Repo

I-write ang isang script upang maklon uli ang piniling mga repositoryo.

Tren

Gamitin ang libre code mula sa Bigcode (mga nagbuhat ng The Stack) para sa pagsasanay sa modelo.

Skript

Ang mga sumusunod na mga script ay magagamit:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • the-stack-licenses -- Extracts licenses and records from The Stack's license file.

Kodong Tagapagsasagawa

Nagkaroon ng mga script na ito ng pamamaraang ginawa sa pamamagitan ng code assistance ni Parrot:

  • the-stack-headers

  • the-stack-licenses

Ito ay nilikha na ng mga script sa pamamagitan ng The Phind-CodeLlama-34B-v2_q8.guff modelo mula kay TheBloke.

Note

Ang dokumentasyon ng Parrot ay nasa English at gamit ang AI machine translation para sa iba pang mga wika.