Ang Smack Dataset
Ang Smack Dataset ay wala lamang. Kung maaaring mangyari sa ilalim ng kasamtangan, ito ay isang libre build ng The Stack dataset na hindi gumagamit ng orihinal na dataset direktang para sa m
Note
Ang Parrot ay nasa unang bataan ng pag-develop, hindi pa layon para sa mga tagagamit na kasamang-gamit.
Ang Metadata ng Stack
Ang Stack ay may kahangalang repository ng metadata na naglalaman ng impormasyon tungkol sa dataset nang walang mag-host ng isang dataset
Sumpay sa Git Repository:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Ikakargado ang Metadata
Ang metadata ay nang malaki kaysa sa buong dataset, subalit pa rin maraming mataas. Ang Git metadata repository ay humigit-kumulang isang terabyte sa laki.
Basahin ang metadata
Ang metadata ng Stack ay nakalagay sa parquet format. Ang mga parquet file ay nagspan ng 562 gigabites at kumpletong 2,832 individung file sa loob ng 945 mga directoryo.
Piliin ang mga Repo
Tulungan ang isang script upang mag-filter ang mga kapatidong repository na nagmumuno sa libre na katawan.
Ikinlon ng mga Repo
I-write ang isang script upang maklon uli ang piniling mga repositoryo.
Tren
Gamitin ang libre code mula sa Bigcode (mga nagbuhat ng The Stack) para sa pagsasanay sa modelo.
Skript
Ang mga sumusunod na mga script ay magagamit:
the-stack-headers
-- Retrieves header names from The Stack's parquet files.the-stack-licenses
-- Extracts licenses and records from The Stack's license file.
Kodong Tagapagsasagawa
Nagkaroon ng mga script na ito ng pamamaraang ginawa sa pamamagitan ng code assistance ni Parrot:
the-stack-headers
the-stack-licenses
Ito ay nilikha na ng mga script sa pamamagitan ng The Phind-CodeLlama-34B-v2_q8.guff modelo mula kay TheBloke.
Note
Ang dokumentasyon ng Parrot ay nasa English at gamit ang AI machine translation para sa iba pang mga wika.