スマックデータセット
スマックデータセットは存在しません。将来、それが生じた場合、オリジナルデータセットを直接使用せずにスタックデータセットの
注釈
パルロットはまだエンドユーザーに準備ができていません。開発途中のため、使用はお勧めしません。
スタック・メタデータ
このStackは、データセット自体をホストしない別個のメタデータリポジトリにデ
リンク到git倉庫:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
データ取得中
メタデータはデータセット全体よりもかなり少ないが、まだ大規模です。Gitメタデータリポジトリはおよそ1テラバイトのサイズです。
読み込み中のメタデータ
スタックのメタデータはparquet形式で保存されます。parquetファイルは562ギガバイトを占め、945のディレクトリにわたって2,832個の個
リポジトリの選択
スクリプトを記述して、リブール基準に基づいて適切なリポジトリをフィルタリングします。
リポジトリのクローン
Write a script to clone the selected repositories.
列車
ビッグコード(ザ・スタックの作者)からリアルなコードを活用してモデルトレーニングを行います。
スクリプト
以下のスクリプトが利用可能です:
the-stack-headers
-- Retrieves header names from The Stack's parquet files.the-stack-licenses
-- Extracts licenses and records from The Stack's license file.
コードアシスト
次のスクリプトは、Parrotコードアシストを使用して開発されました。
the-stack-headers
the-stack-licenses
これらのスクリプトは、TheBlokeから`The Phind-CodeLlama-34B-v2_q8.guff`モデルを使用して作成されました。
注釈
パロットのドキュメントは英語で記述されており、他の言語ではAIによる機械翻訳が使われます。