llama.cppでgpt-oss-20bを動かしたときのメモです。
動かし方#
llama.cppのクローン&ビルド
1
2
3
|
git clone https://github.com/ggml-org/llama.cpp
cmake -B build -DGGML_NATIVE=ON -DBUILD_SHARED_LIBS=OFF
cmake --build build --config Release -j$(nproc)
|
モデルのダウンロード
1
2
|
cd models/
wget https://huggingface.co/ggml-org/gpt-oss-20b-GGUF/resolve/main/gpt-oss-20b-mxfp4.gguf
|
実行
1
|
~/llama.cpp/build/bin/llama-server --host 0.0.0.0 --port 8080 -m ~/llama.cpp/models/gpt-oss-20b-mxfp4.gguf --jinja -ngl 0 -t 4 -b 2048 -ub 2048 -c 2048
|