llama.cppでgpt-oss-20bを動かしたときのメモです。

動かし方

llama.cppのクローン&ビルド

1
2
3
git clone https://github.com/ggml-org/llama.cpp
cmake -B build -DGGML_NATIVE=ON -DBUILD_SHARED_LIBS=OFF
cmake --build build --config Release -j$(nproc)

モデルのダウンロード

1
2
cd models/
wget https://huggingface.co/ggml-org/gpt-oss-20b-GGUF/resolve/main/gpt-oss-20b-mxfp4.gguf

実行

1
~/llama.cpp/build/bin/llama-server --host 0.0.0.0 --port 8080 -m ~/llama.cpp/models/gpt-oss-20b-mxfp4.gguf --jinja -ngl 0 -t 4 -b 2048 -ub 2048 -c 2048