LLM DoghouseでChatWaifu_2.0_visionとPixtral-12bを動かす
前回の記事の2つのLLMをLLM Doghouseの次期Ver.でちゃんと動くか試してみました。結果は良好で画像認識はGemma3よりよかったです。
・ChatWaifu_2.0_vision-GGUF
ChatWaifuのLLaveバージョン。LLaveを使う場合はChatWaifu_2.0_vision.mmproj-Q8_0.ggufが必要。Mistral系だと思う。
・pixtral-12b-GGUF
Mistral系のLLM。LLaveを使う場合はpixtral-12b.mmproj-Q8_0.ggufが必要。
ChatWaifuの設定画面です。前回の記事の設定を画面右上のボタンから呼び出せる便利機能を付けました。

画像は何なのか聞いてみたところ倉庫番の画面であることはもちろん細かいところまで答えてくれました。すばらしい!
※システムプロンプトの説明と倉庫番の画像を結び付けて詳細を回答した模様。

続いてPixtral-12bです。前回の記事でライオンの画像以降がライオンばっかりになるとお伝えしましたが全然そんなことなかったですね。
設定はPixtral系なのでChatWaifuと同じです。
※会話履歴をダブルクリックすると何を見て答えたのかわかるようにLLava窓に画像を復元するようにしています。
Gemma3では難しかった牛の画像をちゃんと認識していますね。

この画像もGemma3が答えられなかったものです。ちゃんと馬だと認識しています。

Gemma3は猫の全身ならわかるようですが顔のアップは認識しなかったです。ですがPixtralは正解ですね。すばらしい。

Gemma3はプードルの画像は認識できましたが口を開けた柴犬は無理でした。しかしPixtralは正解しましたね。
ChatWaifu_VisionとPixtralを積極的に使っていきたいです。
