LLM DoghouseのLlava統合案

Gemma 3 がいい感じでLlavaが動きそうなので、そろそろLlava統合を検討中。現在の機能はチャット一覧に画像をドラッグ&ドロップするとLlava用に設定してあるLLMが画像を言葉に変えるという取って付けたような仕様になっています。

新しい仕様は左画面にLlava用のエリアを設けてそこにドラッグ&ドロップするかクリックするとファイルダイアログが出るので画像を選ぶとそれを読み取って会話できるようにします。
通常は、画面キャプチャーかWebカメラキャプチャーを選ぶことができてその画像を見せながら会話できるようにしたいですけどkv cacheが大丈夫なのか心配です。
あとLlavaを使うときはChatSessionが使えないので全撤廃するか、それともLlavaモードの時だけ切り替えるか迷っています。メンテナンスを考えると2つの方法を持つのは負担になるのでやめたいのですがシステム全体が崩れないか心配です。

Follow me!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です