概要
タガー(tagger)とは、主にAIイラスト生成ツール「Stable Diffusion」などで使用される、画像からプロンプト(テキスト)を自動抽出するための便利な拡張機能です。ユーザーが任意の画像を入力すると、AIがその画像を分析し、描かれている要素を表現する単語(タグ)のリストを出力してくれます。例えば、名前がわからない複雑な髪型や服装の画像であっても、タガーを通すことで正確な言語表現を割り出すことが可能です。システム内には複数の分析用モデルが用意されており、アニメ調や実写調など、画像のジャンルに合わせて最適なモデルを選択して高い精度でテキスト化を行えるのが特徴です。
メリットについて
最大のメリットは、言葉で表現しにくい髪型や服装、背景の要素を瞬時に言語化し、画像生成のプロンプト作成に活用できる点です。これにより、理想のイメージを視覚的に探る手間が大幅に省けます。さらに、この機能はLoRA(追加学習モデル)の学習用データ作成において極めて高い効果を発揮します。画像に対応するテキストファイルを一から手動で作成するのは困難ですが、タガーを使えば大量の画像から一瞬でタグを抽出できます。既存のベースモデルが既に記憶している英単語を効率よく流用できるため、学習の進行がスムーズになり、クオリティの高いLoRAを短時間で作成することが可能になります。
デメリットについて
一方で、タガーの分析能力は選択したモデルの学習データに依存するため、万能ではないというデメリットがあります。モデルが学習していないような非常に特殊な衣服やマイナーな髪型、独自のキャラクターデザインなどが入力された場合、正確な単語を特定することができません。その結果、本来の要素とは異なる「最も性質が近い一般的な単語」へと置き換わって出力されてしまいます。そのため、抽出されたタグをそのまま鵜呑みにすることはできず、出力後に人間の目で内容をチェックし、意図しない単語や間違った表現が含まれていないかを精査して適宜修正する手間が発生します。
応用方法について
LoRA学習時、トリガーワードのみで学習させると、そのワードにすべての特徴(髪型や服など)が固定化されてしまいます。そこで、タガーで分析したタグを併記し、不要な単語を削る手法が有効です。例えば「キャラクター名」の後に「縦ロール」というタグを残して学習させれば、AIは縦ロールの要素を既存の知識から補完するため、キャラクター名だけで呼び出した際に別の髪型へ変更可能になります。あえてタグを残したままにしてベースモデルの知識を引っ張り出し、少ない画像枚数でも劇的に学習効率を高める裏技など、プロンプトの自由度を広げる応用が可能です。
おまけ漫画