tarent heißt jetzt Qvest Digital AG | mehr erfahren
KI gestützte Bildersuche: Bilder und Texte vergleichen
KI gestützte Bildersuche: Bilder und Texte vergleichen
In dem ersten Teil der Blog-Serie haben wir gesehen, wie wir es schaffen, ähnliche Bilder anhand von Textbeschreibungen und deren Vektoren zu finden. Allerdings kam es mir unnötig vor, zuerst Beschreibungen zu erzeugen. Warum nicht direkt aus den Bildern Vektoren erzeugen?
Bildverständnis
Zugegeben: mit der Methode Beschreibungen aus Bildern zu erzeugen, um diese dann zu durchsuchen, kommen wir schon recht weit. Mich ließ allerdings der Gedanke nicht los: Die Durchsuchbarkeit ist von der Qualität der Beschreibung abhängig.
- Was ist, wenn die Beschreibung nicht gut ist?
- Oder was ist, wenn die Beschreibung nicht das beschreibt, was ich suche?
- Was ist, wenn ich später nach etwas anderem suche, was die aktuelle Beschreibung nicht hergibt?
Klar, einem KI-Modell ein Bild zu geben und dann Frage dazu zu stellen, ist auch eine Möglichkeit (#Multimodal). Allerdings ist das Kosten- und Zeit- intensiv. Ich wollte also nicht auf den Vorteil verzichten, die Bilder nur einmal zu analysieren und dann beliebig oft zu durchsuchen.
CLIP
Meine Suche führte mich zu CLIP. Allerdings ist dies "nur" ein Konzept und keine fertige Implementierung. Es gibt also keine API, die ich einfach nutzen kann. Sollte ich also ein Modell selbst erstellen? Ich habe doch (noch) keine Ahnung davon! Außerdem hätte ich weder eine Grafikkarte, noch die Zeit, um ein Modell zu trainieren. Doch es sollte einfacher sein, als ich dachte...
Meine Suche führte mich zu CLIP. Allerdings ist dies "nur" ein Konzept und keine fertige Implementierung. Es gibt also keine API, die ich einfach nutzen kann. Sollte ich also ein Modell selbst erstellen? Ich habe doch (noch) keine Ahnung davon! Außerdem hätte ich weder eine Grafikkarte, noch die Zeit, um ein Modell zu trainieren. Doch es sollte einfacher sein, als ich dachte...