Bilder mit Schrift versehen, ein Kinoplakat oder Buchcover erstellen: Darin sind die bildgenerierenden KIs wie Midjourney, DALL-E und Stable Diffusion allesamt nicht besonders gut. Heraus kommen meist unlesbarer Buchstabenbrei, der nur entfernt etwas mit Schrift zu tun hat. Der Grund dafür liegt auf der Hand: Im Trainingsmaterial der KIs sind zwar Unmengen an Bildern enthalten, aber nur wenig Schrift.
Ideogram 1.0 ist ein vergleichsweise neues KI-Modell, das mühelos fehlerfreien Text liefert. Es wurde im August 2023 von einem Team ehemaliger Google-Mitarbeiter ins Leben gerufen. Zwar ist manchmal noch ein Buchstabendreher oder ein Rechtschreibfehler dabei, aber in den meisten Fällen kann der Output überzeugen. Sogar die Typografie und Schriftstile lassen sich bestimmen. Dazu kommt als weiteres Alleinstellungsmerkmal ein Magic Prompt. Er erweitert optional die eingegebenen Prompts erheblich. Das Ergebnis sind Bilder, die noch genauer den Vorgaben folgen. Bei Ideogram sind 20 Prompts pro Tag kostenlos. Die jeder Prompt vier Bilder auswirft, kann man somit täglich 80 Bilder generieren lassen.
Die Qualität des Texts ist eine Frage des Trainings. Vereinfacht gesagt, lernt die KI, indem sie sich sehr viele Textbilder ansieht und dabei erfasst, wie sie aussehen und welche Stile vorkommen. Im Laufe des Trainings bildet sich heraus, wie sie Text erstellen kann, der diesen Stilen weitgehend entspricht. Bei der Bildgenerierung verwendet sie dann das Gelernte, um einen Text zu erstellen, der einem Stil oder einer Schriftart ähnelt, ohne identisch zu sein. Nach Angaben der Entwickler liegt die Fehlerquote was Buchstaben und Wörter angeht bei Ideogramm 1.0 nur halb so hoch wie bei DALL-E. Technisch gesehen ähnelt Ideogram am meisten Stable Diffusion. […]
Fachartikel für Heise+