LLaVA: Multimodales offenes KI-Modell auf LLaMA-Basis liest Bilder und Sprache

Die Forschungsdemo des Large Language and Vision Assistant erlaubt Usern das Hochladen eigener Bilder zum Testen multimodaler Fähigkeiten und sammelt Feedback.

Quelle: Technology Review