Aus dem Kurs: Datenanalyse mit KI

Erhalten Sie Zugriff auf diesen Kurs – mit einer kostenlosen Probeversion

Werden Sie noch heute Mitglied und erhalten Sie Zugriff auf mehr als 24.700 Kurse von Branchenfachleuten.

Theorie: Multimodalität bei LLMs

Theorie: Multimodalität bei LLMs

Aus dem Kurs: Datenanalyse mit KI

Theorie: Multimodalität bei LLMs

Menschen verstehen ihre Umgebung durch eine Kombination verschiedener Sinne. Wir sprechen, wir hören, sehen und gestikulieren gleichzeitig, um Informationen zu erfassen und zu interpretieren. Moderne LLMs erweitern ihre Fähigkeit, um mehrere Modalitäten gleichzeitig zu verarbeiten. Dabei werden verschiedene Datentypen wie Text, Bilder, Sprache, Audio oder Video miteinander kombiniert und in einen gemeinsamen Kontext gebracht. Warum ist Multimodalität wichtig? Menschen nutzen ebenfalls simultan mehrere Modalitäten. Beim Sprechen verwenden wir Gestik und Mimik, beim Lernen lesen wir Text, hören Audio und sehen Bilder. Multimodale LLMs ahmen also exakt dieses Verhalten nach und ermöglichen es, komplexe Problemstellungen zu lösen, bei denen unterschiedliche Datenquellen zusammengeführt werden. Welche Vorteile bringt also Multimodalität mit sich? Bildinhalte, Sprachverarbeitung und Textinformationen können also gemeinsam analysiert werden. So können also Informationen aus verschiedenen…

Inhalt