Wie genau ist KI-Hautanalyse? Was Hautpflegemarken wissen sollten

Wie genau ist KI-Hautanalyse im Vergleich zu Dermatologen? Studien zeigen 69 %–90 % Übereinstimmung. Was Marken Anbieter fragen sollten.

Nataniel Müller · CEO · Thea Care

Nataniel Müller · CEO · Thea Care

March 15, 2026

No items found.

Erhalten Sie Zugang zur vollständigen Brand-Analyse

Geben Sie unten Ihre Firmen-E-Mail-Adresse ein, um die vollständige Markenanalyse zu erhalten.

Danke! Deine Einreichung ist eingegangen!

Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.

Durch Klicken auf „Anmelden“ bestätigen Sie, dass Sie unseren Allgemeinen Geschäftsbedingungen zustimmen.

Erleben Sie die genaueste KI auf dem Markt.

Vereinbaren Sie eine Demo, um zu erfahren, wie die KI-Lösungen von Thea Ihnen dabei helfen können, Ihre Kundenbindung, Markenbekanntheit, das Vertrauen Ihrer Kunden und Ihre Konversionsraten zu steigern.

Meeting vereinbaren

Einleitung

KI-Hautanalyse ist eine Computer-Vision-Technologie, die Hautzustände anhand von Gesichtsbildern bewertet und Werte für Merkmale wie Falten, Akne, Pigmentierung und Rötungen liefert. Für Hautpflegemarken bei der Anbieterauswahl steht selten die Frage im Raum, ob die Technologie überhaupt funktioniert, sondern wie genau die Ergebnisse im Vergleich mit einem Dermatologen sind und was „genau“ in diesem Kontext überhaupt bedeutet.

Eine der häufigsten Fragen von Hautpflegemarken bei der Evaluation von KI-Hautanalyse-Tools lautet: Wie genau sind die Ergebnisse? Dieser Artikel erklärt, wie Genauigkeit in der KI-Hautanalyse gemessen wird, welche Werte realistisch sind, warum Konsistenz genauso wichtig ist wie Genauigkeit und worauf Marken bei der Anbieterauswahl achten sollten.

Zusammenfassung

Die Genauigkeit von KI-Hautanalyse wird typischerweise durch den Vergleich von KI-Ergebnissen mit Bewertungen erfahrener Dermatologen gemessen.
Publizierte Studien und Anbieter-Validierungsberichte zeigen Übereinstimmungsraten zwischen KI und Dermatologen von typischerweise 69 % bis über 90 %, je nach Anbieter, Methodik und Hautmerkmal.
Die Selbsteinschätzung des eigenen Hauttyps durch Verbraucher ist nur zu etwa 40 % korrekt. Selbst eine moderate KI-Genauigkeit stellt daher eine erhebliche Verbesserung dar.
Konsistenz (Test-Retest-Reliabilität) ist für das Verbrauchervertrauen mindestens ebenso wichtig wie Genauigkeit.
Marken sollten Anbieter nach konkreten methodischen Details fragen, nicht nur nach pauschalen Genauigkeitszahlen.

Warum Genauigkeit für Hautpflegemarken wichtig ist

Wenn eine Hautpflegemarke KI-Hautanalyse einsetzt, beeinflussen die Ergebnisse direkt, welche Produkte den Verbrauchern empfohlen werden. Ungenaue Analysen führen zu falschen Produktempfehlungen, was zu Retouren, Unzufriedenheit und Vertrauensverlust führt.

Genauigkeit ist aber auch eine Frage von Marketing und Glaubwürdigkeit. Marken, die ihre Produkte mit dermatologischen Aussagen positionieren, benötigen ein Hautanalyse-Tool, dessen Ergebnisse mit der Bewertung von Dermatologen übereinstimmen. Wenn die KI “fettige Haut” sagt, ein Dermatologe aber “Mischhaut” diagnostizieren würde, sind die empfohlenen Produkte falsch und die Glaubwürdigkeit der Marke leidet.

Wie Genauigkeit in der KI-Hautanalyse gemessen wird

Es gibt keinen universellen Benchmark für die Genauigkeit von KI-Hautanalyse. Anders als bei medizinischer KI (bei der FDA-zugelassene Geräte standardisierte klinische Studien durchlaufen) sind kosmetische Hautanalyse-Tools keine regulierten Medizinprodukte. Jeder Anbieter definiert und misst Genauigkeit daher unterschiedlich.

Der gängigste Ansatz ist die Expertenübereinstimmung: KI-Ergebnisse werden mit Bewertungen von Dermatologen oder Kosmetikwissenschaftlern verglichen. Gemessen wird der Prozentsatz der Fälle, in denen KI und Experte zum gleichen Ergebnis kommen.

Eine Anmerkung zur Begrifflichkeit: „Genauigkeit“ und „Übereinstimmungsrate“ werden in diesem Artikel synonym verwendet. Beide beschreiben, wie häufig die KI mit dem Experten-Label übereinstimmt.

Übereinstimmungsrate (Agreement Score)

Die Übereinstimmungsrate misst, wie häufig die KI mit der Expertenbewertung für ein bestimmtes Hautmerkmal übereinstimmt. Wenn beispielsweise 100 Bilder analysiert werden und die KI bei 88 davon mit dem Dermatologen übereinstimmt, beträgt die Übereinstimmungsrate 88 %.

Test-Retest-Reliabilität (Konsistenz)

Die Test-Retest-Reliabilität misst, ob die KI dasselbe Ergebnis liefert, wenn dieselbe Person mehrfach fotografiert wird, auch unter verschiedenen Lichtverhältnissen. Dies ist entscheidend, da Verbraucher das Vertrauen verlieren, wenn sie bei jeder Nutzung ein anderes Ergebnis erhalten.

Warum beide Metriken wichtig sind

Ein System mit hoher Genauigkeit, aber niedriger Konsistenz liefert über viele Nutzer hinweg im Durchschnitt korrekte Ergebnisse, ist aber für einzelne Nutzer inkonsistent. Ein System mit hoher Konsistenz, aber niedriger Genauigkeit liefert zuverlässig dieselbe (falsche) Antwort. Die besten Systeme erzielen hohe Werte in beiden Kategorien.

Wie genau ist die Selbsteinschätzung durch Verbraucher?

Bevor man die Genauigkeit von KI bewertet, ist es sinnvoll, die Ausgangslage zu verstehen: Wie gut kennen Verbraucher ihre eigene Haut?

Studien zeigen konsistent, dass die Selbsteinschätzung des Hauttyps durch Verbraucher nur zu etwa 40 % korrekt ist.

Zentrale Erkenntnisse aus publizierten Studien:

Youn et al. (2002): Von Frauen, die dachten, sie hätten trockene Haut, hatten nur 9,7 % einen Sebum-Output, der mit trockener Haut kompatibel ist. Insgesamt stimmten etwa 40 % der selbst berichteten Hauttypen mit instrumentellen Messungen überein.
Skin Trust Club / Labskin (2022): Eine Umfrage unter 1.446 Frauen ergab, dass fast 63 % ihren korrekten Hauttyp nicht kannten. Fettige Haut war der am häufigsten falsch identifizierte Typ.
Bhanot et al. (2024): Selbst im medizinischen Kontext schätzen 15 bis 20 % der Patienten ihren Fitzpatrick-Hauttyp falsch ein, verglichen mit der Einschätzung des behandelnden Arztes.

Das bedeutet: Selbst ein KI-System mit 80 % Genauigkeit übertrifft die Selbsteinschätzung der Verbraucher deutlich. Für Hautpflegemarken ist dies der relevante Vergleich: nicht KI gegen Perfektion, sondern KI gegen die Alternative (Fragebögen oder Vermutungen der Verbraucher).

Welche Genauigkeitswerte melden Anbieter?

Die publizierten Genauigkeitsdaten unterscheiden sich erheblich zwischen den Anbietern. Hier ist, was öffentlich verfügbar ist:

Perfect Corp

Perfect Corp ist einer der wenigen Anbieter, die eine peer-reviewte Validierungsstudie zu ihrem Hautanalyse-System veröffentlicht haben. Die Studie, veröffentlicht im Journal of Dermatological Treatment (2022), verglich die KI-Ergebnisse von Perfect Corp mit der Bewertung eines Facharztes für Dermatologie anhand von 14 Hautmerkmalen.

Gesamtübereinstimmungsrate: 69 %
Höchste Übereinstimmung: Erythem (83,7 %) und Falten (81,6 %)
Test-Retest-Reliabilität: 95 % (ICC-basiert)

Es lohnt sich zu verstehen, was diese 69 % messen: Es handelt sich um eine Übereinstimmung pro Klasse über viele feingranulare Hautkategorien hinweg, nicht um „Ist Merkmal X vorhanden: ja/nein“. Für die meisten Markenanwendungen ist die relevantere Frage, ob die KI das Vorhandensein eines Merkmals überhaupt korrekt erkennt, und dort liegt die Übereinstimmung typischerweise deutlich höher.

Eine zweite Studie (Cook et al., Journal of Cosmetic Dermatology, 2022), die das tabletbasierte System mit dem klinischen VISIA-Gerät verglich, ergab eine Übereinstimmungsrate von 67,7 %, mit der höchsten Übereinstimmung bei Textur (72 %) und Poren (68,2 %).

Dies sind ehrliche Zahlen. Eine Übereinstimmungsrate von 69 % mit einem einzelnen Dermatologen ist ein angemessenes Ergebnis angesichts der inhärenten Subjektivität bei der Hautbewertung. Viele Anbieter führen interne Validierungsstudien durch, veröffentlichen diese aber nicht in Fachzeitschriften, da sich die Technologie schnell weiterentwickelt und Validierungsdatensätze oft proprietär sind.

Haut.AI

Haut.AI gibt auf seiner Website eine “98%ige diagnostische Genauigkeit” an. Es wurde jedoch keine peer-reviewte Studie gefunden, die diese Zahl stützt. Die Methodik, Stichprobengröße und Definition von “diagnostischer Genauigkeit” hinter dieser Aussage sind nicht öffentlich dokumentiert. Marken sollten bei der Evaluation solcher Angaben detaillierte Methodikbeschreibungen anfordern.

Revieve

Revieve veröffentlicht in seiner öffentlichen Dokumentation keine spezifischen Genauigkeitswerte oder Validierungsstudien. Die Plattform verweist nicht auf peer-reviewte Forschung zur Leistung ihrer Hautanalyse.

Thea Care

Thea Care führt interne Validierungsstudien durch, bei denen KI-Ergebnisse mit den Bewertungen eines Panels aus Dermatologen und Kosmetikwissenschaftlern verglichen werden. Die Methodik umfasst:

Genauigkeits-Datensatz (D1): 1.000 Kundenfotos, eines pro Person, aufgenommen bei guten Lichtverhältnissen.
Konsistenz-Datensatz (D2): 300 Fotos, die dieselben Personen unter variierenden Lichtverhältnissen abdecken (mehrere Fotos pro Person).
Expertenpanel: Dermatologen und Kosmetikwissenschaftler, die jedes Bild unabhängig bewerten. Die finale Expertenantwort wird per Mehrheitsentscheidung bestimmt.

Ergebnisse:

Obwohl diese Validierungsergebnisse intern sind, folgt die Methodik gängigen akademischen Evaluationsansätzen aus dem Bereich Computer Vision, einschließlich Expertenpanel-Konsens und Test-Retest-Reliabilitätsmessungen.

Einen tieferen Einblick in den Konsistenzansatz von Thea Care finden Sie unter Konsistenz in der KI-Hautanalyse: Warum zuverlässige Ergebnisse das Vertrauen stärken.

Warum pauschale Genauigkeitszahlen irreführend sein können

Wenn Anbieter hohe Genauigkeitsprozentsätze angeben, sollten Marken mehrere klärende Fragen stellen:

Was wurde gemessen?

Ein Anbieter könnte 95 % Genauigkeit bei der Erkennung, ob Falten vorhanden sind (binäres Ja/Nein), melden, aber nur 70 % Genauigkeit bei der Einstufung des Schweregrads auf einer 4-stufigen Skala. Die Granularität der Messung ist entscheidend.

Auch die Anzahl der Klassen spielt eine Rolle: Vier Hauttypen zu unterscheiden ist einfacher als acht. Perfect Corp verwendet 8 Hauttyp-Klassen, was höhere Übereinstimmungsraten allein aus methodischen Gründen erschwert.

Gegen welchen Benchmark?

Wurde die KI mit einem einzelnen Dermatologen, einem Expertenpanel, einer instrumentellen Messung (z. B. Sebumeter, Corneometer) oder ihren eigenen vorherigen Ergebnissen verglichen? Die Übereinstimmung mit einem Expertenpanel ist robuster als die Übereinstimmung mit einer einzelnen Person.

Welcher Validierungsdatensatz wurde verwendet?

War der Datensatz realistisch? Ergebnisse auf einem sorgfältig kuratierten Datensatz mit perfekter Beleuchtung spiegeln möglicherweise nicht die reale Performance bei Smartphone-Selfies mit variabler Beleuchtung, unterschiedlichen Winkeln und schwankender Bildqualität wider. Marken sollten fragen, wie der Validierungsdatensatz aussieht und ob er den Bedingungen ähnelt, unter denen ihre Verbraucher das Tool tatsächlich nutzen.

Waren alle Hauttöne vertreten?

Publizierte Forschung zeigt, dass die Leistung von KI-Hautanalyse bei dunkleren Hauttönen (Fitzpatrick IV bis VI) geringer sein kann. Marken, die eine diverse Verbraucherbasis bedienen, sollten fragen, ob die Trainings- und Validierungsdaten eine angemessene Repräsentation beinhalten.

Ist die Studie unabhängig?

Vom Anbieter finanzierte Studien sind nicht per se ungültig, aber unabhängige Peer-Reviews erhöhen die Glaubwürdigkeit. Perfect Corp verdient Anerkennung für die Veröffentlichung in peer-reviewten Fachzeitschriften, auch wenn ihr Ergebnis von 69 % niedriger ist als die unverifizierten Angaben einiger Wettbewerber.

Eine Einschränkung, die für jeden Genauigkeitswert in diesem Artikel gilt: Auch menschliche Experten machen Fehler. Die Inter-Rater-Übereinstimmung unter Dermatologen liegt typischerweise bei 80 bis 95 %, je nach Hautmerkmal. Wir vergleichen die KI mit Dermatologen, aber das Dermatologen-Label ist selbst ein bewegliches Ziel.

Genauigkeit vs. Konsistenz: Was ist für Marken wichtiger?

Für die meisten Hautpflegemarken ist Konsistenz möglicherweise wichtiger als reine Genauigkeit.

Betrachten Sie zwei Szenarien:

Szenario A: Die KI identifiziert den Hauttyp in 90 % der Fälle korrekt, liefert aber bei jeder erneuten Analyse desselben Nutzers ein anderes Ergebnis.

Szenario B: Die KI identifiziert den Hauttyp in 85 % der Fälle korrekt, liefert aber in 95 % der Fälle dasselbe Ergebnis, wenn derselbe Nutzer die Analyse wiederholt.

Szenario B ist für die meisten Marken-Anwendungsfälle besser. Wer einmal “Mischhaut” und am nächsten Tag “fettige Haut” erhält, verliert das Vertrauen in das Tool, unabhängig davon, welche Antwort technisch korrekt war. Konsistente Ergebnisse schaffen Vertrauen.

Deshalb sollte die Test-Retest-Reliabilität neben den Übereinstimmungsraten evaluiert werden. Ein starker Konsistenzwert (über 90 %) zeigt, dass das System stabile Ergebnisse liefert, was sich direkt auf das Verbrauchervertrauen und die Glaubwürdigkeit der Produktempfehlungen auswirkt.

Was KI besser kann: Der eigentliche Vergleich

Der relevante Vergleich für Hautpflegemarken ist nicht KI gegen einen Facharzt für Dermatologie in einer klinischen Umgebung. Der relevante Vergleich ist KI gegen die Alternativen, die Marken derzeit nutzen:

KI-Hautanalyse liegt zwischen Fragebögen und Dermatologen. Für Marken, die nicht jedem Kunden eine persönliche dermatologische Beratung anbieten können, stellt KI eine bedeutende Verbesserung der Empfehlungsgenauigkeit dar. Einen direkten Vergleich liefert der Beitrag KI-Hautanalyse vs. Fragebogen.

Was Marken Anbieter fragen sollten

Bei der Evaluation von KI-Hautanalyse-Plattformen sollten Marken folgende Informationen anfordern:

Methodik: Wie wurde die Genauigkeit gemessen? Welche Datensatzgröße, Zusammensetzung des Expertenpanels und Messkriterien wurden verwendet?
Übereinstimmungsraten pro Hautmerkmal: Gesamtdurchschnitte können schwache Leistung bei einzelnen Hautmerkmalen verbergen. Fragen Sie nach Ergebnissen pro Hautparameter, eine Übersicht über die ausgewerteten Hautparameter gibt der zugehörige Beitrag.
Test-Retest-Reliabilität: Wie konsistent sind die Ergebnisse, wenn dieselbe Person mehrfach analysiert wird?
Hautton-Diversität: Wie performt das System über verschiedene Fitzpatrick-Typen hinweg?
Reale Bedingungen: Wurden die Ergebnisse an Smartphone-Selfies unter variablen Bedingungen validiert oder nur an Studioaufnahmen?
Publizierte Validierung: Gibt es eine peer-reviewte Studie oder nur interne Angaben?

Die Rolle dermatologischer Expertise für die Genauigkeit

Die Qualität der KI-Hautanalyse beginnt mit der Qualität der Trainingsdaten. Wenn die Trainingsdaten von Dermatologen nach klinischen Bewertungsstandards gelabelt werden, lernt die KI, Haut so zu bewerten, wie ein Dermatologe es tun würde. Wenn die Daten von Nicht-Experten oder automatisierten Prozessen gelabelt werden, kann die KI andere (und potenziell weniger genaue) Muster lernen.

Dies ist ein Grund, warum die wissenschaftliche Fundierung einer Plattform wichtig ist. Plattformen, die Dermatologen im Gründungsteam oder wissenschaftlichen Beirat haben, produzieren mit höherer Wahrscheinlichkeit Ergebnisse, die mit klinischen Erwartungen übereinstimmen. Für Marken, die ihre Produkte mit dermatologischer Glaubwürdigkeit vermarkten, ist diese Übereinstimmung essenziell.

Eine aktuelle Studie von Ulrich et al. (2025), veröffentlicht in Nature npj Digital Medicine, ergab, dass automatisierte KI-Systeme Dermatologen bei der objektiven Hautton-Klassifikation übertreffen können, insbesondere bei der Verwendung moderner Hautton-Skalen. Dies deutet darauf hin, dass gut trainierte KI für bestimmte Parameter eine Leistung auf Expertenniveau erreichen und sogar übertreffen kann.

Häufig gestellte Fragen

Wie genau ist KI-Hautanalyse im Vergleich zu einem Dermatologen?

Publizierte Studien zeigen Übereinstimmungsraten zwischen KI und Dermatologen von 69 % bis 92 %, je nach Hautmerkmal und Anbieter. Damit liegt KI unter den besten Dermatologen, aber deutlich über der Selbsteinschätzung durch Verbraucher (~40 %) und Standard-Fragebögen.

Kann KI-Hautanalyse einen Dermatologen ersetzen?

Nein. KI-Hautanalyse ist für kosmetische und edukative Zwecke konzipiert. Sie bewertet sichtbare Hautmerkmale und empfiehlt Hautpflegeprodukte, ist aber kein zertifiziertes Medizinprodukt und kann keine Hautkrankheiten diagnostizieren.

Warum liefern verschiedene KI-Tools unterschiedliche Ergebnisse?

Jede Plattform verwendet unterschiedliche Trainingsdaten, Algorithmen und Definitionen für Hautmerkmale. Ein System, das von Dermatologen nach klinischen Bewertungsstandards trainiert wurde, kann andere Ergebnisse liefern als eines, das auf von Verbrauchern gelabelten Daten basiert. Methodische Unterschiede sind der Hauptgrund für variierende Ergebnisse.

Was beeinflusst die Genauigkeit der KI-Hautanalyse?

Bildqualität, Beleuchtung, das Tragen von Make-up, Kamerawinkel und die Diversität des Trainingsdatensatzes beeinflussen die Genauigkeit. Für beste Ergebnisse sollten Nutzer ein frontales Selfie bei gleichmäßiger Beleuchtung ohne starkes Make-up aufnehmen.

Sind 90 % Genauigkeit gut für KI-Hautanalyse?

Eine Übereinstimmungsrate von 90 % mit einem Dermatologen-Panel ist ein starkes Ergebnis für kosmetische Hautanalyse. Zum Vergleich: Die Inter-Rater-Übereinstimmung unter Dermatologen selbst liegt typischerweise zwischen 80 % und 95 %, je nach Hautmerkmal. Das bedeutet, dass Dermatologen auch untereinander nicht immer übereinstimmen.

Thea Care ist eine B2B-White-Label-Hautanalyse-Plattform für Beauty- und Hautpflegemarken, entwickelt von Dermatologen. Erfahren Sie mehr auf theacare.de oder testen Sie die Produkt-Demo.

Nataniel Müller · CEO · Thea Care

Nataniel Müller · CEO · Thea Care

March 15, 2026

Erhalten Sie jetzt Zugang zur vollständigen Brand-Analyse

Geben Sie unten Ihre Firmen-E-Mail-Adresse ein, um die vollständige Markenanalyse zu erhalten.

Vielen Dank! Ihre Anfrage wurde verschickt!

Hoppla! Beim Absenden des Formulars ist ein Fehler aufgetreten.

Durch Klicken auf „Zugang erhalten“ bestätigen Sie, dass Sie unseren AGB zustimmen.

A woman with skin pattern overlay for beauty skin facial analysis.