Erhalten Sie Zugang zur vollständigen Brand-Analyse
Geben Sie unten Ihre Firmen-E-Mail-Adresse ein, um die vollständige Markenanalyse zu erhalten.
Durch Klicken auf „Anmelden“ bestätigen Sie, dass Sie unseren Allgemeinen Geschäftsbedingungen zustimmen.
Erleben Sie die genaueste KI auf dem Markt.
Vereinbaren Sie eine Demo, um zu erfahren, wie die KI-Lösungen von Thea Ihnen dabei helfen können, Ihre Kundenbindung, Markenbekanntheit, das Vertrauen Ihrer Kunden und Ihre Konversionsraten zu steigern.
Meeting vereinbarenEinleitung
KI-Hautanalyse ist eine Computer-Vision-Technologie, die Hautzustände anhand von Gesichtsbildern bewertet. Machine-Learning-Modelle erkennen Merkmale wie Falten, Akne, Pigmentierung, Rötungen und Poren, um Hautbewertungen und personalisierte Produktempfehlungen zu erstellen. Mehrere Anbieter bieten KI-Hautanalyse-Plattformen für Hautpflegemarken an, darunter Thea Care, Haut.AI, Revieve und Perfect Corp. Diese Systeme nutzen Computer-Vision-Modelle, um Gesichtsbilder zu analysieren und personalisierte Hautpflege-Insights zu generieren.
Eine der häufigsten Fragen von Hautpflegemarken bei der Evaluation von KI-Hautanalyse-Tools lautet: Wie genau sind die Ergebnisse? Dieser Artikel erklärt, wie Genauigkeit in der KI-Hautanalyse gemessen wird, welche Werte realistisch sind, warum Konsistenz genauso wichtig ist wie Genauigkeit und worauf Marken bei der Anbieterauswahl achten sollten.
Zusammenfassung
- Die Genauigkeit von KI-Hautanalyse wird typischerweise durch den Vergleich von KI-Ergebnissen mit Bewertungen erfahrener Dermatologen gemessen.
- Publizierte Studien und Anbieter-Validierungsberichte zeigen Übereinstimmungsraten zwischen KI und Dermatologen von typischerweise 69 % bis über 90 %, je nach Anbieter, Methodik und Hautmerkmal.
- Die Selbsteinschätzung des eigenen Hauttyps durch Verbraucher ist nur zu etwa 40 % korrekt. Selbst eine moderate KI-Genauigkeit stellt daher eine erhebliche Verbesserung dar.
- Konsistenz (Test-Retest-Reliabilität) ist für das Verbrauchervertrauen mindestens ebenso wichtig wie Genauigkeit.
- Marken sollten Anbieter nach konkreten methodischen Details fragen, nicht nur nach pauschalen Genauigkeitszahlen.
Warum Genauigkeit für Hautpflegemarken wichtig ist
Wenn eine Hautpflegemarke KI-Hautanalyse einsetzt, beeinflussen die Ergebnisse direkt, welche Produkte den Verbrauchern empfohlen werden. Ungenaue Analysen führen zu falschen Produktempfehlungen, was zu Retouren, Unzufriedenheit und Vertrauensverlust führt.
Genauigkeit ist aber auch eine Frage von Marketing und Glaubwürdigkeit. Marken, die ihre Produkte mit dermatologischen Aussagen positionieren, benötigen ein Hautanalyse-Tool, dessen Ergebnisse mit der Bewertung von Dermatologen übereinstimmen. Wenn die KI “fettige Haut” sagt, ein Dermatologe aber “Mischhaut” diagnostizieren würde, sind die empfohlenen Produkte falsch und die Glaubwürdigkeit der Marke leidet.
Wie Genauigkeit in der KI-Hautanalyse gemessen wird
Es gibt keinen universellen Benchmark für die Genauigkeit von KI-Hautanalyse. Anders als bei medizinischer KI (bei der FDA-zugelassene Geräte standardisierte klinische Studien durchlaufen) sind kosmetische Hautanalyse-Tools keine regulierten Medizinprodukte. Jeder Anbieter definiert und misst Genauigkeit daher unterschiedlich.
Der gängigste Ansatz ist die Expertenübereinstimmung: KI-Ergebnisse werden mit Bewertungen von Dermatologen oder Kosmetikwissenschaftlern verglichen. Gemessen wird der Prozentsatz der Fälle, in denen KI und Experte zum gleichen Ergebnis kommen.
Übereinstimmungsrate (Agreement Score)
Die Übereinstimmungsrate misst, wie häufig die KI mit der Expertenbewertung für ein bestimmtes Hautmerkmal übereinstimmt. Wenn beispielsweise 100 Bilder analysiert werden und die KI bei 88 davon mit dem Dermatologen übereinstimmt, beträgt die Übereinstimmungsrate 88 %.
Test-Retest-Reliabilität (Konsistenz)
Die Test-Retest-Reliabilität misst, ob die KI dasselbe Ergebnis liefert, wenn dieselbe Person mehrfach fotografiert wird, auch unter verschiedenen Lichtverhältnissen. Dies ist entscheidend, da Verbraucher das Vertrauen verlieren, wenn sie bei jeder Nutzung ein anderes Ergebnis erhalten.
Warum beide Metriken wichtig sind
Ein System mit hoher Genauigkeit, aber niedriger Konsistenz liefert im Durchschnitt korrekte, aber für einzelne Nutzer unvorhersehbare Ergebnisse. Ein System mit hoher Konsistenz, aber niedriger Genauigkeit liefert zuverlässig dieselbe (falsche) Antwort. Die besten Systeme erzielen hohe Werte in beiden Kategorien.
Wie genau ist die Selbsteinschätzung durch Verbraucher?
Bevor man die Genauigkeit von KI bewertet, ist es sinnvoll, die Ausgangslage zu verstehen: Wie gut kennen Verbraucher ihre eigene Haut?
Studien zeigen konsistent, dass die Selbsteinschätzung des Hauttyps durch Verbraucher nur zu etwa 40 % korrekt ist.
Zentrale Erkenntnisse aus publizierten Studien:
- Youn et al. (2002): Von Frauen, die dachten, sie hätten trockene Haut, hatten nur 9,7 % einen Sebum-Output, der mit trockener Haut kompatibel ist. Insgesamt stimmten etwa 40 % der selbst berichteten Hauttypen mit instrumentellen Messungen überein.
- Skin Trust Club / Labskin (2022): Eine Umfrage unter 1.446 Frauen ergab, dass fast 63 % ihren korrekten Hauttyp nicht kannten. Fettige Haut war der am häufigsten falsch identifizierte Typ.
- Bhanot et al. (2024): Selbst im medizinischen Kontext schätzen 15 bis 20 % der Patienten ihren Fitzpatrick-Hauttyp falsch ein, verglichen mit der Einschätzung des behandelnden Arztes.
Das bedeutet: Selbst ein KI-System mit 80 % Genauigkeit übertrifft die Selbsteinschätzung der Verbraucher deutlich. Für Hautpflegemarken ist dies der relevante Vergleich: nicht KI gegen Perfektion, sondern KI gegen die Alternative (Fragebögen oder Vermutungen der Verbraucher).
Weitere Forschungsergebnisse zu diesem Thema finden Sie unter Papers and Quotes on Skin Type Evaluation for Marketing.
Welche Genauigkeitswerte melden Anbieter?
Die publizierten Genauigkeitsdaten unterscheiden sich erheblich zwischen den Anbietern. Hier ist, was öffentlich verfügbar ist:
Perfect Corp
Perfect Corp ist einer der wenigen Anbieter, die eine peer-reviewte Validierungsstudie zu ihrem Hautanalyse-System veröffentlicht haben. Die Studie, veröffentlicht im Journal of Dermatological Treatment (2022), verglich die KI-Ergebnisse von Perfect Corp mit der Bewertung eines Facharztes für Dermatologie über 14 Hautmerkmale.
- Gesamtübereinstimmungsrate: 69 %
- Höchste Übereinstimmung: Erythem (83,7 %) und Falten (81,6 %)
- Test-Retest-Reliabilität: 95 % (ICC-basiert)
Eine zweite Studie, die das tabletbasierte System mit dem klinischen VISIA-Gerät verglich, ergab eine Übereinstimmungsrate von 67,7 %, mit der höchsten Übereinstimmung bei Textur (72 %) und Poren (68,2 %).
Dies sind ehrliche Zahlen. Eine Übereinstimmungsrate von 69 % mit einem einzelnen Dermatologen ist ein angemessenes Ergebnis angesichts der inhärenten Subjektivität bei der Hautbewertung. Viele Anbieter führen interne Validierungsstudien durch, veröffentlichen diese aber nicht in Fachzeitschriften, da sich die Technologie schnell weiterentwickelt und Validierungsdatensätze oft proprietär sind.
Haut.AI
Haut.AI gibt auf seiner Website eine “98%ige diagnostische Genauigkeit” an. Es wurde jedoch keine peer-reviewte Studie gefunden, die diese Zahl stützt. Die Methodik, Stichprobengröße und Definition von “diagnostischer Genauigkeit” hinter dieser Aussage sind nicht öffentlich dokumentiert. Marken sollten bei der Evaluation solcher Angaben detaillierte Methodikbeschreibungen anfordern.
Revieve
Revieve veröffentlicht in seiner öffentlichen Dokumentation keine spezifischen Genauigkeitswerte oder Validierungsstudien. Die Plattform verweist nicht auf peer-reviewte Forschung zur Leistung ihrer Hautanalyse.
Thea Care
Thea Care führt interne Validierungsstudien durch, bei denen KI-Ergebnisse mit den Bewertungen eines Panels aus Dermatologen und Kosmetikwissenschaftlern verglichen werden. Die Methodik umfasst:
- Genauigkeits-Datensatz (D1): 1.000 Kundenfotos, eines pro Person, aufgenommen bei guten Lichtverhältnissen.
- Konsistenz-Datensatz (D2): 300 Fotos derselben Personen unter variierenden Lichtverhältnissen.
- Expertenpanel: Dermatologen und Kosmetikwissenschaftler, die jedes Bild unabhängig bewerten. Die finale Expertenantwort wird per Mehrheitsentscheidung bestimmt.
Ergebnisse:
Obwohl diese Validierungsergebnisse intern sind, folgt die Methodik gängigen akademischen Evaluationsansätzen aus dem Bereich Computer Vision, einschließlich Expertenpanel-Konsens und Test-Retest-Reliabilitätsmessungen.
Einen tieferen Einblick in den Konsistenzansatz von Thea Care finden Sie unter Consistency in AI Skin Analysis: Why Reliable Results Build Trust.
Warum pauschale Genauigkeitszahlen irreführend sein können
Wenn Anbieter hohe Genauigkeitsprozentsätze angeben, sollten Marken mehrere klärende Fragen stellen:
Was wurde gemessen?
Ein System könnte 95 % Genauigkeit bei der Erkennung, ob Falten vorhanden sind (binäres Ja/Nein), melden, aber nur 70 % Genauigkeit bei der Einstufung des Schweregrads auf einer Skala. Die Granularität der Messung ist entscheidend.
Gegen welchen Benchmark?
Wurde die KI mit einem einzelnen Dermatologen, einem Expertenpanel, einer instrumentellen Messung (z. B. Sebumeter, Corneometer) oder ihren eigenen vorherigen Ergebnissen verglichen? Die Übereinstimmung mit einem Expertenpanel ist robuster als die Übereinstimmung mit einer einzelnen Person.
Wie wurde der Datensatz zusammengestellt?
Ergebnisse auf einem sorgfältig kuratierten Datensatz mit perfekter Beleuchtung spiegeln möglicherweise nicht die reale Performance bei Smartphone-Selfies mit variabler Beleuchtung, unterschiedlichen Winkeln und schwankender Bildqualität wider.
Waren alle Hauttöne vertreten?
Publizierte Forschung zeigt, dass die Leistung von KI-Hautanalyse bei dunkleren Hauttönen (Fitzpatrick IV bis VI) geringer sein kann. Marken, die eine diverse Verbraucherbasis bedienen, sollten fragen, ob die Trainings- und Validierungsdaten eine angemessene Repräsentation beinhalten.
Ist die Studie unabhängig?
Vom Anbieter finanzierte Studien sind nicht per se ungültig, aber unabhängige Peer-Reviews erhöhen die Glaubwürdigkeit. Perfect Corp verdient Anerkennung für die Veröffentlichung in peer-reviewten Fachzeitschriften, auch wenn ihr Ergebnis von 69 % niedriger ist als die unverifizierten Angaben einiger Wettbewerber.
Genauigkeit vs. Konsistenz: Was ist für Marken wichtiger?
Für die meisten Hautpflegemarken ist Konsistenz möglicherweise wichtiger als reine Genauigkeit.
Betrachten Sie zwei Szenarien:
Szenario A: Die KI identifiziert den Hauttyp in 90 % der Fälle korrekt, liefert aber bei jeder erneuten Analyse desselben Nutzers ein anderes Ergebnis.
Szenario B: Die KI identifiziert den Hauttyp in 85 % der Fälle korrekt, liefert aber in 95 % der Fälle dasselbe Ergebnis, wenn derselbe Nutzer die Analyse wiederholt.
Szenario B ist für die meisten Marken-Anwendungsfälle besser. Ein Verbraucher, der einmal “Mischhaut” und am nächsten Tag “fettige Haut” erhält, verliert das Vertrauen in das Tool, unabhängig davon, welche Antwort technisch korrekt war. Konsistente Ergebnisse schaffen Vertrauen.
Deshalb sollte die Test-Retest-Reliabilität neben den Übereinstimmungsraten evaluiert werden. Ein starker Konsistenzwert (über 90 %) zeigt, dass das System stabile Ergebnisse liefert, was sich direkt auf das Verbrauchervertrauen und die Glaubwürdigkeit der Produktempfehlungen auswirkt.
Was KI besser kann: Der eigentliche Vergleich
Der relevante Vergleich für Hautpflegemarken ist nicht KI gegen einen Facharzt für Dermatologie in einer klinischen Umgebung. Der relevante Vergleich ist KI gegen die Alternativen, die Marken derzeit nutzen:
KI-Hautanalyse liegt zwischen Fragebögen und Dermatologen. Für Marken, die nicht jedem Kunden eine persönliche dermatologische Beratung anbieten können, stellt KI eine bedeutende Verbesserung der Empfehlungsgenauigkeit dar.
Was Marken Anbieter fragen sollten
Bei der Evaluation von KI-Hautanalyse-Plattformen sollten Marken folgende Informationen anfordern:
- Methodik: Wie wurde die Genauigkeit gemessen? Welche Datensatzgröße, Zusammensetzung des Expertenpanels und Messkriterien wurden verwendet?
- Übereinstimmungsraten pro Hautmerkmal: Gesamtdurchschnitte können schwache Leistung bei einzelnen Hautmerkmalen verbergen. Fragen Sie nach Ergebnissen pro Kategorie.
- Test-Retest-Reliabilität: Wie konsistent sind die Ergebnisse, wenn dieselbe Person mehrfach analysiert wird?
- Hautton-Diversität: Wie performt das System über verschiedene Fitzpatrick-Typen hinweg?
- Reale Bedingungen: Wurden die Ergebnisse an Smartphone-Selfies unter variablen Bedingungen validiert oder nur an Studioaufnahmen?
- Publizierte Validierung: Gibt es eine peer-reviewte Studie oder nur interne Angaben?
Die Rolle dermatologischer Expertise für die Genauigkeit
Die Qualität der KI-Hautanalyse beginnt mit der Qualität der Trainingsdaten. Wenn die Trainingsdaten von Dermatologen nach klinischen Bewertungsstandards gelabelt werden, lernt die KI, Haut so zu bewerten, wie ein Dermatologe es tun würde. Wenn die Daten von Nicht-Experten oder automatisierten Prozessen gelabelt werden, kann die KI andere (und potenziell weniger genaue) Muster lernen.
Dies ist ein Grund, warum die wissenschaftliche Fundierung einer Plattform wichtig ist. Plattformen, die Dermatologen im Gründungsteam oder wissenschaftlichen Beirat haben, produzieren mit höherer Wahrscheinlichkeit Ergebnisse, die mit klinischen Erwartungen übereinstimmen. Für Marken, die ihre Produkte mit dermatologischer Glaubwürdigkeit vermarkten, ist diese Übereinstimmung essenziell.
Eine aktuelle Studie von Ulrich et al. (2025), veröffentlicht in Nature npj Digital Medicine, ergab, dass automatisierte KI-Systeme Dermatologen bei der objektiven Hautton-Klassifikation übertreffen können, insbesondere bei der Verwendung moderner Hautton-Skalen. Dies deutet darauf hin, dass gut trainierte KI für bestimmte Parameter eine Leistung auf Expertenniveau erreichen und sogar übertreffen kann.
Häufig gestellte Fragen
Wie genau ist KI-Hautanalyse im Vergleich zu einem Dermatologen?
Publizierte Studien zeigen Übereinstimmungsraten zwischen KI und Dermatologen von 69 % bis 92 %, je nach Hautmerkmal und Anbieter. Damit liegt KI unter den besten Dermatologen, aber deutlich über der Selbsteinschätzung durch Verbraucher (~40 %) und Standard-Fragebögen.
Kann KI-Hautanalyse einen Dermatologen ersetzen?
Nein. KI-Hautanalyse ist für kosmetische und edukative Zwecke konzipiert. Sie bewertet sichtbare Hautmerkmale und empfiehlt Hautpflegeprodukte, ist aber kein zertifiziertes Medizinprodukt und kann keine Hautkrankheiten diagnostizieren.
Warum liefern verschiedene KI-Tools unterschiedliche Ergebnisse?
Jede Plattform verwendet unterschiedliche Trainingsdaten, Algorithmen und Definitionen für Hautmerkmale. Ein System, das von Dermatologen nach klinischen Bewertungsstandards trainiert wurde, kann andere Ergebnisse liefern als eines, das auf von Verbrauchern gelabelten Daten basiert. Methodische Unterschiede sind der Hauptgrund für variierende Ergebnisse.
Was beeinflusst die Genauigkeit der KI-Hautanalyse?
Bildqualität, Beleuchtung, das Tragen von Make-up, Kamerawinkel und die Diversität des Trainingsdatensatzes beeinflussen die Genauigkeit. Für beste Ergebnisse sollten Nutzer ein frontales Selfie bei gleichmäßiger Beleuchtung ohne starkes Make-up aufnehmen.
Sind 90 % Genauigkeit gut für KI-Hautanalyse?
Eine Übereinstimmungsrate von 90 % mit einem Dermatologen-Panel ist ein starkes Ergebnis für kosmetische Hautanalyse. Zum Vergleich: Die Inter-Rater-Übereinstimmung unter Dermatologen selbst liegt typischerweise zwischen 80 % und 95 %, je nach Hautmerkmal. Das bedeutet, dass Dermatologen auch untereinander nicht immer übereinstimmen.
Thea Care ist eine B2B-White-Label-Hautanalyse-Plattform für Beauty- und Hautpflegemarken, entwickelt von Dermatologen. Erfahren Sie mehr auf theacare.de oder testen Sie die Produkt-Demo.

