Was ist Explainable AI (XAI)? Alles was man wissen muss

Explainable AI (XAI) beschreibt die Herausforderung, dass Menschen verstehen wieso ein Algorithmus der künstlichen Intelligenz eine Entscheidung trifft. Die Frage nach dem “warum” soll nachvollziehbar und interpretierbar beantwortet werden können. Als Lösung gibt es Algorithmen die direkt transparent agieren oder solche, die im Nachhinein (post-hoc) erklärbar gemacht werden müssen. Wir definieren XAI, zeigen die Wichtigkeit der Erklärbarkeit und einige Lösungsansätze.

Definition von Explainable AI (XAI)

Explainable AI (XAI) beschreibt die Frage nach der Erklärbarkeit von künstlicher Intelligenz. Mit zunehmendem Einsatz von künstlicher Intelligenz steigt auch die Frage nach der “inneren Mechanik” von KI. Diese Frage – “wie funktioniert KI?” bzw. “wie kommt die KI zu diesem Ergebnis” ist die Grundlage von XAI.

Generell beschäftigt sich das Problem von erklärbarer KI mit sogenannten “Black Box”-Algorithmen wie Neuronalen Netzen und Deep Learning. Bei dieser Art von AI ist zwar sowohl die Funktionsweise des Algorithmus als auch die finalen Werte der Parameter bekannt, allerdings nicht wieso dieses Ergebnis erreicht wurde. Bei Millionen von Parametern, die bei einem Trainingsvorgang angepasst werden, ist die Gewichtung nicht mehr zu einem größeren Bild nachzuvollziehen.

Folglich sind die Zusammenhänge weshalb ein Gewicht einen bestimmten Wert hat und wie dieses in das Gesamtmodell einzahlt nicht mehr zu erklären. Dies ist der Kern von Explainable AI: Weshalb wird durch die künstliche Intelligenz ein Ergebnis ausgegeben.

Beispiele für die Wichtigkeit von Explainable AI

Explainable AI spielt in mehreren Bereichen eine zunehmend wichtige Rolle. Im Groben geht es immer darum, zu verstehen wie und weshalb Entscheidungen getroffen werden. Möchte man dieses Wissen zur Interpretation der Ergebnisse nutzen, benötigt man einen “durchsichtigen” Algorithmus. Genauer spielen folgende Themen eine Rolle:

Optimierung des Algorithmus

Umso besser man versteht, wie ein Modell konstruiert wurde, umso einfacher ist es ein Modell zu verbessern. Iterative Verbesserung durch mehr Daten, höhere Varianz, besseres Trainingsmaterial oder ähnliches zählt zum Standardprozess im Bereich Data Science. Diese Aufgaben sind einfacher zu erledigen, so man das aktuelle Modell einfach nachzuvollziehen kann.

Vertrauen in die Ergebnisse

Eine der Hauptfragen an Blackbox-Modelle ist “können wir diesen Ergebnissen vertrauen?”. Speziell die Nachvollziehbarkeit von Berechnungen hat einen gewissen Sicherheitsfaktor. Ganz offensichtlich ist das bei einem mehrschichten Deep Learning Modell nicht mehr der Fall, weshalb manche Data Scientists sogar ganz Abstand von solchen Algorithmen nehmen.

Auswirkung auf nachfolgende Prozesse

Einer der Kernaspekte von Advanced Analytics ist, dass man Prozesse verstehen und verbessern möchte. Dazu analysiert man Daten, vor allem um Hebel zur Verbesserung zu identifizieren. In einem Blackbox-Modell ist man allerdings auf den Output beschränkt. Somit kann man nicht Verbesserungspotential ableiten, was diese unerklärbaren Modelle unattraktiv macht.

Explainable AI im Zuge von Ethik der KI

Ein weiterer Aspekt, weshalb explainable AI an Relevanz gewinnt ist die Frage nach Ethik in der Anwendung von künstlicher Intelligenz. Als einfaches Beispiel wird oft ein Rekrutierungsmodell angeführt, das auf Geschlecht und/oder Hautfarbe diskriminiert. Nicht weil er dahingehend beeinflusst wurde, sondern einfach weil die Trainingsdaten einen Bias in diese Faktoren haben.

Nun ist die Herausforderung, solche “Fehler” in der Modelloptimierung überprüfen und korrigieren zu können. Aus rein ethischen Gesichtspunkten sollten zentral eingesetzte Algorithmen auch eine Nachvollziehbarkeit gewährleisten. Speziell so sie über oder im Bezug auf Menschen Entscheidungen treffen. Folglich ist die Anforderung an XAI auch in diesem Punkt zentral: Die Modelle nachvollziehbar machen.

Lösungsansätze für XAI

Es gibt im Prinzip zwei Kategorien von Lösungsansätzen um die Erklärbarkeit von künstlicher Intelligenz zu gewährleisten: Ante-Hoc und Post-Hoc. Ante-Hoc bedeutet “Vorher”, also von Grund auf interpretierbare Modelle. Post-Hoc Ansätze versuchen BlackBox-Modelle im Nachhinein erklärbar zu machen.

Ante-Hoc XAI: Transparente Modelle

Es gibt eine ganze Reihe an inhärent interpretierbaren Modellen. Die Idee in allen ist, die Berechnung und Parameter direkt zu quantifizieren und auf einem interpretierbaren Maß zu halten. Folgende Kategorien werden üblich unterschieden:

Erklärbare klassische Modelle: Sehr bekannte Modelle im Bereich Data Science sind zum Beispiel Regressionen oder Entscheidungsbäume und Random Forests. Hierbei wird zum Beispiel die erklärbare Varianz einer linearen Regression genutzt, um die Einflussfaktoren zu verstehen.
Generative Additive Modelle (GAMs): GAMs erlauben es, die Gewichtung einer jeden Input-Variable zu identifizieren. Folglich wird auch gerne auf eine Visualisierung mittels Heatmap zurückgegriffen, was die Ergebnisse besonders für Menschen zugänglich macht.
Hybride Modelle: In hybriden Systemen werden gerne regelbasierte Methoden mit Machine Learning Methoden kombiniert. Dabei wird versucht einzelne Unteraufgaben von intransparenten Modellen zu lösen, während die Interpretation durch transparente Methoden gelöst wird.

Post-Hoc XAI: Erklärung von Blackbox-Modellen

Die Herausforderung von Post-Hoc XAI ist, ein Blackbox-Modell nachträglich quantifizierbar zu machen. Hierbei werden verschiedene Methoden angewandt, die entweder während dem Training mit-”protokolliert” oder zum Beispiel nochmal das gesamte Modell durchläuft um es zu quantifizieren. Folgende Methoden werden üblich zur Erklärung von Blackbox-Modellen eingesetzt:

LIME: Die “Local Interpretable Model-Agnostic Explanations”, zu Deutsch “lokale, interpretierbare, modell-agnostische Erklärungen”, haben den Selbstanspruch alle Modelle erklärbar zu machen. Die Idee ist, ein vorliegendes Modell (“local”) für einen Menschen verständlich zu machen (“interpretable”). Dabei soll es ohne Wissen über ein spezifisches Modell (“model-agnostic”) agieren. Praktisch wird zum Beispiel ein linearer Classifier auf die Ergebnisse neuronalen Netzes geschalten, um diese interpretierbar zu machen. Dies senkt zwar die Genauigkeit des Modells, erlaubt aber ganz im Sinne von XAI eine Interpretation.
Kontrafaktische Methode: Die “Counterfactual Method” nutzt die Tatsache, dass der Output eines Modells das direkte Ergebnis des Inputs ist, um KI erklärbar zu machen. Konkret heisst dies, dass gezielt Input-Elemente (zum Beispiel ein Attribut oder ein Bild) manipuliert werden, bis man eine Änderung des Outputs (z.B. andere Klassifikationsklasse) beobachten kann. Wiederholt man diese Methode systematisch, kann man erarbeiten, welche Feinheiten im Input den Output erklären.
Layer-wise Relevance Propagation (LRP): Während die Counterfactual Method am Input manipuliert, versucht LRP die Erklärbarkeit durch eine “Backpropagation”, also Rückwärtsverteilung zu gewährleisten. Hierzu wird in einem neuronalen Netz der Output auf die gewichteten Knoten aus der Schicht zuvor zurückgeführt. Dies erlaubt es, die wichtigsten Knoten-Kanten-Kombinationen zu identifizieren und somit den größten Einfluss von bestimmten Teilen des Inputs zu markieren.
Partial Dependen Plot (PDP): Diese Methode wurde 2001 von J.H. Friedman entwickelt und zeigt, welchen Effekt Features auf den Output des Modells haben. Genauer kann ein PDP zeigen, ob das Verhältnis zwischen Target und Feature linear, monoton oder komplex ist. Einfach gesagt werden ein oder zwei Input-Features mit dem Output in einem Graph geplottet; und man kann sehr einfach erklären, welche Abhängigkeit zwischen diesen Entitäten herrscht.
Rationalization: Besonders interessant sind auch Herangehensweisen, bei denen Blackbox-Maschinen (zum Beispiel ein Roboter) ihre Handlungen selbst erklären können. Dazu bedingt es einer tieferen Rechenschicht, die protokolliert, weshalb eine Handlung auslöst und diese Information dem Menschen erklärbar macht.
Weitere Methoden: Neben diesen bekannten Methoden gibt es eine ganze Bandbreite an weiteren Herangehensweise für explainable AI, zum Beispiel Individual Conditional Expectation (ICE), Accumulated Local effects (ALE), Feature Interaction, Permutation Feature Importance, Global Surrogates, Scoped Rules, Shapley Values, Shapley Additive exPlanations (SHAP) und einige mehr.

Zusammenfassung des Artikels “Explainable AI”

Das Ziel von “erklärbarer” bzw “interpretierbarer” KI ist, dass man als Mensch nachvollziehen kann, weshalb ein Algorithmus zu einem Ergebnis kam. Dabei gibt es Methoden die grundsätzlich in die Kategorie explainable AI fallen (zum Beispiel lineare Regression oder ein Entscheidungsbaum) oder solche, die Post-Hoc, also im Nachhinein erklärbar gemacht werden müssen. Beispiele dafür sind vor allem Neuronale Netze oder sehr komplexe Systeme wie im Reinforcement Learning üblich. In allen Fällen gilt es mittels explainable AI die Entscheidungsformierung in einem künstlichen System erklärbar zu machen, um ethische Fragen zu beantworten und das Modell zugänglich zu gestalten.

Weitere Information

Einen herausragenden und vor allem kostenlosen Einstieg in das Thema Explainable AI bietet das Online-Buch “Interpretable ML” von Christoph Molnar. Es ist für jeden zu empfehlen, der sich vor allem auch für die mathematischen Hintergründe interessiert: https://christophm.github.io/interpretable-ml-book/

Auch das Fraunhofer Institut hat eine großartige Einführung als Video veröffentlicht:

https://www.youtube.com/watch?v=VwpdMXGssPY

Explainable AI: Blick in die Black-Box (https://www.youtube.com/watch?v=VwpdMXGssPY)