Im ersten Teil der Serie haben wir gesehen, dass für die Gemälde in der Kunst-Boutique mit Hilfe von statistischen Modellen Analysen zum Preis gemacht werden können.
Das statistische Modell, welches wir hier ansehen für die Modellierung der Beziehung zwischen Preis des Gemäldes (abhängige Variable) und den verschiedenen Eigenschaften (bspw. Alter, Grösse, Motif) ist die lineare Regression.
Die lineare Regression ist eine mathematische Gleichung. Jede Input-Variable (wie Alter, Grösse, etc) hat einen eigenen Koeffizienten, welcher den Einfluss der Input-Variable auf die Ouput-Variable (der Preis) wiedergibt.
Ein Koeffizient von 0 bedeutet, dass die dazugehörige Input-Variable keinen Einfluss auf die Output-Variable hat. Koeffizienten grösser Null bedeuten, dass die Output-Variable in die gleiche “Richtung” der Input-Variable beeinflusst wird – bspw. je grösser die Fläche des Gemäldes, desto höher der Preis. Bei Koeffizienten kleiner Null ist der Effekt der Input-Variable auf die Output-Variable umgekehrt – bspw. wenn mit steigendem Alter des Gemäldes der Preis sinken würde.
Für die Durchführung der linearen Regression haben wir die folgenden Eigenschaften der Gemälde als Input-Variablen verwendet:
- Grösse (in cm²)
- Alter (in Jahren)
- Kunstwerk-Typ
- Motif
- Materialien
Die Output-Variable ist der Preis des Gemäldes, welcher durch die obigen Input-Variablen erklärt werden soll.
Die lineare Regression liefert unter anderem die folgenden Koeffizenten:
- Grösse: 0.562343
- Alter: 6.82159
- Motiv
- Blumen: 423.442
- Städte: -63.6724
- Abstraktionen: 57.3531
Die positiven Koeffizienten von den Input-Variablen “Alter” und “Grösse” bedeuten, dass mit zunehmendem Alter wie auch Fläche des Gemäldes der Preis ansteigt.
Beim Motiv sind unterschiedliche Koeffizienten zu beobachten: während für Blumen- und Abstraktions-Motive Preiszuschläge zu erwarten sind, ist bei Stadt-Motiven tendenziell mit Abschlägen zu rechnen.
Mithilfe der Gleichung für die lineare Regression und den obenstehenden Koeffizienten lassen sich somit für beliebige Gemälde der Preis berechnen, sofern die Attribute (Input-Variablen) bekannt sind.
Natürlich handelt es sich bei dem berechneten Preis, welche die lineare Regression ausgibt, nur um einen modellierten Wert, der mehr oder weniger stark vom tatsächlichen Preis abweichen kann. Dieser “Fehler” zwischen Modell und Wirklichkeit tritt auch für Kunstwerke auf, die in die Berechnung der Koeffizienten einbezogen wurde.
Die obigen Koeffizienten, welche aus der linearen Regression berechnet wurden, hängen stark von den verwendeten Daten ab – i.e. von den Kunstwerken und deren Attributen.
Mit mehr Daten in Form von zusätzlichen Kunstwerken können die Fehler zwischem dem statistischem Modell und der Wirklichkeit reduziert werden – allerdings müssen die in der Regression verwendeten Daten möglichst repräsentativ für die realen Daten sein. Je weniger repräsentativ die Daten in der Regression sind, desto unzuverlässiger das statistische Modell.
Die Koeffizienten dieses Regressionsmodells sind also mit Vorsicht zu geniessen, da bei der Verwendung eines anderen Datensatzes – insb. mit Kunstwerken aus anderen Zeitperioden, anderen Stilen oder aus anderen geografischen Märkten – wohl deutlich abweichende Koeffizienten für die Input-Variablen zu erwarten wären. Entsprechend wäre auch der vorhergesagte Preis deutlich anders.




