Die Regressionsanalyse ist eine zentrale Methode, um Zusammenhänge in Daten sichtbar zu machen und Entscheidungen auf eine fundierte Basis zu stellen. In diesem Artikel siehst du, wie Regressionen berechnet und interpretiert werden, inklusive typischer Stolperfallen und praktischer Beispiele.
Zusätzlich enthält dieser Artikel einen kostenlosen, benutzerfreundlichen Regressionsrechner, mit dem du deine Daten direkt auswerten kannst.
Was ist eine Regressionsanalyse: Definition und Bedeutung

Eine Regressionsanalyse ist ein statistisches Verfahren, das eine Gleichung schätzt, um eine abhängige Variable (Y) mit einer oder mehreren unabhängigen Variablen (X) zu erklären oder vorherzusagen.
Als eines der meistgenutzten Verfahren in Statistik und Datenanalyse hilft dir die Regressionsanalyse, Einflüsse zu quantifizieren, Muster in Daten zu erkennen und aus Beobachtungen nachvollziehbare Schlussfolgerungen abzuleiten.
Welche Ergebnisse liefert eine Regressionsanalyse?
Eine Regressionsanalyse liefert dir vor allem eine Effektgröße (Koeffizient) und Vorhersagen für Y. Damit kannst du als Zahl ausdrücken, wie stark Y sich typischerweise ändert, wenn X um eine Einheit steigt.
- Koeffizient (Effekt): Veränderung von Y pro 1 Einheit X
- Vorhersage ŷ: geschätzter Y-Wert für einen konkreten X-Wert
Beispiel: Werbebudget und verkaufte Cupcakes
Damit alles nachvollziehbar bleibt, nutzen wir durchgehend dasselbe Beispiel: X ist das Werbebudget pro Woche und Y sind die verkauften Cupcakes pro Woche. Das Beispiel bleibt gleich, während die Methode von Kapitel zu Kapitel tiefer wird.
| Werbebudget pro Woche (X) in Euro | Cupcakes pro Woche (Y) |
|---|---|
| 50 | 120 |
| 150 | 190 |
Mit wenigen Datenpunkten ist das Modell noch nicht stabil, aber das Prinzip ist klar: Wenn X sich verändert, verändert sich Y typischerweise mit. Genau diese Beziehung macht Regression messbar.
Unterschied Regression vs Korrelation vs Kovarianz
Kovarianz, Korrelation und Regression klingen ähnlich, beantworten aber unterschiedliche Fragen. Im Cupcake-Beispiel ist X das Werbebudget und Y die verkauften Cupcakes.
Kovarianz: Bewegen sich X und Y gemeinsam?
Die Kovarianz zeigt, ob X und Y tendenziell in die gleiche Richtung laufen oder gegeneinander. Ist sie positiv, steigen Budget und Cupcakes oft gemeinsam. Ist sie negativ, steigt das Budget, während Cupcakes eher fallen.
Korrelation: Wie stark ist der lineare Zusammenhang?
Die Korrelation (meist r) ist die normierte Version der Kovarianz. Sie liegt immer zwischen -1 und +1. Damit kannst du die Stärke und Richtung eines linearen Zusammenhangs gut vergleichen. Im Cupcake-Beispiel heißt r nahe +1: mehr Budget geht sehr zuverlässig mit mehr Cupcakes einher. r nahe 0: kein klarer linearer Zusammenhang.
Regression: Wie viel verändert sich Y, wenn X steigt?
Die Regression geht einen Schritt weiter: Sie liefert eine Gleichung, mit der du Y aus X schätzen kannst, zum Beispiel ŷ = a + b · x. Im Cupcake-Beispiel beantwortet sie konkret: „Wie viele Cupcakes mehr sind im Mittel zu erwarten, wenn das Budget um 10 Euro steigt?“ Genau dafür brauchst du die Steigung b und die Modellwerte wie R² und RMSE.
- Kovarianz: gemeinsames Schwanken, aber einheitenabhängig
- Korrelation: Stärke und Richtung eines linearen Zusammenhangs, immer -1 bis +1
- Regression: Effekt in Einheiten und Vorhersage über eine Gleichung
Regressionsanalyse: Begriffe erklärt

Die wichtigsten Begriffe der Regressionsanalyse sind abhängige Variable (Y), unabhängige Variable (X), Koeffizient, Residuum sowie die Ausgaben Koeffizienten-Tabelle und ANOVA-Tabelle, weil genau darüber Interpretation und Qualität des Modells laufen.
Abhängige Variable und unabhängige Variable
Y heißt abhängige Variable, weil sie vom Modell erklärt werden soll. X heißt unabhängige Variable, weil sie als Einflussfaktor in die Berechnung eingeht.
- Abhängige Variable (Y): Zielwert, den du erklären oder vorhersagen willst
- Unabhängige Variable (X): Einflussfaktor, der Y mit erklären soll
Im Cupcake-Beispiel ist Y die Anzahl verkaufter Cupcakes pro Woche. X ist das Werbebudget pro Woche.
Regressionskoeffizient und Achsenabschnitt
Der Regressionskoeffizient ist die Effektzahl: Wie stark ändert sich Y typischerweise, wenn X um 1 Einheit steigt. Der Achsenabschnitt (Intercept) ist der Modellwert von Y, wenn X gleich 0 ist.
- Koeffizient: Effekt pro Einheit X
- Achsenabschnitt: Modellwert bei X = 0
Residuum einfach erklärt
Das Residuum ist die Abweichung zwischen echtem Wert y und Vorhersage ŷ. Residuen zeigen dir, wo das Modell gut trifft und wo es danebenliegt.
- Formel: Residuum = y – ŷ
- Faustregel: Muster in Residuen sind ein Warnsignal
Koeffizienten-Tabelle lesen
Die Koeffizienten-Tabelle ist der Teil, der die Effekte je Variable zeigt. Dort stehen mindestens der Achsenabschnitt und der Koeffizient für X. Typische Spalten, die du verstehen solltest:
- Koeffizient: Effektgröße (wie stark Y sich pro Einheit X ändert)
- Standardfehler: Unsicherheit der Effektgröße
- t-Wert und p-Wert: Test, ob der Effekt statistisch von 0 abweicht
- Konfidenzintervall: plausibler Bereich für den echten Effekt
ANOVA-Tabelle in der Regression
Die ANOVA-Tabelle prüft das Gesamtmodell. Sie beantwortet die Frage, ob das Modell mit X insgesamt besser ist als ein Modell ohne X. Das passiert über den F-Test.
- F-Wert: Stärke des Gesamtmodells im Vergleich zu „kein Zusammenhang“
- Signifikanz F: p-Wert zum F-Test, also Test des Gesamtmodells
- Quadratsummen: zeigen, wie viel Streuung erklärt und wie viel nicht erklärt wird
Merksatz: Koeffizienten-Tabelle erklärt einzelne Effekte, ANOVA-Tabelle testet das Modell als Ganzes.
Regressionsarten: linear, multiple und logistisch

Welche Regressionsart du brauchst, hängt davon ab, ob deine abhängige Variable Y ein Zahlenwert oder ein ja-nein Ergebnis ist und ob du eine oder mehrere unabhängige Variablen X verwendest.
Lineare Regression einfach erklärt
Die lineare Regression nutzt eine unabhängige Variable X, um einen Zahlenwert Y zu schätzen. Das ist die Standardform, wenn du einen klaren Effekt pro Einheit X haben willst.
Multiple Regression einfach erklärt
Die multiple lineare Regression nutzt mehrere unabhängige Variablen X gleichzeitig, um Y zu schätzen. Dadurch kannst du Effekte bereinigt betrachten, also unter Berücksichtigung der anderen X im Modell.
Logistische Regression einfach erklärt
Die logistische Regression passt, wenn Y ein ja-nein Ergebnis ist. Das Modell liefert dann eine Wahrscheinlichkeit zwischen 0 und 1 statt eines normalen Zahlenwerts.
- Linear: Y ist Zahl, 1 X
- Multiple linear: Y ist Zahl, mehrere X
- Logistisch: Y ist ja-nein, Ergebnis ist Wahrscheinlichkeit
Wenn du den Zielwert kennst, ist die Vorauswahl meistens schnell: Zahlenwert führt zur linearen Familie, ja-nein führt zur logistischen Variante.
Lineare Regression Formel

Die lineare Regression berechnet eine Regressionsgerade, die deine abhängige Variable Y aus deiner unabhängigen Variable X schätzt, meist in der Form ŷ = a + b · x, wobei b der Effekt pro Einheit X ist und a der Startwert bei X = 0.
Regressionsgleichung ŷ = a + b · x
Die Regressionsgleichung liefert für jeden X-Wert eine Vorhersage ŷ. Dabei beschreibt b, wie stark sich Y typischerweise verändert, wenn X um 1 steigt. a ist der Achsenabschnitt und sorgt dafür, dass die Gerade korrekt im Datenraum liegt.
| a + b · x |
- b (Steigung): Effekt von X auf Y pro 1 Einheit X
- a (Achsenabschnitt): Modellwert für Y, wenn X gleich 0 ist
- ŷ (Vorhersage): geschätzter Y-Wert für einen konkreten X-Wert
Methode der kleinsten Quadrate
Damit die Gerade nicht „nach Gefühl“ gewählt wird, nutzt man meistens die Methode der kleinsten Quadrate. Das Modell wählt a und b so, dass die quadrierten Abweichungen zwischen echten Werten y und Vorhersagen ŷ insgesamt möglichst klein sind.
Formeln für b und a (einfache lineare Regression)
In der einfachen linearen Regression (ein X, ein Y) lässt sich b über Kovarianz und Varianz ausdrücken. Danach folgt a aus den Mittelwerten.
Cov(X, Y) |
| Var(X) |
R² in der Regression
R² zeigt, wie viel der Streuung von Y durch das Modell erklärt wird. Ein höheres R² bedeutet, dass die Punkte im Schnitt näher an der Regressionsgeraden liegen. Ein niedrigeres R² bedeutet, dass trotz Effekt viel Streuung übrig bleibt.
- R² nahe 0: Modell erklärt wenig von Y
- R² höher: Modell erklärt mehr von Y
- Wichtig: R² ist keine Garantie für Kausalität
Beispiel: Werbebudget und Cupcakes
In unserem Beispiel ist X das Werbebudget pro Woche und Y die verkauften Cupcakes pro Woche. Der Koeffizient b wäre dann eine klare Aussage wie: „Pro zusätzlichem Euro Budget steigen die Verkäufe im Mittel um b Cupcakes“. Das ist genau der Kern, den viele an Regression schätzen: ein Effekt als Zahl.
Voraussetzungen der Regressionsanalyse

Die Regressionsanalyse funktioniert nur zuverlässig, wenn zentrale Annahmen halbwegs passen, vor allem ein sinnvoller Zusammenhang zwischen X und Y und ein Residuen-Verhalten, das nicht systematisch aus dem Rahmen fällt.
Linearität: Passt eine Gerade überhaupt?
Bei linearer Regression sollte der Zusammenhang zwischen X und Y grob wie eine Gerade aussehen. Wenn der Effekt stark gekrümmt ist, kann die lineare Regression zwar rechnen, aber sie beschreibt die Realität dann oft schlecht.
- Prüfung: Streudiagramm von X gegen Y
- Warnsignal: klar gebogene Form statt gerader Tendenz
Unabhängigkeit: Datenpunkte sollten nicht voneinander abhängen
Die Beobachtungen sollten möglichst unabhängig sein. Wenn Werte stark zusammenhängen (zum Beispiel viele Messungen, die praktisch dasselbe Ereignis abbilden), können Tests und Unsicherheiten zu optimistisch wirken.
Homoskedastizität: Gleichmäßige Streuung der Residuen
Die Streuung der Residuen sollte über den Bereich der Vorhersagen ungefähr gleich bleiben. Wenn die Streuung bei großen ŷ stark zunimmt, stimmen Standardfehler und p-Werte oft nicht mehr gut.
- Gute Situation: Residuen wolkig, ohne Trichterform
- Warnsignal: Trichter, also Streuung wird deutlich größer oder kleiner
Normalverteilung der Residuen: wichtig für Tests
Die Residuen müssen nicht perfekt normalverteilt sein, aber eine grobe Normalität hilft, damit t-Test, p-Werte und Konfidenzintervalle sauber funktionieren, vor allem bei kleineren Stichproben.
Ausreißer und einflussreiche Punkte
Ein einzelner Ausreißer kann den Koeffizienten stark verschieben. Deshalb solltest du nicht nur Ausreißer in Y prüfen, sondern auch Punkte, die das Modell ungewöhnlich stark „ziehen“.
- Ausreißer: ungewöhnlich hoher oder niedriger y-Wert
- Einflussreich: Punkt verändert die Steigung sichtbar, wenn er entfernt wird
Multikollinearität (bei mehreren X)
Wenn du mehrere unabhängige Variablen hast, sollten sie nicht fast dasselbe messen. Starke Überschneidungen können Koeffizienten instabil machen, obwohl das Modell insgesamt gut aussieht.
- Symptom: große Standardfehler, wechselnde Vorzeichen bei kleinen Datenänderungen
- Folge: einzelne Effekte sind schwer sauber zu interpretieren
Wenn diese Punkte grob passen, werden deine Koeffizienten deutlich stabiler, und Tabellen wie Koeffizienten-Tabelle und ANOVA-Tabelle werden auch inhaltlich vertrauenswürdiger.
Regressionsanalyse durchführen Schritt für Schritt

Eine Regressionsanalyse führst du sauber durch, indem du zuerst Y und X eindeutig definierst, dann Daten prüfst, das Modell schätzt und danach die Ergebnisse in Koeffizienten-Tabelle und ANOVA-Tabelle sowie über Residuen-Checks absicherst.
Schritt 1: Abhängige Variable und unabhängige Variable festlegen
Definiere Y und X so, dass Einheit und Zeitraum klar sind. In unserem Beispiel ist Y „Cupcakes pro Woche“ und X „Werbebudget pro Woche in Euro“. Das verhindert Missverständnisse bei der Interpretation von b.
- Y: messbarer Zielwert mit Einheit
- X: messbarer Einflussfaktor mit Einheit
- Zeitraum: pro Woche, pro Tag oder pro Monat, aber konsequent
Schritt 2: Daten prüfen und bereinigen
Bevor du rechnest, prüfe fehlende Werte, Ausreißer, doppelte Zeilen und Formatprobleme. Regression ist sehr gut im Rechnen, aber sie korrigiert keine schlechten Daten automatisch.
Schritt 3: Streudiagramm und erste Plausibilität
Erstelle ein Streudiagramm von X gegen Y. Damit siehst du sofort, ob eine Gerade grundsätzlich passt oder ob du eher eine gekrümmte Beziehung oder Sonderfälle im Datensatz hast.
Schritt 4: Modell schätzen
Schätze die Regression und notiere die zentralen Outputs: a (Achsenabschnitt), b (Koeffizient), R², Standardfehler und Residuen. Wenn dein Rechner eine Koeffizienten-Tabelle und eine ANOVA-Tabelle ausgibt, sind das die wichtigsten Bereiche für die Interpretation.
Schritt 5: Koeffizienten-Tabelle interpretieren
Lies zuerst den Koeffizienten b, dann den Standardfehler und den p-Wert. Der Koeffizient sagt dir den Effekt, Standardfehler und p-Wert geben dir ein Gefühl dafür, wie stabil dieser Effekt in den Daten ist.
- Koeffizient b: Effekt pro Einheit X
- p-Wert: Test, ob b plausibel von 0 verschieden ist
- Konfidenzintervall: realistischer Bereich für den Effekt
Schritt 6: ANOVA-Tabelle und Gesamtmodell prüfen
Die ANOVA-Tabelle zeigt dir, ob das Modell als Ganzes überhaupt erklärt. Über den F-Test kannst du prüfen, ob „mit X“ besser ist als „ohne X“. Das ist besonders hilfreich, wenn du mehrere X im Modell hast.
Schritt 7: Residuen-Check
Prüfe Residuen gegen Vorhersagen ŷ. Wenn du Muster siehst, stimmt oft eine Annahme nicht, oder das Modell ist zu simpel. Wenn die Residuen eher zufällig streuen, fühlt sich das Ergebnis meistens deutlich solider an.
Wenn du diese Schritte konsequent durchgehst, bekommst du nicht nur eine Zahl aus dem Rechner, sondern eine Interpretation, die du begründen kannst.
Regressionsrechner
Mit diesem Online-Regressionsrechner lässt sich eine einfache lineare Regression berechnen (Y als abhängige Variable, X als unabhängige Variable). Der Rechner gibt eine kompakte Zusammenfassung, eine kurze Interpretation, das Diagramm (Streudiagramm + Regressionslinie), eine ANOVA-Tabelle sowie eine Koeffizienten-Tabelle aus. Unvollständige Zeilen werden automatisch ignoriert.
Regressionsergebnisse interpretieren

Regressionsergebnisse interpretieren heißt: Du liest aus den Tabellen nicht nur „was ist was“, sondern was du daraus ableiten darfst – also Effekt (Steigung), Erklärungskraft (R²), typischen Fehler (RMSE) und ob das Modell statistisch signifikant ist (p-Werte aus F-Test und t-Tests).
- Effekt: Steigung b und Achsenabschnitt a in der Regressionsgleichung
- Erklärungskraft: r und R², also wie stark der lineare Zusammenhang ist und wie viel Varianz erklärt wird
- Modelltests: ANOVA-Tabelle (F-Test fürs Gesamtmodell) und Koeffizienten-Tabelle (t-Test pro Koeffizient)
1) Regressionsgleichung (ŷ = a + b · x)
Die Regressionsgleichung sagt dir, welchen Y-Wert (ŷ) das Modell für einen gegebenen X-Wert erwartet. Das ist die Vorhersage-Linie, die durch die Daten gelegt wird.
Achsenabschnitt (a)
a ist der geschätzte Y-Wert, wenn X = 0 ist. Ob das sinnvoll interpretierbar ist, hängt davon ab, ob X = 0 in deinem Kontext überhaupt realistisch ist.
Steigung (b)
b ist der zentrale Effekt: Wenn X um 1 Einheit steigt, ändert sich Y im Mittel um b Einheiten. Im Cupcake-Beispiel: b ist die erwartete Änderung der Cupcake-Verkäufe pro zusätzlicher Budget-Einheit.
2) Korrelation (r)
r misst Richtung und Stärke des linearen Zusammenhangs zwischen X und Y. r liegt zwischen -1 und +1. Das Vorzeichen zeigt die Richtung, der Betrag die Stärke.
- r > 0: X steigt, Y steigt tendenziell mit
- r < 0: X steigt, Y fällt tendenziell
- |r| nahe 0: kaum linearer Zusammenhang
Bei einfacher linearer Regression (ein X) gilt: R² = r². Das ist kein Extra-Magie-Wert, sondern dieselbe Information in anderer Form.
3) R-Quadrat (R²)
R² ist die erklärte Varianz: Wie viel der Streuung in Y durch X im linearen Modell erklärt wird. R² liegt zwischen 0 und 1.
- R² = 0,00: Modell erklärt nichts besser als ein reiner Durchschnitt
- R² = 0,70: grob 70% der Y-Streuung wird durch X im Modell erklärt
- R² nahe 1,00: sehr starke Passung an diese Daten
Wichtig: R² sagt etwas über Passung, nicht über Kausalität. Ein hohes R² kann auch entstehen, wenn eine wichtige Drittvariable beide Größen treibt.
4) Standardfehler (RMSE)
RMSE ist der typische Vorhersagefehler in der Einheit von Y. Du kannst ihn dir vorstellen wie: „Wie weit liege ich mit ŷ im Schnitt daneben?“
- RMSE ist klein, wenn Vorhersagen nah an den echten Y-Werten liegen
- RMSE ist groß, wenn die Punkte weit um die Regressionslinie streuen
RMSE wird immer relativ gelesen: im Vergleich zur typischen Größenordnung von Y oder im Vergleich zweier Modelle auf denselben Daten. Ein RMSE von 20 ist bei Y im Bereich 30 bis 50 groß, bei Y im Bereich 2000 bis 4000 eher klein.
5) ANOVA-Tabelle – was bedeuten df, Quadratsummen, F-Wert und p-Wert?
Die ANOVA-Tabelle zerlegt die Streuung von Y in zwei Teile: den Anteil, den das Modell erklärt, und den Anteil, der als Fehler (Residuen) übrig bleibt. Daraus wird der F-Test berechnet, der prüft, ob das Gesamtmodell statistisch signifikant ist.
df (Freiheitsgrade) – was sagt das aus?
df ist keine Qualitätsnote wie r oder R². df ist „Buchhaltung“ für Stichprobengröße und Modellkomplexität. Du kannst damit direkt erkennen, wie viele Datenpunkte und wie viele unabhängige Variablen im Modell stecken.
- df Regression = Anzahl der unabhängigen Variablen (bei einfacher Regression meist 1)
- df Gesamt = n – 1 (n ist die Anzahl der Datenpaare)
- df Residuum = n – Anzahl(X) – 1
Beispiel zur Einordnung: Wenn df Gesamt = 6, dann gilt n = 7 (weil n – 1 = 6). Wenn df Regression = 1, hast du genau eine unabhängige Variable. Dann ist df Residuum = 7 – 1 – 1 = 5. Das bedeutet: Der Fehleranteil wird auf Basis von 5 Freiheitsgraden geschätzt.
Praktischer Punkt: Je kleiner df Residuum ist, desto unsicherer werden Tests und Intervalle oft, weil schlicht wenig Daten übrig sind, um den Fehler stabil zu schätzen.
Quadratsummen – was ist das und wie hängt es mit R² zusammen?
Die Quadratsummen sind Streuungsmaße:
- Quadratsumme Gesamt (SST): gesamte Streuung von Y um den Mittelwert
- Quadratsumme Regression (SSR): Streuung, die das Modell erklärt
- Quadratsumme Residuum (SSE): Streuung, die übrig bleibt (Fehler)
Sie hängen zusammen wie: SST = SSR + SSE. Und daraus kommt R²: R² = SSR / SST. Wenn SSR im Verhältnis zu SST groß ist, ist R² hoch. Wenn SSE im Verhältnis zu SST groß ist, ist R² niedrig.
Mittlere Quadratsumme erklärt
Die mittlere Quadratsumme ist einfach Quadratsumme geteilt durch df:
- MS Regression = SSR / df Regression
- MS Residuum = SSE / df Residuum
MS Residuum ist besonders wichtig, weil es die geschätzte Fehlerstreuung im Modell ist. Daraus hängt auch RMSE direkt zusammen: RMSE = Wurzel(MS Residuum).
F-Wert – was bedeutet „groß“ oder „klein“ hier?
Der F-Wert ist das Verhältnis:
F = MS Regression / MS Residuum
- F nahe 1: Modell erklärt nicht viel mehr als das, was ohnehin als Fehlerstreuung da ist
- F deutlich größer als 1: Modell erklärt im Verhältnis zur Fehlerstreuung spürbar mehr
Ob ein bestimmter F-Wert „ausreicht“, hängt von df Regression und df Residuum ab. Deshalb liefert die Tabelle zusätzlich den p-Wert, weil der F-Wert je nach Freiheitsgraden unterschiedlich streng bewertet wird.
p-Wert (F-Test) – statistisch signifikant oder nicht?
Der p-Wert des F-Tests prüft die Nullhypothese: „Das Gesamtmodell erklärt nicht mehr als ein Durchschnittsmodell“. Bei einfacher Regression ist das praktisch dieselbe Frage wie „ist die Steigung b gleich 0?“
Du legst ein Signifikanzniveau fest, häufig alpha = 0,05. Dann gilt:
- p < 0,05: Gesamtmodell ist statistisch signifikant
- p ≥ 0,05: Gesamtmodell ist nicht statistisch signifikant
6) Koeffizienten-Tabelle – was sagen Koeffizient, Standardfehler, t-Statistik, p-Wert und 95%-KI?
Die Koeffizienten-Tabelle bewertet jeden Parameter einzeln. Typisch sind mindestens zwei Zeilen: Achsenabschnitt (Intercept) und X (unabhängig). Für jede Zeile wird geprüft, ob der jeweilige Effekt statistisch von 0 abweicht.
Koeffizient – Effektgröße und Richtung
Der Koeffizient ist die geschätzte Wirkung im Modell. Bei X ist das die Steigung b. Er sagt: Wenn X um 1 Einheit steigt, ändert sich Y im Mittel um b Einheiten.
- b > 0: positiver Zusammenhang (Y steigt mit X im Modell)
- b < 0: negativer Zusammenhang (Y sinkt mit X im Modell)
- b = 0: kein linearer Effekt im Modell
Beim Intercept (Achsenabschnitt) ist die Interpretation: erwartetes Y, wenn X = 0. Das ist nur dann inhaltlich wichtig, wenn X = 0 im echten Kontext sinnvoll ist.
Standardfehler – Unsicherheit der Schätzung
Der Standardfehler zeigt, wie stark der geschätzte Koeffizient typischerweise schwanken würde, wenn du ähnliche Stichproben erneut ziehen würdest. Er hat dieselben Einheiten wie der Koeffizient und ist deshalb nicht über feste Zahlen wie 1 oder 10 bewertbar.
- kleiner Standardfehler relativ zum Koeffizienten: Schätzung ist präziser
- großer Standardfehler relativ zum Koeffizienten: Schätzung ist unpräziser
- Praxisregel: Standardfehler liest man zusammen mit t-Wert, p-Wert und 95%-KI, nicht allein
t-Statistik – Effekt im Verhältnis zur Unsicherheit
Die t-Statistik ist definiert als: t = Koeffizient / Standardfehler
Sie zeigt, wie groß der Effekt im Verhältnis zur Unsicherheit ist. Je größer der Betrag |t|, desto deutlicher ist der Effekt gegenüber dem „Rauschen“.
- |t| groß: Effekt hebt sich klar von der Unsicherheit ab
- |t| klein: Effekt ist im Verhältnis zur Unsicherheit schwach
- Daumenregel bei großen Stichproben: |t| um 2 liegt oft in der Nähe von p < 0,05, ist aber keine feste Garantie
p-Wert – statistische Signifikanz des Koeffizienten
Der p-Wert testet die Nullhypothese: H0: Koeffizient = 0. Also: „kein linearer Effekt“. Du vergleichst den p-Wert mit einem Signifikanzniveau alpha, häufig 0,05.
- p < 0,05: Koeffizient ist statistisch signifikant (H0 wird verworfen)
- p ≥ 0,05: Koeffizient ist nicht statistisch signifikant (H0 wird nicht verworfen)
- Wichtig: statistisch signifikant heißt nicht automatisch praktisch relevant, dafür ist die Effektgröße b entscheidend
Unteres 95%-KI und Oberes 95%-KI – plausibler Bereich für den echten Effekt
Das 95%-Konfidenzintervall gibt einen Bereich an, in dem der wahre Koeffizient plausibel liegt, basierend auf deinen Daten und den Modellannahmen. Es ist oft die verständlichste Art, Unsicherheit zu kommunizieren.
- KI enthält 0 nicht: Effekt ist auf dem 5%-Niveau statistisch signifikant
- KI enthält 0: Effekt ist auf dem 5%-Niveau nicht signifikant
- KI ist eng: Effekt ist relativ präzise geschätzt
- KI ist breit: Effekt ist unpräzise geschätzt (oft wegen wenig Daten oder hoher Streuung)
Praktisch kannst du dir merken: Koeffizient sagt dir „wie stark und in welche Richtung“, das 95%-KI sagt dir „wie sicher ist diese Zahl“, und der p-Wert gibt die formale Signifikanz-Entscheidung für ein gewähltes alpha.
7) Saubere Kurzinterpretation in einem Satz
Eine saubere Interpretation kombiniert immer Effekt, Unsicherheit und Modellgüte: Richtung und Größe der Steigung (b), Signifikanz über p-Wert und 95%-KI, erklärte Varianz über R² und die typische Abweichung über RMSE.
Typische Fehler bei der Regressionsanalyse

Typische Fehler bei der Regressionsanalyse entstehen, wenn man Effekte zu schnell als Ursache versteht, wichtige Variablen weglässt oder ein Modell nutzt, das nicht zur Datenstruktur passt.
Korrelation ist nicht Kausalität
Ein Regressionskoeffizient zeigt einen statistischen Zusammenhang in deinen Daten, aber nicht automatisch Ursache und Wirkung. Wenn du Kausalität willst, brauchst du meist ein stärkeres Studiendesign oder zusätzliche Methoden.
Ausgelassene Variablen und Scheineffekte
Wenn eine wichtige Einflussgröße fehlt, kann X einen Effekt „abbekommen“, der eigentlich durch etwas anderes entsteht. Das ist einer der häufigsten Gründe, warum Regression inhaltlich schief interpretiert wird.
- Symptom: Effekte wirken unplausibel groß oder drehen das Vorzeichen
- Ursache: relevante Variable fehlt oder ist schlecht gemessen
- Folge: Koeffizienten sind verzerrt
Falsche Modellform: Nichtlinearität ignoriert
Lineare Regression passt gut, wenn der Zusammenhang grob linear ist. Wenn der Effekt gekrümmt ist, kann das Modell eine falsche Durchschnittslinie ziehen. Das merkst du oft an Residuen mit Muster.
Ausreißer und einflussreiche Punkte
Ein einzelner Punkt kann die Gerade sichtbar kippen. Gerade bei kleinen Datensätzen lohnt sich immer ein Blick darauf, ob einzelne Beobachtungen das Modell dominieren.
Overfitting: zu komplex für die Daten
Wenn du zu viele Variablen oder zu viele Spezialfälle ins Modell packst, passt es vielleicht perfekt auf deine Daten, aber schlecht auf neue Daten. Das ist besonders bei kleinen Stichproben ein Klassiker.
Multikollinearität bei mehreren X
Wenn mehrere unabhängige Variablen fast dasselbe messen, werden einzelne Koeffizienten instabil. Das Modell kann insgesamt trotzdem gut wirken, aber einzelne Effekte sind dann schwer sauber zu deuten.
- Symptom: große Standardfehler und wechselnde Vorzeichen
- Hinweis: Modell sieht gut aus, einzelne Effekte wirken chaotisch
- Ansatz: Variablen reduzieren oder sinnvoll zusammenfassen
Datenleckage: Information aus der Zukunft im Modell
Wenn in X Informationen stecken, die du zum Vorhersagezeitpunkt eigentlich noch nicht kennen kannst, wirkt das Modell künstlich stark. Das ist kein echter Erfolg, sondern ein Messfehler im Prozess.
Beispiele für Regressionsanalyse

Beispiele für Regressionsanalyse zeigen am schnellsten, wofür das Verfahren praktisch genutzt wird: Du quantifizierst Effekte, vergleichst Einflussfaktoren und machst Vorhersagen, ohne dich nur auf Bauchgefühl zu verlassen.
- Effekte messen: Welche Stellschraube hängt wie stark mit dem Ergebnis zusammen?
- Vorhersagen machen: Was ist ein plausibler Zielwert bei bestimmten Eingaben?
- Priorisieren: Welche Faktoren lohnen sich eher, welche eher nicht?
Beispiele: Marketing
Im Marketing wird Regression oft genutzt, um Einflüsse auf Reichweite, Leads oder Verkäufe zu quantifizieren. Wichtig ist dabei, die Aussage als Zusammenhang zu verstehen und sauber zu prüfen, ob wichtige Variablen fehlen.
- SEO: Zusammenhang zwischen Content-Umfang, Rankings und organischen Klicks
- Social-Media-Marketing: Einfluss von Posting-Frequenz und Format auf Interaktionen
- Marketing-Analytics: Effekt von Ladezeit (X) auf Conversion-Rate (Y)
- Performance-Marketing: Zusammenhang zwischen Werbeausgaben (X) und Leads oder Umsatz (Y)
Beispiele: Analytics
In Analytics-Kontexten nutzt du Regression, um Treiber zu identifizieren, Prognosen zu bauen und Effekte von Maßnahmen besser zu quantifizieren. Gerade hier lohnt es sich, verschiedene Modelle zu vergleichen und Ergebnisse mit Plausibilitätschecks abzusichern.
- Advanced-Analytics: Einflussfaktoren vergleichen, Modelle testen, Effekte quantifizieren
- Predictive-Analytics: Zielwerte prognostizieren, z.B. Nachfrage oder Conversion
- Kohortenanalyse: Zusammenhang zwischen Kohortenmerkmalen (X) und Retention oder CLV (Y)
- Customer-Journey-Analyse: Einfluss von Touchpoints (X) auf Kaufwahrscheinlichkeit oder Warenkorb (Y)
Beispiele: Vertrieb
Im Vertrieb hilft Regression, Treiber für Abschlüsse oder Umsatz zu finden und Prognosen zu verbessern. Dabei ist es oft sinnvoll, mehrere X zu nutzen, weil der Abschluss selten nur an einer Variable hängt.
- Lead-Qualität: Zusammenhang zwischen Lead-Score (X) und Abschlusswahrscheinlichkeit (Y)
- Kontaktfrequenz: Einfluss der Anzahl Kontakte (X) auf Abschlussquote (Y)
- Preis: Zusammenhang zwischen Angebotspreis (X) und Abschlussquote (Y)
Beispiele: Projekte
In Projekten kann Regression helfen, Verzögerungen, Aufwand oder Risiken besser zu verstehen. Gerade hier sieht man oft schnell, ob ein Modell zu simpel ist, weil viele Faktoren zusammenwirken.
- Aufwand: Einfluss der Aufgabenanzahl (X) auf Projektstunden (Y)
- Risiko: Zusammenhang zwischen Change-Requests (X) und Terminverzug (Y)
- Kommunikation: Einfluss von Abstimmungsrunden (X) auf Durchlaufzeit (Y)
Die Beispiele sind absichtlich breit, weil die Logik immer gleich bleibt: Y ist die abhängige Variable, X sind die unabhängigen Variablen, und die Koeffizienten geben dir eine Richtung und eine Größenordnung für den Zusammenhang.
Fazit zur Regressionsanalyse

Die Regressionsanalyse ist ein einfaches, aber sehr mächtiges Werkzeug, um Zusammenhänge messbar zu machen und daraus Vorhersagen abzuleiten. Entscheidend ist, dass du nicht nur eine Formel berechnest, sondern die Ergebnisse sauber interpretierst: Welche Variable ist abhängig, welche unabhängig, wie groß ist der Effekt, wie sicher ist er, und wie gut passt das Modell insgesamt.
Wenn du mit Regressionsanalyse arbeitest, lohnt sich ein klarer Ablauf: Daten prüfen, Modell rechnen, Ausgaben lesen und erst dann Schlüsse ziehen. Besonders hilfreich sind dabei die Regressionsgleichung, R², RMSE, die ANOVA-Tabelle und die Koeffizienten-Tabelle, weil sie zusammen ein vollständiges Bild liefern.
Quellen und empfohlene Ressourcen
Die folgenden Quellen ergänzen diesen Artikel zur Regressionsanalyse mit verlässlichen Erklärungen zu linearer Regression, Modellannahmen, ANOVA-Tabelle, Koeffizienten-Tabelle sowie Interpretation von Kennzahlen wie R² und Residuen.
Grundlagen und Methodik
- Bortz, Jürgen; Schuster, Christof: Statistik für Human- und Sozialwissenschaftler – Basis, 1. Semester, viele Beispiele und Tests
- Fahrmeir, Ludwig; Künstler, Rita; Pigeot, Iris; Tutz, Gerhard: Statistik – Der Weg zur Datenanalyse – Basis bis Vertiefung, breite Abdeckung, Datenanalyse-Fokus
- Fahrmeir, Ludwig; Kneib, Thomas; Lang, Stefan: Regression – Modelle, Methoden und Anwendungen – Vertiefung, Regressionsmodelle und Anwendungen
- NIST e-Handbook: Simple Linear Regression (Regressionsanalyse)
- NIST e-Handbook: Multiple Linear Regression (Regressionsanalyse)
- NIST e-Handbook: Regression Diagnostics (Regressionsanalyse)
- Penn State STAT 501: Least Squares Estimation (Regressionsanalyse)
- UCLA OARC: Introduction to Regression (Regressionsanalyse)
- Penn State STAT 501: Inference for the Slope (Regressionsanalyse)
- Penn State STAT 501: The ANOVA Table (Regressionsanalyse)
- Penn State STAT 501: Regression Output and Interpretation (Regressionsanalyse)
- Penn State STAT 501: Model Assessment and Residual Analysis (Regressionsanalyse)
- UCLA OARC: Regression Analysis Output (ANOVA, Koeffizienten) (Regressionsanalyse)
- OpenStax: Regression (Regressionsanalyse)
- NCBI Bookshelf: Box 2 Linear Regression (Regressionsanalyse)
FAQs zu Regressionsanalyse
Was ist eine Regressionsanalyse?
Eine Regressionsanalyse ist ein statistisches Verfahren, das eine Gleichung schätzt, um eine abhängige Variable (Y) mithilfe einer oder mehrerer unabhängiger Variablen (X) zu erklären oder vorherzusagen.
Wie funktioniert eine Regressionsanalyse?
Bei der Regressionsanalyse wird eine Linie oder Kurve so an die Daten angepasst, dass die Vorhersagen möglichst gut zu den beobachteten Werten passen. Das Ergebnis ist eine Regressionsgleichung, mit der du Y aus X berechnen kannst.
Was ist eine lineare Regressionsanalyse?
Eine lineare Regressionsanalyse beschreibt den Zusammenhang zwischen X und Y mit einer Geraden, meist in der Form ŷ = a + b · x. Sie ist passend, wenn der Zusammenhang grob linear ist.
Was ist der Unterschied zwischen Regressionsanalyse und Korrelation?
Korrelation beschreibt Richtung und Stärke eines linearen Zusammenhangs zwischen zwei Variablen. Regressionsanalyse schätzt zusätzlich eine Gleichung und liefert eine Effektgröße, also wie stark sich Y pro Einheit X verändert.
Was ist der Unterschied zwischen Regressionsanalyse und Kovarianz?
Kovarianz zeigt, ob zwei Variablen gemeinsam steigen oder fallen, ist aber einheitenabhängig. Regressionsanalyse liefert eine interpretierbare Gleichung und eine Effektgröße in Einheiten, mit der du Vorhersagen für Y aus X ableiten kannst.
Was bedeutet abhängige Variable und unabhängige Variable?
Die abhängige Variable (Y) ist der Zielwert, den du erklären oder vorhersagen willst. Die unabhängige Variable (X) ist der Einflussfaktor, der Y im Modell mit erklärt.
Wie interpretiere ich das Ergebnis einer Regressionsanalyse?
Du interpretierst das Ergebnis, indem du die Richtung und Größe des Effekts (Steigung b) liest, einschätzt, wie gut das Modell zu den Daten passt (z.B. über R²), und prüfst, ob die Vorhersagefehler in einer sinnvollen Größenordnung liegen (z.B. über RMSE).
Was bedeutet die Steigung (b) in der Regressionsanalyse?
Die Steigung b ist die Effektgröße: Wenn X um 1 Einheit steigt, verändert sich Y im Mittel um b Einheiten. b > 0 bedeutet steigender Zusammenhang, b < 0 bedeutet fallender Zusammenhang.
Was bedeutet R-Quadrat (R²) bei der Regressionsanalyse?
R² zeigt, wie viel der Streuung der abhängigen Variable Y durch das Modell erklärt wird. Ein höheres R² bedeutet, dass die Vorhersagen im Schnitt näher an den beobachteten Werten liegen, bezogen auf die Streuung von Y.
Was ist der Unterschied zwischen einfacher und multipler Regressionsanalyse?
Einfache Regressionsanalyse nutzt eine unabhängige Variable X. Multiple Regressionsanalyse nutzt mehrere X gleichzeitig, um Y zu erklären oder vorherzusagen, und betrachtet Effekte unter Berücksichtigung der anderen Variablen.
Wann ist eine logistische Regressionsanalyse sinnvoll?
Eine logistische Regressionsanalyse ist sinnvoll, wenn die abhängige Variable ein ja-nein Ergebnis ist, zum Beispiel Kauf ja-nein oder Ausfall ja-nein. Das Ergebnis ist dann eine Wahrscheinlichkeit statt eines normalen Zahlenwerts.
Was sind Beispiele für Regressionsanalyse?
Beispiele für Regressionsanalyse sind: Werbebudget (X) und verkaufte Cupcakes (Y), Außentemperatur (X) und Stromverbrauch (Y), Lieferzeit (X) und Kundenzufriedenheit (Y). Die Logik ist immer gleich: Y hängt von X ab, und die Regression quantifiziert den Effekt.
Welche typischen Fehler passieren bei der Regressionsanalyse?
Typische Fehler bei der Regressionsanalyse sind: Zusammenhang als Ursache interpretieren, wichtige Variablen weglassen, falsche Modellform wählen (z.B. starke Nichtlinearität), Ausreißer ignorieren und zu viele Variablen für zu wenig Daten verwenden.
Kann eine Regressionsanalyse Kausalität beweisen?
Eine Regressionsanalyse zeigt in der Regel statistische Zusammenhänge in den vorliegenden Daten, aber sie beweist nicht automatisch Ursache und Wirkung. Für Kausalität brauchst du meist ein passendes Studiendesign oder zusätzliche Methoden, die Störfaktoren gezielt kontrollieren.






