03 / FAQ
Haeufige Fragen zur OKR-Qualitaet, den Anti-Patterns, die der Rubric prueft, und wie OKR Orca funktioniert.
Der Score ist eine Normalisierung auf 0-100 aus einem 7-Kriterien-Rubric. Jedes Kriterium gibt 0, 1 oder 2 Punkte. Die KR-Kriterien (Outcome-Form und Messbarkeit) gelten pro Key Result, daher hat ein Set mit drei KRs mehr Punkte im Spiel als eines mit einem. Die Rohpunkte werden auf eine 0-100-Skala normalisiert.
Vier Stufen: 0-33 ist Kritische Maengel (strukturelle Kernfehler, das OKR kann so nicht nachverfolgt werden), 34-55 ist Schwach (Luecken, die mitten im Quartal Probleme machen), 56-77 ist Stark (solide Basis, kleinere Schaerfungen noetig), 78-100 ist Exzellent (commitbar wie es steht). Volle Methodik findest du auf der Methodik-Seite.
Neuformulierungen sind Ausgangspunkte, keine finalen Antworten. Der Rubric ist die Wahrheitsinstanz: Wenn ein Vorschlag immer noch ein Output-Verb enthaelt oder eine Baseline fehlt, ist er immer noch fehlerhaft, egal wie poliert er klingt. Du kannst jede Neuformulierung in die Eingabe kopieren und erneut diagnostizieren. Die Regelmaschine bewertet lokal in unter einer Sekunde, kein Key noetig.
Modelle produzieren gelegentlich fluente, aber strukturell schwache OKRs. Die Disziplin ist, den Rubric auf die Neuformulierung anzuwenden, statt sie zu akzeptieren, weil sie gut klingt. Eine Neuformulierung, die unter 56 punktet, braucht einen weiteren Durchgang.
Etwa 0,02-0,04 USD fuer eine 6-10-Runden-Session mit GPT-4o-mini. Claude Sonnet kostet etwas mehr, ungefaehr 0,08-0,15 USD fuer die gleiche Gespraechslaenge. Der Regelmaschinen-Vorscore im Diagnose-Modus ist kostenlos, unabhaengig vom Key. Nur der LLM-Analyse-Schritt verbraucht API-Guthaben, je nach Anbieter und Modell etwa 0,001-0,015 USD pro Analyse.
Der Coach-Modus ist begrenzt: er sendet deine vollstaendige Gespraeachsgeschichte bei jedem Zug, laengere Sessions kosten also mehr. Eine Session, die nach 15 Zuegen noch kein Ergebnis hat, kostet spuerbar mehr als eine, die in 6 zu einem Entwurf kommt.
Das zuverlaessigste Signal sind Key Results, die Arbeit beschreiben statt Ergebnisse. "Onboarding-Redesign launchen," "Auf die neue Plattform migrieren," "User-Research abschliessen": das sind Aufgaben. Sie gehoeren ins Sprint Backlog. Ein Key Result sollte beschreiben, was sich fuer eine echte Person aendert, nachdem die Arbeit getan ist, nicht die Arbeit selbst.
Das zweithaeufigste Problem ist Vagheit, die als Ambition durchgeht. "Kundenzufriedenheit verbessern" klingt nach einem Ziel. Ist es nicht. Ohne Baseline, Zielwert und Datenquelle ist es nur ein Feldname. Du koenntest es erreichen oder verfehlen und es nie wissen. Ein Rubric-Check findet beide Probleme in unter 60 Sekunden.
Ja, und das ist eigentlich ein Zeichen fuer ein gut geschriebenes. Das OKR-Framework reserviert Zahlen fuer Key Results, aber es gibt kein Gesetz gegen ein Objective mit einer spezifischen, beobachtbaren Bedingung. "Median-PR-Durchlaufzeit kuerzen, damit Teams taeglich bis Ende Q3 in Produktion shippen koennen" ist gerichtet und messbar.
Die relevante Unterscheidung ist die Abstraktionsebene zwischen Objective und KRs. Das Objective nennt den gewuenschten Zustand. Die KRs beweisen, dass er erreicht wurde. Wenn dein Objective spezifisch genug ist, um als eigenes KR zu funktionieren, pruefe ob es eigentlich das Ergebnis statt die Ambition beschreibt. Das ist nicht falsch, nur eine andere Struktur als das klassische Format.
"X launchen" ist Output-als-KR. Es beschreibt eine Aktion deines Teams, keine Veraenderung, die in der Welt geschieht, weil du sie gemacht hast. Der Test ist einfach: Wenn du das KR erreichst und sich nichts fuer einen echten User aendert, ist es kein KR.
Jeder Launch ist eine Wette auf ein Ergebnis. Schreib das Ergebnis stattdessen. Wenn du ein Self-Service-Billing-Portal launchst, koennte das Ergebnis sein: "Kunden, die ihren Plan ohne Support-Kontakt aendern, von 12% auf 45%." Jetzt kannst du in Woche 8 sagen, ob der Launch wirklich funktioniert hat. Ein "Launch bis Datum"-KR gibt dir ein binaeres Gruen am Liefertag und null Information darueber, ob die Wette aufgegangen ist.
Der Fix ist eine Frage: Was ist nach dem Launch fuer User anders? Schreib das.
Nenne den Akteur und die konkrete Handlung. "Engagement um 25% erhoehen" scheitert, weil Engagement undefiniert ist. Engagement von was, von wem, auf welcher Flaeche, verglichen womit? Eine Vanity Metric ist jede Zahl, die steigen kann, waehrend das, was dir wirklich wichtig ist, gleich bleibt oder schlechter wird.
Der Ersatz-Test: Kann ich mir ein plausibles Szenario vorstellen, in dem diese Metrik steigt und das Geschaeft schlechter wird? Wenn ja, ist es eine Vanity Metric. Pageviews steigen, wenn du minderwertige Inhalte veroffentlichst. E-Mail-Oeffnungsraten steigen, wenn du panikerzeugende Betreffzeilen verwendest, die Vertrauen erodieren. Tausch die Vanity Metric gegen die Verhaltensaenderung aus, die sie repraesentieren sollte: "Blog-Leser, die eine kostenlose Testversion starten, von 1,4% auf 3,2%" laesst sich nicht so leicht austricksen.
Ich habe Teams gesehen, die einen 40%igen Engagement-Anstieg in einem Quartal feierten, in dem die Netto-Umsatzretention gesunken ist. Sie haben die falsche Sache gemessen. Der Rubric markiert dieses Muster als Vanity Metric und fragt dich, den Akteur zu nennen.
OKRs, die garantiert erfolgreich sind, sind Planungstheater. Wenn das Ziel auf einem Niveau liegt, das das Team ohnehin erreichen wuerde, ohne seine Arbeitsweise zu aendern, treibt das OKR nichts an. Es ist nur ein Fortschrittsbericht in einem anderen Format.
Ambition erzwingt ein Gespraech darueber, was stimmen muesste, damit das gelingt. "Aktivierungsrate verdreifachen" zwingt das Team, den Onboarding-Funnel neu zu denken. "Aktivierung um 5% steigern" erlaubt inkrementelles Tweaking. Das erste Gespraech ist interessanter und fuehrt eher zu echtem Wandel.
Die Kalibrierungsfrage: Wenn wir 70% davon erreichen, wuerden wir zufrieden sein? Wenn ja, ist das Ziel wahrscheinlich zu niedrig. Wenn 70% wie eine echte Leistung wirken wuerde, liegt das Ziel wahrscheinlich im richtigen Bereich.
Ja, und die meisten Teams haben das. Drei bis fuenf Key Results pro Objective sind die praktische Obergrenze. Darueber hinaus hoert das Set auf, ein Priorisierungsmechanismus zu sein, und wird ein Verpflichtungskatalog. Wenn alles ein Key Result ist, ist nichts eines.
Die nuetzlichere Frage ist, ob jedes KR den So-Was-Test besteht: Wenn dieses KR rot wird, wirft das Team alles stehen und liegen, um es zu untersuchen? Wenn die Antwort "wir wuerden es bemerken, aber weitermachen" lautet, ist das KR nicht wichtig genug fuer das Set. Teams, die sieben oder acht KRs schreiben, sichern sich ab statt zu planen.
Ein Set von drei scharfen KRs, das das Objective wirklich abdeckt, ist mehr wert als sieben KRs, bei denen zwei die Hauptlast tragen und fuenf nur fuer Abdeckung da sind.
Woechentliche Check-ins zum KR-Fortschritt, formale Bewertung zur Halbzeit und am Ende des Zyklus. Der woechentliche Check ist keine Bewertungsuebung, sondern ein Signalcheck. Bewegen sich die Zahlen? Wenn nicht, warum nicht? Die Halbzeit-Bewertung ist der Moment, an dem du entscheidest, ob du Umfang, Zielwerte oder Ansatz anpasst. Die Bewertung am Zyklusende ist der Retrospektive-Input.
Das Fehlermuster: Teams, die den Halbzeit-Review ueberspringen und am Ende des Quartals feststellen, dass zwei KRs nie messbar waren, weil die Instrumentierung nie aufgebaut wurde. Ein Mid-Cycle-Check erzwingt dieses Gespraech in Woche 6 statt in Woche 13.
Das Bewertungsformat ist weniger wichtig als der Rhythmus. Eine 0-1-Vertrauensbewertung im woechentlichen Standup ist nuetzlicher als eine Quartals-Scoring-Zeremonie, die niemand liest.
Nein. "7 von 10" ist fast immer eine Vanity Metric oder ein Platzhalter im Disguise. Die erste Frage: 7 von 10 auf was? Wenn es ein NPS-Survey oder CSAT-Formular ist, koennte das eine echte Metrik mit einer echten Baseline sein. Wenn es die subjektive Bewertung einer Fuehrungskraft fuer einen Prozess ist, ist es ueberhaupt keine Metrik.
Das tiefere Problem: Punktskalen auf nicht standardisierten Instrumenten sind manipulierbar und nicht handlungsleitend. Wenn du 6,8 statt 7 erreichst, was machst du anders? Wenn du 7 erreichst, was hat sich veraendert? Die Metrik muss an einen spezifischen Akteur, ein spezifisches Verhalten und eine spezifische Datenquelle geknuepft sein, bevor sie als KR funktioniert.
Der Test, den ich anwende: Koennen zwei verschiedene Teammitglieder diesen Score unabhaengig voneinander mit derselben Datenquelle verifizieren? Wenn ja, koennte es funktionieren. Wenn eine Person 6,5 und eine andere 7,2 mit denselben Belegen geben wuerde, ist die Metrik nicht spezifisch genug, um ein KR zu sein.