Publicerad: Text: Max Dyrhage Lästid: 7 min

11 framtidsspaningar för experimentering i produktbolag

Signific firar 5 år – ett helt halvt decennium av att hjälpa produktbolag att arbeta smartare med data, maskininlärning och AI. Mycket har hänt på den tiden, och vi har kommit betydligt längre än vi ens vågade drömma om när vi startade.

Experimentering och A/B-tester har varit en hjärtefråga från dag ett, och när vi blickar framåt har vi samlat våra bästa spaningar om vart området är på väg de kommande fem åren.

Det här är en text om experimentering. Men egentligen är det en text om något större: hur moderna produktorganisationer lär sig snabbare än världen förändras.

Experimentering har länge setts som något taktiskt – ett sätt att validera en feature. Men de bolag som vinner i dag, och kommer dominera imorgon, använder experiment som en strategisk kapacitet. En motor. Ett sätt att organisera sig. En kultur.

Efter att ha följt utvecklingen på nära håll – från nya plattformar som Confidence (by Spotify) och Statsig till bolag som King, Avanza och SVT – är det tydligt att något skiftar. Här är våra gissningar av vart vi är på väg.

1. Experimentering flyttar från “analyst-last” till “developer/creator-first”

Framtidens verktyg (som dagens Statsig, Confidence, Eppo, Optimizely eller egenbyggt) kommer vara:

  • API-first
  • automatiserat i CI/CD
  • experiment definieras i kod, inte trackingspecar och tickets

Det betyder att produktteams kommer sätta upp tillförlitliga experiment snabbare än dataanalytiker kan hinna säga nej.

Vad ser vi för signaler?

Redan idag är det en utmaning för många analysavdelningar att en kommer in för sent i experimentprocessen. Tester sätts upp, men kanske inte alltid på rätt sätt och med rätt mätpunkter och blir ett härke att försöka analysera efteråt.

Med ännu lättare uppsättning av A/B-tester och rollouts som integrerad del i hur kod släpps blir vi snabbare, men gör nog bäst att se till att det görs på rätt sätt.

Organisationer måste därför investera i governance som inte bromsar – men skyddar kvalitet.

2. ML-assistenter för power-analys, MDE och varaktighet blir standard

Inga fler frågor som Hur länge behöver vi köra det här testet? Experimentplattformar/modeller/agenter kommer automatiskt:

  • beräkna MDE baserat på historisk varians
  • föreslå optimal tid och schemaläggning
  • anpassa testets längd i realtid

Många bolag har redan investerat i interna system som gör detta. Det är också en del av moderna, kommersiella plattformar.

Vad ser vi för signaler?

Vanlig fråga vi stöter på idag där diverse sample size-kalkylatorer snurrar runt parallellt med Gantt-iga releasescheman. Något som tar upp dyrbar tid från Data Scientists och skapar huvudbry för PM:s och organisationer. Som tur är blir det snart ett minne blott.

3. Personaliserad experimentering (per segment, per användare)

I stället för ett testen vinnare börjar vi se:

  • modeller som upptäcker heterogen behandlingseffekt (Varianten funkar för vissa, men inte andra)
  • autosplit av vinnare per persona / cohort / funnel stage
  • “Dynamic winners” där systemet själv anpassar exponering

Spotify och King har testat detta internt länge – och verktyg som Statsig/Eppo/Confidence har stöd för liknande.

Vad ser vi för signaler?

Något som tidigare var en lyx för techjättarna börjar möjliggöras och utforskas för fler. Det har även testats av startups med blandad framgång, men ger nog en fingervisning vart det barkar för fler produkter.

I många A/B-tester har vi sett en uplift för en viss grupp, men likt förbaskat blir beslutet om det ska lanseras till alla eller inte.

Detta kommer att ställa en hel del krav på hur produkter monitoreras, supporteras och utvärderas när den funkar olika för olika användare, men kan vara där särskilt stora bolag med breda användarbaser kan hitta uppsida hos vissa segment.

4. Experimentering runt AI-assistenter, rekommendationssystem och LLM-flöden exploderar

Alla AI-drivna funktioner kräver:

  • offline-evaluering
  • simuleringar
  • procentuell routing av modeller
  • guardrail-metrics för hallucinationer, och latency

Hur vet vi att det funkar IRL?

Ett svar: A/B/n-test av modellversioner som mäter affärs- och användarvärde i kombination av ”ML-mått”.

A/B-test av machine learning blir alltså en helt egen kategori.

Vad ser vi för signaler?

Något vi skrivit om tidigare och ser allt mer och mer hos våra kunder. Bolag som Opper och som features hos agent- och experimentplattformar försöker göra det möjligt.

5. Synthetic control, CUPED 2.0 och orsakssamband blir mainstream

Experimentering går från deskriptiv statistik → kausal inferens.

Områden som nu utforskas blir standard för oss andra.

  • Synthetic controls (Spotify)
  • Artificial Counterfactual Estimation (Airbnb)
  • CUPED med ML-estimerade covariater (Cure från Statsig)
  • Diff-in-diff och uplift-modellering automatiserad (Claire Schultzberg et al)

Det kommer möjliggöra:

  • kortare test
  • med färre användare
  • till lägre kostnad

Detta är måhända mer känsliga metoder än våra gamla goda A/B-test – men extremt kraftfulla om en håller tungan och datat rätt i mun.

Vad ser vi för signaler?

Många svenska bolag trilskas med utmaningen att ha för få användare att testa på. Även produkter med stora mängder användare stöter på samma utmaning när många tester vill köras samtidigt. Även detta något vi skrivit om tidigare.

Bolag som Eppo och Statsig gick till marknaden med statistiska trollformler för oss mugglare och i takt med ökad förståelse för detta kan fler bolag köra tester oftare. Och för er som redan gör det, möjlighet att snabbare hitta signal genom bruset.

Vill du prata om modern produktledning?

Hör av dig till Max eller Gustav så tar vi gärna ett möte.

6. “Always-on” experimenteringsplattformar i hela produktlivscykeln

Experimentation flyttar uppströms och blir något vi kan göra redan när vi sitter med:

  • idéer
  • hypoteser
  • design
  • kod
  • content

Experiment används inte längre bara för att validera färdiga funktioner utan redan tidigt i processen

Vad ser vi för signaler?

Produkter som Lovable och Figma Make gör tid från idé till prototyp mycket kortare och vi sitter alla med diverse vibe-code-verktyg för vanliga mjukvaruutvecklingen – snart går det direkt ut till faktiskt test mot användare. Det är inte riktigt där än kanske, men nog inte långt bort heller.

7. Feature flagging blir standard

Feature flags blir fundamental infrastruktur som möjliggör:

  • progressive rollouts
  • säkra deployments
  • decoupled releases
  • kill-switches

Frågan Hur funkar vår app blir dock eventuellt lite svårare att svara på.

Vad ser vi för signaler?

Kanske inte den vildaste gissningen på listan då det är något många bolag gör idag, men får ändå säga att det är en bit från standardförfarande.

Produkter som LaunchDarkly och open source-alternativ som Unleash var tidiga på detta, men vi ser alltmer hur detta vävs ihop med både CI/CD och som självklar komponent i en experimentplattform.

8. Experimentering blir mer etiskt reglerat

När det blir lättare för fler att experimentera kommer bolag behöva guidelines för:

  • hur man får experimentera på användare
  • vilka mål man inte får optimera (t.ex. beroende-inducerande loops)
  • hur man undviker att skada sårbara grupper
  • transparenta guardrails (”vi optimerar inte för mer än X sessions/day”)

Vad ser vi för signaler?

Techjättarna har sedan en tid fått kritik relaterat till detta, men inte riktigt varit en aspekt som vi stött på alltför ofta i praktiken än så länge. Men det kan ha att göra med våra typer av kunder och deras produkter, affärsmodeller samt skala än något annat. Netflix har för länge sedan pratat om sömn som deras största konkurrent, men det är som tur är inte riktigt en strategisk take hos Public Service-bolag i Sverige t.ex.

Det vi ser nu med EU:s AI Act och andra regleringar kan vara en försmak på något som vi experimenterare behöver förhålla oss till när vi teoretiskt kan optimera mot vad vi vill.

Vill du jobba med modern produktutveckling?

Hör av dig till Max eller Lovisa så tar vi gärna ett möte.

9. Experimentering blir korsfunktionellt på riktigt

Experiment bor inte längre bara hos Growth och/eller Product. Företag kommer integrera A/B-test i:

  • marknad
  • pricing
  • CRM
  • support
  • content generation

Vad ser vi för signaler?

Experiment är görs ofta i flera av dessa delar redan idag, men görs ofta i olika SaaS-tjänster, med olika datakällor och på olika sätt. Om vi nu går mot SaaS-döden och när det mesta blir Warehouse-native så kanske dessa silos bryts upp och vi ser experiment som något vi gör över hela kundresan snarare än i ett verktyg i taget.

10. Plattform-team för experimentering (“Experimentation Enablement”) blir kritiskt

Alla bolag över typ 200 anställda kommer behöva ett team som:

  • äger metodik
  • bygger standard-KPI:er
  • kvalitetssäkrar statistiska metoder 
  • skapar utbildningar
  • håller verktygsstacken i ordning och reda

Precis som Data Platform team idag – men för experiment.

Vad ser vi för signaler?

Redan standard hos många som Spotify, Avanza m.fl, men för övriga som vill få ROI från sin finfina datasatsning så ställer det lite nya krav på rena dataplattformsteam. Som om det inte vore tillräckligt att ratta data warehouse, analysverktyg, governance, semantiska lager osv så ska dom nu också ska vara experimentexperter.

Det blir minst ett område för mycket, men utan det sätts samtidigt höga krav på produktteam att själva göra tillförlitliga experiment.

För att skala experiment och testa rätt sak på rätt sätt får experimentplattformsteam en nyckelroll. Utan att för den skull vara en gate-keeper.

11. LLMs skriver och prioriterar hypoteser (och gör lite till)

Rimligen borde vi kunna be en LLM/Agent med tillgång till vår nytvättade data att “Write me 30 testable hypotheses for reducing time-to-first-value among new creators”. 

Agenten borde också kunna snacka med vårt data warehouse, checka av tidigare lanseringar och MCP:a med experimentplattformen och be den “Rank these 30 based on cost-of-delay, MDE-feasibility and prior lift distributions.”

Slutligen, borde vi också kunna be ett gäng agenter att ”build out a MVP of the top ranked hypotheses with a few variants isolating variables related to risky assumptions following our design guidelines. And once you are done, launch this as an A/B-test and monitor the results and ping me with the winning variants. And after that, launch that feature to the most relevant group. And ping my boss about this awesome result”

(Vet inte varför jag blandade in engelska här)

Snarare än att gneta på i olika SaaS-tjänster kommer vi experimenterare precis som alla andra kroka arm med agenter och AI och göra allt vi kan för att vara till hjälp.

Vad tror ni?

Vi tror och hoppas att förmågan att validera och snabba på lärande både är en konkurrensfördel för företag och något som kan lösa affärs- och samhällsproblem. Med stor kraft kommer stort ansvar och förhoppningsvis kan vi om fem år se tillbaka på en tid där vi experimenterat oss till bättre produkter, användarupplevelser och samhälle.

Har du några andra spaningar? Eller något du tycker är helt åt fanders? Eller bara vill prata experiment, data och ML här och nu? Feel free att höra av dig – vi pratar gärna!