Datakvalitet — varför AI inte fungerar utan rätt data

44 % av svenska företag säger att deras data inte håller tillräcklig kvalitet för att använda AI. Det visar SCB:s senaste undersökning om AI-användning i företag. Det är en ärlig bedömning. Men de flesta vi pratar med tror att problemet är att de har för lite data. Det stämmer nästan aldrig. Problemet är att ingen vet vilken data som är rätt, var den finns, eller om den går att lita på.

Siffran från SCB bekräftas av internationell forskning. Gartner förutspår att 60 % av alla AI-projekt som saknar AI-redo data kommer att överges före 2027. Deras undersökning visar att 63 % av organisationer antingen saknar eller är osäkra på om de har rätt datahantering för AI. PwC:s globala VD-undersökning 2026 nyanserar bilden ytterligare: 56 % av VD:ar säger att AI inte gett någon mätbar ekonomisk effekt. Men de som har en stark datagrund är 3 gånger mer sannolika att se avkastning. Skillnaden är inte verktygen. Det är datan under dem.

Företag som vill använda AI fastnar redan i startblocken. Inte för att tekniken saknas, utan för att grunden inte håller. Vad datakvalitet faktiskt innebär, vad dålig data kostar i kronor, och vad som behöver vara på plats innan AI kan göra nytta. Det är vad den här texten handlar om.

Sammanfattning

→ 44 % av svenska företag säger att deras data inte räcker för AI (SCB, 2025)
→ Datakvalitet handlar inte om mängd utan om att rätt data finns på rätt plats och går att lita på
→ Dålig data kostar pengar varje dag, men kostnaden är osynlig tills någon mäter den

Gör AI-kollen — 2 minuter, helt gratis

Vad datakvalitet innebär i praktiken

Datakvalitet handlar om 3 saker: att data är korrekt, att den är tillgänglig, och att den går att lita på som beslutsunderlag. Det låter självklart, men i verkligheten är det sällan uppfyllt.

Korrekt data betyder att siffrorna speglar verkligheten. Om en kund registreras med olika kundnummer i ekonomisystemet och CRM:et så vet ingen vad kunden faktiskt köpt. Tillgänglig data betyder att den finns samlad på ett ställe, inte utspridd i 4 system som inte pratar med varandra. Och pålitlig data betyder att ledningsgruppen kan fatta beslut baserat på den utan att först dubbelkolla mot ett Excel-ark.

Vi har sett det konkret hos ett SaaS-bolag vi arbetat med. De hade ett “monster-Excel” för att räkna ut sin kundanskaffningskostnad. Datan matades in manuellt från flera system, och ingen i ledningsgruppen litade på siffrorna. Det visade sig vara en korrekt instinkt, för ingenting stämde. Först när vi kopplat ihop systemen och fått realtidsdata på plats kunde de se att kundanskaffningskostnaden var nästan lika hög som kundens livstidsvärde. Marknadsföringen var ett nollsummespel, men ingen hade kunnat se det förrän datan var rätt.

Vad dålig data kostar

Dålig data kostar pengar på 3 sätt, och de flesta företag ser bara det första.

Den direkta tidsförlusten syns i lönekostnaderna. Personal som manuellt sammanställer rapporter, dubbelkollar siffror mellan system, och rättar fel som uppstår för att data inte stämmer. Men ingen mäter det separat, så det försvinner i brus.

Felbeslut kostar mer. När ledningsgruppen fattar beslut baserat på data som inte stämmer hamnar pengarna fel, men det syns aldrig på en rad i resultaträkningen. SaaS-bolaget vi arbetat med spenderade upp emot 200 000 kr per månad på marknadsföring utan att veta om satsningen var lönsam. De hade massor av data. Problemet var att den var fel.

Och det dyraste: det som aldrig händer. Företag som inte kan lita på sina siffror bygger inte vidare. De automatiserar inte, de investerar inte i AI, och de tar inte de beslut som hade gjort dem snabbare än konkurrenterna. Den kostnaden är omöjlig att räkna ut i efterhand.

Gartner uppskattar att dålig datakvalitet i genomsnitt kostar 12,9 miljoner dollar per år för stora organisationer. Det är enterprisesiffror, men mönstret gäller även för medelstora företag. Skillnaden är inte att problemet är mindre, utan att det är svårare att upptäcka.

I SaaS-bolagets fall sparade den korrekta datan nästan 750 000 kr per år bara i IT-kostnader. Och det var innan de ens började fatta bättre beslut baserat på de nya siffrorna.

Symptom som visar att ert företag har ett dataproblem

De flesta företag vi pratar med vet inte att de har dålig datakvalitet. De vet att “saker tar tid” och att “det är svårt att få fram siffror,” men de kopplar det inte till data. Här är de vanligaste tecknen:

Symptom	Vad det egentligen innebär
”Vi har ett Excel-ark som sammanställer allt”	Data finns i flera system och kopplas ihop manuellt. Ingen integration.
”Fråga Anna, hon vet hur det hänger ihop”	Kunskap om datakällor sitter i huvudet på en person.
”Vi litar inte riktigt på siffrorna i rapporten”	Data är inkonsekvent mellan system. Beslut fattas ändå.
”Det tar 2 dagar att ta fram månadsrapporten”	Manuell datainsamling som borde vara automatiserad.
”Vi har samma kund med olika namn i olika system”	Masterdata saknas. Ingen gemensam källa.

Om 2 eller fler av de här stämmer in på ert företag har ni sannolikt ett dataproblem som kostar mer än ni tror.

Varför datakvalitet är grunden för AI

I AI-trappan beskriver vi 4 steg av digital mognad: Ad hoc (steg 0), Processdriven (steg 1), Datadriven (steg 2) och AI-driven (steg 3). Datakvalitet är grinden mellan steg 1 och steg 2. Utan pålitlig data kan ni dokumentera processer hur bra ni vill, men ni kan fortfarande inte fatta datadrivna beslut.

AI behöver 3 förutsättningar för att fungera i produktion:

Data som är korrekt och komplett. AI som tränas på fel data producerar fel resultat med hög självsäkerhet. Det är farligare än att inte ha AI alls.
Data som är tillgänglig via API. Om data sitter fast i ett system som inte kan kopplas till andra verktyg kan AI inte nå den.
Data som är konsekvent. Samma kund, samma produkt, samma definition i alla system. Annars drar AI slutsatser från brus.

RAND Corporation identifierade “bristande data” och “otillräcklig datainfrastruktur” som två av de fyra vanligaste grundorsakerna till att AI-projekt misslyckas. S&P Global bekräftar trenden: 42 % av företagen övergav majoriteten av sina AI-initiativ 2025, upp från 17 % året innan. Problemet blir alltså värre, inte bättre, i takt med att fler företag kastar sig in i AI utan att ha datan på plats.

Det vi ser när man lägger ihop RAND:s orsaksanalys, SCB:s svenska barriärdata och S&P Globals övergivna initiativ är en kedjereaktion. Företag som inte inventerat sin datakvalitet investerar i AI-verktyg, upptäcker att datan inte håller, och överger projektet. SCB:s 44 % som säger att datan inte räcker och RAND:s 80 % misslyckande är inte separata problem. Det är samma problem mätt från olika håll. De 44 % som SCB identifierar ÄR den grupp som kommer utgöra nästa års misslyckanden.

Det finns nu peer-reviewed forskning som kvantifierar sambandet. Budach et al. publicerade 2025 den första systematiska studien av hur datakvalitet påverkar maskininlärning för klassificering, regression och klustring. Slutsatsen: inkomplett, felaktig eller olämplig träningsdata ger opålitliga modeller. AI ärver och förstärker dataproblemen, som IBM formulerar det. Det innebär att ett företag med inkonsekvent kunddata inte bara får dåliga rapporter, utan att AI-modeller byggda på den datan aktivt sprider felaktigheterna i snabbare takt.

Det finns ett begrepp för det: dataskull. Precis som teknisk skuld ackumuleras dataproblem över tid. Genvägar som verkade rimliga, manuell inmatning istället för integration, Excel-bryggor mellan system, olika kundnummer i olika system, skapar en skuld som gör data-infrastrukturen svårare att underhålla och bygga vidare på. 72 % av erfarna dataansvariga medger att deras dataplattformar tyngs av den här typen av skuld. Den goda nyheten: skulden kan betalas av, men det kräver att man först vet var den finns.

Vi ser det konkret i vår praktik. Företag köper AI-verktyg, kopplar dem till system med inkonsekvent data, och får resultat som ingen litar på. Sedan sprider sig uppfattningen att “AI funkar inte för oss.” Men det var aldrig AI:n som var problemet.

SCB 2025: Cirka 42 % av svenska företag säger att befintliga system inte är kompatibla med AI-verktyg. Det handlar sällan om att systemen är för gamla. Det handlar om att data inte flödar mellan dem. — SCB, AI-användning i företag 2025

Confects kartläggning av AI i svenska företag 2026 visar samma sak från ett annat håll: mest affärsvärde från AI skapas inom automation, ekonomi och analys. Områden där strukturerad data redan finns. Företag som försöker använda AI på ostrukturerad, manuellt sammanställd data ser sällan samma resultat.

Vad “bra nog för AI” faktiskt innebär

Många tror att datakvalitet för AI kräver perfektion. Det gör det inte. Men definitionen av “bra nog” är mer specifik än de flesta tror.

Bra nog innebär 3 saker:

En gemensam källa per datapunkt. Kunddata ska komma från ett system, inte sammanställas från 3. Produktkoder ska vara identiska överallt. Omsättningssiffror ska hämtas automatiskt, inte kopieras manuellt.
Automatisk insamling. Data som matas in manuellt innehåller fel. Det är inte en fråga om ifall, utan om när. Ju mer data som samlas in automatiskt från systemen, desto pålitligare blir underlaget.
Tillgänglig i realtid. Om data bara finns som en månadsrapport som sammanställs manuellt kan AI inte agera på den. AI behöver kunna läsa data löpande.

Det kräver sällan ny teknik. Det kräver att befintliga system kopplas ihop, att datakällor rensas, och att flöden sätts upp så att data hamnar rätt från början.

Från osammanhängande data till AI-redo: en visualisering av hur datakvalitet möjliggör AI Datakvalitet handlar inte om att samla mer data. Det handlar om att den data ni redan har blir tillgänglig, korrekt och konsekvent.

Datakvalitet handlar inte bara om effektivitet. Det är också en juridisk fråga. IMY (Integritetsskyddsmyndigheten) publicerade 2024 vägledning om GDPR och AI, och följde upp med specifik vägledning om GDPR och generativ AI i februari 2025. Budskapet är tydligt: all behandling av personuppgifter i samband med AI kräver en rättslig grund. Det innebär inte att AI med persondata är förbjudet. Det innebär att ni behöver veta vilken data ni har, var den finns, och på vilken grund den behandlas. Det är en datakvalitetsfråga i sig.

Vanliga frågor

Hur vet vi om vår data är “bra nog” för AI?

Ställ 3 frågor: Kan ni ta fram en nyckelrapport utan att fråga en specifik person? Stämmer siffrorna om ni jämför mellan system? Kan data hämtas automatiskt via API? Om svaret är nej på någon av dem har ni grundarbete kvar.

Måste vi byta system för att förbättra datakvaliteten?

Sällan. I de flesta fall handlar det om att koppla ihop befintliga system, rensa masterdata och sätta upp automatiska flöden. Att byta system är dyrt och tar tid. Rätt integrationer löser oftare problemet.

Vad kostar dålig datakvalitet i ett medelstort företag?

Mönstret vi ser är att manuell datahantering och felbeslut baserade på inkonsekvent data kostar minst 200 000 till 500 000 kr per år i företag som omsätter 50 till 200 MSEK. Ofta mer, men det är svårt att se förrän någon mäter det.

Kan vi börja med AI ändå och fixa datan efteråt?

Det är precis den ordning som får AI-projekt att misslyckas. RAND Corporation visar att bristande data är en av de vanligaste grundorsakerna. Att fixa datan efteråt innebär i praktiken att göra om hela implementationen, så då har ni spenderat dubbelt.

Börja med att mäta

Datakvalitet är inte ett IT-problem. Det är ett ledningsproblem, för det påverkar vilka beslut ni kan fatta och hur snabbt ni kan röra er. Företag som fixar datan först bygger den grund som gör AI möjligt. Varje datakälla ni rensar, varje integration ni sätter upp, tar er ett steg närmare den punkt där AI faktiskt fungerar i produktion. Det är inte en omväg. Det är vägen.

Det första steget är att förstå var era processer befinner sig. AI-kollen ger er en första bild på 2 minuter. Den visar vilka processer som har datakvalitet nog för nästa steg, och vilka som behöver grundarbete först.