När generativ AI börjar bli ett visionssystem för industrin

Det började, helt ärligt, med en ganska fånig men livsviktig påskfråga: vilket godis innehåller choklad – och vilket gör det inte? 😇 I en kort video visar jag hur mitt visionssystem sorterar påskgodis åt mig – något som ett traditionellt visionssystem skulle ha väldigt svårt att lösa, för hur ska det veta vilka godisar som innehåller choklad?
En liten demo, absolut. Men precis där slog det mig att något större håller på att hända. Generativ AI är inte längre bara en smart textkompis på kontoret. Den börjar på riktigt överlappa områden som vi tidigare förknippat med klassisk, prediktiv AI – som visionssystem i industrin.

Och det här är faktiskt riktigt spännande för svenska tillverkande företag.

Från påskgodis till plåtdetaljer

Jag träffar många tillverkande bolag i mitt arbete, och en återkommande fråga är kvalitetskontroll med kamera. Behovet finns ofta där. Man vill kontrollera att något sitter rätt, att en detalj är korrekt monterad, att en yta ser okej ut eller att en produkt följer ritningen. Problemet är bara att traditionella visionssystem ofta blir för dyra, för stela eller för krångliga att komma igång med – särskilt för mindre serier eller mindre företag.

Det är här generativ AI börjar bli riktigt intressant.

För det klassiska upplägget har ofta sett ut ungefär så här: samla data, märka upp data, träna modell, testa modell, justera modell, och hoppas att ljuset i fabriken inte beter sig som en diva på fredagseftermiddagen. Det kan fungera jättebra, men det kräver tid, kompetens och ofta ganska mycket tålamod.

Med generativ AI börjar ett annat arbetssätt bli möjligt.

Jag har också gjort en längre genomgång med flera enkla tester, bland annat om en kaffekopp är diskad och om ett legobygge stämmer mot en CAD-ritning.

Istället för att bygga ett system som bara kan en enda sak väldigt väl, kan man ge AI:n en bild, en instruktion och ett sammanhang i klartext. Typ:

“Är den här kaffekoppen diskad?”
“Saknas någon komponent i monteringen?”
“Stämmer den här legobiten mot referensen?”
“Ser bockningen ut att följa ritningen?”

Det är något väldigt häftigt i det där. Vi går från att träna ett specialiserat system till att i högre grad beskriva vad vi vill att systemet ska bedöma. Det är inte magi. Men det känns lite magiskt första gången man ser det fungera.

Vad är det egentligen som förändras?

Det viktiga här är inte att generativ AI plötsligt är “bättre på allt” än klassiska visionssystem. Det tror jag inte alls att man ska säga. Det viktiga är att tröskeln sjunker drastiskt.

Det betyder i praktiken att fler företag kan testa, lära sig och skapa värde mycket snabbare.

💡 Tidigare kunde frågan vara: “Har vi råd att bygga/köpa ett visionssystem för detta?”

Nu blir frågan snarare: “Kan vi testa det här redan i eftermiddag?”

Det är en enorm skillnad.

Det som gör utvecklingen så intressant är bland annat detta:

✅ Mindre behov av stora träningsdataset
För många enklare eller halvstrukturerade uppgifter kan man komma ganska långt utan att först samla tusentals bilder.

✅ Mycket högre flexibilitet
Samma grunduppsättning – kamera, modell och ett gränssnitt – kan användas till helt olika uppgifter. Ena minuten monteringsstöd, nästa minut avvikelsekontroll, därefter lagerinventering.

✅ Snabb omställning
Om produkten ändras, eller om man vill kontrollera något nytt, kan man justera instruktionen istället för att dra igång ett helt nytt utvecklingsprojekt.

✅ Lägre tröskel för SME-företag
Det här är kanske den största grejen. För mindre bolag, där volymerna inte alltid motiverar klassiska speciallösningar, öppnas plötsligt en ny dörr.

För mig är det här kärnan i praktisk AI. Inte att bygga något futuristiskt för sakens skull, utan att göra tekniken tillgänglig där den tidigare inte varit rimlig.

Generativ AI och prediktiv AI börjar mötas

Jag tror att många fortfarande tänker på generativ AI som något som skriver texter, gör bilder eller hjälper till med mötesanteckningar. Och ja, det gör den ju. Men när modellerna blir multimodala – alltså kan tolka både text, bild, video och ibland ljud i samma flöde – då händer något.

Då börjar gränsen mellan “generativ AI” och “klassisk AI” bli suddigare.

Förr var rollerna ganska tydliga:

Generativ AI skapade innehåll.
Prediktiv AI klassificerade, förutsåg eller upptäckte avvikelser.

Nu ser vi modeller som i praktiken klarar delar av båda världarna.

De kan beskriva vad de ser, resonera kring avvikelser, jämföra mot instruktioner, tolka ritningar och samtidigt svara på frågor i naturligt språk. Det gör att de inte bara blir ett kontrollsystem, utan också ett stöd för operatören.

Det här är viktigt.

För i industrin handlar det sällan bara om att säga “rätt” eller “fel”. Ofta är det minst lika värdefullt att kunna säga varför något verkar fel.

Exempelvis:

👉 “Skruven verkar saknas i övre vänstra hörnet.”
👉 “Bockningen avviker från referensen längs den bakre kanten.”
👉 “Objektet ser inte fullständigt monterat ut jämfört med instruktionen.”

Där blir AI:n inte bara en domare, utan också en hjälpande kollega. En otroligt snabb sådan dessutom.

Men lugn nu – allt är inte löst bara för att det ser coolt ut

Här behöver vi vara realistiska också. För det här är inte en artikel om att allt gammalt ska kastas ut genom fabriksfönstret.

Klassiska visionssystem har fortfarande stora styrkor, särskilt när det gäller:

mycket höga hastigheter
extrem repeterbarhet
hårt kontrollerade miljöer
certifierade kvalitetsflöden
mycket låg tolerans för fel

Det vore direkt slarvigt att påstå att generativ AI redan idag ersätter allt detta rakt av.

Men den kan mycket väl komplettera det. Och i vissa fall ersätta delar av det.

Det finns också några saker man måste tänka igenom ordentligt:

📌 Validering
Bara för att AI:n låter självsäker betyder det inte att den har rätt. Testa, testa, testa.

📌 Svarstid
På ett fabriksgolv spelar sekunder roll. I vissa flöden räcker det gott. I andra är det för långsamt.

📌 Robusthet
Ljussättning, vinklar, smuts, variation i material och mänskligt handhavande påverkar resultatet.

📌 Datasäkerhet
Alla vill inte skicka bilder eller produktdata till molnet. Den goda nyheten är att det i allt större utsträckning finns lokala och mer kontrollerade alternativ.

Det sista där tror jag blir extra viktigt i svensk industri. Många företag är nyfikna på AI, men vill samtidigt ha kontroll över sin data, sina ritningar och sina processer. Helt rimligt, ska sägas.

Varför det här spelar roll för svensk industri

Det mest värdeskapande med den här utvecklingen är kanske inte att AI:n kan känna igen choklad i påskgodis – även om det naturligtvis är en samhällsbärande funktion i vissa hem.

Det viktiga är att generativ AI gör avancerad teknik mer tillgänglig.

När kostnaden för att testa går ner, när tiden till första prototyp krymper och när man inte behöver vara ett storbolag för att ens börja, då händer det grejer. Då kan fler små och medelstora företag börja använda AI på riktigt, inte bara prata om det i konferensrum med halvljummet kaffe.

Och det är där jag tror att vi står nu.

Inte i mål. Verkligen inte. Men vid en punkt där generativ AI börjar överlappa klassiska prediktiva AI-system på ett sätt som gör praktisk AI implementering mycket mer realistisk för fler företag.

Det är, tycker jag, väldigt goda nyheter.

Key Takeaway

Generativ AI håller på att ta steget från kontoret ut på fabriksgolvet och börjar överlappa klassiska visionssystem inom industrin. Den stora skillnaden är inte att all gammal teknik blir irrelevant, utan att tröskeln för att testa AI-baserad visuell kontroll sjunker kraftigt. För svenska SME-företag kan det här bli ett riktigt viktigt steg mot mer praktisk AI, snabbare AI integration och fler värdeskapande användningsfall.

Vill du veta mer?

Är du nyfiken på hur generativ AI skulle kunna användas i er produktion, kvalitetskontroll eller montering? Jag på AIOlle hjälper gärna till med praktiska resonemang, AI workshop, AI föreläsning eller som AI konsult för att identifiera var tekniken faktiskt kan skapa värde. Hör gärna av dig via e-post om du vill bolla idéer.