Så byggde jag TapScribe för PC – från Android-bubbla till offline röstassistent

Så byggde jag TapScribe för PC – från Android-bubbla till offline röstassistent

Så byggde jag TapScribe för PC – från Android-bubbla till offline röstassistent

Under julen slog det mig: varför betalar så många en månadsavgift för röst-diktering när vi faktiskt kan bygga något liknande själva? 🤔 Jag hade redan gjort TapScribe för Android – men jag hörde fler och fler prata om Wispr Flow/”Whisperflow”-typen av appar, och flera sa samma sak: ”Olle, den där bubblan… kan den inte funka på PC också?” Så sagt och gjort. Jag började om från början – på Windows – och det blev ett av de roligaste AI-projekten jag gjort på länge.

Från Play Store till “hur distribuerar man ens en Windows-app?”

När jag byggde TapScribe för Android (som jag berättar om i artikeln om hur jag byggde TapScribe för Android) var mycket “inramat” av plattformen:

  • publicera i Google Play
  • följa Googles regler för tillstånd
  • användaren hittar appen på ett ställe

Windows är… mer vilda västern. 😅 Visst finns Microsoft Store, men jag ville hålla det enkelt och gratis – utan extra licenser och konto-hinder.

AI:n (min ständige sidekick) föreslog därför en lösning som var pinsamt logisk när jag väl såg den:

GitHub Releases.

Du laddar upp en installationsfil, versionsnumrerar, och användaren hämtar senaste versionen utan att du behöver bygga en hel “store”. Det passar dessutom bra med att TapScribe är ett open source-proof of concept och inte ett “stort produktbolag” med en hel distributionsteam-apparat bakom sig.

Vill du testa TapScribe PC hittar du både info och nedladdning här: TapScribe för Android & Windows – och Windows-releaserna ligger på TapScribePC på GitHub Releases.

Den stora skillnaden: integritet, sekretess och 100% offline med KB-Whisper

Här kom den där strategiska skillnaden som gör mig extra glad: PC-versionen kan transkribera helt lokalt.

Android-versionen är byggd för att vara smidig i vardagen och kan använda molntjänster för röst-till-text. Det funkar fint – men det innebär att ljud skickas iväg för transkribering.

På Windows ville jag kunna säga:

“Du kan använda TapScribe utan att din röst lämnar datorn.”

Det är ett viktigt steg för både integritet och GDPR-tänk, särskilt om du jobbar i ett företag med kunddata, interna anteckningar eller bara… ett helt normalt behov av att slippa dela allt med molnet. 😇

Lösningen blev KB-Whisper – Kungliga bibliotekets svenska Whisper-variant som är specialtränad för svenska (läs mer hos Kungliga biblioteket). Svenskt tal in, svensk text ut, och allt sker lokalt.

“Hur svårt kan det vara?” (Spoiler: lagom svårt – men sjukt kul)

Jag har aldrig utvecklat en Windowsprogramvara tidigare. Min erfarenhet av “klassisk” programmering är, om vi ska vara brutalt ärliga, ungefär i nivå med att jag kan öppna en terminal utan att börja svettas. 😁

Men det är här vi kommer till det jag tycker är mest spännande just nu:

💡 Vibe-coding – programmering där du som människa fokuserar på mål, logik och användarnytta, och låter AI göra mycket av kodandet.

Jag började med OpenAI:s Codex och arbetade vidare med Googles verktyg Anti Gravity, en AI-förstärkt editor. Det blev en dialog som påminde mycket om hur jag jobbar med AI-implementering hos företag:

1️⃣ Jag sätter riktningen: “Så här ska appen bete sig.”
2️⃣ AI föreslår kod, struktur, paket och config.
3️⃣ Jag testar, hittar kantfall, och skärper kraven.
4️⃣ AI itererar.
5️⃣ Jag testar igen. (Ja, “testa, testa, testa” är fortfarande grejen.)

Det fina är att jag inte behövde lägga tid på kod (vilket jag inte kan). Istället kunde jag lägga tid på de stora pusselbitarna: arkitektur, säkerhet, UI och användarnytta.

UX: två knappar som förändrade allt

TapScribe PC blev snabbt min vardagsassistent, och mycket av det hänger på en enkel designidé:

  • En knapp för “bara transkribera” (hold-to-talk)
  • En annan knapp för “transkribera + kör en prompt”

Det låter banalt. Men i praktiken är det magiskt.

Exempel: prata → välj prompt → få “färdig text”

Jag håller inne prompt-knappen, pratar, släpper – och väljer sedan vad som ska hända:

✅ “Svara på ett LinkedIn-inlägg”
✅ “Gör detta till ett WhatsApp-meddelande med lagom emojis”
✅ “Skriv ett mejlsvar med tydlig struktur”
✅ “Sammanfatta och föreslå tre nästa steg”

Det fina är att jag slipper skriva om mig själv. Jag pratar som jag tänker – och låter AI hjälpa mig med formatering och tonalitet. Det här är en av de tydligaste formerna av AI-automation i vardagen: små genvägar som sparar minuter här och där – och plötsligt blir det timmar per vecka.

Prestanda: det måste gå fort (annars använder man det inte)

När du bygger röstverktyg finns det en brutal sanning:

📌 Om det känns segt, så dör vanan.

Jag och AI:n bollade därför massor kring modellstorlek, CPU-optimering och “auto-tune” så appen kan anpassa sig efter olika datorer. Windows är allt från arbetsstationer till “en laptop som har varit med sen Karl XII”. 😅

Det blev mycket testande:

✅ min egen dator
✅ några vänners datorer
✅ en och annan “kan du bara testa det här snabbt?”-dator

Varje gång hittade vi något litet: en saknad runtime, en modellfil som hamnade i fel mapp, en inställning som var självklar för mig men obegriplig för en ny användare. Och varje gång: justera, bygga, testa igen.

När AI:n börjar göra saker “i bakgrunden” – och spelplanen ändras

Det här är nog min största wow-insikt från TapScribe PC:

Förr gav AI:n mig ofta steg-för-steg-instruktioner (“ladda ner X, installera Y, kopiera Z”). Den här gången började verktygen göra mer själva: ladda ner dependencies, packa upp, lägga filer i rätt mappar och se till att allt följde med i installationspaketet.

Vi landade tidigt i att bygga på .NET 8, och att vi behövde en C#-vänlig väg till Whisper-prestanda (via en wrapper runt whisper.cpp/KB-Whisper). Jag hade aldrig klarat helheten själv – men jag kunde förstå varför vi gjorde det, och styra upplevelsen för användaren.

För SME-företag är det här en viktig lärdom: när verktygen tar mer av “mekaniken” kan vi lägga mer tid på risk, användarnytta och kvalitet – och ändå komma framåt snabbt. Det är väldigt mycket så jag ser på AI-integration i praktiken: små experiment som snabbt kan bli stabila byggstenar.

Säkerhet & förtroende: varför Windows varnar (och varför det är okej)

En praktisk detalj: eftersom TapScribe PC distribueras utanför en “store” och inte är signerad med dyra certifikat kan Windows SmartScreen varna vid första start.

Det är inte “farligt” i sig – det är Windows sätt att säga: “Jag känner inte igen den här filen.”

Jag har därför försökt vara extra tydlig med:

  • vad appen gör (och inte gör)
  • var data hamnar (lokalt)
  • vilka val som är frivilliga (t.ex. om du kopplar på Gemini/OpenAI för textbearbetning)

Min reflektion: Utan att behöva fokusera på kod kan jag lära de stora penseldragen och börja bygga lösningar direkt!

De senaste 18–24 månaderna har jag gått från “AI är coolt” till att känna:

✨ “AI är ett verktyg som gör att jag kan bygga, testa och lära i en helt ny hastighet.”

Och det är inte bara för att den skriver kod. Det är för att den tvingar mig att formulera vad jag faktiskt vill – tydligt. Jag får vara arkitekt och testare, och AI får vara den där outtröttliga kollegan som aldrig tröttnar på att göra om, göra rätt och göra snyggare.

Det är precis samma tänk jag tar med mig in i mitt jobb som AI-konsult: börja enkelt, gör det praktiskt, mät effekten – och skala upp det som faktiskt funkar.

Key Takeaway

TapScribe PC blev möjligt tack vare vibe-coding: jag fokuserade på målbild, användarnytta och kvalitet – medan AI:n tog mycket av kod- och paketeringsjobbet. Den stora vinsten är offline-transkribering med KB-Whisper, vilket ger bättre integritet och ett tydligt värde jämfört med många abonnemangsappar. Och den viktigaste lärdomen? Testa, testa, testa – för det är i kantfallen som en bra produkt föds.

Vill du veta mer?

Vill du diskutera hur du kan använda generativ AI för att skapa liknande “små superkrafter” i ditt företag – utan att tumma på säkerhet och nytta? Jag hjälper gärna till med AI-workshops, AI-föreläsningar och hands-on AI-implementering via AIOlle.

👉 Läs mer och ladda ner versionen som passar dig: TapScribe
👉 Eller hör av dig via kontaktsidan så tar vi en snabb avstämning.