AI-agenter: Från Hype till Handgemäng – Varför Amazons Bråk med Perplexity Spelar Roll

Japp, du har hört det- 2025 ska vara "Agenternas År" inom AI. Men vad betyder det ens?

Jag stöter på det här dagligen. Förväntningarna är skyhöga. Många ser framför sig en magisk assistent där man bara kan säga:

"Fixa avvikelsen i affärssystemet, skicka en notis till chefen, uppdatera verksamhetssystemet och boka ett uppföljningsmöte nästa vecka."

...och så löser AI:n allt.

Låt oss vara ärliga- den typen av heltäckande, kontext-medveten AI automation är fortfarande en bra bit bort. Särskilt för små och medelstora företag. Att få en AI att på ett säkert och tillförlitligt sätt navigera dina specifika system, förstå dina processer och din unika kontext är otroligt komplext.

För att inte tala om de uppenbara säkerhetsproblemen.

Men- det betyder inte att agent-revolutionen är en myt. Den händer precis nu, och den har redan stött på sitt första stora hinder. Låt oss reda ut de olika nivåerna. 🤔

Nivå 1: Research-agenten (Redan här)

Den första nivån av "agent" är något många av oss redan använder. När du ber ChatGPT, Gemini eller Perplexity att "ta reda på allt om X", så nöjer de sig inte med ett enda sök.

De får en uppgift, söker på nätet, värderar informationen de hittar, och söker igen för att verifiera eller fördjupa. Det här är en enkel agent som använder ett verktyg (en sökmotor) för att lösa ett problem. Häftigt, men det ändrar inte våra interna processer.

Nivå 2: Dagens Verklighet- AI + Traditionell Automation (Smal men kraftfull)

Det här är vad som är fullt möjligt idag och som skapar enormt värde för företag. Det är en hybrid-lösning där vi kombinerar Generativ AI med "vanlig" automation (som RPA- Robotic Process Automation- eller API-kopplingar). Detta är praktisk AI-implementering i sin bästa form- smal, fokuserad och värdeskapande. Ett spännande nytt sätt att tänka är MCP (Model Context Protocol), som låter AI:n direkt förstå och interagera med dina system utan att behöva skriva tusen(tals) rader integration-kod.

Låt oss ta ett konkret exempel från industrin:

En operatör upptäcker en avvikelse vid en maskin. Istället för att gå till en dator och fylla i ett krångligt formulär, tar hen upp en padda eller telefon och talar in avvikelsen på en enkel hemsida: "Det är stopp i Maskin 3, läckage av olja vid packningen, hände klockan 14:15."

Här sker saker i två steg:

💡 Generativ AI (Hjärnan): Modellen lyssnar, transkriberar och förstår det som sades. Den extraherar datan och strukturerar den snyggt:
- Maskin: Maskin 3
- Problem: Läckage
- Detalj: Olja vid packning
- Tid: 14:15
⚙️ Traditionell Automation (Händerna): Ett automationsverktyg (som Power Automate, Zapier eller en specialbyggd WebApp) tar sedan dessa perfekt strukturerade datafält och skjuter in dem rakt in i affärssystemet, på en SharePoint-lista eller var de nu ska vara.

Den här lösningen är "smal" och inte speciellt flexibel- den gör exakt en sak. Men den gör den saken otroligt bra och löser ett verkligt problem. Detta är ofta det perfekta första steget för ett SME-företag som vill börja med AI automation utan att ta för stora risker.

Nivå 3: Nästa Steg- När Agenten Börjar HANDLA 💥

Det är här "Agenternas År" blir på riktigt. Och det är här problemen (och de riktigt stora möjligheterna) börjar.

Vi pratar om verktyg som ChatGPT Atlas och den nya AI-webbläsaren Perplexity Comet.

De här verktygen är inte bara research-agenter. De är designade för att agera åt dig. Du ska kunna be dem att "logga in på min e-handel, hitta mina senaste ordrar och gör en retur på den blå tröjan". Agenten ska då gå till sidan, klicka på knappar, fylla i fält och utföra uppgiften.

Och nu har vi fått det första stora, publika bråket.

Amazon har nyligen börjat blockera (eller åtminstone hota) Perplexity Comet. Varför?

Amazons argument: Comet agerar som en bot, och Amazons användarvillkor (ToS) säger att botar måste identifiera sig som botar. De ser det som att Perplexity "skrapar" deras sajt och bryter mot reglerna.
Perplexitys argument: Comet är ingen bot. Det är en "user agent"- den agerar på direkt uppdrag av användaren. Det ska vara precis som om användaren själv var där och klickade.

Det här är inte bara en teknisk tvist- det är en fundamental konflikt om framtiden. Det är exakt de där säkerhets- och kontextproblemen jag nämnde i början som nu dyker upp i verkligheten.

Vem är ansvarig om agenten "klickar fel" och beställer 1000 saker istället för 1? Hur ska en webbplats kunna skilja på en legitim användar-agent och en skadlig bot? Det här är den stora, olösta frågan.

Finns redan- för utvecklare 🤓

Okej, men sanningen är att riktigt kraftfulla agenter redan finns- de har bara varit reserverade för utvecklare.

Vi pratar om verktyg som den AI-drivna kod-editorn Cursor (som jag använde för att bygga TapScribe), eller rena kommandorads-verktyg (CLI) som Gemini CLI och Claude CLI. Det här är inte leksaker. Du kan ge dem otroligt komplexa uppdrag som får "boka ett möte" att blekna.

Tänk dig att du ber din agent:

"Gör en komplett säkerhetsanalys av min webbserver."

Agenten tar då uppdraget, ansluter till servern (via SSH), och börjar jobba. Den kör inte ett kommando- den kör kanske 50.

Den kollar systematiskt öppna portar, vilka mjukvaruversioner som snurrar, om systemet är up-to-date, vilka tjänster som körs. För varje svar den får, bygger den sin förståelse och bestämmer själv nästa logiska kommando för att gräva djupare.

Till slut levererar den en färdig rapport: "Här är din servers status, här är dina tre största brister, och här är kommandona du ska köra för att åtgärda dem omedelbart - eller förresten, vill du att jag kör dom åt dig?"

Det är en enorm nivå av automation och förståelse.

Men- och det här är den stora poängen- att jobba i en svart terminal och ge en AI "root-access" till din server är, ärligt talat, ganska avancerat och rätt läskigt för de flesta... 😇

Det som händer precis nu är att exakt den här kraften- förmågan att resonera och agera i flera steg- flyttar ut från utvecklarnas terminalfönster och in i användarvänliga gränssnitt.

Som webbläsaren. Men ska det bli lika kraftfullt som CLI verktygen måste agenten få flytta in i datorn eller telefonen också...

Sammanfattning

Så, är 2025 "Agenternas År"? Ja, men inte som en magisk knapp som löser allt.

Det är året då vi på allvar börjar övergången.

Vi går från: AI som hjälper oss att skriva och researcha.
Vi går mot: AI som hjälper oss att göra och agera.

Konflikten mellan Amazon och Perplexity Comet är kanske det viktigaste som hänt hittills. Det är det första stora, verkliga testet på hur den här nya världen ska fungera- och vilka regler som ska gälla.

Det här är ingen hype. Det är starten på något helt nytt- och komplicerat.

Och som vanligt är mitt bästa råd: Håll ögonen öppna, var nyfiken och- testa, testa, testa!

🎤 Din tur- Vågar du släppa kontrollen?

Vill du veta mer om hur AI automation och praktisk AI-implementering kan fungera i ditt företag? Eller funderar du på att börja med AI-agenter men är osäker på var du ska börja? Kontakta mig så kan vi diskutera vilket steg som passar just er. Jag hjälper gärna till med allt från AI-föreläsningar till konkreta implementationer. Vill du se ett konkret exempel på hur AI kan integreras direkt med system? Kolla in min video om MCP (Model Context Protocol) i ChatGPT där jag visar hur AI:n kan interagera direkt med en Sharepoint lista.