Jämför AI-modeller i praktiken

Vad går uppgiften ut på?

Under de kommande veckorna ska ni arbeta med att jämföra och utvärdera olika AI-modeller genom praktiska experiment. Ni kommer att genomföra samma uppgifter med olika verktyg och kritiskt granska resultaten. Målet är inte att lära er alla verktyg i detalj, utan att utveckla förmågan att välja rätt verktyg för rätt situation och förstå begränsningar.

Fokus

Jämföra olika AI-verktyg på identiska uppgifter

Analysera styrkor och svagheter hos olika modeller

Bygga kritiskt tänkande kring AI-resultat

Förstå när olika verktyg passar bäst

Arbetsform

Ni arbetar parvis för att kunna diskutera och jämföra observationer

Dokumentera allt – varje test, varje resultat, varje reflektion

Ni får använda AI-verktygen för att lösa uppgifterna, men era analyser och reflektioner ska vara era egna

Redovisa i ett delat Google Dokument med tydlig struktur

AI-modeller ni ska testa

Ni ska arbeta med minst fem olika AI-modeller som är tillgängliga gratis:

1. ChatGPT (OpenAI)

Tillgång: chat.openai.com

2. Gemini (Google)

Tillgång: gemini.google.com

3. Claude (Anthropic)

Tillgång: claude.ai

4. Grok (xAI)

Tillgång: grok.com

5. DeepSeek

Tillgång: chat.deepseek.com

Anpassa efter tillgänglighet
Om något verktyg inte är tillgängligt, ersätt med ett annat LLM-verktyg, exempelvis:

Perplexity AI

Microsoft Copilot

Uppgifternas struktur

Uppgiften är uppdelad i sex olika testområden där ni genomför identiska uppgifter med alla modeller och sedan jämför resultaten.

För varje testområde ska ni:

Utföra uppgiften med varje modell
Dokumentera resultaten (kopiera svar, spara bilder, skapa skärmdumpar)
Jämföra utfallen i en tabell
Reflektera över styrkor, svagheter och användningsområden

Del A: Besvara faktafrågor

Syfte: Testa modellernas kunskaper och hur de hanterar faktainformation.

Uppgift

Ställ samma tre frågor till alla modeller:

Enkel faktafråga: “Vad är huvudstaden i Australien?”
Komplex faktafråga: “Vilka länder delar gräns med Schweiz och vad är deras huvudstäder?”
Aktuell händelse: “Vad hände vid senaste OS och var hölls det?”

Dokumentera

Skapa en tabell:

Fråga	ChatGPT	Gemini	Claude	Grok	DeepSeek
Australiens huvudstad
Schweiz grannar
Senaste OS

Reflektera

Vilken modell gav mest korrekta svar?
Fanns det skillnader i hur detaljerade svaren var?
Hur hanterade modellerna osäkerhet eller felaktig information?
Vilken modell hade mest uppdaterad information?

Del B: Research och sammanfattning

Syfte: Testa modellernas förmåga att samla information och presentera den på ett strukturerat sätt.

Uppgift

Be alla modeller om samma research-uppgift:

Prompt: “Ge mig en kort översikt (max 200 ord) över artificiella neuronnätverk: vad de är, hur de fungerar och ett praktiskt användningsområde. Skriv för en person som går i gymnasiet.”

Dokumentera

Kopiera hela svaret från varje modell
Räkna ord (ungefär)
Bedöm läsbarhet (1-5, där 5 är mycket lättläst)

Reflektera

Vilken modell gav mest lättförståeligt svar?
Vilken modell följde instruktionen om ordgräns bäst?
Fanns det faktafel i något svar?
Vilken ton/stil hade respektive modell (formell, vardaglig, akademisk)?

Del C: Bildgenerering (om tillgängligt)

Syfte: Testa bildgenererande förmågor hos modeller som stödjer det.

Anpassning
Alla modeller stödjer inte bildgenerering. Testa de som kan. Om ni inte har tillgång kan ni hoppa över denna del.

Uppgift

Använd samma prompt för alla verktyg som stödjer bildgenerering:

Prompt: “Skapa en bild på en futuristisk skola där elever arbetar tillsammans med AI-robotar. Stilen ska vara ljus och optimistisk.”

Dokumentera

Spara bilderna
Beskriv skillnader i stil, kvalitet och tolkning
Tidsmätning: hur lång tid tog det?

Reflektera

Vilken bild matchade din vision bäst?
Fanns det betydande skillnader i hur prompten tolkades?
Vilka detaljer hanterades bra/dåligt?
Hur skulle du förbättra prompten för att få bättre resultat?

Del D: Dokumentanalys (PDF)

Syfte: Testa hur väl modeller kan läsa och analysera PDF-dokument.

Uppgift

Ladda ner testdokumentet: Partille-gymnasium_2025.pdf
Ladda upp till modellerna: Ge PDF-filen till alla modeller som stödjer dokumentuppladdning.
Samma fråga till alla: “Sammanfatta texten i tre punkter och föreslå en passande rubrik.”

Vilka modeller stödjer PDF?
Inte alla modeller kan läsa PDF-filer. Testa de som kan. För modeller som inte stödjer uppladdning kan ni kopiera och klistra in textinnehållet istället.

Dokumentera

Sammanfattningar från varje modell
Föreslagna rubriker
Hur väl stämde sammanfattningen överens med dokumentets innehåll?

Reflektera

Vilken modell fångade huvudbudskapet bäst?
Fanns det några som missade viktiga detaljer?
Hur kreativa var rubrikerna?
Vilken modell skulle du lita på för att sammanfatta ett längre dokument?

Del E: Hämta information från webben

Syfte: Testa modellers förmåga att söka och hämta aktuell information.

Uppgift

Be modellerna om aktuell information som inte fanns i deras träningsdata:

Prompt: “Vad är dagens datum och vilka stora nyhetshändelser har hänt den senaste veckan i Sverige?”

Förväntningar
Modeller som inte kan söka på webben (t.ex. grundversionen av vissa LLM:er) kommer inte kunna svara korrekt. Detta är viktigt att notera!

Dokumentera

Modell	Kan söka webben?	Dagens datum (korrekt?)	Nämnda händelser
ChatGPT
Gemini
Claude
Grok
DeepSeek

Reflektera

Vilka modeller kunde hämta aktuell information?
Hur hanterade modeller utan webbtillgång frågan?
När är webbtillgång avgörande för en uppgift?

Slutanalys: Jämför och välj

När ni har genomfört alla tester ska ni skapa en sammanfattande analys.

1. Skapa en helhetstabell

Modell	Styrkor	Svagheter	Bäst för…	Betyg (1-5)
ChatGPT
Gemini
Claude
Grok
DeepSeek

2. Besvara reflektionsfrågorna

Vilken modell var bäst overall och varför?
- Tänk på: tillförlitlighet, mångsidighet, användarvänlighet.
Fanns det uppgifter där en “sämre” modell presterade bättre?
- Ge konkreta exempel från era tester.
Hur påverkar modellvalet vilken typ av svar du får?
- Reflektera över skillnader i ton, stil och detaljeringsgrad.
När skulle du välja olika modeller i praktiken?
- T.ex. “Jag skulle använda Gemini för … men Claude för …”
Vilka risker såg ni med att använda AI för dessa uppgifter?
- Tänk på: faktafel, bias, integritet, etik.

Jämför AI-modeller i praktiken

Vad går uppgiften ut på?

AI-modeller ni ska testa

1. ChatGPT (OpenAI)

2. Gemini (Google)

3. Claude (Anthropic)

4. Grok (xAI)

5. DeepSeek

Uppgifternas struktur

Del A: Besvara faktafrågor

Uppgift

Dokumentera

Reflektera

Del B: Research och sammanfattning

Uppgift

Dokumentera

Reflektera

Del C: Bildgenerering (om tillgängligt)

Uppgift

Dokumentera

Reflektera

Del D: Dokumentanalys (PDF)

Uppgift

Dokumentera

Reflektera

Del E: Hämta information från webben

Uppgift

Dokumentera

Reflektera

Slutanalys: Jämför och välj

1. Skapa en helhetstabell

2. Besvara reflektionsfrågorna

Framsteg

Grattis! Du har klarat lektionen!