Use of Generative AI in Offensive Cybersecurity: A case study using PentestGPT with GPT-4 and Dolphin2.5
Abstract
Denne bacheloroppgaven undersøker potensialet til store språkmodeller (LLM-er) som GPT-4 og Dolphin 2.5, når de brukes sammen med penetrasjonstestverktøyet PentestGPT, for å utnytte sårbarheter i OWASP’s Juice Shop. Målet er å vurdere effekten av disse AI-drevne angrepene og evaluere evnen sikkerhetsverktøy som Palo Alto Networks Prisma har til å oppdage og stoppe dem. Forskningen innebærer en casestudie metodikk, der OWASPs Juice Shop brukes som målmiljø. Funnene viser at selv om både GPT-4 og Dolphin 2.5 kan identifisere og utnytte visse sårbarheter, har de sine begrensninger i mer komplekse scenarier. Alle forsøkene på å utnytte sårbarheter ble oppdaget av Palo Alto Networks Prisma, noe som understreker behovet for mer sofistikerte omgåelsesteknikker. Avhandlingen avsluttes med en diskusjon om hvilke implikasjoner disse funnene har for fremtiden for kunstig intelligens innen cybersikkerhet, og gir anbefalinger for videre forskning. This thesis investigates the potential of Large Language Models (LLMs) like GPT-4 and Dolphin 2.5, when used in conjunction with the penetration testing tool PentestGPT, to exploit vulnerabilities in web applications. It aims to assess the efficacy of these AI-driven attacks and evaluate the ability of security tools like Palo Alto Networks Prisma to detect and mitigate them. The research involves a case study methodology, utilizing OWASP’s Juice Shop as the target environment. The findings reveal that while both GPT-4 and Dolphin 2.5 can identify and exploit certain vulnerabilities, they face limitations in more complex scenarios. Notably, all attempted exploits were detected by Palo Alto Networks Prisma. The thesis concludes by discussing the implications of these findings for the future of AI in cybersecurity and provides recommendations for further research.