Objektsegmentering og tekstdeteksjon i forelesningsvideo
Master thesis
Permanent lenke
http://hdl.handle.net/11250/144050Utgivelsesdato
2005Metadata
Vis full innførselSamlinger
- Institutt for design [1151]
Sammendrag
NORSK:
I en del videoovervåkningssituasjoner ønsker man til enhver tid å se hva bakgrunnen i
videoen inneholder. For å gjøre dette må man segmentere vekk objektene som beveger
seg i forgrunnen. I denne oppgaven er det tatt utgangspunkt i videoer fra forelesning
og foreleseren som beveger seg foran tavla har blitt fjernet slik at man til enhver tid
kan se all teksten. For å gjøre dette har det blitt utviklet en binær bildeserie som går
parallelt med selve filmen og avgrenser hvilket område som er tavla og hvilket område
som er personen i forgrunn. Binære bildeserier ble utviklet ved å regne ut den euklidske
avstanden til RGB-farger og CbCr-komponenter. For å gi en god avgrensing ble bildene
tersklet. CbCr-komponentene gav den beste segmenteringen.
Teksten ble detektert ved bruk av euklidske avstand til RGB-farger, men siden dette
ikke gav god lesbarhet, ble det utviklet fire kantdeteksjonsfiltre. Kvalitativt sett var Prewitt
best egnet til å detektere tekst. Ved å addere flere bilder av detektert tekst, vil resultatet
forbedres ytterligere. Dersom man lagrer et bilde før hver gang skrift blir pusset
vekk, får man en bildeserie med tavlas innhold gjennom en forelesning. En slik bildeserie
har stor nytteverdi hvis man raskt ønsker å lese tavleinnholdet fra en forelesning.
Det ble også gjort forsøk på å gjøre om håndskrift til digital skrift. Selv etter at en
morfologisk operasjon hadde blitt foretatt på skifta, lot den seg ikke gjenkjenne.
Siden videobehandling krever mye prosesseringstid, har det blitt utviklet en algoritme
for å beskjære filmene i areal og en algoritme for å begrense hvor mange bilder som er
nyttig å behandle. ENGELSK:
In video surveillance situations it is often desirable to see the all the content of the video
background. To do this, moving objects in foreground have to be removed. In this thesis
it is used videos from lecture, and the lecturer walking in front of the blackboard
is removed to make the text visible. It has been developed a binary picture set parallel
to the movie that restricts which area is the blackboard and which is the person in
foreground. Binary picture sets were developed using Euclidean distance to RGB colours
and CbCr-components. The pictures had to be threshold to give a good separation. CbCrcomponents
had the best segmentation effect.
The text was detected by using Euclidean distance to RGB colours, but since this
didn’t result in a good readability, four edge detection operators was implemented. Qualitatively
Prewitt was most suitable to detect text. By adding pictures of detected text,
readability was improved additionally. By saving a picture before each time the text are
rubbed out, a picture set of the blackboards contents through the lecture will be generated.
A picture set like this will have large utility value if you quickly want to read the
blackboard contents from a lecture.
Attempts to digitalise handwritten text have been accomplished, but even after the
text coherence was improved with a morphological operation, the text was not recognizable.
Since video processing is time consuming, two reduction algorithms have been developed;
one to crop movies in area, and one sub sampling algorithm.