Zadanie 3

Zadanie 3: Wykrycie potencjalnego plagiaryzmu w ramach pojedynczego dokumentu

Wykrywanie w ramach jednego dokumentu części podejrzanych o autorstwo innej osoby. Na podstawie danego dokumentu należy stwierdzić, które części były pisane przez innego autora lub autorów (przy założeniu, że praca ma głównego autora). Celem tego zadania jest profilowanie (wyznaczanie cech stylu autora na podstawie tekstu oraz wyznaczenie, które bloki tekstu mają inny profil niż profil głównego autora).



Format Danych Wejściowych

Danymi wejściowymi będzie zbiór podejrzanych dokumentów (każdy element tego zbioru był tworzony z innych dokumentów źródłowych). Nazwa każdego z dokumentów będzie miała format: suspiciousXXXX.txt, gdzie XXXX oznacza numer lub identyfikator dokumentu.

Format Danych Wyjściowych

Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:

<?xml version="1.0" encoding="UTF-8"?>
<authorship document="suspiciousXXXX.txt">
    <block from="123" to="123" />
    <block from="234" to="234" />
    <block from="345" to="345" />
</authorship>

Tag block oznacza blok tekstu, którego autorem jest jedna osoba. Znaczenie atrybutów:

  • from- indeks początkowy znalezionego bloku w dokumencie podejrzanym,
  • to- indeks końcowy znalezionego bloku w dokumencie podejrzanym.

Znalezione bloki powinny określać, które fragmenty zostały napisane przez autora innego niż główny autor danego dokumentu (pasaże podejrzane o plagiat). Jako rozwiązanie zadania uczestnik konkursu będzie musiał wygenerować zbiór plików XML w tym formacie, z których nazwa każdego będzie miała format suspiciousXXXX.xml, który należy spakować do archiwum ZIP.

Miary

Do mierzenia poprawności przesłanego rozwiązania używana będzie następująca miara:

Zbiór trial

Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:

  • pl/en – podział na dokumenty polskie i angielskie,
  • src (wewnątrz pl/en) – dokumenty źródłowe, z których tworzono plagiaty,
  • susp (wewnątrz pl/en) – dokumenty podejrzane,
  • xml (wewnątrz pl/en) – prawidłowe odpowiedzi.

Ewaluator

Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).

Dostępne argumenty linii poleceń:

  • -e wybór ewaluatora, dla tego zadania TASK3
  • -i ścieżka do pliku ZIP zawierającego zgłoszenie
  • -t ścieżka do katalogu zawierającego prawidłowe odpowiedzi (XML) dla danego zadania

Przykład u życia:

java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK3