Zadanie 1

Zadanie 1: Wykrywanie nadużyć między dokumentami

Wykrywanie fraz/zdań wspólnych między dwoma dokumentami: na podstawie dostarczonych dwóch dokumentów – źródłowego i podejrzanego, należy wykryć wszystkie zapożyczenia dokumentu źródłowego w podejrzanym. Możliwe jest istnienie czterech różnych zapożyczeń, w różnych wariantach:

  • kopiuj-wklej,
  • kopiuj-wklej + zmiana szyku,
  • kopiuj-wklej + parafraza,
  • kopiuj-wklej + parafraza + zmiana szyku.



Format Danych Wejściowych

Danymi wejściowymi będzie zbiór par dokumentów: podejrzany o plagiat, oraz źródło dla plagiatu. Para dokumentów zostanie zapisana w formacie tekstowym: suspiciousXXXX.txt, sourceXXXX.txt, gdzie XXXX oznacza numer pary, pierwszy to dokument, w którym popełniono plagiat, drugi to dokument źródłowy, z którego nastąpiły zapożyczenia.

Format Danych Wyjściowych

Dla zadanej pary uczestnik konkursu powinien wygenerować plik XML w następującym formacie:

<?xml version="1.0" encoding="UTF-8"?>
<alignment document="suspiciousXXXX.txt" source="sourceXXXX.txt">
        <passage documentFrom="123" documentTo="123" sourceFrom="123" sourceTo="123" />
        <passage documentFrom="234" documentTo="234" sourceFrom="234" sourceTo="234" />
</alignment>

Tag passage oznacza znaleziony plagiat. Znaczenie atrybutów:

  • documentFrom – indeks początkowy znalezionego fragmentu w dokumencie podejrzanym,
  • documentTo- indeks końcowy znalezionego fragmentu w dokumencie podejrzanym,
  • sourceFrom- indeks początkowy znalezionego fragmentu w dokumencie źródłowym,
  • sourceTo- indeks końcowy znalezionego fragmentu w dokumencie źródłowym.

Zawartość powinna być umieszczona w pliku o nazwie suspiciousXXXX-sourceXXXX.xml. Dla całego zadania będzie to zbiór plików XML, który należy spakować do archiwum ZIP.

Miary

Do mierzenia poprawności przesłanego rozwiązania używane będą następujące miary:

Zbiór trial

Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:

  • pl/en – podział na dokumenty polskie i angielskie,
  • src (wewnątrz pl/en) – dokumenty źródłowe, z których tworzono plagiaty,
  • susp (wewnątrz pl/en) – dokumenty podejrzane,
  • xml (wewnątrz pl/en) – prawidłowe odpowiedzi.

Ewaluator

Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).

Dostępne argumenty linii poleceń:

  • -e wybór ewaluatora, dla tego zadania TASK1,
  • -i ścieżka do pliku ZIP zawierającego zgłoszenie,
  • -t ścieżka do katalogu zawierającego prawidłowe odpowiedzi (XML) dla danego zadania.

Przykład u życia:

java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK1