Zadanie 1: Wykrywanie nadużyć między dokumentami
Wykrywanie fraz/zdań wspólnych między dwoma dokumentami: na podstawie dostarczonych dwóch dokumentów – źródłowego i podejrzanego, należy wykryć wszystkie zapożyczenia dokumentu źródłowego w podejrzanym. Możliwe jest istnienie czterech różnych zapożyczeń, w różnych wariantach:
- kopiuj-wklej,
- kopiuj-wklej + zmiana szyku,
- kopiuj-wklej + parafraza,
- kopiuj-wklej + parafraza + zmiana szyku.

Format Danych Wejściowych
Danymi wejściowymi będzie zbiór par dokumentów: podejrzany o plagiat, oraz źródło dla plagiatu. Para dokumentów zostanie zapisana w formacie tekstowym: suspiciousXXXX.txt, sourceXXXX.txt, gdzie XXXX oznacza numer pary, pierwszy to dokument, w którym popełniono plagiat, drugi to dokument źródłowy, z którego nastąpiły zapożyczenia.
Format Danych Wyjściowych
Dla zadanej pary uczestnik konkursu powinien wygenerować plik XML w następującym formacie:
<?xml version="1.0" encoding="UTF-8"?>
<alignment document="suspiciousXXXX.txt" source="sourceXXXX.txt">
<passage documentFrom="123" documentTo="123" sourceFrom="123" sourceTo="123" />
<passage documentFrom="234" documentTo="234" sourceFrom="234" sourceTo="234" />
</alignment>
Tag passage oznacza znaleziony plagiat. Znaczenie atrybutów:
- documentFrom – indeks początkowy znalezionego fragmentu w dokumencie podejrzanym,
- documentTo- indeks końcowy znalezionego fragmentu w dokumencie podejrzanym,
- sourceFrom- indeks początkowy znalezionego fragmentu w dokumencie źródłowym,
- sourceTo- indeks końcowy znalezionego fragmentu w dokumencie źródłowym.
Zawartość powinna być umieszczona w pliku o nazwie suspiciousXXXX-sourceXXXX.xml. Dla całego zadania będzie to zbiór plików XML, który należy spakować do archiwum ZIP.
Miary
Do mierzenia poprawności przesłanego rozwiązania używane będą następujące miary:
- precision, zobacz więcej: Claude, Webb, Geoffrey I., “Encyclopedia of Machine Learning and Data Mining Sammut”, 2017, precision
- recall, zobacz więcej: Claude, Webb, Geoffrey I., “Encyclopedia of Machine Learning and Data Mining Sammut”, 2017, precision and recall
- granularity, zobacz więcej: Potthast, Martin, et al. “An evaluation framework for plagiarism detection.” Proceedings of the 23rd international conference on computational linguistics: Posters. Association for Computational Linguistics, 2010.
- pladget score (główna miara), zobacz więcej: Potthast, Martin, et al. “An evaluation framework for plagiarism detection.” Proceedings of the 23rd international conference on computational linguistics: Posters. Association for Computational Linguistics, 2010.
Zbiór trial
Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:
- pl/en – podział na dokumenty polskie i angielskie,
- src (wewnątrz pl/en) – dokumenty źródłowe, z których tworzono plagiaty,
- susp (wewnątrz pl/en) – dokumenty podejrzane,
- xml (wewnątrz pl/en) – prawidłowe odpowiedzi.
Ewaluator
Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).
Dostępne argumenty linii poleceń:
- -e wybór ewaluatora, dla tego zadania TASK1,
- -i ścieżka do pliku ZIP zawierającego zgłoszenie,
- -t ścieżka do katalogu zawierającego prawidłowe odpowiedzi (XML) dla danego zadania.
Przykład u życia:
java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK1