Zadanie 2

Zadanie 2: Wykrywanie podejrzanych dokumentów

Wykrywanie dokumentów podejrzanych o bycie źródłem plagiaryzmu dla danego dokumentu: na podstawie dostarczonego dokumentu należy wytypować z grupy dokumentów źródłowych te, w stosunku do których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zbiór dokumentów źródłowych (zwany dalej korpusem referencyjnym) jest na tyle duży, że przeszukiwanie wszystkich dokumentów będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu w ramach zadania 2 muszą dostarczyć dwa rozwiązania : (a) rozwiązanie budujące model efektywnej reprezentacji korpusu referencyjnego dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych dokumentów. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.


Format Danych Wejściowych

Danymi wejściowymi będą dwa zbiory dokumentów: dokumenty podejrzane (o nazwie formatu suspiciousXXXX.txt), które zostały utworzone na podstawie dokumentów źródłowych, oraz dokumenty źródłowe, wśród których będą typowane źródła plagiatów.

Format Danych Wyjściowych

Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:

<?xml version="1.0" encoding="UTF-8"?>
<external document="suspiciousXXXX.txt">
    <potential source="sourceXXXX.txt" />
    <potential source="sourceXXXX.txt" />
    <potential source="sourceXXXX.txt" />
    <potential source="sourceXXXX.txt" />
</external>

Tag potential oznacza znalezione źródło plagiatu. Znaczenie atrybutów:

  • source dokument z którego nastąpiło zapożyczenie.

Dla każdego podejrzanego dokumentu użytkownik powinien utworzyć plik XML o nazwie suspiciousXXXX.xml oraz formacie opisanym powyżej. Rozwiązaniem zadania będzie zbiór plików XML, który należy spakować do archiwum ZIP.

Miary

Do mierzenia poprawności przesłanego rozwiązania używana będzie miara:

Zbiór trial

Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:

  • pl/en – podział na dokumenty polskie i angielskie,
  • src (wewnątrz pl/en) – dokumenty źródłowe, z których tworzono plagiaty,
  • susp (wewnątrz pl/en) – dokumenty podejrzane,
  • xml (wewnątrz pl/en) – prawidłowe odpowiedzi.

Ewaluator

Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).

Dostępne argumenty linii poleceń:

  • -e wybór ewaluatora, dla tego zadania TASK2,
  • -i ścieżka do pliku ZIP zawierającego zgłoszenie,
  • -t ścieżka do katalogu zawierającego prawidłowe odpowiedzi (XML) dla danego zadania.

Przykład u życia:

java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK2