Wykrywanie dokumentów podejrzanych o bycie źródłem plagiaryzmu dla danego dokumentu: na podstawie dostarczonego dokumentu należy wytypować z grupy dokumentów źródłowych te, w stosunku do których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zbiór dokumentów źródłowych (zwany dalej korpusem referencyjnym) jest na tyle duży, że przeszukiwanie wszystkich dokumentów będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu w ramach zadania 2 muszą dostarczyć dwa rozwiązania : (a) rozwiązanie budujące model efektywnej reprezentacji korpusu referencyjnego dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych dokumentów. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.
Danymi wejściowymi będą dwa zbiory dokumentów: dokumenty podejrzane (o nazwie formatu suspiciousXXXX.txt), które zostały utworzone na podstawie dokumentów źródłowych, oraz dokumenty źródłowe, wśród których będą typowane źródła plagiatów.
Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:
<?xml version="1.0" encoding="UTF-8"?> <external document="suspiciousXXXX.txt"> <potential source="sourceXXXX.txt" /> <potential source="sourceXXXX.txt" /> <potential source="sourceXXXX.txt" /> <potential source="sourceXXXX.txt" /> </external>
Tag potential oznacza znalezione źródło plagiatu. Znaczenie atrybutów:
Dla każdego podejrzanego dokumentu użytkownik powinien utworzyć plik XML o nazwie suspiciousXXXX.xml oraz formacie opisanym powyżej. Rozwiązaniem zadania będzie zbiór plików XML, który należy spakować do archiwum ZIP.
Do mierzenia poprawności przesłanego rozwiązania używana będzie miara:
Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:
Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).
Dostępne argumenty linii poleceń:
Przykład u życia:
java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK2