Wykrywanie zapożyczeń w Internecie przy wykorzystaniu zebranego zasobu stron internetowych: na podstawie danego dokumentu należy wytypować z grupy stron internetowych te, z których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zestaw stron www (zwany dalej referencyjnym obrazem Internetu) jest na tyle duży, że przeszukiwanie wszystkich stron będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu muszą dostarczyć dwa rozwiązania w ramach realizacji zadania 4: (a) rozwiązanie budujące model efektywnej reprezentacji obrazu Internetu dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych stron. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.
Dane wejściowe dostarczone zostaną w dwóch częściach: (1) zbioru podejrzanych dokumentów oraz (2) źródeł internetowych w postaci surowych dokumentów HTML.
Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:
<?xml version="1.0" encoding="UTF-8"?> <web document="suspiciousXXXX.txt"> <potential source="documentXXXX.html" /> <potential source="documentXXXX.html" /> <potential source="documentXXXX.html" /> <potential source="documentXXXX.html" /> </web>
Tag potential oznacza źródło które posłużyło do tworzenia podejrzanego dokumentu. Znaczenie atrybutów:
Dla każdego podejrzanego dokumentu uczestnik konkursu powinien utworzyć plik XML o nazwie suspiciousXXXX.xml oraz formacie opisanym powyżej. Rozwiązaniem zadania będzie zbiór plików XML, który należy spakować do archiwum ZIP.
Do mierzenia poprawności przesłanego rozwiązania używana będzie miara:
Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery oraz pliki:
Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).
Dostępne argumenty linii poleceń:
Przykład u życia:
java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK4