Zadanie 4

Zadanie 4: Wykrywanie podejrzanych stron internetowych

Wykrywanie zapożyczeń w Internecie przy wykorzystaniu zebranego zasobu stron internetowych: na podstawie danego dokumentu należy wytypować z grupy stron internetowych te, z których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zestaw stron www (zwany dalej referencyjnym obrazem Internetu) jest na tyle duży, że przeszukiwanie wszystkich stron będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu muszą dostarczyć dwa rozwiązania w ramach realizacji zadania 4: (a) rozwiązanie budujące model efektywnej reprezentacji obrazu Internetu dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych stron. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.



Format Danych Wejściowych

Dane wejściowe dostarczone zostaną w dwóch częściach: (1) zbioru podejrzanych dokumentów oraz (2) źródeł internetowych w postaci surowych dokumentów HTML.

Format Danych Wyjściowych

Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:

<?xml version="1.0" encoding="UTF-8"?>
<web document="suspiciousXXXX.txt">
    <potential source="documentXXXX.html" />
    <potential source="documentXXXX.html" />
    <potential source="documentXXXX.html" />
    <potential source="documentXXXX.html" />
</web>

Tag potential oznacza źródło które posłużyło do tworzenia podejrzanego dokumentu. Znaczenie atrybutów:

  • source – nazwa dokumentu.

Dla każdego podejrzanego dokumentu uczestnik konkursu powinien utworzyć plik XML o nazwie suspiciousXXXX.xml oraz formacie opisanym powyżej. Rozwiązaniem zadania będzie zbiór plików XML, który należy spakować do archiwum ZIP.

Miary

Do mierzenia poprawności przesłanego rozwiązania używana będzie miara:

Zbiór trial

Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery oraz pliki:

  • src.zip – spakowane dokumenty źródłowe, surowe pliki html, z których tworzono plagiaty,
  • susp – dokumenty podejrzane,
  • xml – prawidłowe odpowiedzi.

Ewaluator

Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).

Dostępne argumenty linii poleceń:

  • -e wybór ewaluatora, dla tego zadania TASK4,
  • -i ścieżka do pliku ZIP zawierającego zgłoszenie,
  • -t ścieżka do katalogu zawierającego prawidłowe odpowiedzi (XML) dla danego zadania.

Przykład u życia:

java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK4