Zadania

Zadanie 1: Wykrywanie nadużyć między dokumentami

Wykrywanie fraz/zdań wspólnych między dwoma dokumentami: na podstawie dostarczonych dwóch dokumentów – źródłowego i podejrzanego, należy wykryć wszystkie zapożyczenia dokumentu źródłowego w podejrzanym. Możliwe jest istnienie czterech różnych zapożyczeń, w różnych wariantach:

  • kopiuj-wklej,
  • kopiuj-wklej + zmiana szyku,
  • kopiuj-wklej + parafraza,
  • kopiuj-wklej + parafraza + zmiana szyku.

czytaj więcej

Zadanie 2: Wykrywanie podejrzanych dokumentów

Wykrywanie dokumentów podejrzanych o bycie źródłem plagiaryzmu dla danego dokumentu: na podstawie dostarczonego dokumentu należy wytypować z grupy dokumentów źródłowych te, w stosunku do których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zbiór dokumentów źródłowych (zwany dalej korpusem referencyjnym) jest na tyle duży, że przeszukiwanie wszystkich dokumentów będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu w ramach zadania 2 muszą dostarczyć dwa rozwiązania : (a) rozwiązanie budujące model efektywnej reprezentacji korpusu referencyjnego dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych dokumentów. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.

czytaj więcej

Zadanie 3: Wykrycie potencjalnego plagiaryzmu w ramach pojedynczego dokumentu

Wykrywanie w ramach jednego dokumentu części podejrzanych o autorstwo innej osoby. Na podstawie danego dokumentu należy stwierdzić, które części były pisane przez innego autora lub autorów (przy założeniu, że praca ma głównego autora). Celem tego zadania jest profilowanie (wyznaczanie na podstawie tekstu cech autora oraz wyznaczenie, które bloki tekstu mają inny profil niż profil głównego autora).

czytaj więcej

Zadanie 4: Wykrywanie podejrzanych stron internetowych

Wykrywanie zapożyczeń w Internecie przy wykorzystaniu zebranego zasobu stron internetowych: na podstawie danego dokumentu należy wytypować z grupy stron internetowych te, z których dany dokument jest podejrzany o zapożyczenia. Należy przyjąć, że zestaw stron www (zwany dalej referencyjnym obrazem Internetu) jest na tyle duży, że przeszukiwanie wszystkich stron będzie czasowo nieopłacalne, dlatego nie należy korzystać z rozwiązań typu “brute-force” opartych na rozwiązaniu zadania pierwszego. Docelowo uczestnicy konkursu muszą dostarczyć dwa rozwiązania w ramach realizacji zadania 4: (a) rozwiązanie budujące model efektywnej reprezentacji obrazu Internetu dla celów wydajnego wyszukiwania informacji oraz (b) rozwiązanie pracujące na tym modelu w celu detekcji potencjalnych podejrzanych stron. Oba rozwiązania (a i b) muszą być wydajne, w szczególności skalowalne, np. wykorzystujące obliczenia rozproszone lub architekturę wielordzeniową. Poziom skalowalności rozwiązań zostanie zweryfikowany w ramach testów wewnętrznych.

czytaj więcej