Wykrywanie w ramach jednego dokumentu części podejrzanych o autorstwo innej osoby. Na podstawie danego dokumentu należy stwierdzić, które części były pisane przez innego autora lub autorów (przy założeniu, że praca ma głównego autora). Celem tego zadania jest profilowanie (wyznaczanie cech stylu autora na podstawie tekstu oraz wyznaczenie, które bloki tekstu mają inny profil niż profil głównego autora).
Danymi wejściowymi będzie zbiór podejrzanych dokumentów (każdy element tego zbioru był tworzony z innych dokumentów źródłowych). Nazwa każdego z dokumentów będzie miała format: suspiciousXXXX.txt, gdzie XXXX oznacza numer lub identyfikator dokumentu.
Dla każdego podejrzanego dokumentu uczestnik konkursu powinien wygenerować plik XML w następującym formacie:
<?xml version="1.0" encoding="UTF-8"?> <authorship document="suspiciousXXXX.txt"> <block from="123" to="123" /> <block from="234" to="234" /> <block from="345" to="345" /> </authorship>
Tag block oznacza blok tekstu, którego autorem jest jedna osoba. Znaczenie atrybutów:
Znalezione bloki powinny określać, które fragmenty zostały napisane przez autora innego niż główny autor danego dokumentu (pasaże podejrzane o plagiat). Jako rozwiązanie zadania uczestnik konkursu będzie musiał wygenerować zbiór plików XML w tym formacie, z których nazwa każdego będzie miała format suspiciousXXXX.xml, który należy spakować do archiwum ZIP.
Do mierzenia poprawności przesłanego rozwiązania używana będzie następująca miara:
Zbiór trial można pobrać poprzez link. W archiwum znajdują następujące foldery:
Ewaluator do zbioru można pobrać tutaj. Ewaluatorem jest plik JAR, który można uruchomić z linii komend. Do użycia ewaluatora wymagane jest zainstalowanie javy w wersji 8 (najnowszy update).
Dostępne argumenty linii poleceń:
Przykład u życia:
java -jar evaluation.jar -i c:\\input.zip -t c:\\dataset -e TASK3