Referat będzie poświęcony problemowi klasyfikacji z niepełną
obserwowalnością zmiennej odpowiedzi typu PU (positive and unlabelled).
W tradycyjnym problemie klasyfikacji binarnej celem jest zbudowanie
modelu, który przypisuje obserwacji jedną z dwóch klas: pozytywną lub
negatywną na podstawie cech opisujących daną obserwację. Zakłada się, że
zbiór uczący, na podstawie którego dopasowuje się model, zawiera
obserwacje pozytywne oraz negatywne. W problemie PU zbiór danych
uczących zawiera obserwacje, które mają przypisaną etykietę pozytywną,
zaś pozostałe obserwacje nie mają przypisanej etykiety. Na przykład w
zastosowaniach medycznych obserwacje niemające przypisanej klasy mogą
odpowiadać pacjentom, u których nie zdiagnozowano choroby. Brak diagnozy
nie oznacza jednak, że choroba nie występuje. Podczas prezentacji
przedstawię formalny opis problemu, podstawowe definicje i fakty oraz
interesujące wyzwania związane z danymi PU. Pokażę, w jaki sposób można
zaadaptować popularny model regresji logistycznej dla danych PU.
Dodatkowo pokażę, że dopasowanie modelu logistycznego dla danych PU jest
związane z problemem złej specyfikacji modelu logistycznego.