Referat będzie poświęcony problemowi klasyfikacji z niepełną obserwowalnością zmiennej odpowiedzi typu PU (positive and unlabelled). W tradycyjnym problemie klasyfikacji binarnej celem jest zbudowanie modelu, który przypisuje obserwacji jedną z dwóch klas: pozytywną lub negatywną na podstawie cech opisujących daną obserwację. Zakłada się, że zbiór uczący, na podstawie którego dopasowuje się model, zawiera obserwacje pozytywne oraz negatywne. W problemie PU zbiór danych uczących zawiera obserwacje, które mają przypisaną etykietę pozytywną, zaś pozostałe obserwacje nie mają przypisanej etykiety. Na przykład w zastosowaniach medycznych obserwacje niemające przypisanej klasy mogą odpowiadać pacjentom, u których nie zdiagnozowano choroby. Brak diagnozy nie oznacza jednak, że choroba nie występuje. Podczas prezentacji przedstawię formalny opis problemu, podstawowe definicje i fakty oraz interesujące wyzwania związane z danymi PU. Pokażę, w jaki sposób można zaadaptować popularny model regresji logistycznej dla danych PU. Dodatkowo pokażę, że dopasowanie modelu logistycznego dla danych PU jest związane z problemem złej specyfikacji modelu logistycznego.