Anonimizacja PDF - jak to zrobić poprawnie i dlaczego czarna belka nie wystarczy, Beznazwisk.pl

Wciąż trafiają się sprawy, w których instytucje publiczne, kancelarie prawne i firmy "anonimizują" dokumenty PDF przez narysowanie czarnego prostokąta na imieniu i nazwisku. Wygląda jak anonimizacja. Nie jest. Prezes UODO w komunikacie z 2025 roku wprost skomentował ten problem przy okazji publikacji protestów wyborczych przez Sąd Najwyższy - wskazując, że zakrycie danych graficznie to nie to samo co ich usunięcie.

Dlaczego czarna belka w PDF nie działa

Plik PDF może przechowywać treść na dwa sposoby: jako warstwę tekstową lub jako obraz. Większość dokumentów tworzonych cyfrowo - skanów wykonanych przez OCR, wydruków z Word lub systemów sądowych - ma warstwę tekstową.

Kiedy narysujesz czarny prostokąt na tekst w programie do podglądu PDF lub w edytorze graficznym, zakrywasz tekst wizualnie - ale go nie usuwasz. Warstwa tekstowa nadal istnieje pod prostokątem. Każdy, kto otworzy taki plik w programie umożliwiającym edycję lub kopiowanie tekstu, może zaznaczyć "zakryty" fragment i skopiować z niego oryginalne dane.

To nie jest teoria. To wielokrotnie dokumentowany problem. W Polsce kilka instytucji publicznych opublikowało dokumenty w ten sposób "zanonimizowane" - a dane osobowe można było odczytać w ciągu sekund.

Stanowisko UODO: Prezes UODO w lipcu 2025 roku, komentując publikację odręcznie pisanych protestów wyborczych przez Sąd Najwyższy, przypomniał że "anonimizacja nie kończy się na zasłonięciu imienia i nazwiska". Organ nadzorczy konsekwentnie wskazuje, że redakcja danych musi być fizyczna - nie tylko wizualna.

Trzy sposoby poprawnej anonimizacji PDF

1. Redakcja przez specjalistyczne oprogramowanie

Profesjonalne narzędzia do redakcji PDF - takie jak Adobe Acrobat Pro z funkcją Redact lub dedykowane programy do anonimizacji - fizycznie usuwają treść tekstową pod zaznaczonym obszarem. Po "wypaleniu" redakcji (flatten) tekst jest trwale usuwany i zastępowany czarnym prostokątem będącym częścią obrazu - bez warstwy tekstowej pod spodem.

2. Anonimizacja w warstwie tekstowej przed konwersją do PDF

Jeśli masz oryginalny plik w formacie DOCX lub innym edytowalnym, anonimizuj tekst na poziomie edytora - zastępując dane osobowe tokenami lub usuwając je - a następnie eksportuj do PDF. Wynikowy PDF nie będzie zawierać oryginalnych danych w warstwie tekstowej, bo nigdy tam nie trafią.

Beznazwisk.pl działa w ten sposób - przetwarza dokument DOCX lub PDF z warstwą tekstową, wykrywa i zastępuje dane osobowe, a wynikowy plik jest gotowy do bezpiecznego udostępniania.

3. Konwersja do obrazu

Eksportowanie strony PDF do pliku graficznego (np. PNG lub JPG), a następnie ręczna edycja obrazu i ponowna konwersja do PDF. Wynikowy plik nie ma warstwy tekstowej - jest czystym obrazem. Metoda czaso- i pracochłonna, generuje plik nieczytelny dla czytników ekranowych i narzędzi OCR, ale eliminuje problem warstwy tekstowej.

Beznazwisk.pl anonimizuje PDF poprawnie - lokalnie

Aplikacja przetwarza pliki PDF z warstwą tekstową i DOCX - automatycznie wykrywa dane osobowe i zastępuje je tokenami lub inicjałami. Cała operacja odbywa się na Twoim komputerze, bez wysyłania pliku na zewnątrz.

Pobierz bezpłatnie

Co z metadanymi pliku PDF

Drugi często pomijany problem to metadane PDF. Każdy plik PDF może zawierać informacje o autorze, nazwie aplikacji, w której powstał, dacie edycji, a niekiedy nawet ścieżce do pliku na dysku autora. Te dane są zwykle niewidoczne przy normalnym podglądzie - ale można je odczytać przez właściwości pliku.

Prawidłowa anonimizacja powinna obejmować również usunięcie lub oczyszczenie metadanych. Narzędzia profesjonalne robią to automatycznie. Przy ręcznej anonimizacji trzeba pamiętać o tym dodatkowym kroku.

PDF ze skanem - szczególny przypadek

Jeśli plik PDF jest skanem dokumentu papierowego - czyli obrazem bez warstwy tekstowej - technicznie nie ma problemu z "czarną belką". Edycja graficzna skanu faktycznie usuwa dane, bo cały plik jest obrazem. Problem następuje, jeśli skan został później poddany OCR (automatycznemu rozpoznawaniu tekstu), co dodaje do pliku warstwę tekstową. Wtedy znów mamy pierwotny problem.

Beznazwisk.pl w aktualnej wersji przetwarza pliki PDF z warstwą tekstową. Wsparcie dla skanów - czyli PDF bez tekstu - planowane jest w wersji Pro z modułem OCR.

Przeczytaj również

Autor: Zespół Beznazwisk.pl. Tekst ma charakter informacyjny i nie stanowi porady prawnej.

Anonimizacja PDF - dlaczego czarna belka nie wystarczy i jak zrobić to poprawnie