Anonimizacja PDF krok po kroku, Beznazwisk.pl

Najczęstszy błąd w anonimizacji dokumentów PDF jest banalnie prosty: ktoś rysuje czarny prostokąt na nazwisku w Adobe Reader, zapisuje plik i wysyła dalej. Odbiorca zaznacza obszar pod prostokątem, kopiuje, i odczytuje ukrytą treść.

Dlaczego „czarny prostokąt" nie działa

PDF to dwuwarstwowy format: warstwa wizualna (to, co widać) i warstwa tekstowa (to, co można skopiować, zaindeksować, odczytać narzędziem). Narysowanie prostokąta zmienia tylko warstwę wizualną. Tekst pod spodem pozostaje w dokumencie i jest dostępny dla każdego narzędzia.

Sprawdź prosto: otwórz PDF, zaznacz cały tekst (Ctrl+A), skopiuj do notatnika. Jeżeli wszystkie „zaczernione" imiona i adresy pojawiają się w schowku, anonimizacja nie została wykonana.

Co znaczy „prawidłowa" anonimizacja PDF

Dobra anonimizacja działa na warstwie tekstowej. Fragmenty z danymi osobowymi są zastępowane (a nie zakrywane) tokenami lub ciągami X-ów. Po zapisaniu pliku:

warstwa wizualna pokazuje token zamiast oryginalnych danych;
warstwa tekstowa zawiera token zamiast oryginalnych danych;
metadane (Właściwości, Opis, Autor, Tytuł, Słowa kluczowe) są wyczyszczone;
komentarze, adnotacje i strumienie wcześniejszych wersji są usunięte.

Metadane, zapomniane źródło wycieków

PDF zapisywany przez Worda lub LibreOffice niesie metadane: nazwisko autora, datę utworzenia, ścieżkę pliku na dysku, historię zmian. Przeciętny dokument z kancelarii zawiera pełne imię i nazwisko osoby, która go redagowała.

W każdym profesjonalnym workflow anonimizacji czyszczenie metadanych jest krokiem osobnym i często pominiętym.

Skany i OCR

PDF bez warstwy tekstowej (skan, zdjęcie) to w praktyce obraz. Zamazanie obszaru na obrazie jest skuteczne (tekst nie istnieje), ale tracisz możliwość automatycznej anonimizacji, trzeba znaleźć obszary ręcznie.

Rekomendowany workflow:

skan, OCR (rozpoznawanie tekstu);
anonimizacja warstwy tekstowej;
zapis jako nowy PDF z czystymi metadanymi.

Ukryte warstwy i wersje

PDF potrafi przechowywać wcześniejsze wersje dokumentu w jednym pliku (tzw. incremental save). Otwarcie pliku edytorem tekstu pokazuje ślady poprzednich treści. Profesjonalne narzędzia do anonimizacji wymuszają linearyzację, zapisanie pliku od zera, bez historii.

Checklist

Krok	Dlaczego ważne
Zamiana w warstwie tekstowej	Nie da się skopiować oryginału
Wyczyszczenie metadanych	Autor, tytuł, ścieżka pliku, to też dane
Usunięcie komentarzy	Redakcyjne notatki bywają ujawniające
Linearyzacja zapisu	Brak historii wcześniejszych wersji
Weryfikacja: zaznacz + skopiuj	Szybki test skuteczności
Raport anonimizacji	Dowód w dokumentacji RODO

Beznazwisk.pl robi to w jednym kliknięciu

Wykrywanie danych, podmiana w warstwie tekstowej, czyszczenie metadanych, linearyzacja zapisu i raport, wszystko jednym kliknięciem. Lokalnie, bez chmury.

Pobierz bezpłatnie

Podsumowanie

Prawidłowa anonimizacja PDF to nie malowanie czarnych prostokątów. To podmienianie tekstu, czyszczenie metadanych, usuwanie historii edycji i weryfikacja wyniku. Ręcznie jest to wykonalne, ale bardzo łatwo coś pominąć, nawet osobie zaznajomionej z tematem.

Autor: Zespół Beznazwisk.pl. Tekst ma charakter informacyjny i nie stanowi porady prawnej.

Anonimizacja PDF krok po kroku. Typowe błędy i jak ich uniknąć.