Najczęstszy błąd w anonimizacji dokumentów PDF jest banalnie prosty: ktoś rysuje czarny prostokąt na nazwisku w Adobe Reader, zapisuje plik i wysyła dalej. Odbiorca zaznacza obszar pod prostokątem, kopiuje, i odczytuje ukrytą treść.
Dlaczego „czarny prostokąt" nie działa
PDF to dwuwarstwowy format: warstwa wizualna (to, co widać) i warstwa tekstowa (to, co można skopiować, zaindeksować, odczytać narzędziem). Narysowanie prostokąta zmienia tylko warstwę wizualną. Tekst pod spodem pozostaje w dokumencie i jest dostępny dla każdego narzędzia.
Sprawdź prosto: otwórz PDF, zaznacz cały tekst (Ctrl+A), skopiuj do notatnika. Jeżeli wszystkie „zaczernione" imiona i adresy pojawiają się w schowku, anonimizacja nie została wykonana.
Co znaczy „prawidłowa" anonimizacja PDF
Dobra anonimizacja działa na warstwie tekstowej. Fragmenty z danymi osobowymi są zastępowane (a nie zakrywane) tokenami lub ciągami X-ów. Po zapisaniu pliku:
- warstwa wizualna pokazuje token zamiast oryginalnych danych;
- warstwa tekstowa zawiera token zamiast oryginalnych danych;
- metadane (Właściwości, Opis, Autor, Tytuł, Słowa kluczowe) są wyczyszczone;
- komentarze, adnotacje i strumienie wcześniejszych wersji są usunięte.
Metadane, zapomniane źródło wycieków
PDF zapisywany przez Worda lub LibreOffice niesie metadane: nazwisko autora, datę utworzenia, ścieżkę pliku na dysku, historię zmian. Przeciętny dokument z kancelarii zawiera pełne imię i nazwisko osoby, która go redagowała.
W każdym profesjonalnym workflow anonimizacji czyszczenie metadanych jest krokiem osobnym i często pominiętym.
Skany i OCR
PDF bez warstwy tekstowej (skan, zdjęcie) to w praktyce obraz. Zamazanie obszaru na obrazie jest skuteczne (tekst nie istnieje), ale tracisz możliwość automatycznej anonimizacji, trzeba znaleźć obszary ręcznie.
Rekomendowany workflow:
- skan, OCR (rozpoznawanie tekstu);
- anonimizacja warstwy tekstowej;
- zapis jako nowy PDF z czystymi metadanymi.
Ukryte warstwy i wersje
PDF potrafi przechowywać wcześniejsze wersje dokumentu w jednym pliku (tzw. incremental save). Otwarcie pliku edytorem tekstu pokazuje ślady poprzednich treści. Profesjonalne narzędzia do anonimizacji wymuszają linearyzację, zapisanie pliku od zera, bez historii.
Checklist
| Krok | Dlaczego ważne |
|---|---|
| Zamiana w warstwie tekstowej | Nie da się skopiować oryginału |
| Wyczyszczenie metadanych | Autor, tytuł, ścieżka pliku, to też dane |
| Usunięcie komentarzy | Redakcyjne notatki bywają ujawniające |
| Linearyzacja zapisu | Brak historii wcześniejszych wersji |
| Weryfikacja: zaznacz + skopiuj | Szybki test skuteczności |
| Raport anonimizacji | Dowód w dokumentacji RODO |
Beznazwisk.pl robi to w jednym kliknięciu
Wykrywanie danych, podmiana w warstwie tekstowej, czyszczenie metadanych, linearyzacja zapisu i raport, wszystko jednym kliknięciem. Lokalnie, bez chmury.
Pobierz bezpłatniePodsumowanie
Prawidłowa anonimizacja PDF to nie malowanie czarnych prostokątów. To podmienianie tekstu, czyszczenie metadanych, usuwanie historii edycji i weryfikacja wyniku. Ręcznie jest to wykonalne, ale bardzo łatwo coś pominąć, nawet osobie zaznajomionej z tematem.
Autor: Zespół Beznazwisk.pl. Tekst ma charakter informacyjny i nie stanowi porady prawnej.