redtapeaiMVP

Metodologia

redtapeai jest projektem badawczym — nie autorytetem prawnym. Ta strona wyjaśnia, jak powstają rekordy widoczne w bazie, jaki jest scope projektu i gdzie są jego ograniczenia.

Czym jest obciążenie administracyjne (a czym nie)

W naszym znaczeniu obciążenie administracyjne (administrative burden, red tape) to sytuacja stanowiąca ograniczenie wolności gospodarczej — w rozumieniu art. 20-22 Konstytucji RP. To są powinności biurokratyczne nakładane na podmioty regulowane (przedsiębiorców, obywateli, pracodawców, podatników) i tworzące koszty compliance.

NIE są obciążeniem administracyjnym w sensie tego projektu:

Ważny niuans: compliance wokół danin (deklaracje VAT, JPK, ewidencja podatkowa, rejestracja jako podatnik VAT, wnioski o interpretacje indywidualne) JEST obciążeniem administracyjnym, bo to są koszty biurokratyczne ograniczające wolność gospodarczą, nie sama danina.

Pipeline ekstrakcji

  1. Ingestion — pobranie aktu z ELI API (api.sejm.gov.pl/eli).
  2. Parsing — strukturyzacja HTML do hierarchii art./ust./pkt/lit.
  3. Pattern scanner — deterministyczne wykrywanie kandydatów na obowiązek (markery typu „obowiązany", „w terminie", „pod rygorem").
  4. LLM extraction — kandydaci analizowani przez model (claude-opus-4-7), który zwraca obowiązki z dosłownym cytatem i klasyfikacją subject_category + is_danina_publiczna.
  5. Walidator cytatu — twardy gate: cytat MUSI dosłownie występować w źródle, inaczej rekord jest odrzucany.
  6. Klasyfikator regułowy — cross-check stem-prefix matchingu polskiej morfologii, jako fallback i retrofit.
  7. Confidence scoring — wielosygnałowy wynik (siła wzorca, kompletność, specyficzność cytatu i podmiotu).

Co domyślnie widzisz na dashboardzie

Domyślny widok („obciążenia regulacyjne") pokazuje obowiązki spełniające:

Przełącznik „wszystkie obowiązki" odsłania procedury wewnątrz administracji + daniny publiczne — dla pełnej transparency datasetu, ale to nie jest core scope projektu.

Ograniczenia metody

Wersjonowanie

Dataset jest powiązany z wersją tekstu jednolitego pobraną z ELI w danym momencie. Plik extraction_run.json zawiera metadane runa (model, prompt_version, timestamps, błędy). Plikclassify_log.json dokumentuje rule-based klasyfikacje subject_category dla każdego obowiązku.

Repozytorium i dane