CleanNews Judicial

Metodología CleanNews — Módulo Judicial

Versión: 1.0.0 | Fecha: Junio 2026

Este documento describe la metodología del módulo judicial de CleanNews, diseñada para ser auditable, citable y defendible ante cualquier interlocutor académico, institucional o judicial.


1. Fuentes de datos

Fuente Cobertura Acceso
CENDOJ (poderjudicial.es) Tribunal Supremo, Audiencia Nacional, TSJ, Audiencias Provinciales Público, scraping
BOE (boe.es) Edictos concursales, nombramientos judiciales, CGPJ API oficial
Tribunal Constitucional (hj.tribunalconstitucional.es) Sentencias TC desde 1980 Público, scraping
CGPJ (cgpj.es) Acuerdos de pleno, composición Público, scraping

Período de cobertura: desde 2015 para datos parlamentarios; desde 2009 para BOE; desde 2010 para TC. El análisis de proporcionalidad punitiva requiere mínimo 5 años de sentencias por tipo de delito para tener volumen estadístico suficiente.


2. Extracción de entidades

Las entidades (personas, empresas) se extraen mediante el modelo Claude Sonnet (Anthropic) con temperatura 0 (determinístico). El prompt de extracción prohíbe explícitamente inferir información no presente en el texto.

Cada extracción genera un campo confianza_extraccion (0-1). Extracciones con confianza < 0.6 no se incorporan al pipeline de análisis.


3. Asociación político-sentencia

El match entre una entidad judicial y un político conocido requiere:

Un falso positivo (asociar a un político con una sentencia que no le corresponde) tiene consecuencias reales. El sistema está calibrado para preferir falsos negativos frente a falsos positivos.


4. Análisis de proporcionalidad punitiva

4.1 Fundamento

El análisis compara la pena impuesta en una sentencia concreta contra la distribución estadística de penas en casos jurídicamente similares. El concepto tiene base en la doctrina de proporcionalidad punitiva del Derecho Penal.

4.2 Variables de similitud

Los casos se comparan mediante un vector de 64 dimensiones que codifica:

La similitud entre sentencias se calcula mediante similitud coseno en pgvector.

4.3 Exclusiones obligatorias

Las sentencias por conformidad (pacto de pena) se excluyen del análisis de proporcionalidad, ya que la pena no refleja el criterio discrecional del juez.

4.4 Cálculo del percentil

Para cada sentencia con cluster de similitud suficiente (n ≥ 10):

4.5 Detección de patrón estadístico

Para órganos con n ≥ 30 sentencias analizadas, se aplica el test de Kolmogorov-Smirnov comparando la distribución de percentiles del órgano contra la distribución uniforme U[0,100] esperada en ausencia de sesgo.

4.6 Niveles de publicación

Nivel Qué se publica Desde cuándo
Sala/órgano Patrón agregado sin identificar ponentes Desde el lanzamiento
Ponente individual Patrón con nombre del magistrado Tras validación académica externa

El nivel de ponente requiere: partner universitario que avale la metodología, publicación o preprint que documente el análisis, y aprobación editorial explícita con trazabilidad (aprobado_por, fecha_aprobacion).


5. Referencias metodológicas

Nota: CleanNews no hace afirmaciones causales sobre la relación entre la composición del CGPJ y las resoluciones individuales de magistrados. Los datos muestran correlaciones estadísticas; la interpretación causal corresponde al lector y a la investigación académica independiente.


6. Limitaciones conocidas

  1. Cobertura de CENDOJ: no es el 100% del universo judicial. Los juzgados de instancia tienen cobertura reducida. El análisis es representativo para Tribunal Supremo y Audiencia Nacional.

  2. Tamaño de muestra por tipo de delito: algunos tipos de delito tienen pocos casos comparables, lo que reduce la fiabilidad del percentil individual. El campo calidad_cluster refleja esta limitación.

  3. Cambio jurisprudencial: la jurisprudencia evoluciona. Comparar sentencias de 2010 con sentencias de 2024 del mismo tipo de delito puede ser inadecuado si ha habido reforma del Código Penal o cambio de doctrina. El análisis se segmenta por períodos quinquenales para mitigar este riesgo.

  4. Anonimización en CENDOJ: algunas sentencias aparecen anonimizadas (LOPD). En esos casos no es posible identificar a los procesados. El sistema registra estos casos pero no los incorpora al análisis de proporcionalidad.