Metodología CleanNews — Módulo Judicial
Versión: 1.0.0 | Fecha: Junio 2026
Este documento describe la metodología del módulo judicial de CleanNews, diseñada para ser auditable, citable y defendible ante cualquier interlocutor académico, institucional o judicial.
1. Fuentes de datos
| Fuente | Cobertura | Acceso |
|---|---|---|
| CENDOJ (poderjudicial.es) | Tribunal Supremo, Audiencia Nacional, TSJ, Audiencias Provinciales | Público, scraping |
| BOE (boe.es) | Edictos concursales, nombramientos judiciales, CGPJ | API oficial |
| Tribunal Constitucional (hj.tribunalconstitucional.es) | Sentencias TC desde 1980 | Público, scraping |
| CGPJ (cgpj.es) | Acuerdos de pleno, composición | Público, scraping |
Período de cobertura: desde 2015 para datos parlamentarios; desde 2009 para BOE; desde 2010 para TC. El análisis de proporcionalidad punitiva requiere mínimo 5 años de sentencias por tipo de delito para tener volumen estadístico suficiente.
2. Extracción de entidades
Las entidades (personas, empresas) se extraen mediante el modelo Claude Sonnet (Anthropic) con temperatura 0 (determinístico). El prompt de extracción prohíbe explícitamente inferir información no presente en el texto.
Cada extracción genera un campo confianza_extraccion (0-1). Extracciones
con confianza < 0.6 no se incorporan al pipeline de análisis.
3. Asociación político-sentencia
El match entre una entidad judicial y un político conocido requiere:
- Similitud de nombre (pg_trgm, umbral > 0.4 para candidatos iniciales)
- Verificación contextual por Claude API: cargo, partido, fechas, comunidad autónoma
- Confianza de match ≥ 0.80 para proceso automático
- Confianza < 0.80 → revisión humana obligatoria
Un falso positivo (asociar a un político con una sentencia que no le corresponde) tiene consecuencias reales. El sistema está calibrado para preferir falsos negativos frente a falsos positivos.
4. Análisis de proporcionalidad punitiva
4.1 Fundamento
El análisis compara la pena impuesta en una sentencia concreta contra la distribución estadística de penas en casos jurídicamente similares. El concepto tiene base en la doctrina de proporcionalidad punitiva del Derecho Penal.
4.2 Variables de similitud
Los casos se comparan mediante un vector de 64 dimensiones que codifica:
- Tipo de delito (one-hot, 20 categorías)
- Cuantía defraudada (log-normalizada)
- Agravantes y atenuantes presentes (7 categorías cada uno)
- Perfil del acusado (funcionario público, reincidente, antecedentes)
- Grado de ejecución (consumado, tentativa, preparación)
- Posición en el marco legal (uso del margen discrecional)
La similitud entre sentencias se calcula mediante similitud coseno en pgvector.
4.3 Exclusiones obligatorias
Las sentencias por conformidad (pacto de pena) se excluyen del análisis de proporcionalidad, ya que la pena no refleja el criterio discrecional del juez.
4.4 Cálculo del percentil
Para cada sentencia con cluster de similitud suficiente (n ≥ 10):
- Se calcula el percentil de la pena dentro del cluster (scipy.stats.percentileofscore)
- Se calcula el z-score: (pena - media_cluster) / desviación_cluster
- Se marca como outlier si percentil > 90 o z-score > 2
4.5 Detección de patrón estadístico
Para órganos con n ≥ 30 sentencias analizadas, se aplica el test de Kolmogorov-Smirnov comparando la distribución de percentiles del órgano contra la distribución uniforme U[0,100] esperada en ausencia de sesgo.
- Si p-valor < 0.05: la distribución no es uniforme → patrón estadísticamente significativo
- Si p-valor ≥ 0.05: sin evidencia de patrón sistemático
4.6 Niveles de publicación
| Nivel | Qué se publica | Desde cuándo |
|---|---|---|
| Sala/órgano | Patrón agregado sin identificar ponentes | Desde el lanzamiento |
| Ponente individual | Patrón con nombre del magistrado | Tras validación académica externa |
El nivel de ponente requiere: partner universitario que avale la metodología,
publicación o preprint que documente el análisis, y aprobación editorial explícita
con trazabilidad (aprobado_por, fecha_aprobacion).
5. Referencias metodológicas
Hallin, D.C. & Mancini, P. (2004). Comparing Media Systems. Cambridge University Press. — Marco de referencia para el paralelismo político-mediático en España.
Reuters Institute Digital News Report (anual). University of Oxford. — Referencia para clasificación editorial de medios.
Andrés Ibáñez, P. (2015). En torno a la jurisdicción. Ediciones Didot. — Sobre independencia judicial e imparcialidad en el sistema español.
Díez-Picazo, L.M. (2000). El poder de acusar. Ariel. — Sobre el Ministerio Fiscal y la discrecionalidad punitiva en España.
Nota: CleanNews no hace afirmaciones causales sobre la relación entre la composición del CGPJ y las resoluciones individuales de magistrados. Los datos muestran correlaciones estadísticas; la interpretación causal corresponde al lector y a la investigación académica independiente.
6. Limitaciones conocidas
Cobertura de CENDOJ: no es el 100% del universo judicial. Los juzgados de instancia tienen cobertura reducida. El análisis es representativo para Tribunal Supremo y Audiencia Nacional.
Tamaño de muestra por tipo de delito: algunos tipos de delito tienen pocos casos comparables, lo que reduce la fiabilidad del percentil individual. El campo
calidad_clusterrefleja esta limitación.Cambio jurisprudencial: la jurisprudencia evoluciona. Comparar sentencias de 2010 con sentencias de 2024 del mismo tipo de delito puede ser inadecuado si ha habido reforma del Código Penal o cambio de doctrina. El análisis se segmenta por períodos quinquenales para mitigar este riesgo.
Anonimización en CENDOJ: algunas sentencias aparecen anonimizadas (LOPD). En esos casos no es posible identificar a los procesados. El sistema registra estos casos pero no los incorpora al análisis de proporcionalidad.