Metodología CleanNews — Módulo Judicial

Versión: 1.0.0 | Fecha: Junio 2026

Este documento describe la metodología del módulo judicial de CleanNews, diseñada para ser auditable, citable y defendible ante cualquier interlocutor académico, institucional o judicial.

1. Fuentes de datos

Fuente	Cobertura	Acceso
CENDOJ (poderjudicial.es)	Tribunal Supremo, Audiencia Nacional, TSJ, Audiencias Provinciales	Público, scraping
BOE (boe.es)	Edictos concursales, nombramientos judiciales, CGPJ	API oficial
Tribunal Constitucional (hj.tribunalconstitucional.es)	Sentencias TC desde 1980	Público, scraping
CGPJ (cgpj.es)	Acuerdos de pleno, composición	Público, scraping

Período de cobertura: desde 2015 para datos parlamentarios; desde 2009 para BOE; desde 2010 para TC. El análisis de proporcionalidad punitiva requiere mínimo 5 años de sentencias por tipo de delito para tener volumen estadístico suficiente.

2. Extracción de entidades

Las entidades (personas, empresas) se extraen mediante el modelo Claude Sonnet (Anthropic) con temperatura 0 (determinístico). El prompt de extracción prohíbe explícitamente inferir información no presente en el texto.

Cada extracción genera un campo confianza_extraccion (0-1). Extracciones con confianza < 0.6 no se incorporan al pipeline de análisis.

3. Asociación político-sentencia

El match entre una entidad judicial y un político conocido requiere:

Similitud de nombre (pg_trgm, umbral > 0.4 para candidatos iniciales)
Verificación contextual por Claude API: cargo, partido, fechas, comunidad autónoma
Confianza de match ≥ 0.80 para proceso automático
Confianza < 0.80 → revisión humana obligatoria

Un falso positivo (asociar a un político con una sentencia que no le corresponde) tiene consecuencias reales. El sistema está calibrado para preferir falsos negativos frente a falsos positivos.

4. Análisis de proporcionalidad punitiva

4.1 Fundamento

El análisis compara la pena impuesta en una sentencia concreta contra la distribución estadística de penas en casos jurídicamente similares. El concepto tiene base en la doctrina de proporcionalidad punitiva del Derecho Penal.

4.2 Variables de similitud

Los casos se comparan mediante un vector de 64 dimensiones que codifica:

Tipo de delito (one-hot, 20 categorías)
Cuantía defraudada (log-normalizada)
Agravantes y atenuantes presentes (7 categorías cada uno)
Perfil del acusado (funcionario público, reincidente, antecedentes)
Grado de ejecución (consumado, tentativa, preparación)
Posición en el marco legal (uso del margen discrecional)

La similitud entre sentencias se calcula mediante similitud coseno en pgvector.

4.3 Exclusiones obligatorias

Las sentencias por conformidad (pacto de pena) se excluyen del análisis de proporcionalidad, ya que la pena no refleja el criterio discrecional del juez.

4.4 Cálculo del percentil

Para cada sentencia con cluster de similitud suficiente (n ≥ 10):

Se calcula el percentil de la pena dentro del cluster (scipy.stats.percentileofscore)
Se calcula el z-score: (pena - media_cluster) / desviación_cluster
Se marca como outlier si percentil > 90 o z-score > 2

4.5 Detección de patrón estadístico

Para órganos con n ≥ 30 sentencias analizadas, se aplica el test de Kolmogorov-Smirnov comparando la distribución de percentiles del órgano contra la distribución uniforme U[0,100] esperada en ausencia de sesgo.

Si p-valor < 0.05: la distribución no es uniforme → patrón estadísticamente significativo
Si p-valor ≥ 0.05: sin evidencia de patrón sistemático

4.6 Niveles de publicación

Nivel	Qué se publica	Desde cuándo
Sala/órgano	Patrón agregado sin identificar ponentes	Desde el lanzamiento
Ponente individual	Patrón con nombre del magistrado	Tras validación académica externa

El nivel de ponente requiere: partner universitario que avale la metodología, publicación o preprint que documente el análisis, y aprobación editorial explícita con trazabilidad (aprobado_por, fecha_aprobacion).

5. Referencias metodológicas

Hallin, D.C. & Mancini, P. (2004). Comparing Media Systems. Cambridge University Press. — Marco de referencia para el paralelismo político-mediático en España.
Reuters Institute Digital News Report (anual). University of Oxford. — Referencia para clasificación editorial de medios.
Andrés Ibáñez, P. (2015). En torno a la jurisdicción. Ediciones Didot. — Sobre independencia judicial e imparcialidad en el sistema español.
Díez-Picazo, L.M. (2000). El poder de acusar. Ariel. — Sobre el Ministerio Fiscal y la discrecionalidad punitiva en España.

Nota: CleanNews no hace afirmaciones causales sobre la relación entre la composición del CGPJ y las resoluciones individuales de magistrados. Los datos muestran correlaciones estadísticas; la interpretación causal corresponde al lector y a la investigación académica independiente.

6. Limitaciones conocidas

Cobertura de CENDOJ: no es el 100% del universo judicial. Los juzgados de instancia tienen cobertura reducida. El análisis es representativo para Tribunal Supremo y Audiencia Nacional.
Tamaño de muestra por tipo de delito: algunos tipos de delito tienen pocos casos comparables, lo que reduce la fiabilidad del percentil individual. El campo calidad_cluster refleja esta limitación.
Cambio jurisprudencial: la jurisprudencia evoluciona. Comparar sentencias de 2010 con sentencias de 2024 del mismo tipo de delito puede ser inadecuado si ha habido reforma del Código Penal o cambio de doctrina. El análisis se segmenta por períodos quinquenales para mitigar este riesgo.
Anonimización en CENDOJ: algunas sentencias aparecen anonimizadas (LOPD). En esos casos no es posible identificar a los procesados. El sistema registra estos casos pero no los incorpora al análisis de proporcionalidad.