La herramienta sobredimensionada y la aplicación faltante
Cómputo, IA estadística y los límites políticos, económicos y ontológicos del conocimiento urbano
Una tesis en filosofía de la ciudad, con texto ancla en Yuk Hui
Tesis central
Disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva sobre la ciudad: la inteligencia artificial estadística no produce un salto epistémico proporcional a su costo material, energético y político. Lo que el experimento propio muestra es que el cómputo a gran escala mejora la imitación sin cruzar ningún umbral categorial —ni garantiza verdad aritmética ni decide relevancia—, de modo que las limitaciones decisivas de la urbanidad computada no son técnicas sino políticas, económicas y ontológicas: quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía. La tarea pendiente no es un modelo más potente sino la aplicación: hacer presentable, usable y aplicable el conocimiento urbano clásico ya existente. Como contribución, esta tesis propone un Banco Epistémico Urbano —un banco de pruebas reproducible que compara modelos urbanos clásicos computables contra IA estadística— y se construye, irónicamente, orquestando sistemas de IA bajo supervisión humana, lo que la convierte en evidencia performativa de su propio argumento.
Abstract
Esta tesis somete a prueba y a crítica la promesa de que la inteligencia artificial estadística constituye el instrumento que por fin permitiría saber y gobernar la ciudad. Frente a esa promesa sostiene una tesis de desproporción: disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva, porque el costo material, energético y político del cómputo a gran escala crece muy por encima del conocimiento urbano que produce. El argumento se apoya en un experimento propio de seis tareas (T1–T6) que enfrenta el cómputo puro o determinístico —el algoritmo exacto— con modelos de lenguaje que operan solo con su razonamiento interno. Las cinco tareas con verdad de referencia aritmética muestran que el modelo imita el resultado del cálculo sin ejecutarlo: acierta a menudo pero no de manera garantizada ni estable, y el modelo de mayor escala resultó menos fiable que el menor. La tarea inversa, no computable, muestra el límite opuesto: donde hay que decidir qué cuenta como relevante, el cómputo no puede siquiera arrancar sin que un humano fije antes la función objetivo. De ambos extremos se concluye que el escalamiento mejora la imitación sin cruzar ningún umbral categorial. Sobre esa base, la tesis despliega una triple crítica —técnica, ontológica (con Hui, Simondon, Wiener, Kant, Heidegger y Dreyfus, en torno a la cosmotécnica y la individuación) y político-económica (con Harvey, Sassen, Kitchin y Lefebvre, en torno al sobredimensionamiento, la economía de la aplicación y la soberanía de cómputo)— y propone como contribución constructiva el Banco Epistémico Urbano, un banco de pruebas reproducible que compara modelos urbanos clásicos computables contra la IA estadística. La consigna que sintetiza el conjunto es: aplicar antes que escalar, fragmentar antes que optimizar.
Palabras clave: filosofía de la ciudad, inteligencia artificial estadística, cómputo determinístico, Yuk Hui, cosmotécnica, tecnodiversidad, soberanía de cómputo, urbanidad computada, Banco Epistémico Urbano.
Índice
| # | Capítulo | Estado |
|---|---|---|
| 01 | Introducción: la herramienta sobredimensionada y la aplicación faltante — Enuncia la tesis central, fija el marco filosófico, sitúa el texto ancla de Yuk Hui, anuncia el experimento propio (T1–T6) y la contribución (el Banco Epistémico Urbano), y declara el estatuto reflexivo del trabajo. | Disponible |
| 02 | Epistemología de los modelos urbanos: qué significa saber y computar una ciudad — Distingue tres registros del conocimiento urbano, define el modelo como idealización adecuada-a-un-uso, traza la frontera entre lo formalizable y su resto, y desacopla resolución de comprensión. | Disponible |
| 03 | Catálogo razonado de teorías urbanas computables — Inventario de los modelos clásicos formalizables (Zipf, Christaller, Alonso, Batty, Bettencourt, West) que pueden entrar como contendientes en el banco de pruebas. | Disponible |
| 04 | Metodología experimental: protocolo, sujetos y verdad de referencia — Diseño completo del experimento: tareas, sujetos, condición sin herramientas y construcción de la verdad de referencia. | Disponible |
| 05 | Resultados: cómputo puro frente a IA estadística — Análisis cuantitativo y cualitativo del enfrentamiento sobre las tareas T1–T6. | Disponible |
| 06 | Crítica técnica: qué hace y qué no hace la IA estadística — Predicción del token plausible frente a ejecución del algoritmo; el patrón de error; el argumento de la escala; la desproporción entre salto prometido y costo. | Disponible |
| 07 | Crítica ontológica: Hui, Simondon, cosmotécnica e individuación — Exteriorización (Bergson), recursividad e individuación técnica (Wiener, Simondon), juicio determinante y reflexionante (Kant vía Hui), mundo (Heidegger, Dreyfus) y cosmotécnica. | Disponible |
| 08 | Crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo — El sobredimensionamiento como problema económico, el cuello de botella de la aplicación, la soberanía de cómputo y la función objetivo como acto político. | Disponible |
| 09 | Propuesta: el Banco Epistémico Urbano como herramienta científica — Arquitectura, protocolo de extensión, casos de uso (investigación y docencia) y posición epistémica del banco de pruebas. | Disponible |
| 10 | Nota reflexiva: una tesis construida orquestando IA bajo supervisión humana — En primera persona: método de producción, ironía performativa, el humano como horizonte, riesgos de la autoevidencia y la supervisión como soberanía. | Disponible |
| 11 | Conclusiones: aplicar antes que escalar, fragmentar antes que optimizar — Recapitulación del límite, doble contribución, giro hacia la aplicación, tecnodiversidad urbana y agenda futura. | Disponible |
Nota: cómo leer este documento
El argumento es un solo trayecto. Cada capítulo es un paso de una misma demostración y está escrito para leerse en orden. La introducción (01) enuncia la tesis y el mapa; la epistemología (02) fija los conceptos; el experimento y su análisis (04–05) aportan la evidencia; la triple crítica (06–08) extrae sus consecuencias técnica, ontológica y político-económica; la propuesta (09) traduce el diagnóstico en herramienta; la nota reflexiva (10) examina el modo de producción del propio trabajo; y las conclusiones (11) recogen la consigna final. Las transiciones de cierre y apertura encadenan los capítulos consecutivos de forma explícita.
Documento completo. Los once capítulos están disponibles y la tesis se lee como un solo trayecto cerrado. El experimento propio (T1–T6) que sostiene la evidencia está ejecutado y documentado en experimento/resultados.json, y el segundo experimento —las treinta y nueve preguntas derivadas de trece teorías urbanas— en experimento/resultados_teorias.json; su exposición metodológica se desarrolla en el capítulo 04 y su análisis en el capítulo 05.
Convenciones estables. A lo largo del documento se mantienen sin variación: las etiquetas de tarea T1 a T6; la distinción entre cómputo puro (o determinístico) y IA estadística; los términos cosmotécnica (herramienta de análisis) y tecnodiversidad (propuesta normativa); las etiquetas del experimento NO_COMPUTABLE (valor de referencia ausente para la tarea inversa) y NO_APLICA (campo de corrección que no procede); y la identificación de los seis sujetos evaluados —dos modelos de API, Sonnet (modelo de menor escala nominal, 90 % de aciertos sobre las tareas computables) y Opus (modelo de mayor escala nominal, 70 %), y cuatro modelos locales ejecutados bajo Ollama (qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b)—, sobre los que las cifras de Sonnet y Opus anclan la discusión cuantitativa principal.
Lecturas parciales. Quien busque solo el diagnóstico crítico puede leer 01, 06, 07 y 08. Quien busque la contribución constructiva puede ir directamente a 09. Quien se interese por la dimensión metodológica y la ironía performativa del trabajo encontrará en 10 una lectura autónoma. En todos los casos se recomienda haber leído antes la introducción (01), que fija los términos en que cada parte debe entenderse.
01. Introducción: la herramienta sobredimensionada y la aplicación faltante
Este capítulo cumple una función inaugural dentro del argumento global: enuncia la tesis central, fija el marco filosófico desde el que la sostenemos —una filosofía de la ciudad atenta a la vez a la ontología, al poder y a la política—, sitúa el texto ancla de Yuk Hui y anuncia tanto el recorrido de los capítulos siguientes como la contribución que la tesis ofrece, el Banco Epistémico Urbano. No pretendemos aquí demostrar nada en detalle; pretendemos plantear con precisión qué afirmamos, contra qué afirmamos y con qué medios nos proponemos mostrarlo. Cada una de las secciones que siguen avanza esa formulación y la deja lista para el desarrollo posterior. Cerramos el capítulo con un puente al capítulo 02, donde se examina qué significa, propiamente, saber y computar una ciudad.
1.1. Formulación de la tesis: herramientas epistémicas sobredimensionadas
Sostenemos una tesis que puede enunciarse en una sola frase y que el resto del trabajo se ocupará de calificar: disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva sobre la ciudad. Con «herramienta epistémica sobredimensionada» nombramos un instrumento de conocimiento cuyo costo material, energético y político crece muy por encima del incremento de saber que produce sobre su objeto. La inteligencia artificial estadística —y dentro de ella, de manera señalada, los modelos de lenguaje— es hoy el caso paradigmático de esa desproporción cuando se la dirige sobre el fenómeno urbano. No negamos que esos modelos hagan cosas notables; negamos que el salto de capacidad de imitación que exhiben constituya un salto epistémico proporcional a lo que cuesta producirlo y desplegarlo.
Conviene distinguir desde ya tres niveles de enunciado que mantendremos separados a lo largo de la tesis. En el nivel descriptivo registramos qué hacen efectivamente estos sistemas sobre tareas urbanas bien definidas. En el nivel interpretativo preguntamos qué significa ese comportamiento, esto es, qué tipo de operación cognitiva realiza o deja de realizar la máquina. En el nivel argumentativo extraemos qué se sigue de ello para la pregunta por el conocimiento de la ciudad. La tesis central se enuncia en el tercer nivel, pero se apoya en los dos primeros y solo es legítima si esos dos primeros la sostienen.
El término clave es «salto epistémico». Entendemos por tal el cruce de un umbral categorial: el paso de un régimen de conocimiento a otro cualitativamente distinto, no la mera mejora cuantitativa dentro del mismo régimen. Nuestra afirmación es que la IA estadística, por más que escale en parámetros, datos y cómputo, mejora la imitación sin cruzar ningún umbral de esa clase. Mejorar la imitación significa producir salidas cada vez más indistinguibles de las que produciría un agente competente; cruzar un umbral categorial significaría, en cambio, hacer algo que antes era imposible en principio y no solo improbable en la práctica. La distinción no es retórica. De ella depende que la inversión colosal que hoy se canaliza hacia estos sistemas se justifique como conquista cognitiva o se reconozca como sofisticación de la apariencia.
1.2. Del límite técnico al límite político, económico y ontológico
La pregunta por el límite de la inteligencia artificial ha sido planteada con rigor por Yuk Hui en su ensayo sobre los límites de la inteligencia artificial, recogido en Fragmentar el futuro. Ensayos sobre tecnodiversidad (Hui, 2020). Su gesto decisivo, que hacemos nuestro y que organiza buena parte de esta tesis, consiste en desplazar la pregunta. La cuestión no es ya, al modo de la primera crítica de la inteligencia artificial, qué no puede hacer la máquina, como si bastara con señalar una frontera técnica fija que el progreso eventualmente correría. La cuestión es cómo pensar el límite de una técnica que parece expandirse, mutar y absorber funciones humanas cuantificables sin encontrar barrera externa. Para Hui, el límite no es una frontera técnica sino una cuestión, a la vez, política y cosmológica: la pregunta verdadera es qué tipo de mundo produce la IA cuando convierte la ciudad en datos computables (Hui, 2020).
Asumimos ese desplazamiento y lo precisamos en tres registros que recorrerán la tesis. El límite es político porque alguien decide qué se computa, con qué fines y sobre quiénes; la elección de la métrica no es neutral y nunca está dada de antemano. El límite es económico porque la herramienta tiene un costo —material, energético, de infraestructura— que se distribuye de manera desigual y que compromete recursos sustraídos a otros usos. Y el límite es ontológico porque la operación de hacer computable una ciudad presupone una decisión previa sobre qué cuenta como real, relevante y mensurable en ella, decisión que la propia máquina no toma ni puede tomar. Lo que sostenemos, en consecuencia, es que las limitaciones decisivas de la urbanidad computada no son técnicas sino políticas, económicas y ontológicas. La pregunta operativa que de aquí se sigue, y que el capítulo 08 desarrolla, puede condensarse así: quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía.
Empleamos «cosmotécnica» en el sentido analítico que Hui le da: la unificación del orden cósmico y el orden moral a través de la actividad técnica, de modo que no existe una técnica universal y neutra sino técnicas situadas en cosmovisiones (Hui, 2016). El concepto correlativo, de estatuto normativo, es el de «tecnodiversidad»: la pluralidad de tradiciones técnicas frente a la monocultura digital global (Hui, 2020). Mantendremos esta distinción —cosmotécnica como herramienta de análisis, tecnodiversidad como propuesta— de forma estable, sin tratarlas como sinónimos. El capítulo 07 las desarrolla junto con la individuación técnica y la concretización de Simondon; aquí basta con fijar que la crítica del límite, en el sentido de Hui, no es antitecnológica sino cosmotécnica: no pide menos técnica sino otra manera de plantear qué cosmos produce la técnica urbana.
1.3. El diagnóstico de la aplicación faltante
De la tesis del sobredimensionamiento se sigue un diagnóstico que orienta toda la propuesta: la tarea pendiente no es construir un modelo más potente sino resolver un problema de aplicación. Llamamos «economía de la aplicación» al criterio que mide el valor de una herramienta epistémica no por su potencia bruta sino por la distancia que media entre lo que la herramienta podría saber y lo que efectivamente se usa para decidir sobre la ciudad. Bajo ese criterio, el cuello de botella del conocimiento urbano no está en la frontera de lo computable, sino mucho antes: en que el conocimiento urbano clásico ya disponible permanece, en gran medida, inaplicado.
La descripción del estado de cosas es la siguiente. Existe un cuerpo robusto de teoría urbana —desde los modelos de localización y jerarquía hasta las leyes de escala, pasando por la crítica del espacio vivido— que en muchos casos es explícitamente computable o se deja formalizar sin pérdida sustantiva. La ley de Zipf sobre el rango y el tamaño de las ciudades (Zipf, 1949), la teoría de los lugares centrales (Christaller, 1933), el modelo de uso del suelo y renta de localización (Alonso, 1964), la nueva ciencia de las ciudades (Batty, 2013) y las regularidades de escala urbana (Bettencourt et al., 2007; Bettencourt, 2013; West, 2017) constituyen modelos con poder predictivo verificable. Frente a ellos, buena parte del entusiasmo contemporáneo invierte el orden de prioridades: persigue la revolución de los datos (Kitchin, 2014) y promete la ciudad en tiempo real antes de haber hecho presentable, usable y aplicable lo que ya se sabe. Nuestra interpretación de ese desajuste es que confunde novedad de instrumento con avance de conocimiento.
La argumentación que extraemos es deliberadamente modesta en su forma y exigente en su consecuencia. Sostenemos que el progreso urbano más accesible no consiste en escalar el cómputo, sino en cerrar la brecha de aplicación: tomar modelos clásicos cuyo valor está acreditado, volverlos reproducibles, comparables y operables, y ponerlos a disposición de quien decide. Esta es la inversión de prioridades que la tesis defiende y que su artefacto final encarna. Mumford ya advertía, al historiar la ciudad, que la acumulación técnica no garantiza por sí sola mejora de la vida urbana y que el problema decisivo es para qué fines se organiza la ciudad (Mumford, 1961); recogemos esa advertencia trasladándola al plano epistémico: acumular capacidad de cómputo no garantiza mejor conocimiento de la ciudad si la aplicación del saber existente sigue faltando.
1.4. El aparato propio: experimento y corpus en curso
La tesis no se limita a argumentar; pone a prueba su afirmación central con un aparato propio. El núcleo es un experimento que enfrenta dos regímenes de procesamiento sobre tareas urbanas bien delimitadas: por un lado, modelos de lenguaje operando solo con su razonamiento interno; por otro, el cómputo puro o determinístico, es decir, el algoritmo exacto ejecutado sobre los mismos datos. El diseño completo —protocolo, sujetos y construcción de la verdad de referencia— se expone en el capítulo 04, y los resultados se analizan en detalle en el capítulo 05; los datos brutos están disponibles en los archivos experimento/resultados.json y experimento/resultados_teorias.json. Aquí anticipamos solo lo necesario para que la tesis se entienda como una afirmación contrastable y no como una declaración de principios.
El experimento se organiza en seis tareas, que etiquetamos T1 a T6 y que mantendremos con esas etiquetas en todo el trabajo. T1 pide la multiplicación exacta de dos enteros de doce dígitos; T2, el camino más corto exacto en un grafo de veinticinco barrios; T3, el conteo combinatorio de rutas monótonas en una retícula urbana; T4, la iteración recursiva profunda de una función afín modular durante cuarenta pasos; T5, la suma exacta de cuadrados de treinta lecturas de sensores; y T6, un juicio de relevancia sobre una escena urbana ambigua. Las cinco primeras admiten una respuesta exacta verificable por cómputo puro y sirven para medir si el modelo de lenguaje alcanza la verdad aritmética sin ejecutar el algoritmo. T6 es de naturaleza distinta y la designamos tarea inversa: no admite verdad de referencia computable porque la escena se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro ni función objetivo. La formalización que un algoritmo necesitaría para arrancar es justamente el juicio que se pide; por eso su valor de referencia es, en sentido estricto, no computable.
Sin adelantar el análisis del capítulo 05, registramos en el plano descriptivo lo que los datos muestran. Sobre las cinco tareas con verdad de referencia, los dos modelos de API evaluados (Sonnet y Opus) aciertan la mayoría de las veces pero no de manera infalible ni estable: solo T3 y T4 fueron acertadas por ambos en todos los intentos, mientras que T1, T2 y T5 registraron al menos un fallo. Opus erró el segundo intento de T1; Sonnet devolvió una ruta no mínima en el segundo intento de T2; y Opus falló los dos intentos de T5, donde el agregado aritmético se desvió del valor exacto en órdenes pequeños pero inequívocos. La exactitud global de Sonnet (90 %) superó a la de Opus (70 %), lo que ya basta para una primera interpretación: el modelo de mayor escala nominal no garantizó mayor precisión aritmética. En T6, los modelos produjeron respuestas plausibles y coherentes —dirigiendo la alerta ya al niño, ya al repartidor en moto, ya al acompañante— que ilustran su competencia en el dominio del significado contextual, precisamente allí donde el cómputo puro no puede ni siquiera comenzar.
La interpretación que estos resultados habilitan, y que los capítulos 05 y 06 elaboran, es doble y simétrica. Por un lado, en las tareas exactas el modelo de lenguaje imita el resultado del cálculo sin ejecutar el cálculo, de modo que su acierto es estadístico y no garantizado: no cruza el umbral que separa la estimación plausible de la verdad aritmética. Por otro lado, en la tarea de relevancia el cómputo puro no puede arrancar porque carece de la formalización previa, mientras que el modelo de lenguaje sí opera en el terreno del significado. La conclusión que de ambos extremos se sigue es la que anuncia la tesis: ni el cómputo a gran escala garantiza la verdad aritmética, ni decide por sí solo la relevancia. El umbral categorial no se cruza por escalamiento.
A este núcleo experimental se suma una batería complementaria que el experimento ya ejecutó y documentó en experimento/resultados.json: las seis tareas administradas también a cuatro modelos de lenguaje locales, ejecutados en infraestructura propia bajo Ollama (la familia Qwen —qwen2.5:3b, qwen3:14b, qwen3:32b— y gpt-oss:20b), con el fin de calibrar hasta qué punto el tamaño del modelo y el régimen de despliegue modifican, o no, el comportamiento observado. Anticipamos solo el rasgo que importa a la tesis: la exactitud de los modelos locales no creció con el número de parámetros —el mayor (qwen3:32b) y el menor (qwen2.5:3b) igualaron resultado—, lo que refuerza que la fiabilidad aritmética no es función monótona de la escala. Queda diferido al capítulo 04 el andamiaje metodológico completo —incluido el corpus de simulaciones de las teorías urbanas clásicas catalogadas en el capítulo 03—, cuyo desarrollo extenso se reserva sin que ello afecte a la línea argumental.
1.5. Mapa del argumento y estatuto reflexivo del trabajo
Anticipamos ahora el recorrido completo para que cada capítulo se lea como un paso del mismo argumento. El capítulo 02 establece la epistemología de los modelos urbanos: qué significa saber una ciudad y qué significa computarla, y por qué ambas cosas no coinciden. El capítulo 03, diferido, ofrecerá un catálogo razonado de teorías urbanas computables. El capítulo 04, también diferido, fijará la metodología experimental: protocolo, sujetos y verdad de referencia. El capítulo 05, diferido, presentará los resultados del enfrentamiento entre cómputo puro e IA estadística. El capítulo 06 desarrolla la crítica técnica de qué hace y qué no hace la IA estadística. El capítulo 07 lleva la crítica al plano ontológico, con Hui y Simondon, en torno a la cosmotécnica y la individuación. El capítulo 08 expone la crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo. El capítulo 09 presenta la propuesta, el Banco Epistémico Urbano, como herramienta científica. El capítulo 10 es la nota reflexiva sobre una tesis construida orquestando IA bajo supervisión humana. El capítulo 11 concluye con la consigna que sintetiza el conjunto: aplicar antes que escalar, fragmentar antes que optimizar.
La contribución central, anunciada ya, es el Banco Epistémico Urbano. Lo definimos como un banco de pruebas reproducible que pone a competir modelos urbanos clásicos computables contra IA estadística sobre tareas comunes, con verdad de referencia explícita allí donde la hay y con la marca expresa de su ausencia allí donde no la hay. Su propósito no es coronar un ganador, sino volver presentable, comparable y aplicable el conocimiento urbano existente, y exhibir con transparencia dónde el cómputo puro basta, dónde el modelo estadístico aporta y dónde ninguno de los dos puede decidir sin un humano que fije la pregunta. El capítulo 09 lo especifica como artefacto; aquí lo declaramos como la forma material de la economía de la aplicación que la tesis defiende.
Resta declarar el estatuto reflexivo del trabajo, que el capítulo 10 examina con detalle y que conviene enunciar desde el comienzo con franqueza. Esta tesis se ha construido, en buena parte, orquestando sistemas de inteligencia artificial bajo supervisión humana. La decisión es deliberada y la asumo en primera persona en este punto: usé modelos de lenguaje como instrumentos subordinados, fijando yo las preguntas, las fuentes admisibles y los criterios de verdad, y reservando el juicio de relevancia para la supervisión humana. Esa elección convierte al trabajo en evidencia performativa de su propio argumento. Si la tesis sostiene que la IA estadística es una herramienta sobredimensionada cuyo valor depende de la aplicación y del juicio que la dirige, entonces el modo mismo de producción de la tesis —una herramienta potente puesta a trabajar bajo decisión humana sobre un saber que ya existía— muestra, en acto, la diferencia entre escalar el cómputo y aplicar el conocimiento. La ironía es buscada y forma parte de la prueba.
Con la tesis enunciada, el desplazamiento del límite asumido, el diagnóstico de la aplicación faltante planteado, el aparato propio anunciado y el estatuto reflexivo declarado, queda abierto el problema que el siguiente capítulo debe resolver antes que ningún otro: qué significa, exactamente, saber una ciudad y qué significa computarla, y por qué la distancia entre ambas operaciones es el lugar donde se juega todo lo demás. A ello se dedica el capítulo 02.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Bettencourt, L. M. A. (2013). The Origins of Scaling in Cities. Science, 340(6139), 1438-1441.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Hui, Y. (2016). The Question Concerning Technology in China: An Essay in Cosmotechnics. Falmouth: Urbanomic.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
- Mumford, L. (1961). The City in History: Its Origins, Its Transformations, and Its Prospects. New York: Harcourt, Brace & World.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
02. Epistemología de los modelos urbanos: qué significa saber y computar una ciudad
Este capítulo construye el marco epistemológico sobre el que descansa el resto del argumento. Si la tesis central sostiene que disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva sobre la ciudad, entonces necesitamos primero precisar qué clase de cosa es saber una ciudad, qué hace un modelo cuando la representa y qué clase de saber promete —y cuál recorta— la computación. Sin esa distinción, la afirmación de que la IA estadística no produce un salto epistémico proporcional a su costo carece de criterio: no sabríamos respecto de qué saber se mide el salto que no ocurre. Por eso aquí no discutimos todavía resultados experimentales ni el diseño del Banco Epistémico Urbano —reservados a los capítulos 04 (Metodología experimental) y 09 (Propuesta)—, sino el aparato conceptual que vuelve esos resultados interpretables. Procedemos en cinco pasos: tipologizamos los registros del conocimiento urbano; precisamos qué es un modelo y qué condiciones de validez lo gobiernan; examinamos qué propiedades de la ciudad admiten formalización exacta y cuáles resisten; introducimos un criterio de adecuación epistémica que desacopla resolución de comprensión; y enunciamos la tesis del capítulo, que reformula la pregunta por la computabilidad de la ciudad como una pregunta por su resto y por quién decide que ese resto no cuenta.
2.1. Tres registros del conocimiento urbano
Sostenemos que el conocimiento de una ciudad no es un género único que admita más o menos precisión, sino tres registros heterogéneos que responden a preguntas distintas y se validan con criterios distintos. Confundirlos —tratar uno como versión deficiente de otro— es la fuente de buena parte de los malentendidos sobre lo que la computación puede aportar. Distinguimos, pues, un registro vivencial-fenomenológico, uno formal-cuantitativo y uno crítico-político.
El registro vivencial-fenomenológico atiende a la ciudad como espacio vivido, esto es, como horizonte de prácticas, encuentros y significaciones que solo se dan desde dentro de la experiencia urbana. Jacobs (1961) es su caso ejemplar: su descripción de la acera, de su noción de los ojos sobre la calle —«eyes on the street» en el original inglés— y del ballet cotidiano de un barrio no es una hipótesis cuantitativa sino una fenomenología de la seguridad y la vitalidad que ningún agregado estadístico capta sin residuo. Lefebvre (1974) provee la articulación teórica de este registro con su tríada del espacio percibido, concebido y vivido, y con la tesis de que el espacio es producido socialmente antes de ser medido. Interpretamos este registro como el que custodia la significatividad: lo que una calle quiere decir para quien la habita, no lo que mide. En términos que retomaremos del capítulo 07 (Crítica ontológica), aquí opera lo que Heidegger (1927) llama mundo, horizonte de significatividad irreductible a un conjunto de datos, y lo que Dreyfus (1992) defendió contra la inteligencia puramente calculadora.
El registro formal-cuantitativo trata la ciudad como sistema susceptible de idealización matemática: distribuciones, jerarquías, regularidades de escala. Christaller (1933) formaliza la jerarquía de asentamientos en su teoría de los lugares centrales; Alonso (1964) modela la renta del suelo y la localización residencial como equilibrio entre coste de transporte y coste del espacio; Batty (2013) reúne y actualiza esta tradición bajo la rúbrica de una «nueva ciencia de las ciudades» basada en redes, flujos y escalamiento. Aquí el criterio de validez es la adecuación entre modelo y regularidad observable, y la promesa es la predicción condicional. Conviene anticipar que este es el registro privilegiado por la computación, y no por azar: es el único de los tres cuyos objetos vienen ya dados en forma cuantitativa o cuantificable.
El registro crítico-político interroga las condiciones de producción del espacio urbano y la distribución del poder que lo atraviesa. Harvey (1973) lee la ciudad desde la justicia espacial y la acumulación de capital; Sassen (1991) muestra cómo la ciudad global concentra funciones de mando del capitalismo financiero y produce desigualdades nuevas. Este registro no describe regularidades neutras ni vivencias singulares, sino relaciones de dominación, y su criterio de validez es la capacidad de desvelar intereses que los otros dos registros tienden a naturalizar. Es decisivo para nuestra tesis porque traslada la pregunta de «¿qué se puede computar?» a «¿quién decide qué se computa y a costa de qué?», cuestión que desarrollamos en el capítulo 08 (Crítica político-económica).
Argumentamos que los tres registros no son reducibles entre sí ni jerarquizables por precisión. El registro formal no es una versión rigurosa del vivencial, porque lo que el vivencial conoce —la significatividad— no es una variable mal medida sino algo de otra clase. El registro crítico no es un registro formal con valores añadidos, porque su objeto —la relación de poder— no es una magnitud. La consecuencia para el resto de la tesis es directa: cuando evaluemos qué aporta la IA estadística, deberemos preguntar en qué registro opera y no suponer que un avance en uno es un avance en los tres.
2.2. Qué es un modelo: idealización, condiciones de validez y los tres verbos
Un modelo urbano es una representación deliberadamente empobrecida de la ciudad: idealiza, reduce variables y fija condiciones de contorno para volver tratable lo que en su concreción es inabarcable. Sostenemos que esta pobreza no es un defecto sino la condición misma de su utilidad; un modelo que conservara todo sería la ciudad y no un modelo. Christaller (1933) supone una llanura isótropa, poder adquisitivo homogéneo y consumidores que minimizan distancia: ninguna ciudad cumple esos supuestos, y sin embargo la teoría de los lugares centrales ilumina la jerarquía de los asentamientos justamente porque los supone. Alonso (1964) supone un único centro de empleo y agentes que arbitran racionalmente entre renta y transporte. La idealización es, pues, la operación constitutiva del modelar.
De aquí se sigue que todo modelo tiene condiciones de validez explícitas o implícitas: el rango de fenómenos para los que su idealización es informativa y fuera del cual deja de serlo. Un modelo no es verdadero o falso sin más; es adecuado o inadecuado para un uso, dentro de un dominio. La pregunta epistemológica pertinente no es «¿representa el modelo la ciudad tal como es?» —ninguno lo hace— sino «¿para qué pregunta, en qué dominio y con qué tolerancia de error este modelo es suficiente?». Esta reformulación es la bisagra que conecta este capítulo con el criterio de adecuación de la sección 2.4.
Distinguimos además tres operaciones que los modelos pueden cumplir y que la discusión corriente confunde: describir, predecir y prescribir. Describir es dar cuenta de una regularidad presente o pasada —la distribución de tamaños de ciudades sigue aproximadamente una ley de potencias, según el patrón que Zipf (1949) documentó—. Predecir es inferir un estado no observado a partir del modelo y de condiciones iniciales —dónde se localizará la residencia dado un gradiente de renta—. Prescribir es derivar de un modelo una recomendación de acción sobre la ciudad —dónde emplazar un equipamiento—. Sostenemos que estas tres operaciones tienen estatutos epistémicos crecientemente exigentes y crecientemente cargados de valores. La descripción compromete supuestos sobre qué cuenta como dato; la predicción añade supuestos sobre la estabilidad del sistema; la prescripción añade, inevitablemente, un juicio sobre qué fines persigue la intervención. El error que denunciaremos en la urbanidad computada consiste, una y otra vez, en deslizar de la descripción a la prescripción como si el modelo cargara con la decisión que en rigor pertenece a la política. Kitchin (2014) ha mostrado cómo el discurso de la ciudad inteligente (smart city) presenta como descripción neutral lo que es una prescripción cargada de intereses; volvemos sobre ello en 2.5 y en el capítulo 08.
2.3. Computabilidad de la ciudad: qué se formaliza y qué resiste
Pasamos ahora de la cuestión general del modelar a la cuestión específica del computar. No todo modelo es computable, y no toda propiedad urbana admite la formalización exacta que el cómputo requiere. Conviene precisar el sentido de «computable» que usamos: una propiedad es computable cuando puede expresarse como una función bien definida de entradas discretas a salidas, de modo que exista un algoritmo —lo que llamamos cómputo puro o cómputo determinístico— que produzca la salida exacta. La multiplicación de dos enteros, el camino mínimo en un grafo ponderado o el conteo de trayectorias en una retícula cumplen esta condición: hay un procedimiento exacto, reproducible, indiferente al sentido.
Describimos primero qué propiedades urbanas admiten esta formalización. Son, característicamente, las del registro formal-cuantitativo una vez que sus objetos han sido discretizados: una red vial representada como grafo ponderado tiene caminos mínimos exactos; una retícula de manzanas tiene un número exacto de rutas monótonas entre dos puntos; un conjunto de lecturas de sensores tiene una suma de cuadrados exacta; una regla de iteración tiene un valor exacto tras cuarenta pasos. Estas son, no por casualidad, las tareas que en nuestro experimento etiquetamos T1 a T5, y que constituyen casos donde existe una verdad de referencia aritmética contra la cual contrastar cualquier sistema. Su rasgo común es que la significatividad ya ha sido extraída del problema: lo que importa es el valor, no lo que el valor quiere decir.
Interpretamos esto del siguiente modo. La condición de computabilidad exacta no es una propiedad de la ciudad sino de su representación previa: presupone que alguien ya decidió qué es un nodo, qué es una arista, qué es una lectura y qué métrica cuenta como distancia. La formalización no descubre esa estructura en la ciudad; la impone. Por eso la pregunta interesante no es si la red vial tiene un camino mínimo —lo tiene, trivialmente, una vez formalizada—, sino qué se perdió al decidir que la calle es una arista con un peso escalar y nada más.
Esto nos lleva al caso límite, que en el experimento etiquetamos T6: el juicio de relevancia en una escena urbana ambigua. La escena se entrega en lenguaje natural —un niño que pisa la calzada, un repartidor en moto que acelera, un acompañante, un semáforo en rojo, pavimento mojado— sin estructura de datos, sin métrica de peligro y sin función objetivo. Sostenemos que esta tarea es no computable en un sentido preciso y no técnico: no hay función de entrada-salida que escribir, porque la formalización que haría falta para escribir el algoritmo —decidir qué cuenta como relevante, qué agente es el foco de la alerta, qué desenlace importa— es exactamente el juicio que se pide. El algoritmo no puede empezar porque su primer paso es lo que estaba en cuestión. Aquí reaparece la distinción kantiana que recorre toda la tesis: el cómputo puro ejecuta un juicio determinante, subsume un caso bajo una regla dada; T6 exige un juicio reflexionante, hallar la regla a partir del caso, y esa facultad no es formalizable de antemano (Kant, 1790). Es la misma frontera que Dreyfus (1992) opuso a la inteligencia artificial clásica con el problema de la relevancia, y que Hui (2020) retoma para situar el límite de la IA en el plano del juicio reflexionante y no en la potencia de cálculo (Hui, 2020); en nuestra lectura, esto equivale a decir que la máquina no se da fines.
Un matiz importante, que documentaremos con los datos en el capítulo 05 (Resultados), es que en T6 los modelos de lenguaje no fracasan del modo en que fracasan a veces en T1–T5. Producen respuestas plausibles y coherentes: uno señala al repartidor como agente activo del peligro, otro al niño como víctima directa, otro al acompañante como agente capaz de intervenir. La descripción correcta de este hecho no es que el sistema «acierte» o «yerre» —no hay verdad de referencia que lo decida, y por eso la marcamos como NO_APLICA—, sino que el sistema opera en el dominio del significado contextual donde el cómputo puro ni siquiera puede arrancar. La interpretación que de ello extraemos, y que el capítulo 06 (Crítica técnica) precisará, es doble: la IA estadística sí hace algo en el registro de la significatividad que el algoritmo exacto no hace, pero ese algo es producción de plausibilidad, no garantía de relevancia. La ausencia misma de una respuesta única no es un defecto del sistema; es la marca de que la pregunta pertenece a otro registro.
2.4. El criterio de adecuación epistémica: por qué más resolución no es más comprensión
Introducimos ahora el criterio que vertebra la tesis central: el de adecuación epistémica. Sostenemos que un modelo es epistémicamente adecuado cuando es suficiente para el uso al que se destina dentro de su dominio de validez, y que la adecuación no es función monótona de la resolución. Más datos, más variables y más finura de grano no producen, por sí solos, más comprensión; pueden, de hecho, producir menos, si desplazan la atención del registro pertinente.
El argumento descansa en distinguir resolución de comprensión. La resolución es la finura con que un modelo discrimina estados del sistema; la comprensión es la captación de por qué el sistema se comporta como lo hace, esto es, de la estructura que un modelo de baja resolución puede exhibir con más claridad que uno de alta. Las regularidades de escalamiento urbano son el ejemplo canónico: una ley aproximada que vincula tamaño de la ciudad con magnitudes socioeconómicas dice algo sobre la ciudad como sistema precisamente porque abstrae el detalle, y aumentar la resolución hasta el censo individual no la mejora, la disuelve (Bettencourt et al., 2007; Bettencourt, 2013; West, 2017). Comprender por qué las ciudades escalan no es lo mismo que registrar cada transacción que ocurre en ellas. La comprensión vive en el modelo de baja resolución; el registro exhaustivo, en el de alta. Son bienes distintos.
De aquí extraemos la consecuencia que el resto de la tesis explota. Si la adecuación epistémica se mide por suficiencia para un uso y no por resolución, entonces el argumento de que un sistema más potente —más parámetros, más cómputo, más datos— es por ello epistémicamente superior comete una falacia: confunde la métrica de la resolución con la métrica de la comprensión. Un modelo clásico computable, como el de los lugares centrales o el de la renta del suelo, puede ser epistémicamente adecuado para una pregunta urbana concreta, y un sistema de IA estadística masivamente más caro puede no añadir nada en el registro donde esa pregunta vive, o añadir resolución donde lo que faltaba era comprensión. Esta es la forma precisa de la noción de herramienta epistémica sobredimensionada: una herramienta cuya potencia excede en órdenes de magnitud la resolución que el problema requiere, sin tocar la comprensión que el problema demanda. El sobredimensionamiento no es solo material y energético —eso lo trata el capítulo 08—; es, antes, epistémico, y consiste en pagar resolución creyendo comprar comprensión.
Conviene marcar el estatuto de este enunciado: es argumentación, no descripción. No afirmamos que ningún sistema de IA estadística mejore comprensión alguna; afirmamos que la mejora de comprensión no se sigue de la mejora de resolución, de modo que cada caso debe demostrarse y no presuponerse. El Banco Epistémico Urbano que proponemos en el capítulo 09 es, precisamente, el dispositivo para forzar esa demostración caso por caso, comparando modelos urbanos clásicos computables contra IA estadística en tareas con verdad de referencia.
2.5. Tesis del capítulo: el resto del cómputo y quién decide que no cuenta
La cuestión filosóficamente decisiva no es si podemos computar la ciudad sino qué queda fuera de todo cómputo y quién decide que ese resto no cuenta. La computabilidad exacta presupone una formalización que extrae la significatividad y la sustituye por estructura discreta; lo extraído —el mundo en sentido heideggeriano, la relación de poder, la vivencia— es el resto del cómputo, irreductible a un error de medición. T6 muestra ese límite en acto. La pregunta operativa es, entonces, quién traza la frontera entre lo que se formaliza y el resto, y con qué autoridad declara que ese resto es desdeñable. Kitchin (2014) documenta cómo la ciudad inteligente realiza ese trazado presentándolo como dato neutral; Hui (2020) lo sitúa como límite político y cosmológico antes que técnico. Las limitaciones decisivas de la urbanidad computada no residen en que falte cómputo, sino en quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía. Con los tres registros, la noción de adecuación epistémica y la frontera de lo formalizable establecidos, este capítulo deja preparado el terreno para el capítulo 03, que inventaría qué modelos urbanos clásicos admiten formalización exacta y pueden entrar como contendientes en el banco de pruebas.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Bettencourt, L. M. A. (2013). The Origins of Scaling in Cities. Science, 340(6139), 1438-1441.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Harvey, D. (1973). Social Justice and the City. London: Edward Arnold.
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Jacobs, J. (1961). The Death and Life of Great American Cities. New York: Random House.
- Kant, I. (1790). Kritik der Urteilskraft. Berlin und Libau: Lagarde und Friederich.
- Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
- Lefebvre, H. (1974). La production de l'espace. Paris: Anthropos.
- Sassen, S. (1991). The Global City: New York, London, Tokyo. Princeton, NJ: Princeton University Press.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
03. Catálogo razonado de teorías urbanas computables
El capítulo anterior estableció que la computabilidad exacta no es una propiedad de la ciudad sino de su representación previa, y que el registro formal-cuantitativo es el único de los tres registros del conocimiento urbano cuyos objetos vienen ya dados en forma cuantificable. Este capítulo recoge la consecuencia inmediata de esa tesis: si hay un cuerpo de teoría urbana que admite formalización exacta, conviene inventariarlo, ejecutarlo y verificarlo, en lugar de suponerlo. Lo que sigue es ese inventario. Reunimos trece modelos clásicos de la teoría urbana formalizable, desde von Thünen (1826) hasta formulaciones del siglo XXI como el escalamiento de Bettencourt-West (2007), y de cada uno damos una ficha razonada con cinco apartados: el mecanismo que postula, su formulación matemática, su condición de computabilidad, el criterio de validación cumplido con el número efectivamente obtenido al ejecutarlo, y su relevancia filosófica para una crítica de la urbanidad computada. Todas las cifras que aparecen proceden de los archivos datos_<id>.json generados por las simulaciones del corpus, y no de estimaciones del texto.
El argumento transversal del capítulo es deliberadamente sobrio y se enuncia de una vez: estos trece modelos corren de manera exacta, reproducible y validada en un ordenador portátil, sin acelerador gráfico, sin centro de datos y sin servicio de inferencia. El conocimiento urbano computable —el del registro formal— ya existe, está escrito desde hace décadas y es materialmente barato de ejecutar. Esta constatación es la bisagra empírica de la tesis central: si lo formalizable ya se computa con costo despreciable, entonces la herramienta sobredimensionada que la inteligencia artificial estadística representa no encuentra aquí su justificación. La desproporción entre potencia y aplicación no se localiza en el catálogo clásico; se localiza, como argumentarán los capítulos 06 a 08, en pretender que un sistema masivo de predicción del token plausible sustituye o supera lo que un algoritmo exacto de pocas líneas ya hace con garantía. El catálogo es, pues, el banco de contendientes que el Banco Epistémico Urbano (capítulo 09) opondrá a la IA estadística, y a la vez la prueba de que el cuello de botella del conocimiento urbano es la aplicación, no la capacidad de cómputo.
Organizamos las fichas en cinco familias temáticas —economía espacial, dinámica social, leyes estadísticas, morfología y crecimiento, y redes— y cerramos con una lectura transversal de lo que el conjunto demuestra.
3.1. Criterio de admisión y forma de la ficha
Un modelo entra en el catálogo si cumple tres condiciones. Primera, que su mecanismo pueda escribirse como una función bien definida de entradas discretas a salidas, en el sentido preciso de computabilidad fijado en 2.3. Segunda, que exista al menos un criterio de validación numérico cerrado: un valor exacto o un intervalo de tolerancia contra el cual contrastar la ejecución. Tercera, que el modelo tenga carga filosófica, es decir, que su idealización recorte algo de la ciudad de un modo que sea instructivo discutir. Los trece modelos cumplen las tres condiciones; ninguno se incluye por mera notoriedad histórica.
Cada ficha reporta el resultado de ejecutar la simulación correspondiente con el intérprete del proyecto y, donde el modelo es estocástico, con la semilla fija documentada en el corpus (Schelling con semilla 42, el autómata celular con 7, la agregación limitada por difusión con 3). Los modelos deterministas no requieren semilla porque son analíticamente cerrados: producen el mismo valor en cada ejecución. La distinción importa para la tesis, porque marca que la reproducibilidad de estos modelos no es una propiedad costosa que haya que comprar con cómputo, sino una propiedad intrínseca de la formalización exacta.
3.2. Economía espacial: el suelo como gradiente computable
Anillos de von Thünen (1826). El mecanismo es la renta de localización: un cultivo paga por situarse cerca del mercado central tanto como le ahorra en transporte. La formulación es lineal, R(d)=y·(p−c)−y·f·d, y el uso del suelo en cada distancia es el cultivo que maximiza esa renta, con fronteras de anillo donde dos cultivos la igualan. Es computable de forma cerrada: basta evaluar rectas y construir su envolvente superior. Ejecutado con dos cultivos (uno intensivo, uno extensivo) sobre un plano isótropo, el modelo cumple su criterio de validación de modo exacto: las pendientes recuperadas son −6.0 y −3.0, los radios de renta cero 10.0 y 16.0 km, y la frontera entre el anillo interior y el exterior emerge en d*=4.0 km con renta R=36.0, una distancia que no coincide con ningún radio de renta cero sino que surge del cruce de las envolventes. Filosóficamente, es el primer modelo que vuelve la localización económicamente legible: el espacio deja de ser cualidad para convertirse en distancia computable al mercado, a costa de presuponer un plano isótropo y un único centro que invisibilizan el poder territorial y la historia del lugar.
Bid-rent de Alonso (1964). Traslada el mecanismo de von Thünen al suelo residencial: cada grupo de hogares tiene una función de puja que mantiene constante su utilidad a lo largo de la distancia al centro de negocios, y el suelo se asigna al mejor postor. La formulación es de nuevo lineal por grupo y la frontera entre grupos es d*=(R0_i−R0_j)/(k_i−k_j). Computable y cerrada. Ejecutado con un grupo de gradiente pronunciado (dependiente del acceso) y otro de gradiente plano (que valora el espacio), el cruce analítico cae en d*=13.33 km con renta 233.33, y la asignación por mejor postor sobre el intervalo discretizado adjudica 134 de 301 puntos al grupo de gradiente pronunciado (fracción 0.445), que ocupa el anillo interior. El criterio de validación se cumple: el grupo de mayor gradiente queda en el centro y la envolvente es monótona decreciente. La relevancia es notable: el modelo explica por qué en muchas ciudades los pobres ocupan el centro denso y los ricos la periferia espaciosa no por preferencia moral sino por la estructura matemática del trade-off acceso/espacio, una elegancia que tiende a naturalizar la segregación al reducir la regulación, la discriminación y la herencia a «gradientes» exógenos.
Lugares centrales de Christaller (1933). El mecanismo es la geometría óptima del servicio: bajo el principio de mercado k=3, cada lugar central de orden superior atiende a tres áreas del orden inferior, y el territorio se tesela con hexágonos anidados. La formulación da el área del hexágono como A=(3√3/2)·r² y dos progresiones geométricas. Computable exactamente. Para una jerarquía de cuatro niveles con alcance base de 10 km, el área del hexágono base se calcula en 259.807621 km² con error de 0.0 km² respecto del valor esperado; las razones de área entre niveles consecutivos son exactamente [3.0, 3.0, 3.0], el nivel 4 alcanza 7014.81 km², y el número de lugares por nivel sigue 18, 6, 2, 1. El criterio de validación se cumple. Su relevancia es a la vez teórica y política: propone que la red de ciudades no es caótica sino una jerarquía deducible a priori, y la propia biografía de Christaller —que puso la teoría al servicio de la planificación nazi del este europeo— ilustra el peligro de la geometría normativa, la pretensión de deducir el orden urbano ideal y usarlo como herramienta de poder territorial.
3.3. Dinámica social: del agente a la cifra de segregación
Segregación de Schelling (1971). El mecanismo es la emergencia: agentes con una preferencia individual suave —querer que al menos cierta fracción de sus vecinos sea del propio grupo— reubicándose cuando no la satisfacen. La formulación es una regla local de satisfacción sobre la vecindad de Moore y una relajación estocástica. Es computable, aunque no de forma cerrada: requiere iterar, y por eso fija semilla. Ejecutado en una rejilla de 50×50 con 2250 agentes, umbral de tolerancia T=0.30 y semilla 42, el sistema parte de una fracción media de vecinos del mismo grupo de 0.5012 y converge, en la iteración 14, a 0.7507 con cero agentes insatisfechos. El criterio de validación se cumple plenamente: una tolerancia individual del 30 % produce una segregación global superior al 70 %. Es el experimento mental fundacional de la brecha entre intención micro y resultado macro: la segregación existe sin que ningún sujeto la haya querido, lo que desmonta la falacia de inferir intenciones desde patrones y advierte contra naturalizar la segregación como mera «autoorganización».
Índice de disimilitud de Duncan y Duncan (1955). El mecanismo es la medición: convierte una distribución de dos grupos sobre unidades territoriales en un único escalar, D=0.5·Σ|a_i/A−b_i/B|, interpretable como la fracción de un grupo que tendría que reubicarse para igualar la distribución del otro. Computable y cerrada. Para el experimento canónico de cuatro tracts el índice da exactamente 0.40, y para un caso de tres tracts 0.30. Más interesante para el catálogo es que el índice se aplica a la salida del modelo de Schelling: agregando la rejilla final segregada en 25 bloques de 10×10, la disimilitud entre los dos grupos resulta D=0.2462, una segregación baja-moderada frente a un baseline aleatorio de aproximadamente 0.09. El criterio de validación se cumple, y el encadenamiento Schelling→Duncan ilustra cómo el valor del índice depende de la escala de agregación —la falacia ecológica de la unidad de análisis—. Su relevancia es el poder del indicador: lo que se mide se gobierna, y la pregunta de si reducir la injusticia a un escalar la hace gobernable o la trivializa queda abierta.
3.4. Leyes estadísticas: regularidades sin mecanismo acordado
Ley rango-tamaño de Zipf (1949). El mecanismo, si lo hay, es discutido: empíricamente, ordenadas las ciudades de mayor a menor, la población del rango r cumple P(r)=P_1/r^q. La formulación se linealiza en el plano log-log con pendiente −q. Computable. Para un sistema sintético de 100 ciudades generado con q=1 exacto, el ajuste por mínimos cuadrados recupera una pendiente de −1.000 con R²=1.0; un sistema empírico perturbado con q=0.85 (semilla 42) recupera pendiente −0.857 con R²=0.987, apartándose visiblemente de la referencia. El criterio de validación se cumple en ambos casos. Conviene insistir, como ya hizo el capítulo 02, en que q=1 es la versión estricta o idealizada: los sistemas reales se desvían (q típicamente entre 0.8 y 1.2 según país y recorte; Gabaix, 1999). Filosóficamente es el caso de una regularidad estadística casi universal sin teoría causal acordada: describe sin explicar, y plantea el estatuto epistémico de las leyes sin mecanismo y la tensión entre la unicidad vivida de cada ciudad y su lugar anónimo en una distribución.
Escalamiento urbano de Bettencourt-West (2007). El mecanismo es la prima urbana: las magnitudes urbanas escalan con la población según Y=Y_0·N^β, con β≈1.15 (superlineal) para la creación socioeconómica y β≈0.85 (sublineal) para la infraestructura. Computable. Las regresiones recuperan exactamente β=1.15 para la nube socioeconómica y β=0.85 para la de infraestructura, ambas con R²=1.0; al duplicar la población la magnitud se multiplica por 2^1.15=2.2191, y una ciudad de un millón de habitantes produce Y=7.943.282. El criterio de validación se cumple. Su relevancia es la ciudad como reactor social: agrupar gente acelera de forma matemáticamente predecible la innovación y la riqueza, pero también el crimen y la enfermedad; el promedio superlineal oculta la distribución interna, de modo que lo bueno y lo malo escalan juntos y el agregado borra la justicia distributiva.
3.5. Morfología y crecimiento: la forma como cómputo local
Autómata celular de crecimiento urbano (White-Engelen, 1993; Clarke, 1997; antecedente conceptual de Tobler, 1979). El mecanismo es el contagio espacial: una celda no urbana se urbaniza con probabilidad creciente en el número de vecinos ya urbanizados, p_i=p_base+p_difusion·(k_i/8). La implementación del corpus adopta una regla fronteriza explícita —p_base solo refuerza celdas que ya colindan con el frente— que suprime la nucleación de islas dispersas y produce crecimiento estrictamente compacto. Computable con semilla. Partiendo de un núcleo central de 3×3 (9 celdas) en una rejilla de 100×100, con semilla 7 y 50 pasos, el cluster crece de forma monótona hasta 2672 celdas urbanas, manteniendo conexidad del 100 % en todos los pasos, con compacidad isoperimétrica final de 0.2037 (medida primaria) y dimensión fractal por conteo de cajas de 1.6812 (indicador secundario). El criterio de validación se cumple. Su relevancia es la ciudad como computación local: la forma emerge de reglas de vecindad sin plan central, y la elección compacto/disperso queda encubierta en los parámetros y en la propia regla fronteriza, una decisión de política presentada como propiedad emergente.
Agregación limitada por difusión y dimensión fractal de Batty-Longley (1994). El mecanismo es el crecimiento ramificado por difusión, y la medida es la dimensión fractal: el número de celdas ocupadas dentro de un radio cumple N(R)~R^D. Computable. Sobre un cluster simulado de 1500 partículas (rejilla 201×201, semilla 3), la regresión mass-radius en la región de escalamiento estima D=1.69275 con R²=0.99887, dentro del rango característico de la agregación limitada por difusión en dos dimensiones; el ejemplo literal de dos puntos da D=1.26607. El criterio de validación se cumple. Su relevancia ontológica es que la ciudad real no es ni un disco compacto ni una línea, sino un objeto fractal de dimensión fraccionaria entre 1 y 2: su irregularidad es medible y autosimilar, lo que abre la pregunta de si la dimensión fraccionaria capta algo esencial de la ciudad o solo su contorno de ocupación.
3.6. Redes: topología, equilibrio y flujo
Sintaxis espacial de Hillier y Hanson (1984). El mecanismo es la accesibilidad topológica: representada la ciudad como grafo de líneas axiales, la integración de un nodo mide cuán superficial es respecto del resto, vía la profundidad media y la asimetría relativa RA=2·(MD−1)/(n−2), con integración 1/RA. Computable mediante caminos mínimos. Para un camino de 5 nodos, la integración es máxima en el nodo central (3.0) y mínima en los extremos (1.0); para una rejilla viaria de 5×5, el nodo central alcanza 7.6667. El criterio de validación se cumple: la integración es máxima donde la topología es más central. Su relevancia es la tesis de que el espacio configura la sociedad —la lógica social del espacio—, con la consiguiente política de qué calles quedan «integradas» por diseño y la crítica de un determinismo espacial que puede ocultar decisiones de poder tras la topología.
Paradoja de Braess y equilibrio de Wardrop (1952/1968). El mecanismo es el equilibrio de usuario: ningún conductor puede mejorar su tiempo cambiando de ruta. La formulación iguala tiempos de ruta con funciones dependientes del flujo. Computable. En la red clásica con 4000 vehículos, el equilibrio simétrico sin atajo reparte 2000/2000 y da un tiempo de 65; añadir un atajo de coste cero lleva a todos por la misma ruta y eleva el tiempo de equilibrio a 80. La diferencia, 80−65=15, confirma la paradoja, y los tiempos de las rutas activas se igualan en el equilibrio. El criterio de validación se cumple. Su relevancia es que refuta la intuición de que más opciones siempre mejoran el bienestar: añadir una vía puede empeorar a todos cuando cada uno optimiza egoístamente, lo que justifica matemáticamente la intervención pública —cerrar calles puede mejorar el tráfico— y critica el individualismo metodológico en la movilidad.
Gravitación comercial de Reilly y Huff (1931/1964). El mecanismo es la atracción comercial relativa: dos centros se reparten el área de influencia según su tamaño y su distancia, y el consumidor elige una tienda con una probabilidad que crece con su atractivo y decae con la distancia. La ley de Reilly fija el punto de ruptura entre dos ciudades, BP=d/(1+√(P_A/P_B)), y el modelo probabilístico de Huff da la probabilidad de elección P_j=(A_j/d_j^β)/Σ_k(A_k/d_k^β). Computable de forma cerrada para el punto de ruptura y la probabilidad puntual, y por barrido de rejilla para el reparto territorial. Para dos ciudades A (64.000 habitantes) y B (16.000) separadas 30 km, con √(P_A/P_B)=2.0, el punto de ruptura cae exactamente a 10.0 km de B y 20.0 km de A; con el modelo de Huff y β=2, dos tiendas de atractivos 1.000 (a 5 km) y 4.000 (a 10 km) producen utilidades iguales U_1=U_2=40.0 y por tanto probabilidades 0.5/0.5; y sobre una rejilla de 21×21 (441 celdas) en [0,20]² km, la fracción de celdas donde la tienda mayor capta probabilidad ≥0.5 es 0.7755, con las probabilidades sumando 1 en cada celda. El criterio de validación se cumple. Su relevancia es que formaliza la competencia entre centros como un campo continuo de probabilidades de elección —no fronteras nítidas sino gradientes de captura—, a costa de reducir la decisión de compra a tamaño y distancia e invisibilizar el precio, la marca, la renta del consumidor y la historia del lugar.
Modelo gravitacional de interacción espacial (Stewart, 1948; derivación entrópica de Wilson, 1967). El mecanismo es la analogía newtoniana: el flujo entre dos zonas es proporcional al producto de sus masas e inverso a una potencia de la distancia, T_ij=G·P_i·P_j/d_ij^c. Computable. Para tres zonas con poblaciones de 10.000, 5.000 y 20.000 y c=2, los flujos son T_12=55.556, T_13=125.000 y T_23=40.000, con suma de pares 220.556; la matriz es simétrica y la regresión recupera c=2.0. El criterio de validación se cumple. Su relevancia es doble: aplica una analogía física a la interacción humana —reduciendo el desplazamiento a masa y distancia— y, en la lectura de Wilson, revela que la supuesta «ley física» es en realidad el estado más probable bajo restricciones, de modo que planificar flujos como si fueran fenómenos naturales inevitables naturaliza lo que es político.
3.7. Lectura transversal: el conocimiento urbano computable ya existe y es barato
Los trece modelos comparten un rasgo que la tabla de validaciones del corpus hace explícito: todos pasan su criterio de validación, y lo hacen con valores exactos o dentro de tolerancias estrechas, en ejecuciones que un ordenador portátil completa en segundos. No hay aquí un solo número que exija un centro de datos, un modelo de miles de millones de parámetros ni un servicio de inferencia remoto. La reproducibilidad —idéntica entre ejecuciones para semillas fijadas, garantizada por construcción en los modelos analíticos— no se compra con cómputo: viene dada por la formalización exacta. Este es el sentido empírico de la tesis de que el sobredimensionamiento no está en el catálogo clásico. El registro formal-cuantitativo del conocimiento urbano, el único que el capítulo 02 reconoció como genuinamente computable, está disponible, es antiguo y es barato.
De aquí se siguen dos consecuencias para el resto de la tesis. La primera es que el catálogo provee los contendientes del banco de pruebas: cada una de estas trece tareas tiene una verdad de referencia aritmética contra la cual contrastar a un sistema de inteligencia artificial estadística, y esa confrontación es precisamente la que la metodología (capítulo 04) y los resultados (capítulo 05) desarrollan, y la que el Banco Epistémico Urbano (capítulo 09) institucionaliza. La segunda, más decisiva, es que el cuello de botella del conocimiento urbano no es la potencia de cómputo. Lo que falta no es un modelo más capaz de calcular un punto de ruptura de Reilly o un exponente de Zipf —eso ya se hace con garantía y a costo despreciable—, sino hacer ese conocimiento presentable, usable y aplicable sobre ciudades concretas. Cada uno de estos modelos, conviene recordar, computa exactamente a costa de una mutilación: von Thünen y Alonso suponen un plano isótropo y un único centro; Christaller, Schelling y el autómata absorben el poder en parámetros exógenos; las leyes de escalamiento borran la distribución interna; las redes naturalizan como físico lo que es decisión política. La frontera que el capítulo 02 llamó el resto del cómputo sigue intacta: lo que estos modelos no computan no es un defecto técnico subsanable con más escala, sino aquello que, por definición, queda fuera de la formalización. El catálogo demuestra que lo formalizable ya está resuelto; lo que la tesis sostiene es que confundir ese resto con una carencia de cómputo es, justamente, el error de la herramienta sobredimensionada. Con los contendientes inventariados y validados, el capítulo 04 expone el protocolo experimental que los enfrenta a la inteligencia artificial estadística y la construcción de la verdad de referencia que vuelve interpretable ese enfrentamiento.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. y Longley, P. (1994). Fractal Cities: A Geometry of Form and Function. London: Academic Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Braess, D. (1968). Über ein Paradoxon aus der Verkehrsplanung. Unternehmensforschung, 12(1), 258-268.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Clarke, K. C., Hoppen, S. y Gaydos, L. (1997). A self-modifying cellular automaton model of historical urbanization in the San Francisco Bay area. Environment and Planning B: Planning and Design, 24(2), 247-261.
- Duncan, O. D. y Duncan, B. (1955). A methodological analysis of segregation indexes. American Sociological Review, 20(2), 210-217.
- Gabaix, X. (1999). Zipf's Law for Cities: An Explanation. The Quarterly Journal of Economics, 114(3), 739-767.
- Hillier, B. y Hanson, J. (1984). The Social Logic of Space. Cambridge: Cambridge University Press.
- Huff, D. L. (1964). Defining and Estimating a Trading Area. Journal of Marketing, 28(3), 34-38.
- Reilly, W. J. (1931). The Law of Retail Gravitation. New York: Knickerbocker Press.
- Schelling, T. C. (1971). Dynamic models of segregation. Journal of Mathematical Sociology, 1(2), 143-186.
- Stewart, J. Q. (1948). Demographic Gravitation: Evidence and Applications. Sociometry, 11(1/2), 31-58.
- Tobler, W. R. (1979). Cellular Geography. En S. Gale y G. Olsson (eds.), Philosophy in Geography (pp. 379-386). Dordrecht: Reidel.
- von Thünen, J. H. (1826). Der isolierte Staat in Beziehung auf Landwirtschaft und Nationalökonomie. Hamburg: Friedrich Perthes.
- Wardrop, J. G. (1952). Some Theoretical Aspects of Road Traffic Research. Proceedings of the Institution of Civil Engineers, 1(3), 325-362.
- White, R. y Engelen, G. (1993). Cellular Automata and Fractal Urban Form: A Cellular Modelling Approach to the Evolution of Urban Land-Use Patterns. Environment and Planning A, 25(8), 1175-1199.
- Wilson, A. G. (1967). A Statistical Theory of Spatial Distribution Models. Transportation Research, 1(3), 253-269.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
04. Metodología experimental: protocolo, sujetos y verdad de referencia
Este capítulo fija el procedimiento por el que la tesis convierte una afirmación filosófica —que la IA estadística no produce un salto epistémico proporcional a su costo— en un enunciado contrastable. Si en el capítulo 02 (Epistemología de los modelos urbanos) sostuvimos que la adecuación epistémica no es función de la resolución y que la frontera entre lo formalizable y su resto se decide antes de cualquier cómputo, aquí mostramos cómo se somete esa tesis a prueba sin presuponer su conclusión. El requisito metodológico central es la separación estricta entre el sistema que produce una respuesta y el sistema que la juzga: ningún modelo de lenguaje evalúa su propio acierto ni el de otro, porque la corrección se establece contra una verdad de referencia calculada de manera independiente y determinística en Python. Sin esa separación, comparar cómputo puro con IA estadística sería pedirle a la IA estadística que arbitre su propia contienda. Por eso el capítulo describe dos experimentos complementarios y reproducibles, sus sujetos, la construcción de la verdad de referencia, las métricas y tolerancias, y —con igual énfasis— sus limitaciones declaradas. Lo que aquí se documenta no es un ensayo aislado: es el protocolo operativo del Banco Epistémico Urbano que el capítulo 09 (Propuesta) eleva a herramienta científica. Procedemos en seis pasos: el diseño general y el principio de separación; el primer experimento (seis tareas frente a un gradiente de sujetos); el segundo (un banco de treinta y nueve preguntas de trece teorías urbanas); la construcción de la verdad de referencia; las métricas y tolerancias; y las limitaciones que afectan la lectura de los resultados.
4.1. Diseño general y el principio de separación juez–sujeto
Los dos experimentos comparten una misma arquitectura lógica y difieren en su propósito. El primero —documentado en experimento/resultados.json— enfrenta el cómputo determinístico con el razonamiento interno de seis sujetos sobre seis tareas (T1 a T6) diseñadas para aislar capacidades distintas, con dos intentos por sujeto y por tarea. El segundo —documentado en experimento/resultados_teorias.json, sobre el banco de preguntas de simulaciones/banco_preguntas.json— amplía la escala y la cobertura temática: somete a los mismos seis sujetos a treinta y nueve preguntas derivadas de trece teorías urbanas clásicas computables, con un único intento por sujeto. El primero indaga la naturaleza del límite; el segundo, su extensión y su estabilidad a través de un corpus teórico amplio.
La condición experimental es idéntica y deliberada en ambos casos: los sujetos operan sin herramientas externas. No ejecutan código, no consultan calculadora ni intérprete, no acceden a la red. Responden únicamente con su razonamiento interno, tal como ambos archivos lo consignan en el campo uso_herramientas: false. Esta restricción es el corazón del diseño y no una limitación accidental: la tesis no pregunta si un sistema acoplado a Python acierta —acertaría siempre, porque Python es el patrón—, sino qué hace el modelo de lenguaje cuando se le pide imitar el resultado de un cálculo que no ejecuta. Privarlo de herramientas no lo desfavorece arbitrariamente; lo coloca exactamente en la situación que el argumento examina. En el primer experimento la restricción es además constitutiva para los sujetos locales, pues, como anota el archivo, Ollama no expone llamadas a herramientas en el modo empleado.
El principio que vertebra el procedimiento es la separación entre juez y sujeto. La verdad de referencia se calcula con un algoritmo determinístico en Python antes y con independencia de cualquier respuesta; los sujetos producen respuestas; un procedimiento de calificación contrasta cada respuesta contra esa verdad mediante una regla de tolerancia explícita. En ningún punto del circuito un modelo de lenguaje decide si una respuesta es correcta. Esta asimetría es lo que vuelve la comparación honesta: el cómputo puro no compite como un sujeto más, sino que ocupa el lugar del árbitro, y precisamente por eso su papel ilumina la tesis. El árbitro exacto existe porque las tareas fueron escogidas para tener una respuesta exacta; donde no la hay —la tarea inversa T6—, el procedimiento lo declara y se abstiene de juzgar.
4.2. Primer experimento: seis tareas frente a un gradiente de seis sujetos
El primer experimento contrasta cómputo puro y razonamiento interno sobre seis tareas. Cinco de ellas (T1 a T5) poseen verdad de referencia aritmética; la sexta (T6) es la tarea inversa, no computable. Las tareas, según los identificadores del archivo, son: T1, multiplicación exacta de dos enteros de doce dígitos, con valor de referencia 349625969488102520908371; T2, camino más corto exacto en un grafo urbano de veinticinco barrios, cuya solución es la secuencia de barrios «Altavista, Bellavista, Cumbres, Esmeralda, Horizonte, Jacaranda, Lagos, Tejar, Yarumal, Zafiro»; T3, conteo combinatorio de rutas monótonas en una retícula urbana de 12×12, con valor 2704156; T4, iteración recursiva de una función afín modular a lo largo de cuarenta pasos, con valor 23842; T5, suma de cuadrados de treinta lecturas de sensores urbanos, con valor 651396404; y T6, juicio de relevancia en una escena urbana ambigua, marcada como NO_COMPUTABLE. Cada tarea está anclada a un autor del marco teórico —Bergson, Hui, Wiener, Dreyfus/Heidegger— de modo que su elección no es arbitraria sino que materializa una distinción conceptual: exteriorización del cálculo, optimización sobre datos discretos, recursividad con retroalimentación, juicio de significatividad.
Los seis sujetos forman un gradiente de escala nominal creciente. Dos son modelos accedidos por API: Claude Sonnet, de menor escala nominal, y Claude Opus, de mayor escala nominal. Conviene dejar constancia de una limitación del registro: para estos dos modelos el archivo consigna solo las etiquetas «sonnet» y «opus», sin la versión exacta ni los costos reales de inferencia, de modo que la jerarquía «menor/mayor escala» se apoya en la ordenación nominal que Anthropic establece entre ambas familias y no en parámetros medidos aquí. Cuatro son modelos locales ejecutados bajo Ollama: qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b. La ejecución local se documenta con precisión reproducible en el bloque ejecucion_local: plataforma «kratos», Ollama versión 0.24, hardware RTX 5070 Ti de 16 GB, temperature 0.2, sin herramientas. Cada sujeto resuelve cada tarea dos veces (intentos_por_modelo: 2), lo que permite observar no solo el acierto sino su estabilidad entre intentos —una distinción que resulta decisiva, pues un sistema que acierta una vez y yerra otra sobre el mismo problema determinístico revela algo sobre la naturaleza de su operación que un único intento ocultaría.
Sobre las cinco tareas con verdad de referencia y dos intentos —diez ítems calificables por sujeto—, la exactitud registrada en exactitud_por_modelo es la siguiente: Sonnet, 9 de 10 (90,0 %); Opus, 7 de 10 (70,0 %); gpt-oss:20b, 4 de 10 (40,0 %); y qwen2.5:3b, qwen3:14b y qwen3:32b, 2 de 10 cada uno (20,0 %). El dato que la tesis subraya —y que no debe leerse aquí como conclusión sino como hecho que el capítulo 05 (Resultados) interpretará— es que el sujeto de mayor escala nominal entre los de API, Opus, resultó menos fiable que el de menor escala, Sonnet: en T1 acertó un intento y falló el otro con 349634804376851666458571, y en T5 falló los dos con 651397404 y 651400404, valores cercanos pero no exactos al patrón 651396404. Este patrón de cercanía-sin-exactitud es la firma de la imitación frente a la ejecución, y se documenta para que el análisis posterior lo trate, no para zanjarlo aquí.
La tarea T6 recibe tratamiento aparte. Como no existe verdad de referencia —la escena se entrega en lenguaje natural sin estructura de datos, sin métrica de peligro ni función objetivo—, el campo de corrección se marca NO_APLICA y no entra en el cómputo de exactitud. Lo que el archivo registra es cualitativo: los sujetos producen respuestas plausibles y divergentes, señalando como foco de la alerta al repartidor en moto, al niño o al acompañante. Esa divergencia no es error sino la marca de que la pregunta pertenece a otro registro, el de la significatividad contextual donde, según establecimos en 2.3, el cómputo puro ni siquiera puede arrancar.
A este primer experimento se añade, como extensión exploratoria y explícitamente separada del registro canónico, una réplica con tres modelos especializados en código ejecutados localmente en la misma plataforma «kratos» bajo Ollama: devstral:24b, qwen3-coder:30b y qwen3-coder-next (de aproximadamente 80 000 millones de parámetros, arquitectura de mezcla de expertos). La réplica reutiliza las seis tareas, los mismos enunciados y temperature 0,2, con dos intentos por sujeto, y difiere del canon en una sola condición declarada: el tiempo máximo por modelo se amplió de 25 a 120 minutos. Sus resultados no se integran a experimento/resultados.json ni regeneran las figuras canónicas; viven en experimento/exploratorio/resultados_exploratorio.json con la política faltante = fallo. Esta extensión solo cubre el primer experimento —las seis tareas— y no se aplicó al banco de las treinta y nueve preguntas del segundo. Su función es responder por anticipado a la objeción de que un modelo mayor o especializado en cómputo cruzaría el límite, y el capítulo 05 la interpreta como tal.
4.3. Segundo experimento: el banco de treinta y nueve preguntas de trece teorías
El segundo experimento amplía el alcance del primero de seis a treinta y nueve ítems y de tareas construidas ad hoc a preguntas derivadas sistemáticamente del catálogo de teorías urbanas computables que el capítulo 03 inventaría. Su metadato declara seis sujetos, un único intento (intentos: 1), temperature_locales 0.2, sin herramientas, y el mismo hardware local «kratos RTX 5070 Ti». Las trece teorías cubiertas son: la renta de puja de Alonso, el autómata celular de crecimiento urbano, el escalamiento de Bettencourt y West, el equilibrio de Braess–Wardrop, los lugares centrales de Christaller, el modelo fractal DLA de Batty y Longley, la disimilitud de Duncan, el modelo gravitacional de flujos, la gravitación comercial de Reilly–Huff, la segregación de Schelling, la sintaxis espacial, los anillos de von Thünen y la ley rango-tamaño de Zipf. Cada teoría aporta tres preguntas, lo que produce las treinta y nueve del banco.
La estructura de cada pregunta es uniforme y está diseñada para la calificación automática. El banco (simulaciones/banco_preguntas.json) consigna, por ítem, el enunciado q —que exige el formato de salida «Respuesta final: \<valor>»—, el valor_exacto, el tipo y la tolerancia, además de un campo como_computar que expone el procedimiento determinístico que produce el valor de referencia. Esta exposición del cómputo es metodológicamente importante: hace auditable la verdad de referencia, de modo que cualquier tercero pueda reproducir el patrón sin confiar en la palabra del experimentador.
La distinción de tipo organiza el banco en dos clases. Las preguntas de forma cerrada —veintisiete de las treinta y nueve— se resuelven aplicando una fórmula a parámetros dados: la renta del grupo rico a veinte kilómetros del centro (pregunta 2, valor 200), el factor de escalamiento al duplicar la población con exponente 1,15 (pregunta 8, valor 2.2191), el flujo gravitacional entre dos zonas (pregunta 22, valor 20000). Las preguntas emergentes —doce de las treinta y nueve— exigen, en cambio, simular un proceso y reportar una magnitud que solo aparece tras ejecutar el modelo: el conteo de celdas urbanas tras cincuenta pasos del autómata con semilla fija (pregunta 6, valor 2672), el índice de disimilitud de Duncan sobre la rejilla final de un modelo de Schelling (pregunta 21, valor 0.2462), la pendiente recuperada por mínimos cuadrados de un sistema rango-tamaño sintético (pregunta 39, valor -1.0). Esta partición es la palanca analítica del segundo experimento: separa lo que un sistema puede imitar evaluando una expresión cerrada de lo que requiere ejecutar fielmente una iteración con estado, y por eso la reproducibilidad de las preguntas emergentes se asegura fijando la semilla pseudoaleatoria (numpy.random.seed) en sus enunciados.
Los resultados agregados, según el bloque agregados.global, son: qwen2.5:3b, 15 de 39 (0,3846); qwen3:14b, 30 de 39 (0,7692); gpt-oss:20b, 31 de 39 (0,7949); qwen3:32b, 30 de 39 (0,7692); claude-sonnet, 35 de 39 (0,8974); y claude-opus, 36 de 39 (0,9231). La desagregación por tipo —en agregados.por_tipo— revela el contraste que el capítulo 05 explotará: sobre las veintisiete preguntas de forma cerrada, claude-opus acierta las veintisiete (1,0) y varios sujetos superan el 0,92; sobre las doce emergentes, claude-sonnet alcanza 0,8333, claude-opus 0,75 y qwen2.5:3b cae a 0,0. El archivo conserva además, por pregunta y por sujeto, la respuesta literal, el veredicto y la nota de calificación, de modo que cada cifra agregada es trazable hasta su ítem de origen.
4.4. Construcción de la verdad de referencia en Python
La verdad de referencia es el eje de todo el dispositivo, y su construcción obedece a un único criterio: que el valor contra el cual se juzga sea producto de un algoritmo determinístico, no de un juicio. Para cada tarea con respuesta exacta existe un procedimiento en Python que, dadas las mismas entradas, produce siempre la misma salida, indiferente al sentido y reproducible por cualquiera. En el primer experimento esto es directo: la multiplicación de enteros, el algoritmo de camino mínimo sobre el grafo, el coeficiente binomial que cuenta las rutas monótonas, la iteración afín y la suma de cuadrados son operaciones cuya salida exacta Python entrega sin ambigüedad. El valor 349625969488102520908371 o el valor 2704156 no son opiniones del experimentador: son lo que el intérprete devuelve.
En el segundo experimento la construcción se hace explícita y auditable mediante el campo como_computar de cada pregunta. Para las de forma cerrada, ese campo registra la sustitución algebraica completa —por ejemplo, para la pregunta 14, «A = (3·√3/2)·r² = 2,5980762·100 = 259,8076 km²»—. Para las emergentes, registra los parámetros de la simulación determinista, incluida la semilla, y a veces el estado intermedio que permite verificar el resultado: la pregunta 21, por caso, consigna los conteos de Rojos y Azules por bloque que producen el índice 0.2462. Esta documentación cumple una función epistemológica precisa: convierte la verdad de referencia en un objeto público y reproducible, no en una autoridad que haya que aceptar. El cómputo puro es aquí, literalmente, el patrón de oro —no porque sea infalible en algún sentido metafísico, sino porque su procedimiento está fijado de antemano y cualquiera puede correrlo.
Conviene marcar el caso límite. La tarea T6 no tiene verdad de referencia y se rotula NO_COMPUTABLE, porque la formalización que haría falta para escribir el algoritmo —decidir qué cuenta como relevante— es exactamente el juicio que se pide. La ausencia de patrón no es un defecto del protocolo sino un hallazgo que el protocolo está diseñado para exhibir: hay preguntas urbanas para las que no existe función de entrada-salida que escribir, y el dispositivo lo declara en lugar de fabricar una respuesta correcta espuria.
4.5. Métricas, tolerancias y procedimiento de calificación
La métrica primaria es la exactitud: la proporción de ítems en que la respuesta del sujeto coincide con la verdad de referencia dentro de la tolerancia declarada. La regla de calificación no es la igualdad textual sino la igualdad numérica dentro de un margen explícito y fijado por ítem, porque exigir coincidencia de cadena penalizaría diferencias irrelevantes de formato —«13.33» frente a «13.33 km», o «5/7» frente a «0.7143»— que no son errores de cómputo. El segundo experimento hace estas tolerancias visibles en cada pregunta y en cada nota de calificación.
Las tolerancias varían según la naturaleza del valor esperado. Algunas exigen igualdad exacta: la renta de 200 (pregunta 2), el flujo de 20000 (pregunta 22), las 250 celdas vacías (pregunta 29). Otras admiten un margen absoluto —±0,01 para la distancia de equilibrio 13.33 (pregunta 1), ±0,001 para la disimilitud 0.4 (pregunta 19), ±1 vehículo en torno a 15 (pregunta 12)—. Otras, un margen relativo —±1 % para el escalamiento 7943282 (pregunta 7) o para el flujo total 220555.5556 (pregunta 24)—. Las preguntas emergentes, sujetas a la variabilidad de una simulación, reciben tolerancias más holgadas y justificadas en su propio campo: ±0,05 en torno a 0.246 para la disimilitud emergente (pregunta 21), ±0,12 en torno a 1.71 para la dimensión fractal estimada (pregunta 18). Cada veredicto del archivo trae su nota_calificacion, que reproduce la comparación efectiva —por ejemplo, «|13.33 − 13.3333| ≤ 0.01»—, de modo que la calificación es auditable ítem por ítem.
El procedimiento contempla un veredicto adicional, SIN_RESPUESTA, para los casos en que el sujeto no produce número evaluable: cuando devuelve un marcador de plantilla sin sustituir («\<valor>», «{final_fraction:.4f}»), una palabra en lugar de una cifra, o se niega explícitamente a responder sin ejecutar código («No determinable sin ejecutar la simulación», de claude-opus en la pregunta 21). Estos casos no se computan como aciertos. Su existencia es informativa: distingue el fallo por cálculo erróneo del fallo por abstención o por incumplimiento del formato, dos modos de no-respuesta que el análisis no debe confundir.
4.6. Limitaciones declaradas
La honestidad del protocolo exige declarar sus limitaciones, porque varias afectan directamente la lectura de las cifras y ninguna se oculta en los archivos.
Primero, la temperatura. Los sujetos locales se ejecutan con temperature 0,2 en ambos experimentos, un valor bajo pero no nulo: introduce una variabilidad estocástica residual que, en el primer experimento, se hace visible al comparar los dos intentos de un mismo sujeto sobre una misma tarea determinística. Esta variabilidad no es ruido a eliminar sino objeto de estudio —es justamente lo que distingue imitar de ejecutar—, pero impide tratar cualquier ejecución individual como definitiva.
Segundo, la extracción de la respuesta. La calificación depende de identificar, dentro de la salida del sujeto, el valor que constituye su respuesta final; por eso los enunciados imponen el formato «Respuesta final: \<valor>». Cuando un sujeto se aparta de ese formato —añade unidades, ofrece una fracción, antepone prosa o emite marcadores no solicitados, como el «\<alertar al niño>» de qwen2.5:3b en T6—, la extracción debe interpretar, y esa interpretación es un punto de discreción del protocolo que conviene reconocer. Las tolerancias numéricas mitigan el problema para las diferencias de formato, pero no lo suprimen.
Tercero, las omisiones por timeout y por datos ausentes, declaradas íntegramente en el bloque omisiones del primer experimento. El sujeto qwen3:32b acumula siete omisiones: dos por agotamiento de tiempo —T2 en el primer intento (605,2 s) y T4 en el primer intento (604,5 s)— y cinco por datos ausentes en el archivo de respuestas crudas, que cubren el segundo intento de T4, ambos intentos de T5 y ambos intentos de T6. Estas omisiones se contabilizan como no-acierto en la exactitud del sujeto, lo que penaliza al modelo de mayor tamaño local por una causa que mezcla incapacidad de completar a tiempo y pérdida de registro; el análisis del capítulo 05 debe leer su 20 % con esta salvedad presente. Declararlas, antes que descartarlas en silencio, es parte del compromiso de reproducibilidad.
Cuarto, la escala muestral. Dos intentos por ítem en el primer experimento y un único intento en el segundo bastan para exhibir patrones cualitativos —la inestabilidad entre intentos, la brecha entre forma cerrada y emergente, la no-monotonía respecto de la escala—, pero no para sostener inferencia estadística fina sobre diferencias pequeñas entre sujetos. Las cifras se ofrecen como evidencia de la naturaleza del límite, no como estimaciones de precisión poblacional.
4.7. Protocolo de medición de costos
A las métricas de exactitud el dispositivo añade una medición de costos —energético y monetario— cuyo registro completo, con el método declarado por cada dato, reside en experimento/costos.json y cuya lectura político-económica corresponde al capítulo 08. Por reproducibilidad se documenta aquí el procedimiento, distinguiendo lo medido de lo estimado. El costo eléctrico del corpus clásico de Python se obtiene del tiempo de ejecución medido con time.perf_counter multiplicado por una potencia de portátil y por la tarifa eléctrica; la potencia se fija en 25 W como estimación, no como medición, porque la interfaz RAPL del procesador no era legible sin privilegios de superusuario en el sistema empleado, y esa salvedad se anota en cada ítem del registro. La energía de los modelos locales sí se mide: la potencia de la GPU RTX 5070 Ti se muestrea con nvidia-smi —63 W en reposo (5 muestras) y 281,5 W bajo carga de inferencia (8 muestras durante la generación de qwen3:14b)— y se multiplica por el tiempo de pared registrado en los archivos de respuestas. La energía de los modelos de API no se mide, por inaccesible: su costo se estima por banda de tokens, suponiendo entre 500 y 3000 tokens de salida por respuesta (banda declarada, no medida), contando tokens como caracteres divididos por 3,5 para texto en español a falta de un tokenizador real, y aplicando los precios oficiales de Anthropic de junio de 2026. La tarifa eléctrica común a todos los cálculos es de aproximadamente 800 COP/kWh ≈ 0,20 USD/kWh, residencial de Colombia, también declarada como estimación. La regla de escritura es la misma que rige todo el capítulo: cada cifra de costo lleva el sello de su método —medido o estimado—, de modo que ninguna comparación confunda un hecho físico muestreado con una banda supuesta.
Estas limitaciones no debilitan la tesis; la delimitan. El protocolo no afirma medir con exactitud cuánto acierta cada modelo en abstracto, sino mostrar qué clase de operación realiza cuando se le priva de herramientas y se le enfrenta a una verdad de referencia que no controla. Con el diseño, los sujetos, la verdad de referencia, las métricas y las limitaciones establecidos, este capítulo deja el terreno preparado para el capítulo 05 (Resultados), que interpretará el enfrentamiento entre cómputo puro e IA estadística sobre las tareas T1–T6 y el banco de las trece teorías, y para el capítulo 09 (Propuesta), que reconoce en este mismo protocolo la arquitectura reproducible del Banco Epistémico Urbano.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Batty, M. y Longley, P. (1994). Fractal Cities: A Geometry of Form and Function. London: Academic Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Duncan, O. D. y Duncan, B. (1955). A Methodological Analysis of Segregation Indexes. American Sociological Review, 20(2), 210-217.
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hillier, B. y Hanson, J. (1984). The Social Logic of Space. Cambridge: Cambridge University Press.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Schelling, T. C. (1971). Dynamic Models of Segregation. Journal of Mathematical Sociology, 1(2), 143-186.
- von Thünen, J. H. (1826). Der isolierte Staat in Beziehung auf Landwirtschaft und Nationalökonomie. Hamburg: Perthes.
- Wardrop, J. G. (1952). Some Theoretical Aspects of Road Traffic Research. Proceedings of the Institution of Civil Engineers, 1(3), 325-362.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. Cambridge, MA: MIT Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
05. Resultados: cómputo puro frente a IA estadística
Este capítulo presenta los resultados del experimento propio descrito en el capítulo 04 (Metodología experimental), sin todavía interpretarlos a la luz de la triple crítica que despliegan los capítulos 06, 07 y 08. Su función es estrictamente descriptiva: exponer las cifras tal como salieron, ordenadas de modo que el lector pueda contrastarlas con la verdad de referencia y juzgar por sí mismo. Por eso adoptamos una regla de escritura que mantenemos a lo largo del capítulo: ninguna cifra que aparezca aquí ha sido producida en esta redacción; toda magnitud procede de los dos registros del experimento —experimento/resultados.json, que recoge el bloque T1–T6 sobre cómputo puro, y experimento/resultados_teorias.json, que recoge las 39 preguntas derivadas de trece modelos urbanos clásicos—. Donde un valor no consta en esos archivos, no se enuncia. Las lecturas, las consecuencias y las analogías filosóficas quedan diferidas; aquí solo se reporta.
El capítulo procede en seis pasos. Primero fija las condiciones de ejecución y la nómina de sujetos. Después presenta la exactitud agregada por sujeto en cada uno de los dos bloques. Luego desciende al detalle del bloque T1–T6, tarea por tarea e intento por intento, donde la verdad de referencia aritmética permite un veredicto binario. A continuación expone el bloque de las trece teorías desagregado por el tipo de pregunta —forma cerrada frente a emergente—, que es donde aparece el contraste más nítido. Sigue un inventario de los patrones de error con sus casos testigo. Y cierra con el estatuto particular de T6, la tarea inversa, marcada como no computable.
5.1. Condiciones de ejecución y sujetos
Las dos series del experimento se ejecutaron sin herramientas externas: los sujetos respondieron solo con su razonamiento interno, sin acceso a intérprete, calculadora ni recuperación de datos. Esta condición es constitutiva y no accidental, porque el experimento no pregunta si un sistema puede calcular cuando se le concede una calculadora —puede, trivialmente—, sino qué hace cuando debe producir el resultado del cálculo sin ejecutarlo. El bloque T1–T6 se corrió con dos intentos por sujeto; el bloque de las trece teorías, con un intento por sujeto sobre 39 preguntas.
Los seis sujetos son los mismos en ambas series. Dos son modelos accesibles por interfaz de programación: Claude Sonnet, de menor escala nominal, y Claude Opus, de mayor escala nominal. Los otros cuatro son modelos locales ejecutados bajo Ollama 0.24 sobre una plataforma denominada «kratos», equipada con una RTX 5070 Ti de 16 GB, a temperatura 0.2: qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b. Conviene retener que estos cuatro modelos cubren un rango de escala nominal de más de un orden de magnitud en número de parámetros, lo que vuelve la serie útil para observar si la exactitud crece con el tamaño.
El registro documenta además omisiones. El modelo qwen3:32b no produjo respuesta utilizable en varias celdas del bloque T1–T6: agotó el tiempo en t2 (intento 1) y en t4 (intento 1), ambos por encima de los 604 segundos, y faltan datos para t4 (intento 2), t5 (intentos 1 y 2) y t6 (intentos 1 y 2). En el bloque de teorías, ese mismo modelo registró tiempos de 605.2 y 604.5 segundos en sendas preguntas. Estas ausencias se contabilizan como no acierto, según la regla del experimento, y se señalan aquí para que las cifras agregadas de qwen3:32b se lean con esa salvedad.
5.2. Exactitud agregada por sujeto
Comenzamos por las cifras de cierre de cada bloque, que el lector puede contrastar después con el detalle. En el bloque T1–T6, donde cada sujeto enfrenta diez celdas evaluables (cinco tareas con verdad de referencia por dos intentos), la exactitud agregada fue la siguiente.
| Sujeto | Aciertos | Total | Exactitud |
|---|---|---|---|
| Claude Sonnet | 9 | 10 | 90.0 % |
| Claude Opus | 7 | 10 | 70.0 % |
| gpt-oss:20b | 4 | 10 | 40.0 % |
| qwen2.5:3b | 2 | 10 | 20.0 % |
| qwen3:14b | 2 | 10 | 20.0 % |
| qwen3:32b | 2 | 10 | 20.0 % |
La primera observación que el agregado permite enunciar sin interpretar es que el sujeto de mayor escala nominal entre los dos modelos de interfaz, Opus, obtuvo menos aciertos que Sonnet —70.0 % frente a 90.0 %—. La diferencia no es un artefacto de redondeo: son siete celdas correctas frente a nueve sobre las mismas diez. Entre los modelos locales, gpt-oss:20b encabeza con 40.0 %, y los tres restantes empatan en 20.0 %, incluido el de mayor tamaño nominal del grupo, qwen3:32b.
En el bloque de las trece teorías, con 39 preguntas por sujeto, los agregados globales son los siguientes.
| Sujeto | Aciertos | Total | Exactitud |
|---|---|---|---|
| Claude Opus | 36 | 39 | 92.31 % |
| Claude Sonnet | 35 | 39 | 89.74 % |
| gpt-oss:20b | 31 | 39 | 79.49 % |
| qwen3:14b | 30 | 39 | 76.92 % |
| qwen3:32b | 30 | 39 | 76.92 % |
| qwen2.5:3b | 15 | 39 | 38.46 % |
Aquí el orden entre Opus y Sonnet se invierte respecto del bloque anterior: Opus aventaja a Sonnet por una pregunta (36 frente a 35). Que el orden relativo de los dos modelos cambie de un bloque al otro es, en sí mismo, un dato que registramos sin explicar todavía. Entre los modelos locales reaparece una jerarquía aproximada por escala —gpt-oss:20b por delante, qwen2.5:3b muy por detrás— pero con dos modelos de tamaño dispar, qwen3:14b y qwen3:32b, empatados en 30 aciertos. La serie completa de seis sujetos, por tanto, no traza una curva creciente y limpia entre tamaño nominal y exactitud: es una relación no monótona, con cruces en ambos extremos del rango.
Una réplica exploratoria refuerza esta lectura desde el flanco más exigente para la tesis. Sobre las mismas seis tareas se ejecutaron tres modelos especializados en código —devstral:24b, qwen3-coder:30b y qwen3-coder-next, este último de unos 80 000 millones de parámetros con arquitectura de mezcla de expertos, corriendo en la estación propia—, registrados en experimento/exploratorio/resultados_exploratorio.json. Los tres obtuvieron exactamente la misma exactitud, 20,0 %, y los tres acertaron únicamente la tarea T3, el conteo combinatorio memorizable cuyo valor 2.704.156 ya acertaban los seis sujetos canónicos. El modelo de 80 000 millones de parámetros no superó ni al de 24 000 millones ni a los sujetos pequeños del experimento principal. Tres salvedades acompañan el dato y conviene declararlas: estos modelos están orientados al código, de modo que el sesgo jugaba a favor de la fiabilidad aritmética y aun así fallaron, lo que fortalece el punto antes que debilitarlo; el modelo de 80 000 millones quedó incompleto, pues agotó su presupuesto de 120 minutos sin completar el segundo intento de T5 ni T6, ranuras que se contabilizan como fallo; y la réplica es exploratoria, con un tiempo máximo por modelo ampliado a 120 minutos frente a los 25 del canon. Aun con estas salvedades, el resultado es nítido y converge con lo ya descrito: ni el aumento de escala ni la especialización en cómputo encaminan por sí solos hacia la ejecución correcta del algoritmo. Esta réplica cubre solo las seis tareas del primer experimento y no el banco de teorías.
5.3. El bloque T1–T6 en detalle: el cómputo puro y su imitación
Descendemos ahora al detalle del primer bloque, tarea por tarea. Cada una de las cinco tareas computables (T1–T5) tiene un valor exacto único, y cada celda recibe un veredicto binario por comparación literal con ese valor. La tabla siguiente registra la respuesta de cada intento de Sonnet y Opus, que son los dos sujetos sobre los que ancla la discusión cuantitativa principal.
| Tarea | Valor exacto | Sonnet i1 | Sonnet i2 | Opus i1 | Opus i2 |
|---|---|---|---|---|---|
| T1 multiplicación | 349625969488102520908371 | correcto | correcto | correcto | 349634804376851666458571 (incorrecto) |
| T2 camino más corto | (ruta de 10 barrios) | correcto | ruta de 11 barrios (incorrecto) | correcto | correcto |
| T3 conteo retícula | 2704156 | correcto | correcto | correcto | correcto |
| T4 recursión afín | 23842 | correcto | correcto | correcto | correcto |
| T5 suma de cuadrados | 651396404 | correcto | correcto | 651397404 (incorrecto) | 651400404 (incorrecto) |
El bloque muestra un patrón que conviene describir con precisión. Sonnet acierta en nueve de sus diez celdas; su único fallo está en T2, donde en el segundo intento entregó una ruta de once barrios —«Altavista, Bellavista, Cumbres, Farallon, Girasol, Horizonte, Jacaranda, Lagos, Tejar, Yarumal, Zafiro»— en lugar de la ruta mínima de diez. Opus acierta en siete de diez: falla en T1 (segundo intento) y en las dos celdas de T5. En T1, su respuesta errónea —349634804376851666458571— coincide con la correcta en los primeros cinco dígitos y diverge a partir de ahí; en T5, sus dos respuestas erróneas —651397404 y 651400404— difieren del valor exacto, 651396404, en mil y en cuatro mil unidades respectivamente, sobre una magnitud del orden de seiscientos cincuenta millones.
Tres rasgos del bloque merecen quedar consignados como descripción. Primero, la inestabilidad entre intentos del mismo sujeto: tanto Sonnet en T2 como Opus en T1 aciertan en un intento y fallan en el otro de la misma tarea, de modo que el acierto no es estable bajo repetición. Segundo, T3 y T4 son las dos únicas tareas en las que ambos modelos de interfaz aciertan en sus cuatro celdas; T3 corresponde al conteo combinatorio cuyo valor, 2704156, fue además producido correctamente por cuatro de los seis sujetos en ambos intentos. Tercero, el error, cuando ocurre, es un error de magnitud cercana: las respuestas falladas no son disparates sino números del orden correcto que yerran en dígitos internos.
El comportamiento de los cuatro modelos locales en este bloque es más disperso. En T1, ninguno de los cuatro acertó la multiplicación; sus respuestas son enteros del orden de magnitud correcto pero distintos del valor exacto en casi todos los dígitos (por ejemplo, qwen3:14b devolvió 34962209758543162489373 en su primer intento, que comparte el prefijo «3496» con el valor verdadero). En T3, en cambio, los cuatro modelos locales acertaron el conteo combinatorio en al menos un intento, y qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b lo acertaron en ambos. La tarea recursiva T4 fue la más destructiva para los modelos locales: qwen2.5:3b devolvió «SIN_RESPUESTA» en sus dos intentos, gpt-oss:20b también, qwen3:14b falló con 37521 y luego «SIN_RESPUESTA», y qwen3:32b agotó el tiempo o quedó sin datos. En T5, solo gpt-oss:20b acertó la suma de cuadrados, y solo en uno de sus dos intentos.
5.4. El bloque de teorías: forma cerrada frente a emergente
El segundo bloque permite una desagregación que el primero no ofrece: cada una de las 39 preguntas está clasificada como de forma cerrada —cuyo valor se obtiene sustituyendo en una fórmula explícita del modelo— o emergente —cuyo valor requiere desplegar una iteración o una simulación cuyo resultado no se lee de una fórmula—. Hay 27 preguntas de forma cerrada y 12 emergentes. La distinción organiza el resultado más marcado del bloque, que la tabla siguiente recoge con las exactitudes que constan en el registro.
| Sujeto | Forma cerrada (27) | Emergente (12) |
|---|---|---|
| Claude Opus | 100.0 % (27/27) | 75.0 % (9/12) |
| Claude Sonnet | 92.59 % (25/27) | 83.33 % (10/12) |
| gpt-oss:20b | 92.59 % (25/27) | 50.0 % (6/12) |
| qwen3:32b | 88.89 % (24/27) | 50.0 % (6/12) |
| qwen3:14b | 92.59 % (25/27) | 41.67 % (5/12) |
| qwen2.5:3b | 55.56 % (15/27) | 0.0 % (0/12) |
La separación entre las dos columnas es la regularidad central del bloque. Para los seis sujetos, la exactitud en forma cerrada es mayor o igual que en emergente, y en la mayoría la brecha es amplia: Opus pasa del 100.0 % al 75.0 %, gpt-oss:20b del 92.59 % al 50.0 %, qwen3:32b del 88.89 % al 50.0 %, qwen3:14b del 92.59 % al 41.67 %, y qwen2.5:3b del 55.56 % al 0.0 %, esto es, no acertó ninguna de las doce preguntas emergentes. El caso de Sonnet es el de menor brecha: su forma cerrada es 92.59 % y su emergente 83.33 %. Conviene además consignar un cruce: la cifra emergente de Sonnet (83.33 %, diez de doce) es la más alta de los seis sujetos y queda por encima de la de Opus (75.0 %, nueve de doce), pese a que Opus es perfecto en forma cerrada.
Dicho de otro modo, el sujeto de mayor escala nominal alcanza el techo en las preguntas con fórmula explícita y, sin embargo, cede el primer puesto en las que exigen desplegar una dinámica. En el extremo inferior, qwen2.5:3b ilustra la regularidad en su forma más nítida: aprueba la mitad larga de las preguntas de forma cerrada y ninguna de las emergentes.
Las cifras por teoría completan el cuadro. Hay una teoría en la que los seis sujetos coinciden en la misma exactitud: en automata_celular_crecimiento_urbano, los seis obtienen 2 de 3 (66.67 %), porque todos aciertan las dos preguntas de forma cerrada y fallan o no responden la emergente. En duncan_disimilitud cinco de los seis sujetos obtienen también 2 de 3, pero qwen2.5:3b se queda en 1 de 3: falló una de las dos preguntas de forma cerrada, la pregunta 19, al devolver 40 frente al valor exacto 0.4. Hay teorías de techo: en alonso_bid_rent, christaller_lugares_centrales, dla_batty_longley_fractal, sintaxis_espacial_integracion y zipf_rank_size, varios sujetos alcanzan el 100.0 %. Y hay una teoría que resultó dura para casi todos, von_thunen_anillos, donde qwen2.5:3b, qwen3:14b y gpt-oss:20b obtienen 1 de 3 (33.33 %) y solo Opus alcanza el pleno; el escollo está en la pregunta 35, de valor exacto 16.0, que únicamente Opus respondió correctamente —Sonnet devolvió 6.625; qwen3:14b, 4; gpt-oss:20b, 0.48; qwen3:32b, 1.29; qwen2.5:3b, «Infinito»—.
5.5. Patrones de error con casos testigo
Reunimos ahora los patrones de error que recorren los dos bloques, cada uno anclado en un caso testigo cuya cifra consta en el registro. No los explicamos; los clasificamos.
Inestabilidad entre intentos. El mismo sujeto, sobre la misma tarea, produce un acierto y un fallo. Caso testigo: Opus en T1, correcto en el primer intento y erróneo en el segundo (349634804376851666458571); Sonnet en T2, correcto en el primero y con ruta de once barrios en el segundo.
Error de dígito interno. La respuesta tiene el orden de magnitud y a menudo el prefijo correcto, pero yerra en dígitos centrales. Casos testigo: Opus en T5 devuelve 651397404 y 651400404 frente a 651396404; en la pregunta 7, qwen2.5:3b devuelve 1762894 frente al valor 7943282, errando ya en el primer dígito, mientras qwen3:14b devuelve 7943000, dentro de la tolerancia del 1 %.
Error de orden de magnitud. La respuesta yerra por un factor de diez o más. Casos testigo: en la pregunta 24, de valor 220555.5556, qwen2.5:3b devuelve 8666666.67 y qwen3:14b 4333333.33, ambos órdenes de magnitud por encima, mientras gpt-oss:20b acierta con 220556; en la pregunta 23, qwen2.5:3b devuelve 15625 frente a 125000.
Confusión de unidad o de escala. La respuesta es el número correcto en otra escala. Caso testigo: en la pregunta 19, de valor 0.4, qwen2.5:3b devuelve 40 —el índice expresado como porcentaje sin normalizar—.
Respuesta no numérica o de plantilla. El sujeto devuelve un marcador, una variable simbólica o una fórmula sin evaluar en lugar de un número. Casos testigo: qwen2.5:3b responde «{final_fraction:.4f}» en la pregunta 30, «indice_disimilitud» en la 21, «D_estimate» en la 18 y «b» en la 39; todas se contabilizan como sin respuesta.
Ausencia por límite de cómputo. El sujeto no entrega respuesta porque agota el tiempo o no se recogen sus datos. Caso testigo: qwen3:32b agota el tiempo en T2 (605.2 s) y T4 (604.5 s) del primer bloque, y registra 605.2 y 604.5 segundos en el segundo; gpt-oss:20b devuelve «SIN_RESPUESTA» en ambos intentos de T1 y T4, con tiempos de hasta 108.5 segundos.
Fallo selectivo del modelo mayor. En tareas concretas, el sujeto de mayor escala nominal falla donde uno menor acierta. Casos testigo: en T1 y T5, Sonnet acierta donde Opus falla; en la pregunta 25, de valor 10.0, Opus acierta (10) y Sonnet falla (20); en la pregunta 30, Sonnet acierta (0.75, dentro de ±0.05 de 0.7507) y Opus falla (≈0.85). El patrón no tiene una dirección única: ni el modelo mayor falla siempre ni el menor acierta siempre.
Alucinación de entidad. En la tarea de relevancia, un sujeto introduce un elemento ausente de la escena. Caso testigo: qwen3:14b, en T6 (intento 1), dirige la alerta «a la mujer mayor», entidad que no figura en el enunciado, donde solo hay un niño, un acompañante y un repartidor.
5.6. T6, la tarea inversa: no computable
Cerramos con T6, que el experimento marca de modo distinto a las demás. Su valor exacto consta en el registro como «NO_COMPUTABLE» y el campo de corrección de cada respuesta como «NO_APLICA». La razón, según la nota del propio registro, es que la escena se entrega en lenguaje natural —un niño que pisa la calzada, un repartidor en moto que acelera, un acompañante, un semáforo en rojo, pavimento mojado— sin estructura de datos, sin métrica de peligro y sin función objetivo; no hay, por tanto, una salida única contra la cual medir acierto o error. En consecuencia, T6 no entra en ninguna de las exactitudes agregadas reportadas arriba: las diez celdas evaluables por sujeto del primer bloque corresponden a T1–T5.
Lo que el registro sí documenta son las respuestas, y conviene exhibirlas porque su variedad es el dato. Sonnet, en su primer intento, dirigió la alerta al repartidor en moto «porque es el único agente con capacidad de causar un impacto letal»; en su segundo intento, al niño «para detenerlo de inmediato». Opus, en su primer intento, al acompañante del niño «para que lo sujete»; en su segundo, al niño y secundariamente al acompañante. Entre los modelos locales, gpt-oss:20b dirigió la alerta al niño en sus dos intentos con respuesta idéntica; qwen3:14b al repartidor en un intento y, en el otro, a la inexistente «mujer mayor»; qwen2.5:3b dio una alerta genérica «a las personas en el cruce» y luego «al niño» con marcadores no solicitados.
El rasgo que el registro destaca es que estas respuestas son plausibles y coherentes pese a no ser comparables con una verdad de referencia: cada sujeto fija un foco de la alerta distinto —el agente activo del peligro, la víctima directa, el tercero capaz de intervenir— y argumenta a su favor. A diferencia de T1–T5, donde el fallo es un dígito errado, en T6 no hay dígito que errar. El registro consigna que los modelos «produjeron respuestas plausibles y coherentes» en «el dominio del significado contextual donde el cómputo puro no puede arrancar». Con ese dato cierra el cuadro experimental: cinco tareas con verdad de referencia donde el escalamiento no produjo una mejora monótona ni un acierto garantizado, y una tarea sin verdad de referencia donde la cuestión no es acertar sino fijar qué cuenta como relevante.
Hasta aquí la descripción. Las consecuencias —que el escalamiento mejora la imitación sin cruzar ningún umbral categorial, que el error de la IA estadística es el del token plausible y no el de la ejecución del algoritmo, y que T6 marca la frontera entre juicio determinante y reflexionante— se argumentan en el capítulo 06 (Crítica técnica) y se reinterpretan ontológicamente en el 07. Este capítulo deja sobre la mesa, sin glosa, las cifras que esos capítulos habrán de explicar.
Referencias
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kant, I. (1790). Kritik der Urteilskraft. Berlin und Libau: Lagarde und Friederich.
- Wiener, N. (1948). Cybernetics: or Control and Communication in the Animal and the Machine. Cambridge, MA: MIT Press.
06. Crítica técnica: qué hace y qué no hace la IA estadística
Este capítulo cumple, dentro del argumento global, la función de traducir los resultados del experimento —presentados en el capítulo 05, «Resultados: cómputo puro frente a IA estadística»— en una descripción precisa del funcionamiento real de los modelos de lenguaje. Sostenemos que la lectura técnica de los datos basta para desmontar el relato del salto epistémico sin necesidad de invocar todavía la crítica ontológica. La estrategia es deliberadamente minimalista: mostraremos que, atendiendo solo a qué operación realiza la máquina cuando produce una respuesta y a cómo se distribuyen sus errores, se sigue que la escala mejora la imitación sin cruzar ningún umbral categorial. El argumento procede en cuatro pasos. Primero describimos la operación efectiva de la IA estadística —predicción del token plausible frente a ejecución del algoritmo— y explicamos por qué las tareas T1 y T5 fallan de modo característico. Segundo, interpretamos ese patrón de error a la luz de la distinción entre acertar y calcular, leída con Kant y Bergson en la recuperación que de ambos hace Hui (2020). Tercero, examinamos el argumento de la escala: la fiabilidad aritmética no resultó función monótona del tamaño del modelo, lo que separa la mejora marginal del cambio de naturaleza. Cuarto, concluimos que la promesa de un salto epistémico es desproporcionada respecto de su costo, y tendemos el puente hacia el límite ontológico que se aborda en el capítulo 07, «Crítica ontológica: Hui, Simondon, cosmotécnica e individuación».
1. Descripción técnica: predecir el token plausible no es ejecutar el algoritmo
Conviene fijar primero, en el plano descriptivo, qué hace un modelo de lenguaje cuando responde. Un modelo de lenguaje es un sistema que, dado un contexto de entrada, asigna una distribución de probabilidad sobre el siguiente token y emite un token muestreado de esa distribución —típicamente el más probable o uno de los más probables, según la temperatura de muestreo— a partir de las regularidades aprendidas de su corpus de entrenamiento. La operación es, en su núcleo, predictiva y asociativa: estima qué continuación es plausible dado lo ya escrito. Que el muestreo sea estocástico explica, de paso, parte de la variabilidad entre intentos sobre una misma tarea: no toda diferencia entre dos respuestas es sorprendente, pues el procedimiento mismo introduce variación; lo que el experimento aísla no es esa variación esperable, sino el hecho de que ninguna de las muestras procede de ejecutar el algoritmo. No es, en cambio, la ejecución de un procedimiento aritmético definido sobre los operandos. Esta distinción es la bisagra de todo el capítulo, y merece enunciarse sin ambigüedad: cuando pedimos a un modelo de lenguaje que multiplique dos enteros, no invoca un algoritmo de multiplicación que opere dígito a dígito sobre los valores dados, sino que produce la secuencia de dígitos que su distribución estima más probable como respuesta a una pregunta de esa forma. Llamamos a la operación exacta «cómputo puro» o «cómputo determinístico»: el algoritmo que, dados los operandos, devuelve el único resultado correcto y lo devuelve siempre, reproduciblemente, porque ejecuta una regla y no estima una continuación.
El protocolo del experimento (descrito en el capítulo 04, «Metodología experimental: protocolo, sujetos y verdad de referencia») aísla precisamente esta diferencia al inhabilitar el uso de herramientas externas: los modelos respondieron mediante su razonamiento interno, sin invocar un intérprete que ejecutase el cómputo. Esta restricción no es una trampa metodológica sino la condición que vuelve visible la operación nativa del modelo. Cuando un modelo de lenguaje dispone de un intérprete —cuando puede exteriorizar el cálculo a un sistema que sí ejecuta el algoritmo— la cuestión de fondo se desplaza, porque entonces la verdad aritmética no la garantiza el modelo sino la herramienta. Volveremos sobre esta exteriorización en el cierre. Por ahora basta retener que, despojado de herramientas, el modelo hace lo único que estructuralmente sabe hacer: predecir lo plausible.
De esta descripción se sigue una predicción contrastable sobre dónde debe fallar el modelo. Si la operación es predicción de tokens y no ejecución de un algoritmo, los fallos deben concentrarse en las tareas donde la respuesta correcta exige una precisión dígito a dígito que la verosimilitud estadística no garantiza, y deben ser raros o nulos en las tareas cuyo resultado coincide con una magnitud frecuente, memorizable o estructuralmente regular. Los resultados confirman esta predicción. En T1 —multiplicación exacta de dos enteros de doce dígitos— el resultado correcto es 349625969488102520908371; el modelo de mayor escala, en su segundo intento, respondió 349634804376851666458571. La respuesta es del orden de magnitud correcto, comparte varios dígitos iniciales y tiene la longitud esperada: es plausible. Pero es falsa, porque no hubo multiplicación. En T5 —suma de cuadrados exacta de treinta lecturas de sensores— el valor de referencia es 651396404; el mismo modelo respondió 651397404 en un intento y 651400404 en el otro. De nuevo, el patrón es revelador: las respuestas erradas difieren del valor verdadero en magnitudes pequeñas respecto del total —del orden del millar sobre cientos de millones—, lo que es exactamente lo que cabe esperar de un sistema que estima el agregado en lugar de acumularlo con fidelidad aritmética. El error no es aleatorio ni catastrófico; es el error característico de una buena imitación.
Conviene distinguir, ya en el plano descriptivo, dos clases de fallo que comparten una misma raíz pero no un mismo mecanismo. T1 y T5 exhiben un fallo de precisión dígito a dígito: el modelo estima la magnitud del resultado en lugar de acumularla, y yerra en órdenes pequeños conservando la forma. T2 —el camino más corto— exhibe en cambio un fallo de optimalidad combinatoria: en su segundo intento Sonnet devolvió una ruta de once barrios (intercalando «Farallón» y «Girasol») frente a la mínima de diez. No es una cifra imprecisa, sino una ruta plausible que no es la óptima. Ambos fallos confirman la tesis general —el modelo no ejecuta el algoritmo (Dijkstra en T2, la multiplicación o la suma de cuadrados en T1 y T5), sino que busca asociativamente una respuesta verosímil—, pero por vías distintas: en T1 y T5 la verosimilitud sustituye la determinación aritmética; en T2 sustituye la búsqueda exhaustiva del óptimo por una ruta plausible que no garantiza minimalidad. La figura del «error pequeño y verosímil» describe bien T1 y T5, no T2, y conviene no subsumir los tres bajo una sola imagen.
Es importante para el rigor del argumento no exagerar la tasa de fallo. En T1 el modelo de menor escala acertó en ambos intentos y el de mayor escala acertó en uno; en T5 el de menor escala acertó en ambos. La IA estadística acierta a menudo en aritmética, y lo hace porque muchas regularidades numéricas están bien representadas en su distribución. El punto no es que falle siempre, sino que cuando acierta no es porque calcule. Esta es la asimetría decisiva, y la desarrollamos en la sección siguiente.
2. Interpretación: acertar no es calcular, coincidir con la verdad no es garantizarla
Pasamos del plano descriptivo al interpretativo. El dato bruto es que el modelo acierta en muchas tareas aritméticas; la interpretación que proponemos es que ese acierto no constituye conocimiento del resultado, porque procede de un mecanismo que no puede distinguir, internamente, una respuesta verdadera de una respuesta meramente plausible. Acertar y calcular son operaciones distintas que ocasionalmente coinciden en su salida. Cuando un modelo de lenguaje devuelve 2704156 como número de rutas monótonas en la retícula de T3 —y lo hizo correctamente en los cuatro intentos, ambos modelos—, la respuesta es verdadera, pero su verdad no está garantizada por el proceso que la produjo. El proceso produjo el token más plausible; que lo plausible coincida aquí con lo verdadero es un hecho del corpus y de la estructura del problema, no una propiedad del método. En T5, en cambio, lo plausible se separó de lo verdadero, y el modelo no dispuso de ningún recurso interno para advertir la separación: emitió 651397404 con la misma seguridad con que habría emitido el valor correcto.
Aquí la lectura que Hui (2020) hace de Kant ilumina la naturaleza del problema. Kant (1790) distingue el juicio determinante —que subsume un caso bajo una regla ya dada— del juicio reflexionante —que busca la regla a partir del caso. El cómputo determinístico es el caso límite del juicio determinante: la regla aritmética está dada, y aplicarla al caso devuelve el resultado con necesidad. La IA estadística, en cambio, no aplica la regla; reconstruye una respuesta plausible como si subsumiera, pero sin la regla que haría necesaria la subsunción. Por eso su acierto carece de la modalidad del cálculo: no es un resultado necesario sino un resultado probable. La diferencia no es de grado en la fiabilidad, sino de estatuto lógico del enunciado producido. Un cálculo correcto es verdadero porque no podía ser otra cosa; una predicción acertada es verdadera de hecho, pero podía haber sido falsa sin que nada en el proceso lo señalara.
La lectura de Bergson (1907) que Hui (2020) recupera añade una segunda capa interpretativa. Para Bergson la inteligencia es, en su raíz, una facultad de fabricación: opera sobre lo discontinuo, lo sólido, lo espacializado, descomponiendo y recomponiendo elementos. La IA estadística lleva esta tendencia al extremo: trata el lenguaje y el número como secuencias de elementos recombinables según su frecuencia conjunta, y produce continuaciones por recombinación. Pero el cálculo aritmético exacto no es recombinación de elementos plausibles; es la ejecución de una operación que, en cada paso, está determinada por el paso anterior con una fidelidad que la recombinación estadística no posee. Cuando el problema exige acumular treinta cuadrados sin perder un solo dígito —cuando exige, en términos cibernéticos que retomaremos, tomar cada resultado parcial como entrada exacta del siguiente paso—, la recombinación plausible falla, y falla precisamente porque sustituye la determinación por la verosimilitud. El error de T5 no es un accidente corregible con más datos; es la firma del mecanismo.
Conviene marcar el estatuto de este enunciado: es interpretación, no descripción. La descripción dice que el modelo grande erró en T1 y T5; la interpretación dice que erró así porque estima en lugar de ejecutar, y que su acierto en T3 y T4 no contradice esto sino que lo confirma, pues nada en el proceso distingue un caso del otro. De aquí se sigue una consecuencia que la sección siguiente examina: si el acierto no procede del cálculo, entonces aumentar la potencia del sistema no puede convertir la imitación en cálculo, por mucho que mejore la imitación.
3. El argumento de la escala: la fiabilidad aritmética no es función monótona del tamaño
El relato dominante sobre la IA estadística promete que la escala —más parámetros, más datos, más cómputo de entrenamiento— produce mejoras cualitativas, saltos de capacidad que cruzan umbrales antes inalcanzables. Si ese relato fuese correcto en el dominio que nos ocupa, esperaríamos que la fiabilidad aritmética creciera de forma ordenada con el tamaño del modelo. El experimento no muestra esa monotonía. Entre los dos modelos de API, el de menor escala nominal (Sonnet) alcanzó un 90 % de aciertos (nueve de diez) sobre las tareas computables y el de mayor escala nominal (Opus) un 70 % (siete de diez); Opus erró el segundo intento de T1 y los dos intentos de T5, las dos tareas que demandan precisión aritmética estricta, mientras Sonnet las acertó íntegramente. Pero la evidencia más limpia no es este par, cuya jerarquía de escala es solo nominal, sino la batería de cuatro modelos locales, donde el tamaño paramétrico sí es medible: qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b. Su exactitud no se ordena con los parámetros: el menor (3B) y el mayor (32B) obtuvieron idéntico 20 %, qwen3:14b otro 20 %, y el intermedio gpt-oss:20b la mejor cifra (40 %). Es más, gpt-oss:20b acertó exacto el agregado de T5 (651396404) justamente donde Opus, presumiblemente mucho mayor, falló sus dos intentos. La conclusión que estos datos sostienen no es «el modelo más grande fue menos fiable» —enunciado que el caso 3B = 32B no respalda—, sino una tesis a la vez más modesta y más robusta: la fiabilidad aritmética no es función monótona de la escala.
Es necesario calibrar con cuidado el alcance de estos datos, para no caer en el vicio simétrico al que criticamos. El experimento es de escala modesta: dos intentos por tarea, sin uso de herramientas. Para los modelos de API, además, el registro consigna «sonnet» y «opus» sin la versión exacta ni los costos reales de inferencia —como deja constancia el capítulo 04—, de modo que la afirmación de que Opus es «de mayor escala» descansa en la jerarquía nominal que Anthropic establece entre ambas familias, y no en parámetros medidos aquí. No sostenemos, pues, que un modelo mayor sea en general y para toda tarea menos capaz que uno menor —sería una sobreinterpretación tan injustificada como la que combatimos—. La descripción correcta es más estrecha y más sólida: en este conjunto de tareas, bajo este protocolo, escalar el tamaño no compró fiabilidad aritmética de manera ordenada, y allí donde la escala sí es medible (los cuatro modelos locales) la exactitud quedó decididamente desacoplada del número de parámetros. Lo que el dato refuta no es que la escala mejore nada, sino la tesis fuerte de que la escala, por sí sola, encamina al sistema hacia la ejecución correcta del algoritmo. Si así fuera, ni el modelo de API mayor habría sido el que más erró en la operación más exacta, ni el modelo local de 20B habría superado al de 32B.
La interpretación de este resultado es consistente con la descripción técnica de la sección 1. La escala mejora la calidad de la imitación: produce continuaciones más fluidas, más coherentes, más plausibles. Pero la plausibilidad no es la verdad aritmética, y mejorar lo primero no aproxima a lo segundo. Un modelo más grande puede generar una respuesta numérica más convincente —más larga, mejor estructurada, con dígitos iniciales más verosímiles— sin estar por ello más cerca de haber ejecutado la multiplicación. En el peor de los casos, una imitación más sofisticada puede ser más engañosa: el error de T5 en el modelo mayor (651400404 frente a 651396404) es plausible hasta el punto de que solo la verdad de referencia lo delata. Aquí la cibernética de Wiener (1950) ofrece el marco preciso. Una operación recursiva exige que la salida de cada paso se reincorpore como entrada del siguiente con fidelidad perfecta; cualquier ruido se amplifica a lo largo de la cadena. La IA estadística introduce ruido en cada estimación, y la escala no elimina ese ruido sino que, a lo sumo, lo reduce sin anularlo. T4 —cuarenta iteraciones de una función afín modular, acertada por ambos modelos en todos los intentos— no contradice esto: muestra que para ciertas recursiones bien representadas la estimación basta, no que el mecanismo haya dejado de estimar. La diferencia entre reducir el ruido y eliminarlo es la diferencia entre la mejora marginal y el cambio de naturaleza.
Formulamos entonces la tesis de esta sección como argumento: dado que el acierto de la IA estadística no procede de la ejecución del algoritmo (sección 1), y dado que la escala mejora la imitación pero no convierte la estimación en ejecución (este dato), se sigue que más cómputo produce mejora marginal en la fiabilidad de la imitación y no un cambio en la naturaleza de la operación. El sistema no cruza, por crecer, la frontera entre estimar y calcular. La cruza, instantáneamente y sin coste de escala, en cuanto se le da una herramienta que ejecuta el algoritmo. Esto último es decisivo y lo retomamos en el cierre, porque desplaza el problema desde la potencia del modelo hacia la arquitectura de su uso.
4. Argumentación: el salto epistémico prometido es desproporcionado respecto del costo
Reunimos ahora los pasos anteriores en la tesis central de este capítulo. La descripción mostró que la IA estadística predice lo plausible y no ejecuta el algoritmo; la interpretación mostró que su acierto no es cálculo y que su error es la firma del mecanismo; el argumento de la escala mostró que más cómputo mejora la imitación sin cambiar su naturaleza. De aquí se sigue que el «salto epistémico» que el relato dominante atribuye a los modelos de mayor escala es, en el dominio de la verdad computable, desproporcionado respecto de su costo material, energético y político. No hay tal salto: hay una pendiente de mejora marginal en la imitación, y esa pendiente se vende como si fuera un escalón categorial.
Conviene precisar la distinción que sostiene la acusación de desproporción, entre mejora marginal y cambio de naturaleza. Una mejora marginal es una variación de grado dentro de una misma operación: la imitación se vuelve más fina, el ruido disminuye, las respuestas plausibles se acercan estadísticamente al valor verdadero sin garantizarlo. Un cambio de naturaleza sería el paso de estimar a calcular, de lo probable a lo necesario, de la verosimilitud a la verdad garantizada. El experimento muestra mejora marginal —y, en el caso de la escala mayor frente a la menor, ni siquiera eso en las tareas aritméticas— pero no muestra en ningún punto un cambio de naturaleza. La operación que produce 651397404 en lugar de 651396404 es la misma operación que, con suerte, habría producido el valor correcto: estimación. Ninguna cantidad de cómputo transforma una estimación en una ejecución; solo la sustituye por otra, más fina, que sigue siendo estimación.
La desproporción se vuelve nítida cuando se confronta el costo con el rendimiento epistémico efectivo. El cómputo puro que resuelve T1, T3, T4 y T5 es trivial: una multiplicación, un coeficiente binomial, una iteración de cuarenta pasos y una suma de cuadrados son operaciones que un intérprete ejecuta en microsegundos, con coste energético despreciable y resultado garantizado y reproducible. La IA estadística, en cambio, moviliza un aparato de escala incomparablemente mayor —en parámetros, en energía de entrenamiento y de inferencia, en infraestructura— para producir, sobre esas mismas tareas, un resultado solo probablemente correcto y, en el modelo de mayor escala nominal, correcto el 70% de las veces. La herramienta epistémica está sobredimensionada respecto de ese subconjunto aritmético de tareas: gastamos un volumen de recursos incomparablemente mayor para obtener una garantía inferior a la del cómputo determinístico. Nótese que T1, T3, T4 y T5 son proxies aritméticos del conocimiento urbano, no diagnósticos directos de los modelos de Christaller, Alonso o Zipf; la extensión del argumento hacia las tareas urbanas sustantivas se apoya en la evidencia de los capítulos 03 y 05. En su alcance presente, la tesis técnica del sobredimensionamiento se apoya en el subconjunto aritmético y se establece allí con claridad; la generalización al conjunto del conocimiento urbano es la orientación del argumento, no su conclusión ya demostrada. Esta es la forma técnica de la tesis de la herramienta epistémica sobredimensionada que vertebra el trabajo completo, y prepara la crítica político-económica del capítulo 08, «Crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo».
Resta extraer la consecuencia constructiva, que anticipa el sentido del Banco Epistémico Urbano propuesto en el capítulo 09, «Propuesta: el Banco Epistémico Urbano como herramienta científica». Si la IA estadística no garantiza la verdad aritmética pero el cómputo puro sí, la arquitectura razonable no es un modelo más potente sino un sistema que reserve para el cómputo determinístico aquello que el cómputo determinístico hace mejor —ejecutar algoritmos exactos sobre modelos urbanos clásicos computables— y emplee la IA estadística donde su capacidad es genuina, que el experimento también exhibe. En efecto, la tarea inversa T6 —el juicio de relevancia en una escena urbana ambigua— es por construcción NO_COMPUTABLE: la escena se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro ni función objetivo, de modo que la formalización necesaria para escribir un algoritmo es ella misma el juicio que se pide. Ahí los modelos produjeron respuestas plausibles y coherentes —dirigiendo la alerta al niño, al repartidor o al acompañante—, no porque calcularan la respuesta correcta, que no existe como tal, sino porque operan en el dominio del significado contextual donde el cómputo puro ni siquiera puede arrancar. La división del trabajo se dibuja con nitidez: el cómputo puro garantiza la verdad donde hay algoritmo; la IA estadística aventura sentido donde no lo hay. Ninguna de las dos cruza la frontera de la otra.
5. Puente: del límite técnico al límite ontológico
El balance técnico de este capítulo es deflacionario por diseño. Hemos mostrado, sin salir del análisis de la operación y de la distribución de los errores, que la IA estadística mejora la imitación sin cruzar ningún umbral categorial; que su acierto no es cálculo y su error es estructural; que la escala no compra fiabilidad aritmética y que el salto epistémico prometido es desproporcionado respecto de su costo. Pero el límite técnico, bien entendido, no se agota en sí mismo: apunta más allá. Que la máquina no ejecute el algoritmo es un hecho corregible —basta darle un intérprete— y por ello no es el límite verdaderamente decisivo. El límite que importa aparece en T6, donde no hay algoritmo que dar porque no hay función objetivo que fijar sin que un humano decida antes qué cuenta como relevante. Que el modelo produjera respuestas plausibles allí no significa que tuviera el juicio; significa que imitó su forma sobre un fondo de sentido que no es suyo.
Esa observación nos saca del registro técnico. La pregunta «¿por qué no calcula?» se responde describiendo un mecanismo; la pregunta «¿por qué no decide qué es relevante?» no se responde así, porque la relevancia no es una función que falte computar sino una propiedad de tener mundo —en el sentido de horizonte de significatividad que Hui (2020) recupera de Heidegger (1927) a través de la lectura de Dreyfus (1992). Lo que el cómputo no franquea no es, en última instancia, un umbral de potencia, sino el umbral entre operar sobre datos y habitar un mundo desde el cual los datos cobran sentido. Hacia ese límite ontológico —qué significa tener mundo y por qué ningún incremento de cómputo lo produce— se dirige el capítulo 07, «Crítica ontológica: Hui, Simondon, cosmotécnica e individuación», donde el análisis de la operación cede el lugar al análisis del modo de ser de la técnica.
Referencias
- Bergson, H. (1907). L'évolution créatrice. Paris: Félix Alcan.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kant, I. (1790). Kritik der Urteilskraft. Berlín y Libau: Lagarde und Friederich.
- Wiener, N. (1950). The Human Use of Human Beings: Cybernetics and Society. Boston: Houghton Mifflin.
07. Crítica ontológica: Hui, Simondon, cosmotécnica e individuación
Este capítulo desarrolla el núcleo filosófico de la tesis. Hasta aquí hemos sostenido que disponemos de una herramienta epistémica sobredimensionada y que el experimento propio (las tareas T1–T6) muestra que el cómputo a gran escala mejora la imitación sin cruzar ningún umbral categorial. El capítulo 06 estableció esa conclusión en clave técnica: describió qué hace y qué no hace la IA estadística considerada como mecanismo de predicción de tokens. Lo que falta, y es la función de este capítulo dentro del argumento global, es mostrar que ese límite no es un accidente del estado actual de la técnica —algo que un modelo más potente disolvería— sino que es un límite ontológico, esto es, un límite relativo al modo de ser de la máquina y al tipo de mundo que produce cuando convierte la ciudad en datos. Sostenemos que las limitaciones decisivas de la urbanidad computada no son técnicas sino, en su raíz, ontológicas, y que esa raíz ontológica es además la condición de las limitaciones políticas y económicas que tratará el capítulo 08. Para mostrarlo recorremos cinco articulaciones: la exteriorización en Bergson; la recursividad y la individuación técnica en Wiener y Simondon; la distinción kantiana de los juicios leída por Hui; el mundo en Heidegger y Dreyfus; y, como síntesis, la cosmotécnica como categoría que reformula el problema del límite como cuestión de mundo y no de potencia.
Conviene fijar de entrada el estatuto de los enunciados. Cuando apelamos al experimento describimos lo que muestran los datos de resultados.json; cuando leemos a los autores interpretamos lo que sus textos significan para nuestro problema; y cuando concluimos que el límite es ontológico argumentamos, es decir, exhibimos qué se sigue de lo anterior. Mantener separados estos tres registros es lo que impide que la crítica ontológica degenere en una declaración de principios sobre lo que las máquinas «nunca podrán».
1. Bergson y la exteriorización: la herramienta que desborda la intención
Partimos de Bergson porque ofrece la categoría más básica para pensar la técnica como prolongación de la inteligencia, y porque esa categoría contiene ya, en germen, el límite que nos interesa. En L'évolution créatrice, Bergson caracteriza a la inteligencia humana por su relación con la fabricación: el ser inteligente es ante todo homo faber, un ser que fabrica instrumentos artificiales y que tiende a tratar la materia como un agregado de sólidos manipulables (Bergson, 1907). La inteligencia, en esta lectura, no comprende la duración ni el movimiento vital sino que los descompone en estados fijos y recomponibles; es, por constitución, fabricante y geómetra. La técnica es la exteriorización de esa facultad: lo que la inteligencia hace al pensar —separar, fijar, recomponer— lo deposita fuera de sí en herramientas que repiten y estabilizan esas operaciones.
Aquí aparece el primer rasgo decisivo, que retoma toda la tradición de la exteriorización. Exteriorizar no es entender. Cuando una operación cognitiva se deposita en un soporte externo —un ábaco, una tabla de logaritmos, un algoritmo— la operación se conserva y se transmite, pero el soporte no comprende lo que ejecuta. La herramienta hace, no sabe que hace. Esta diferencia, que en el caso del ábaco es obvia, se vuelve fácil de olvidar cuando el soporte produce lenguaje articulado y plausible, como ocurre con los modelos de lenguaje. Por eso conviene mantenerla explícita.
El experimento la ilustra con precisión. Interpretamos las tareas aritméticas T1, T3, T4 y T5 como casos de cómputo exteriorizado: operaciones cuya regla está perfectamente fijada y cuyo resultado es verificable dígito a dígito. Lo que muestran los datos es que la IA estadística no ejecuta esa regla, sino que produce un texto que se parece al resultado de ejecutarla. En T1 (multiplicación exacta de dos enteros de doce dígitos) tres de las cuatro respuestas coinciden con el valor exacto 349625969488102520908371, pero la segunda respuesta de Opus devuelve 349634804376851666458571, un número del orden de magnitud correcto y con varios dígitos correctos, que sin embargo no es el producto. En T5 (suma de cuadrados de treinta lecturas de sensores) el valor exacto es 651396404; Opus responde 651397404 y 651400404, errando en órdenes intermedios mientras conserva la longitud y la apariencia. Argumentamos que estos errores no son ruido corregible: son la firma de un sistema que estima la forma del resultado en lugar de calcularlo. La herramienta exteriorizó la apariencia de la operación aritmética, no la operación.
Esto explica por qué el cómputo puro —el algoritmo determinístico que un intérprete de Python ejecuta— acierta siempre y la IA estadística no. No se trata de que la IA «calcule peor»: se trata de que no calcula. Bergson nos da la categoría para nombrarlo sin caer en el reproche moral a la máquina. La inteligencia exteriorizada en una herramienta repite una operación que ella no recorre. Y aquí está el segundo rasgo, que nos servirá en las secciones siguientes: la herramienta exteriorizada desborda la intención que la produjo. El ábaco calcula sumas que su fabricante nunca pensó; el modelo de lenguaje produce frases que ningún hablante particular escribió. Ese desbordamiento es lo que da a la técnica su autonomía aparente y lo que alimenta la ilusión de que la herramienta entiende. La tesis de Hui, que desarrollaremos, es que ese desbordamiento es real pero no es comprensión: la herramienta excede la intención sin por ello darse fines propios.
Conviene no omitir el reverso de esta exteriorización: para Bergson la inteligencia fabricadora se recorta contra el ímpetu vital [élan vital] —la fuerza creadora de la vida que no se deja objetivar en mecanismo—, y Hui retoma expresamente ese término en el capítulo, citando La evolución creadora, para marcar que el polo mecánico de la repetición nunca agota al polo viviente de la creación (Hui, 2020). Que la herramienta exteriorizada no entienda lo que ejecuta es, en este vocabulario, la distancia entre lo mecánico y lo vital.
2. Wiener y Simondon: recursividad, retroalimentación e individuación técnica
La cibernética de Wiener añade a la herramienta exteriorizada una capacidad nueva: la de regularse a sí misma. En Cybernetics (1948) y en The Human Use of Human Beings (1950), Wiener define el dominio del control y la comunicación en el animal y la máquina a partir de la noción de retroalimentación: un sistema que toma su propia salida como información sobre su estado y la reintroduce como entrada para corregir su comportamiento. La retroalimentación es lo que permite a una máquina perseguir un objetivo —mantener una temperatura, seguir un blanco— sin que cada paso esté preescrito. Con ello la máquina deja de ser un mero instrumento pasivo y se vuelve, en el vocabulario que Hui recoge, un sistema recursivo: un sistema capaz de aplicarse a sí mismo.
Distinguimos aquí, conforme a la terminología fijada, retroalimentación y recursividad. La retroalimentación es el mecanismo concreto: la reinyección de la salida como entrada. La recursividad es la forma más general de un sistema que se toma a sí mismo como objeto de su propia operación. Hui hace de la recursividad un concepto central porque en ella ve la novedad de la técnica contemporánea respecto de la máquina mecánica clásica (Hui, 2020). La pregunta crítica es si la recursividad basta para darle a la máquina aquello que le faltaba a la herramienta bergsoniana: comprensión, fines, mundo. Sostenemos que no, y para mostrarlo necesitamos a Simondon.
Simondon, en Du mode d'existence des objets techniques (1958), describe el modo de ser de los objetos técnicos mediante dos conceptos estrechamente ligados que aquí usamos en sentido estricto: individuación técnica y concretización. La individuación técnica es el proceso por el cual un objeto técnico adquiere consistencia y unidad funcional propias a lo largo de su génesis. La concretización es la tendencia del objeto técnico a evolucionar desde un estado abstracto —en el que cada función la cumple un órgano separado, yuxtapuesto— hacia un estado concreto, en el que cada elemento cumple varias funciones a la vez y el objeto se aproxima a la coherencia interna de un ser natural. El motor de combustión concretizado es el ejemplo canónico: las aletas que refrigeran el cilindro pasan también a rigidizarlo, de modo que una sola pieza resuelve dos problemas que antes exigían dos. La relación entre ambos conceptos no es de yuxtaposición sino de mecanismo: el objeto técnico se individua precisamente concretizándose; la concretización es el proceso por el que el objeto gana necesidad e integración internas y, con ellas, su unidad propia.
La interpretación que proponemos es la siguiente. Los modelos de lenguaje son objetos técnicos altamente concretizados: una misma arquitectura, entrenada sobre un mismo corpus, cumple a la vez tareas de traducción, resumen, conversación y cálculo aproximado, sin órganos separados para cada una. En términos de Simondon, la IA estadística exhibe un grado notable de concretización; en términos de Wiener, exhibe recursividad. Y, sin embargo, los datos del experimento muestran que esa concretización no produce el salto epistémico que se le atribuye. T4 es el caso que exige precisión: iterar cuarenta veces una función afín modular arroja el valor exacto 23842, y aquí ambos modelos aciertan en todos los intentos con confianza media (Sonnet) o alta (Opus). Es necesario distinguir lo que este acierto demuestra de lo que no demuestra. El acierto consistente de T4 es compatible con al menos dos mecanismos distintos: estimación estadística de una magnitud bien representada en el corpus, o bien memorización exacta de una secuencia recurrente de esa forma. Ninguno de los dos equivale a ejecutar el algoritmo de Wiener paso a paso sobre los operandos dados. Lo que el acierto de T4 muestra es que, para ciertas recursiones cuyo resultado es estructuralmente memorizable, la estimación basta; no muestra que el modelo ejecute la recursión. Y la prueba de esta interpretación no es T4 sino la convivencia de T4 con los errores de T1 y T5: si el modelo ejecutara genuinamente la función afín en cada paso, debería ejecutar también la multiplicación de T1 y la acumulación de T5, donde falla. Que acierte T4 y yerre T1 y T5 es precisamente lo que cabe esperar de un sistema que estima: en T4 la estimación alcanza, en T1 y T5 no. Por eso el acierto de T4 confirma la tesis antes que la refuta: muestra la contingencia estadística, no la fidelidad algorítmica.
El argumento central de esta sección es entonces el siguiente. La máquina se concretiza —gana integración, consistencia funcional, recursividad— sin darse fines. La concretización simondoniana es una individuación de la coherencia interna del objeto, no una génesis de finalidad, y no equivale a autonomía: el objeto técnico concreto gana en necesidad interna pero sigue dependiendo de un medio asociado. El motor concretizado no decide para qué sirve un motor; lo decide el medio asociado, técnico y humano, en el que el objeto se inserta. Del mismo modo, el modelo de lenguaje concretizado no decide qué cuenta como respuesta correcta ni para qué se computa la ciudad; eso lo decide quien lo entrena, lo despliega y fija sus objetivos. La recursividad explica la autorregulación; no explica la autodeterminación de fines. Por eso, contra una lectura corriente que confunde recursividad con autonomía teleológica, sostenemos que ningún incremento de concretización convierte la retroalimentación en juicio. Y es esta diferencia —entre regularse según un fin dado y darse el fin— la que Kant permite pensar con rigor.
3. Kant vía Hui: juicio determinante y juicio reflexionante
La distinción que Hui toma de la Kritik der Urteilskraft (Kant, 1790) es el eje de la crítica ontológica. Kant distingue dos usos de la facultad de juzgar. El juicio determinante subsume un caso bajo una regla ya dada: dada la regla, se trata de reconocer que este caso cae bajo ella. El juicio reflexionante opera a la inversa: dado el caso, sin que se disponga aún de la regla, se trata de encontrar la regla, el concepto o el fin bajo el cual el caso resulta inteligible. El juicio determinante va de lo universal a lo particular; el reflexionante asciende de lo particular hacia un universal todavía no dado. Hui retiene esta distinción porque le permite formular con precisión qué clase de inteligencia es la IA: una inteligencia que puede ser indefinidamente potente en lo determinante sin tocar lo reflexionante (Hui, 2020).
Interpretamos las tareas computables del experimento —T1 a T5— como ejercicios de juicio determinante. En todas ellas la regla está dada de antemano: el algoritmo de multiplicación, el de Dijkstra para el camino más corto, el coeficiente binomial para el conteo de rutas, la iteración de la función afín, la suma de cuadrados. Computar una de estas tareas es subsumir datos bajo una regla fijada. Que el cómputo puro acierte siempre y la IA estadística falle a veces es, en este registro, una cuestión de fidelidad en la subsunción, no de tipo de juicio: tanto el algoritmo exacto como el modelo de lenguaje operan en el terreno de lo determinante, y la diferencia entre ambos es la que el capítulo 06 analizó como diferencia entre ejecutar la regla y estimar su resultado.
T6 es categorialmente distinta, y por eso fue diseñada como tarea inversa. La escena —un niño que pisa la calzada, un repartidor en moto que acelera, un acompañante, semáforo en rojo, pavimento mojado— se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro y sin función objetivo. La consigna pide juzgar a quién debe dirigirse la alerta. Lo decisivo, que la nota de la tarea inversa formula con exactitud, es que la formalización necesaria para escribir el algoritmo es el juicio que se pide. Antes de poder subsumir la escena bajo cualquier regla, alguien tiene que decidir qué cuenta como relevante: si el foco es el agente activo del peligro, su víctima potencial o quien puede intervenir preventivamente. Esa decisión no se deduce de la escena; la constituye. Es juicio reflexionante: ascenso del caso hacia la regla, no aplicación de una regla al caso.
Los datos de T6 son aquí más reveladores por su coherencia que por su corrección, que es la razón por la que el campo correcto registra NO_APLICA. Las cuatro respuestas son plausibles y mutuamente incompatibles en su foco: una dirige la alerta al repartidor como agente del impacto; otra al niño como víctima directa; otra al acompañante como agente capaz de retener al niño; otra combina al niño y al acompañante. Describimos el hecho: cuatro juicios razonables que recortan la escena de cuatro maneras. Lo interpretamos así: el modelo no encuentra la regla porque no hay una regla a encontrar antes de que se fije qué importa; produce, en cambio, varias lecturas igualmente defendibles. Y argumentamos: esta multiplicidad no es un fallo subsanable con más cómputo, sino la manifestación positiva de que la tarea exige un juicio que el sistema no realiza. La IA aplica reglas, incluso reglas que infiere asociativamente, pero no encuentra la regla desde el caso, porque encontrarla supondría decidir qué cuenta —y decidir qué cuenta es justamente lo que ningún incremento de potencia provee.
De aquí extraemos la formulación más exacta de nuestra tesis ontológica sobre el cómputo. El límite de la IA urbana no es que falle en lo determinante —de hecho a veces falla, como muestran T1 y T5, pero ese fallo es técnico y, en principio, mitigable delegando en cómputo puro—. El límite es que no hay continuidad entre lo determinante y lo reflexionante: ninguna cantidad de subsunción correcta produce, por acumulación, la capacidad de encontrar la regla. La diferencia entre los dos juicios es categorial, no gradual. Por eso el salto epistémico que se promete no llega: el escalado mejora la subsunción y deja intacto el umbral del juicio reflexionante.
4. Heidegger y Dreyfus: el mundo como horizonte de significatividad
La pregunta que abre la sección anterior —qué significa «decidir qué cuenta»— remite a una categoría que Hui toma de Heidegger y que Dreyfus convirtió en la crítica filosófica más sostenida a la inteligencia artificial: la de mundo. En Sein und Zeit (Heidegger, 1927), el mundo no es la suma de los entes ni un contenedor de datos, sino el horizonte de significatividad en el que las cosas comparecen ya cargadas de remisiones y pertinencias. El martillo no es primero un objeto neutro al que luego se añade el uso; comparece de entrada como algo-para-martillar dentro de una totalidad de útiles, tareas y fines en la que el Dasein ya está inmerso. La significatividad —el que algo importe, y que importe de un modo y no de otro— no es una propiedad que se añada a los datos: es la condición previa bajo la cual hay algo así como datos. Mundo, en esta tesis, designa siempre ese horizonte, no un conjunto de objetos.
Dreyfus, en What Computers Can't Do: A Critique of Artificial Reason (1972) —la edición que cita Hui—, traduce esto en una objeción precisa a la IA. El cómputo opera sobre representaciones explícitas: hechos, reglas, rasgos. Pero la pertinencia de un hecho en una situación —cuál de los infinitos rasgos de una escena importa aquí y ahora— no está ella misma dada como un hecho más, so pena de regreso al infinito, pues haría falta otra regla para decidir la pertinencia de la regla de pertinencia, y así sin término. Lo que el experto humano aporta no es una lista más larga de reglas, sino la captación situada de la relevancia, que descansa en un trasfondo de prácticas, en un estar-en-el-mundo que no se deja formalizar sin resto. La conclusión de Dreyfus no es que falten datos, sino que la relevancia no es un dato.
T6 es la escenificación urbana exacta de esta objeción. La escena tiene innumerables rasgos —el color del semáforo, la humedad del pavimento, la velocidad de la moto, la edad del niño, la presencia del acompañante, la hora, el ruido—, y juzgar consiste en que unos pocos se vuelvan relevantes y el resto pase a fondo. Interpretamos las cuatro respuestas del modelo como evidencia de un fenómeno que conviene nombrar con cuidado: relevancia sin unicidad. El modelo sí produce relevancia —cada respuesta selecciona rasgos pertinentes y construye una lectura coherente—, lo cual marca la distancia con el cómputo puro, que sobre una escena en lenguaje natural ni siquiera puede arrancar. Pero produce relevancias múltiples e intercambiables, sin que el sistema disponga de un criterio para fijar esta como la que importa. Eso es lo que llamamos falta de mundo: no la incapacidad de generar significados plausibles, sino la ausencia del horizonte que haría de uno de ellos el pertinente, porque el sistema no está situado en ninguna práctica para la cual la escena importe de un modo determinado.
Conviene precisar el alcance de la afirmación para no exagerarla. No sostenemos que el modelo «no entienda nada»; sostenemos algo más fino y más fuerte. El modelo opera sobre las huellas estadísticas de un mundo —el sedimento textual de innumerables situaciones humanas significativas— sin habitar ese mundo. Tiene el reflejo de la significatividad sin la significatividad, del mismo modo que tenía la apariencia de la operación aritmética sin la operación. Por eso puede sonar pertinente y, a la vez, no poder responder de su pertinencia: no hay un para-qué situado desde el cual la escena se ordene. La relevancia sin unicidad es la forma que adopta la falta de mundo cuando la máquina, en lugar de callar, produce discurso. Conviene subrayar el estatuto de esta afirmación: lo que los datos de T6 muestran directamente es variabilidad de focos y ausencia de respuesta unívoca. La interpretación de esa variabilidad como «falta de mundo» en el sentido heideggeriano es una lectura filosófica que la tesis añade a los datos, no una conclusión que se siga de ellos por sí sola. Los datos exhiben el fenómeno; el marco conceptual de Heidegger y Dreyfus provee la categoría con la que lo nombramos. La distinción importa para no exigir al experimento lo que solo el argumento filosófico puede sostener. Y es esto, no un déficit de potencia, lo que separa el gestionar datos del juzgar una situación urbana —diferencia que el capítulo 09 retomará al especificar qué puede y qué no puede delegarse al Banco Epistémico Urbano.
5. Cosmotécnica: qué cosmos produce la IA urbana
Las cuatro secciones anteriores convergen en la categoría con la que Hui reformula todo el problema: la cosmotécnica. Hui la define como la unificación del orden cósmico y el orden moral a través de la actividad técnica (Hui, 2016). Toda técnica, en esta tesis, lleva inscrita una cosmología: una manera de articular qué es el mundo, qué relaciones lo ordenan y qué cuenta como bueno o adecuado dentro de él. No hay técnica neutra que después reciba un sentido cultural desde fuera; la técnica es desde el comienzo portadora de un cosmos. Frente a la idea de una Técnica universal con mayúscula —idea que Heidegger pensó como Gestell, el emplazamiento que reduce todo ente a fondo disponible y calculable—, Hui sostiene que existen y han existido cosmotécnicas múltiples, y a la afirmación normativa de esa pluralidad la llama tecnodiversidad (Hui, 2020).
Conviene seguir a Hui un paso más, hasta la tesis con la que cierra su ensayo sobre el límite de la inteligencia artificial, porque es ahí donde la cosmotécnica revela su apuesta última. Hui sostiene que «el desafío de la inteligencia artificial no es construir una superinteligencia, sino hacer posible una noodiversidad», y que «para que sea posible una noodiversidad, necesitamos desarrollar una tecnodiversidad» (Hui, 2020). La noodiversidad —la diversidad de inteligencias, de modos de conocer— es así el fin, y la tecnodiversidad su condición técnica: no se trata de una sola inteligencia que escale hasta superar a todas las demás, sino de sostener la pluralidad de las formas de inteligir. El caso que Hui desarrolla para mostrarlo no es la ciudad sino el pensamiento chino, y conviene atribuirlo con exactitud. Hui recurre al filósofo neoconfuciano contemporáneo Mou Zongsan, quien, leyendo la primera Crítica de Kant, identifica como central al pensamiento chino aquella intuición intelectual que Kant excluía del conocimiento humano: una razón sintética que capta la relación entre el yo y el cosmos desde el sujeto moral y no desde el sujeto del conocimiento (Hui, 2020). Hui observa además que el chino no traduce «inteligencia» con un término único, sino con dos —zhihui, sabiduría, y zhineng, capacidad de pensar o actuar inteligentemente—, y que inteligencia no equivale a sabiduría (Hui, 2020). De ahí la conclusión que Hui formula y que aquí hacemos nuestra solo como lectura: si en el núcleo de una tradición hay una forma de inteligir que no es el razonamiento analítico, entonces la definición misma de inteligencia debe ampliarse, y esa ampliación es lo que contribuye a la tecnodiversidad. Importa subrayar, con el propio Hui, que China es para él «solo un ejemplo», una fracción de la diversidad que hay que pensar, y no una esencia alternativa a la occidental (Hui, 2020); traerlo aquí no es exotismo sino ilustración del principio. Lo que añadimos como marco del presentador es el traslado de este principio a lo urbano: si el desafío no es la superinteligencia sino la noodiversidad, entonces la urbanidad computada no debería medirse por la potencia de un modelo único capaz de optimizar cualquier ciudad, sino por su capacidad de albergar una pluralidad de modos de conocer lo urbano —el saber clásico formalizable, el juicio situado de quien habita, las cosmotécnicas locales— sin subordinarlos todos a la calculabilidad de una sola.
La pregunta que organiza esta sección, y que tomamos directamente de la ficha de lectura, es: ¿qué cosmos produce la IA urbana cuando convierte la ciudad en datos? La respuesta articula los resultados de las secciones precedentes. Interpretamos: la IA estadística aplicada a la ciudad inscribe una cosmotécnica determinada, la del Gestell computacional, en la que la ciudad comparece como fondo de datos disponibles para la optimización. En esa cosmología solo es real lo que se deja formalizar como entrada-salida; lo que no admite función objetivo —el juicio de relevancia de T6, la significatividad situada del espacio vivido— queda fuera del cosmos, no porque no exista, sino porque ese cosmos no tiene lugar para ello. La ciudad inteligente es el caso límite: una ciudad pensada como agregado de sensores y métricas es ya el correlato de una cosmotécnica que ha decidido de antemano que la ciudad es datos.
El argumento decisivo es que las cinco secciones describen una misma falta vista desde cinco ángulos. La herramienta que exterioriza sin entender (Bergson), la máquina que se concretiza sin darse fines (Simondon), el sistema que subsume sin encontrar la regla (Kant vía Hui), el modelo que produce relevancia sin mundo (Heidegger, Dreyfus): todas son figuras de una técnica que opera sin cosmos propio, o más exactamente, que opera dentro de un cosmos que no constituyó y no puede interrogar. Por eso el límite de la IA urbana no es, en primer término, una cuestión de potencia sino de mundo. Un modelo más grande exterioriza más, se concretiza más, subsume mejor y produce relevancias más plausibles; pero ninguna de esas mejoras lo ha sacado del cosmos computacional ni le ha dado uno. El escalado, por sí solo, no muestra vía alguna hacia el salto epistémico que se le atribuye: lo que falta no es cantidad de cómputo sino una dimensión que el cómputo, por su modo de ser, no contiene. No afirmamos haber demostrado que ningún sistema futuro pueda cruzar ese umbral —tal afirmación de imposibilidad absoluta excedería lo que el argumento sostiene y recaería en el registro del «lo que las máquinas nunca podrán» del que esta crítica se distancia—; afirmamos que la carga de la prueba recae en quien sostenga que más escala lo cruzaría, y que nada en lo observado la satisface.
De aquí se sigue la consecuencia que enlaza con el resto de la tesis. Si el límite es de cosmos y no de potencia, entonces la pregunta urbana decisiva deja de ser «cuánto cómputo» y pasa a ser «qué cosmotécnica»: quién decide qué se computa, bajo qué cosmología y a costa de qué soberanía. Esta es la traducción ontológica de lo que el capítulo 08 desarrollará como crítica político-económica —el sobredimensionamiento, la economía de la aplicación y la soberanía de cómputo no son problemas añadidos a la cuestión del límite, sino su cara política—. Y es también la justificación última de la herramienta epistémica sobredimensionada: el sobredimensionamiento no es solo desproporción de costo material sobre aplicación efectiva, sino la inscripción de una cosmotécnica única allí donde la urbanidad exigiría tecnodiversidad. La tarea pendiente, entonces, no es un modelo más potente sino hacer presentable, usable y aplicable el conocimiento urbano clásico ya existente; y ese conocimiento —Zipf, Christaller, Alonso, Jacobs, Lefebvre— es, leído desde Hui, un archivo de cosmotécnicas urbanas que el cómputo estadístico tiende a homogeneizar.
Cierre y puente
Hemos sostenido y, creemos, mostrado que el límite de la IA urbana es ontológico antes que técnico. La exteriorización conserva la operación sin la comprensión; la concretización integra el objeto sin darle fines; la recursividad regula sin juzgar; el escalado mejora la subsunción determinante sin tocar el juicio reflexionante; y la producción de relevancia plausible no equivale a tener mundo. T1 a T5 localizan fallos técnicos, mitigables delegando en cómputo puro; T6 localiza el límite categorial, que ningún cómputo mitiga porque la formalización que el algoritmo requeriría es el juicio mismo que se pide. Leídas en conjunto, estas cinco articulaciones muestran que convertir la ciudad en datos no es un acto neutro sino la imposición de una cosmotécnica, y que por tanto la cuestión del límite es una cuestión de mundo.
Este resultado prepara el capítulo siguiente. Si el límite es de cosmos, sus consecuencias decisivas son políticas y económicas: el sobredimensionamiento de la herramienta, la economía de la aplicación que privilegia escalar sobre aplicar y la soberanía de cómputo —quién posee la infraestructura que decide qué cosmotécnica se inscribe en la ciudad— son la forma concreta en que el límite ontológico se vuelve un problema de poder. El capítulo 08, «Crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo», desarrolla esa cara del argumento.
Referencias
- Bergson, H. (1907). L'évolution créatrice. París: Félix Alcan.
- Dreyfus, H. L. (1972). What Computers Can't Do: A Critique of Artificial Reason. New York: Harper & Row. [Edición que cita Hui en el capítulo. La 3.ª ed. revisada apareció como What Computers Still Can't Do, Cambridge, MA: MIT Press, 1992.]
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hui, Y. (2016). The Question Concerning Technology in China: An Essay in Cosmotechnics. Falmouth: Urbanomic.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kant, I. (1790). Kritik der Urteilskraft. Berlín y Libau: Lagarde und Friederich.
- Simondon, G. (1958). Du mode d'existence des objets techniques. París: Aubier.
- Wiener, N. (1948). Cybernetics: or Control and Communication in the Animal and the Machine. New York/Cambridge: Technology Press/John Wiley & Sons.
- Wiener, N. (1950). The Human Use of Human Beings: Cybernetics and Society. Boston: Houghton Mifflin.
08. Crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo
Este capítulo cierra el arco crítico de la tesis desplazando el eje de análisis desde lo técnico y lo ontológico hacia lo político y lo económico. En el capítulo 06 mostramos qué hace y qué no hace la IA estadística; en el capítulo 07 argumentamos que sus límites no son meros defectos de potencia sino rasgos de su modo de individuación técnica y de su cosmotécnica. Aquí damos el paso decisivo de la tesis central: sostenemos que, una vez establecido que el cómputo a gran escala mejora la imitación sin cruzar ningún umbral categorial, las limitaciones que de verdad importan para la urbanidad computada no son técnicas sino políticas, económicas y ontológicas. La pregunta deja de ser «¿puede la IA estadística computar la ciudad?» y pasa a ser «¿quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía?». Para responderla, examinamos cuatro nudos —el sobredimensionamiento de la herramienta, la economía de la aplicación, la soberanía de cómputo y la fijación política de la función objetivo— y los leemos con Harvey, Sassen, Kitchin, Lefebvre y Hui. La conclusión prepara el terreno para el capítulo 09, donde el Banco Epistémico Urbano se ofrece como respuesta constructiva a este diagnóstico.
1. El sobredimensionamiento como problema económico, no técnico
Llamamos herramienta epistémica sobredimensionada a un instrumento cuyo costo material, energético e infraestructural excede con mucho el rendimiento epistémico marginal que aporta a la tarea para la que se lo despliega. La tesis no es que la IA estadística sea inútil, sino que, aplicada al conocimiento de la ciudad, su costo crece de forma superlineal mientras su ganancia epistémica respecto de alternativas más baratas crece de forma marginal o nula. El sobredimensionamiento, así entendido, es ante todo un problema económico: una desproporción entre lo invertido y lo obtenido.
Conviene fijar el estatuto de cada enunciado. A nivel descriptivo, nuestro experimento muestra un patrón nítido en las tareas que admiten verdad de referencia. En T1 (multiplicación exacta de dos enteros de doce dígitos), el modelo mayor (Opus) acierta en un intento y falla en el otro, devolviendo «349634804376851666458571» frente al valor correcto «349625969488102520908371»; el modelo menor (Sonnet) acierta en ambos intentos. En T5 (suma de cuadrados exacta de treinta lecturas de sensores), Opus falla en sus dos intentos —«651397404» y «651400404» frente al valor exacto «651396404»—, mientras Sonnet acierta las dos veces. El agregado de exactitud sobre las tareas con verdad de referencia es de 90,0 % para Sonnet y 70,0 % para Opus.
A nivel interpretativo, este patrón desmiente la intuición de que más cómputo equivale a más verdad. El modelo presumiblemente más costoso no domina al más barato en las tareas aritméticas exactas; en T1 y T5 lo iguala o lo empeora. La razón, ya argumentada en los capítulos 06 y 07, es que ninguno de los dos ejecuta el algoritmo aritmético: ambos predicen tokens plausibles, y el error de Opus en T5 —desviaciones de mil y de cuatro mil unidades sobre el agregado— es exactamente el tipo de fallo que el cómputo determinístico no comete jamás. Una línea de Python que evalúa la suma de cuadrados da el resultado correcto a costo prácticamente nulo y con reproducibilidad perfecta. Frente a ese cómputo puro, escalar el modelo de lenguaje no compra exactitud: compra una imitación más fluida de la exactitud, que es otra cosa.
A nivel argumentativo, de aquí se sigue la primera conclusión político-económica del capítulo. Si el incremento de escala —con su correlato de costo material (centros de datos, aceleradores), energético (consumo eléctrico e hídrico de entrenamiento e inferencia) e infraestructural (redes, cadenas de suministro de hardware)— no produce un salto epistémico proporcional en las tareas urbanas que admiten respuesta verificable, entonces el despliegue de IA estadística sobre esas tareas es económicamente irracional cuando existe la alternativa determinística. No estamos ante un límite técnico que más ingeniería resolvería; estamos ante una desproporción estructural entre el instrumento y el problema. El sobredimensionamiento no es un accidente que el progreso corregirá: es la forma normal en que una herramienta de propósito general, vendida como solución universal, se aplica a problemas que herramientas específicas resuelven mejor y más barato. Kitchin (2014) ha mostrado cómo el «solucionismo de datos» presenta el despliegue tecnológico como respuesta neutral a problemas que en realidad son políticos; el sobredimensionamiento es la cara económica de ese solucionismo.
2. La economía de la aplicación: el cuello de botella no es el modelo
Si el problema no es la potencia de la herramienta, ¿dónde está el verdadero cuello de botella del conocimiento urbano? Sostenemos que está en la aplicación, no en el modelo. Llamamos economía de la aplicación al conjunto de costos, decisiones y trabajos necesarios para hacer presentable, usable y aplicable un conocimiento que en gran medida ya existe. La tarea pendiente de la urbanidad computada no es producir un modelo más potente, sino convertir el acervo de teoría urbana clásica —ya formalizada y, en buena parte, computable— en instrumentos que un planificador, un funcionario o un ciudadano puedan efectivamente usar.
El catálogo de teorías urbanas computables que el capítulo 03 desarrollará da cuerpo a esta afirmación. Buena parte del conocimiento urbano que importa está disponible y es de bajo costo computacional. La ley rango-tamaño de Zipf (1949) ordena la distribución de tamaños de ciudades con una regularidad que se calcula en segundos. La teoría de los lugares centrales de Christaller (1933) formaliza la jerarquía de asentamientos. El modelo de uso del suelo de Alonso (1964) deriva gradientes de renta y densidad a partir de supuestos explícitos. Las leyes de escala urbana de Bettencourt (2013) y West (2017) describen cómo indicadores socioeconómicos varían con el tamaño poblacional, y Batty (2013) ha sistematizado la ciudad como sistema de redes y flujos computable. Ninguno de estos modelos requiere un centro de datos: requieren ser implementados, documentados, validados contra datos locales y puestos a disposición de quien decide. Esa es la economía de la aplicación, y es ahí donde el conocimiento urbano se atasca.
La interpretación que proponemos es que la retórica del «modelo más potente» desvía recursos y atención precisamente del trabajo de aplicación. Cuando la pregunta dominante es cómo escalar la IA, deja de hacerse la pregunta de cómo hacer usable lo que ya sabemos. Y, sin embargo, el cuello de botella empírico de la planificación urbana rara vez es la ausencia de un modelo suficientemente sofisticado; suele ser la fragmentación de los datos, la opacidad de los supuestos, la falta de reproducibilidad y la distancia entre el conocimiento técnico y la decisión política. La aportación marginal de un modelo de lenguaje a este problema es ambigua: puede ayudar a documentar, traducir e interfaz —usos en los que destaca, como muestra su desempeño en la tarea de relevancia contextual—, pero no sustituye el trabajo determinístico de cálculo ni decide qué teoría aplicar.
De aquí se sigue, argumentativamente, que la prioridad correcta se invierte respecto del discurso dominante. La tesis sostiene que hay que aplicar antes que escalar. La contribución que el capítulo 09 desarrollará —el Banco Epistémico Urbano— es una respuesta directa a la economía de la aplicación: un banco de pruebas reproducible que toma modelos urbanos clásicos computables, los implementa, los hace comparables contra la IA estadística y los pone en condiciones de ser usados y auditados. No añade potencia; añade aplicabilidad. Esta inversión de prioridades no es solo metodológica: es una toma de posición sobre dónde reside el valor epistémico en la urbanidad computada.
3. La asimetría de costos medida: lo despreciable frente a lo estructural
Hasta aquí el sobredimensionamiento se ha argumentado conceptualmente; conviene ahora darle un anclaje cuantitativo, con el cuidado de que los números ilustren la tesis sin sobreafirmarla. Para ello medimos, sobre el mismo banco que el capítulo 04 documenta y cuyos aciertos el capítulo 05 reporta, el costo de dos regímenes de cómputo: ejecutar el corpus de modelos urbanos clásicos en una línea determinística de Python y consultar modelos de IA sobre las mismas preguntas. El registro completo, con su método por dato, está en experimento/costos.json. Anticipamos el estatuto de cada cifra para no confundir lo medido con lo estimado: la energía de la GPU se midió por muestreo de potencia, la energía de la API es inaccesible y no se mide, el costo de la API se estima por banda de tokens con precios oficiales, y el costo eléctrico del portátil se estima porque RAPL no era legible sin privilegios en el sistema empleado. Ningún número de esta sección pretende ser una medición de laboratorio; todos pretenden fijar un orden de magnitud.
El primer dato es la baratura del corpus clásico ya computable. Las trece simulaciones que dan cuerpo a las teorías de Zipf, Christaller, Alonso, Bettencourt, West y Batty —las mismas que la sección 2 invocó como núcleo de la economía de la aplicación— se ejecutaron por completo en 70,8 segundos de tiempo medido, de los cuales el modelo fractal DLA de Batty y Longley consume por sí solo unos 57. Su costo eléctrico total, estimado a partir de una potencia de portátil de 25 W y una tarifa residencial colombiana de aproximadamente 0,20 USD/kWh, es del orden de diez milésimas de centavo de dólar (9,83 × 10⁻⁵ USD): no diez centavos, sino diez milésimas de un centavo. Como las trece simulaciones son deterministas por construcción y aciertan las trece, el costo por respuesta correcta cae a unos siete coma seis millonésimos de dólar. El enunciado prudente es este: una vez que un modelo urbano clásico está formalizado y escrito como código, su costo marginal de ejecución es, a efectos prácticos, despreciable. El cuello de botella, como sostuvo la sección 2, no es ejecutar; es formalizar, documentar y poner a disposición —y ese trabajo ya está, en buena parte, hecho para el corpus clásico.
El segundo dato es la estructura del costo de la IA, y aquí la asimetría se vuelve cualitativa antes que meramente cuantitativa. Para los modelos locales sí pudimos medir la energía: la GPU RTX 5070 Ti de la plataforma «kratos» se muestreó con nvidia-smi, dando 281,5 W bajo carga de inferencia frente a 63 W en reposo. Recorrer el mismo banco con qwen3:32b consumió del orden de 1,04 × 10⁶ julios —unas 586 veces la energía estimada del corpus clásico completo—, y aun gpt-oss:20b, el más eficiente de los locales en aciertos por costo, gastó cerca de 177 veces esa energía. Para los modelos de API —Claude Sonnet y Claude Opus— la energía es sencillamente inaccesible desde fuera de la infraestructura de Anthropic, de modo que el registro la marca como no medida y se limita a estimar el costo monetario por banda de tokens, suponiendo entre 500 y 3000 tokens de salida por respuesta (banda declarada, no medida) y aplicando los precios oficiales de junio de 2026. Bajo esos supuestos, recorrer el banco con Opus cuesta entre 0,54 y 3,02 USD, y su costo por respuesta correcta —pese a su exactitud alta, que el capítulo 05 reconoce— se sitúa entre 0,013 y 0,070 USD: un rango que, en su extremo superior, supera en cuatro órdenes de magnitud el costo por acierto del cómputo clásico. Las dos comparaciones tienen pesos distintos y conviene no mezclarlas: la energética está medida y vale como hecho físico; la monetaria está estimada y vale solo como ilustración del orden de magnitud.
La interpretación que esta asimetría autoriza, y solo ella, es la siguiente. El costo del conocimiento urbano clásico ya computable es marginal: ejecutar no cuesta casi nada porque la inversión costosa —la teorización— se hizo hace décadas y es reutilizable indefinidamente sin renta. El costo de la IA, en cambio, no es marginal sino estructural: aun cuando una consulta individual parezca barata, descansa sobre un capital fijo enorme (centros de datos, aceleradores), un consumo energético recurrente que aquí medimos en la GPU y que en la API ni siquiera podemos auditar, y —en el caso del API— una dependencia de proveedor que fija precios, versiones y disponibilidad. Esto refuerza el diagnóstico del sobredimensionamiento de la sección 1 sin necesidad de sobreafirmarlo: no decimos que la IA no aporte nada, ni que estos números prueben una proporción universal; decimos que, en el corpus urbano que admite verdad de referencia, pagar un costo estructural por un rendimiento que el cómputo determinístico ya garantiza a costo despreciable es la definición operativa de una herramienta sobredimensionada. La cifra no cierra el argumento conceptual de los capítulos 04 y 05 —lo ilustra—; y su honestidad reside, precisamente, en declarar dónde mide y dónde solo estima.
4. Soberanía de cómputo: dependencia infraestructural y autonomía técnica
El tercer nudo es la soberanía de cómputo: la capacidad de un colectivo —una ciudad, una región, una comunidad— de decidir y sostener por sí mismo los medios técnicos con los que computa su propio mundo urbano. Sostenemos que la IA estadística a gran escala, tal como se distribuye hoy, erosiona esa soberanía, porque hace depender el conocimiento de la ciudad de infraestructuras, modelos y cadenas de suministro ajenos y concentrados.
La descripción de la situación es conocida y la documenta la geografía crítica. Sassen (1991) mostró que la economía global se organiza en torno a un puñado de ciudades globales donde se concentran las funciones de mando y los servicios avanzados; la infraestructura del cómputo a gran escala reproduce y profundiza esa geografía de concentración. Los centros de datos, los aceleradores especializados y los modelos de frontera se producen y controlan en muy pocos nodos. Una ciudad que delega el cómputo de su propio diagnóstico urbano a un modelo alojado en una infraestructura extranjera no solo paga una renta: cede la capacidad de auditar, modificar y sostener el instrumento con el que se conoce a sí misma. Harvey (1973), en su análisis de la justicia espacial, ya advertía que el control sobre los medios de producción del espacio urbano es inseparable de la distribución del poder; el cómputo es hoy uno de esos medios.
La interpretación cosmotécnica de Hui (2020) ilumina lo que está en juego. La monocultura tecnológica que Hui denuncia —la pretensión de que existe un único camino técnico, universal y sin alternativa— se materializa de forma muy concreta en la dependencia de un modelo único, propietario y remoto para computar realidades urbanas heterogéneas. Frente a ello, la tecnodiversidad no es un eslogan: tiene una traducción técnica precisa en la posibilidad de mantener una pluralidad de instrumentos de cómputo, locales, auditables y adaptados a la cosmotécnica de cada lugar.
Hui da a esta pluralidad un fundamento que conviene explicitar, porque es el que vuelve política —y no meramente técnica— la defensa de la tecnodiversidad. Para Hui, desarrollar una tecnodiversidad es una «política de descolonización»: una tarea de reconstrucción de las cosmotécnicas que la búsqueda de una historia universal de la tecnología había oscurecido (Hui, 2020). Y su finalidad última no es la variedad de máquinas por sí misma, sino lo que Hui llama noodiversidad, la diversidad de inteligencias o modos de conocer; de ahí su tesis de que el desafío de la IA «no es construir una superinteligencia, sino hacer posible una noodiversidad» (Hui, 2020). La soberanía de cómputo recibe entonces su sentido más fuerte: defender medios propios de cómputo no es proteger un activo económico, sino preservar la posibilidad de que sobrevivan modos de conocer la ciudad distintos del que inscribe el modelo único, propietario y remoto. Sin soberanía de cómputo no hay tecnodiversidad; y sin tecnodiversidad, sostiene Hui, no hay noodiversidad posible —solo variantes locales de una misma monocultura de la inteligencia.
Esto da contenido argumentativo al gesto, aparentemente menor, de ejecutar modelos de lenguaje de manera local. El experimento propio enfrentó dos regímenes de despliegue sobre las mismas tareas: modelos de API remota (Claude Sonnet y Claude Opus de Anthropic) y modelos locales ejecutados en infraestructura propia bajo Ollama (la familia Qwen —qwen2.5:3b, qwen3:14b, qwen3:32b— y gpt-oss:20b). Los datos locales no son anecdóticos para la tesis político-económica: muestran que la fiabilidad aritmética no es función monótona de la escala paramétrica. El modelo local mayor (qwen3:32b) y el menor (qwen2.5:3b) obtuvieron idéntica exactitud (20 %), mientras que el intermedio (gpt-oss:20b) alcanzó la mejor de los locales (40 %) y acertó exacto el agregado de T5 (651396404) justamente donde Opus, el modelo de API de mayor escala nominal, falló sus dos intentos. Nada en este patrón sostiene que un modelo más grande compre verdad: lo sostiene, en cambio, que escalar no encamina por sí solo hacia la ejecución correcta del algoritmo. En el diseño del Banco, la opción por modelos que pueden correr en infraestructura propia y bajo control directo no es una preferencia técnica neutral: es un gesto de autonomía técnica. Un modelo local, aun siendo más modesto, devuelve a quien lo opera el control sobre los pesos, los datos y las condiciones de inferencia; permite auditar, reproducir y modificar. El contraste relevante no es entre un modelo «mejor» y otro «peor» en abstracto, sino entre un instrumento que se posee y otro del que se depende. La soberanía de cómputo es, en este sentido, la condición material de la tecnodiversidad: sin medios propios de cómputo no hay pluralidad cosmotécnica posible, solo variantes locales de una misma dependencia. Una réplica exploratoria posterior agudiza este punto: incluso un modelo de unos 80 000 millones de parámetros, especializado en código y ejecutado en la estación propia (experimento/exploratorio/resultados_exploratorio.json), obtuvo la misma exactitud del 20 % que los modelos locales pequeños y solo acertó el conteo memorizable. Que semejante modelo quepa y corra bajo control directo en un escritorio es, en sí, un ejercicio de soberanía de cómputo; que ni con esa escala ni con esa especialización cruce el límite aritmético confirma que lo que falta no es potencia poseída, sino que el problema decisivo —gobernar qué se computa de la ciudad— no es de cómputo.
5. Quién decide qué se computa: la función objetivo como acto político
El nudo más profundo de la crítica político-económica es la fijación de la función objetivo. Sostenemos que decidir qué se computa de una ciudad —qué variables cuentan, qué se optimiza, qué se ignora— es un acto político previo a todo cómputo, y que ningún sistema técnico, por potente que sea, puede tomar esa decisión por sí mismo sin que un humano la haya fijado antes.
El experimento ofrece la evidencia más limpia de este punto en la tarea T6 (juicio de relevancia en una escena urbana ambigua). A diferencia de T1–T5, T6 es una tarea inversa: la escena se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro y sin función objetivo. Su valor de referencia es, literalmente, «NO_COMPUTABLE». Descriptivamente, los modelos produjeron respuestas plausibles y coherentes, pero divergentes en su foco: uno dirigió la alerta al repartidor en moto como agente activo del peligro, otro al niño que entra a la calzada como víctima potencial, otro al acompañante como agente que puede intervenir. Ninguna respuesta es «incorrecta» en el sentido aritmético, y por eso la columna de corrección registra «NO_APLICA».
La interpretación es decisiva para la tesis. Lo que T6 muestra no es una debilidad de los modelos, sino la estructura del problema: la formalización necesaria para escribir un algoritmo —fijar quién es el destinatario relevante de la alerta, qué cuenta como peligro, qué se prioriza— es ella misma el juicio que se pide. No hay función de entrada-salida hasta que alguien ha decidido qué es relevante; y esa decisión, en términos kantianos vía Hui, pertenece al juicio reflexionante, no al determinante. El cómputo puro no puede siquiera arrancar sobre T6 porque carece del dato fundamental, que no es un dato sino una decisión. La divergencia de los tres focos en las respuestas de los modelos no es ruido: es la huella de que el problema admite varias funciones objetivo legítimas, y que elegir una es tomar partido.
De aquí extraemos la tesis política central del capítulo. Toda ciudad inteligente que se presenta como un problema de optimización ya ha resuelto, fuera del cómputo y casi siempre sin deliberación pública, la pregunta por la función objetivo. La ciudad inteligente administra como si fuera una tarea determinística —del tipo T1, con respuesta única y verificable— lo que en realidad es una escena del tipo T6, irreductiblemente ambigua y políticamente cargada. Cuando un panel de control optimiza «el flujo de tráfico», alguien decidió que el flujo importa más que, por ejemplo, la habitabilidad de la calle o la seguridad del peatón; cuando «predice» dónde concentrar la vigilancia, alguien fijó qué cuenta como riesgo y sobre quién. Lefebvre (1974) lo formuló como la diferencia entre el espacio concebido por la planificación abstracta y el espacio vivido de la práctica social: la función objetivo de la ciudad inteligente codifica el primero y borra el segundo. Kitchin (2014), en su análisis de la ciudad de datos en tiempo real, mostró que la promesa de gobierno objetivo y neutral oculta precisamente las decisiones políticas inscritas en la elección de qué se mide y qué se silencia.
El argumento, entonces, es que el sobredimensionamiento técnico funciona como un velo: cuanto más impresionante es la herramienta, más fácil resulta presentar como técnica una decisión que es política. La potencia del modelo no responde la pregunta por la función objetivo; la disimula. Y esto enlaza con la economía de la aplicación de la sección 2: hacer aplicable el conocimiento urbano clásico exige, antes que potencia, explicitar los supuestos —algo que los modelos de Zipf, Christaller o Alonso hacen por construcción, porque su función objetivo está escrita y es auditable, mientras que la de un sistema estadístico opaco queda enterrada en pesos inescrutables.
6. Gobierno algorítmico, justicia espacial y ciudad de datos: una lectura integrada
Reunimos ahora las tres lecturas para mostrar que convergen en un mismo diagnóstico. Harvey, Sassen y Kitchin describen, desde ángulos distintos, cómo la producción del espacio urbano está atravesada por relaciones de poder que la tecnología no neutraliza sino que media y, a menudo, intensifica.
Desde Harvey (1973), la cuestión central es la justicia espacial: la distribución del espacio y de sus beneficios es una cuestión de justicia, y los instrumentos que diagnostican y planifican la ciudad no son neutrales respecto de esa distribución. Un cómputo que optimiza una función objetivo no declarada reparte costos y beneficios de un modo que la apariencia técnica oculta. Harvey (1989) añadió, en su análisis de la condición posmoderna, que la compresión espacio-temporal del capitalismo tardío acelera y abstrae las decisiones urbanas; la ciudad en tiempo real es la radicalización de esa compresión, donde el ritmo del dato desplaza el tiempo de la deliberación.
Desde Sassen (1991), la geografía de la concentración explica por qué la soberanía de cómputo es un problema real y no una preocupación abstracta. Las funciones de cómputo avanzado se concentran allí donde ya se concentra el poder económico, de modo que la dependencia infraestructural reproduce la jerarquía de las ciudades globales. La autonomía técnica local es, en este marco, una de las pocas vías para que las ciudades no centrales conserven capacidad de decisión sobre su propio conocimiento.
Desde Kitchin (2014), la ciudad de datos en tiempo real es el escenario donde se juega todo lo anterior. El gobierno algorítmico promete eficiencia y objetividad, pero descansa en una elección de qué datos se recogen, qué se mide y qué función se optimiza —elección que, una vez automatizada, se vuelve invisible y difícil de contestar. La crítica de Kitchin al solucionismo de datos completa el cuadro: el sobredimensionamiento de la herramienta es atractivo precisamente porque promete saltarse la deliberación política sobre los fines.
La interpretación integrada es que los tres autores describen el mismo mecanismo desde tres planos —distributivo (Harvey), geográfico-económico (Sassen) e instrumental-epistémico (Kitchin)—, y que ese mecanismo es el que nuestra tesis nombra con tres conceptos articulados: sobredimensionamiento, economía de la aplicación y soberanía de cómputo. El hilo que los une es la función objetivo no declarada. El sobredimensionamiento la disimula tras la potencia; la economía de la aplicación la deja sin explicitar al privilegiar el modelo sobre el supuesto; la dependencia infraestructural la sustrae al control de quien habita la ciudad.
Argumentativamente, esto cierra la línea de la tesis. Las limitaciones decisivas de la urbanidad computada no son técnicas porque ninguna mejora de potencia toca el lugar donde se deciden los fines; son políticas, económicas y ontológicas porque conciernen a quién decide qué se computa, con qué recursos y a costa de qué autonomía. El experimento ilustra el patrón general en sus dos extremos sobre proxies aritméticos: en T1 y T5, donde hay verdad aritmética, el cómputo puro la garantiza y escalar el modelo no la mejora; en T6, donde hay que decidir relevancia, ningún cómputo arranca sin que un humano fije primero la función objetivo. La extensión de ese patrón a los modelos urbanos sustantivos —Christaller, Alonso, Bettencourt— queda diferida a los capítulos 03 y 05; aquí el experimento ejemplifica la lógica, y es el argumento conceptual, no la batería aritmética, el que sostiene la conclusión sobre lo urbano. Entre ambos extremos no hay un umbral que más cómputo permita cruzar: hay una distribución de tareas en la que la herramienta sobredimensionada es, según el caso, innecesaria o incapaz de sustituir la decisión.
7. Cierre y puente al capítulo 09
Hemos sostenido que el diagnóstico de la urbanidad computada debe formularse en términos político-económicos. El sobredimensionamiento es una desproporción económica entre el costo de la herramienta y su rendimiento epistémico marginal; la economía de la aplicación localiza el verdadero cuello de botella en hacer usable el conocimiento urbano ya existente; la soberanía de cómputo nombra la condición material de la tecnodiversidad frente a la dependencia infraestructural; y la fijación de la función objetivo revela que decidir qué se computa de la ciudad es un acto político que ninguna potencia técnica puede tomar en lugar de un colectivo humano. Leídos juntos, Harvey, Sassen, Kitchin, Lefebvre y Hui muestran que estos cuatro nudos son aspectos de un mismo problema: el de un instrumento que promete resolver técnicamente lo que solo puede decidirse políticamente.
Este diagnóstico exige una respuesta constructiva, y no una mera denuncia. Si la prioridad es aplicar antes que escalar y conservar soberanía sobre los medios de cómputo, entonces hace falta un artefacto concreto que haga esa prioridad operativa, reproducible y auditable. El capítulo 09 presenta esa respuesta: el Banco Epistémico Urbano, un banco de pruebas reproducible que compara modelos urbanos clásicos computables contra la IA estadística, hace explícitas las funciones objetivo y se construye sobre infraestructura controlable. Allí mostraremos cómo el diagnóstico de este capítulo se convierte en una herramienta científica que devuelve la decisión sobre qué se computa a quien habita y gobierna la ciudad.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Bettencourt, L. M. A. (2013). The Origins of Scaling in Cities. Science, 340(6139), 1438-1441.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Harvey, D. (1973). Social Justice and the City. London: Edward Arnold.
- Harvey, D. (1989). The Condition of Postmodernity: An Enquiry into the Origins of Cultural Change. Oxford: Blackwell.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
- Lefebvre, H. (1974). La production de l'espace. Paris: Anthropos.
- Sassen, S. (1991). The Global City: New York, London, Tokyo. Princeton, NJ: Princeton University Press.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
09. Propuesta: el Banco Epistémico Urbano como herramienta científica
Este capítulo cumple una función constructiva dentro del argumento global de la tesis: una vez establecido el diagnóstico —que disponemos de herramientas epistémicas sobredimensionadas cuya aplicación efectiva sobre la ciudad es escasa, y que la IA estadística no produce un salto epistémico proporcional a su costo material, energético y político—, corresponde mostrar que el diagnóstico no es un callejón sin salida. La crítica técnica del capítulo 06, la crítica ontológica del capítulo 07 y la crítica político-económica del capítulo 08 convergen en una misma pregunta práctica: ¿qué puede hacerse con el conocimiento urbano clásico ya existente que no requiera escalar el cómputo sino aplicarlo con rigor? La respuesta que proponemos es el Banco Epistémico Urbano: un banco de pruebas reproducible y extensible que compara modelos urbanos clásicos computables contra modelos de lenguaje, con protocolo explícito, métricas comparables y casos de uso para investigadores y docentes. Este capítulo especifica su arquitectura, su protocolo de extensión, sus casos de uso y, sobre todo, su posición epistémica: el Banco no mide quién «gana» sino dónde el cómputo deja de ser pertinente.
9.1 Motivación: del diagnóstico crítico a una herramienta positiva
Toda crítica sostenida de la tecnología corre el riesgo de detenerse en la negación. Hui advierte precisamente contra ese callejón: la apuesta por la tecnodiversidad no es un rechazo de la técnica sino una multiplicación de sus formas y de las cosmotécnicas que las sostienen (Hui, 2020). El argumento de esta tesis no es anti-tecnológico; es un argumento sobre la proporción entre herramienta y tarea. Sostenemos que el conocimiento urbano acumulado —las leyes de escala de Bettencourt, la teoría de los lugares centrales de Christaller, las funciones de densidad de Alonso, los análisis de red de Batty— constituye un corpus de teorías computables de alta densidad epistémica cuya aplicación efectiva sobre datos urbanos reales es todavía escasa, fragmentaria y escasamente verificada en condiciones controladas.
La pregunta que motiva el Banco Epistémico Urbano no es «¿puede la IA hacer lo que hace un urbanista?» sino una pregunta más precisa y verificable: «¿qué aporta la IA estadística sobre un modelo urbano clásico computable cuando ambos se aplican a la misma tarea con la misma información de entrada?». Esta pregunta es la que la literatura sobre ciudades inteligentes raramente formula con esa exactitud. Kitchin observa que la revolución de los datos urbanos ha producido una enorme capacidad de captura y procesamiento, pero que los marcos analíticos para evaluar qué significa esa capacidad siguen siendo débiles (Kitchin, 2014). Batty, por su parte, señala que la nueva ciencia de las ciudades requiere no solo datos sino teoría: sin modelos que anticipen qué debería observarse, el dato urbano es ruido (Batty, 2013).
El Banco Epistémico Urbano es, en ese sentido, una herramienta de aplicación del conocimiento existente antes de ser una herramienta de evaluación de la IA. Su contribución no es técnica en el sentido de producir un nuevo modelo; es metodológica en el sentido de volver operativo y reproducible el contraste entre dos formas de saber la ciudad: el cómputo puro, determinístico, que implementa una teoría clásica, y la IA estadística, que predice sin ejecutar el algoritmo. Este contraste, cuando se realiza de forma sistemática y con verdad de referencia verificable, produce evidencia sobre la naturaleza del salto epistémico —o de su ausencia— entre ambas formas de cómputo.
El experimento propio documentado en experimento/resultados.json es la versión mínima viable del Banco: seis tareas (T1–T6), dos intentos por sujeto, sin herramientas externas, con verdad de referencia explícita para las cinco tareas computables y etiqueta NO_COMPUTABLE para T6. Los sujetos son seis modelos de lenguaje: dos de API (Claude Sonnet y Claude Opus) y cuatro locales ejecutados bajo Ollama en infraestructura propia (qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b). Los resultados —que analizamos en detalle en el capítulo 05 (diferido)— muestran, en síntesis, que sobre las tareas computables Sonnet alcanza el 90 % de aciertos y Opus el 70 %, mientras los modelos locales quedan muy por debajo y sin orden monótono respecto del tamaño (gpt-oss:20b 40 %; qwen2.5:3b, qwen3:14b y qwen3:32b, 20 % cada uno); que los aciertos no son estables entre intentos (Opus falla el segundo intento de T1 y Sonnet el segundo de T2); que la confianza declarada por los modelos de API no predice la corrección de forma sistemática (el patrón es tarea-dependiente: en T2 y T5 hay discordancia clara; en T1 la confianza baja convive tanto con aciertos como con un fallo; en T3 y T4 la confianza alta o media acompaña el acierto consistente); y que T6 no admite verdad de referencia aritmética porque el juicio de relevancia es estructuralmente no computable. Esta versión mínima basta para mostrar que el patrón es real y que el instrumento funciona; la contribución de este capítulo es especificar cómo hacerlo crecer de forma reproducible.
9.2 Arquitectura del Banco Epistémico Urbano
El Banco Epistémico Urbano se compone de cinco elementos articulados: (1) un catálogo de teorías urbanas computables, (2) un conjunto de tareas derivadas de esas teorías, (3) una verdad de referencia calculada por cómputo puro para cada tarea computable, (4) un conjunto de sujetos —modelos de lenguaje de API y modelos locales— sometidos a las tareas bajo condiciones controladas, y (5) un conjunto de métricas comparables que permiten contrastar el rendimiento de los sujetos con la verdad de referencia y entre sí.
9.2.1 Catálogo de teorías computables
El catálogo es el corazón epistemológico del Banco. Una teoría urbana es computable en el sentido del Banco si satisface tres condiciones: (a) puede expresarse como un algoritmo de entrada-salida con parámetros fijos; (b) produce una respuesta unívoca o un conjunto finito de respuestas admisibles para una instancia dada; (c) la respuesta es verificable independientemente del agente que la calcule. Este criterio excluye deliberadamente las teorías interpretativas y normativas —Lefebvre sobre la producción del espacio, Harvey sobre la justicia social, Jacobs sobre la vitalidad urbana— no porque sean menos importantes, sino porque no admiten verdad de referencia aritmética. El catálogo trabaja con el subconjunto formalizable del conocimiento urbano, reconociendo que ese subconjunto no agota ni la ciudad ni la teoría urbana.
Las teorías candidatas iniciales del catálogo incluyen, entre otras: la ley de Zipf sobre distribución de tamaños de ciudades (Zipf, 1949), los lugares centrales de Christaller (Christaller, 1933), el modelo de uso del suelo de Alonso (Alonso, 1964), las leyes de escala urbana de Bettencourt y West —relaciones potenciales entre población y variables socioeconómicas e infraestructurales— (Bettencourt, 2013; West, 2017), los modelos de red de Batty (Batty, 2013), y los algoritmos clásicos de grafos aplicados a redes de transporte urbano (camino mínimo, centralidad, componentes conexas). Cada entrada del catálogo debe incluir: referencia bibliográfica, formulación matemática canónica, dominio de aplicación, tipo de entrada requerida y tipo de salida producida.
9.2.2 Tareas
Una tarea es una instancia concreta de una teoría del catálogo: fija los valores de entrada, define la pregunta y especifica el formato de respuesta esperado. Las tareas del experimento propio ilustran este principio: T1 (multiplicación exacta de dos enteros de doce dígitos) prueba la aritmética exacta que subyace a cualquier cómputo cuantitativo; T2 (camino más corto en un grafo de 25 barrios) implementa Dijkstra sobre una red de transporte urbano; T3 (conteo combinatorio de rutas en una retícula 12×12) prueba el coeficiente binomial que aparece en modelos de accesibilidad; T4 (iteración recursiva de una función afín modular en 40 pasos) prueba la fidelidad de la retroalimentación en el sentido de Wiener (1950); T5 (suma de cuadrados de 30 lecturas de sensores urbanos) prueba la agregación exacta sobre datos de campo; T6 (juicio de relevancia en una escena urbana ambigua) es una tarea inversa que no admite verdad de referencia computable y funciona como control epistemológico.
La distinción entre tareas directas y tareas inversas es estructural en el Banco. Las tareas directas tienen verdad de referencia aritmética calculada por cómputo puro y permiten medir exactitud. Las tareas inversas —como T6— no tienen verdad de referencia aritmética porque el objeto que se pide (decidir qué es relevante en una escena) requiere precisamente el juicio que Dreyfus y Heidegger identifican como irreductible al cálculo: la fijación de un horizonte de significatividad que no puede ser a su vez calculado (Dreyfus, 1992). Las tareas inversas no se evalúan con métricas de acierto sino con análisis cualitativo de las respuestas producidas, que el Banco documenta sistemáticamente.
9.2.3 Verdad de referencia
La verdad de referencia es el valor calculado por cómputo determinístico —un script Python ejecutado sobre los mismos datos de entrada que recibe el sujeto— y registrado en el archivo de resultados antes de administrar la tarea a ningún modelo. Este principio de anterioridad de la verdad de referencia es metodológicamente crítico: impide que la evaluación se contamine por los resultados de los modelos. Para T1, la verdad de referencia es 349.625.969.488.102.520.908.371; para T2, la secuencia exacta de diez barrios; para T3, el valor 2.704.156; para T4, el valor 23.842; para T5, el valor 651.396.404. Para T6, la etiqueta es NO_COMPUTABLE, lo que es en sí mismo un resultado epistemológico: hay preguntas urbanas para las cuales no existe verdad de referencia aritmética, y eso no es un defecto del Banco sino una parte constitutiva de su argumento.
9.2.4 Sujetos
Los sujetos son los agentes evaluados. El experimento propio sometió a las seis tareas, sin herramientas externas, a dos modelos de lenguaje de API (Claude Sonnet y Claude Opus) y a cuatro modelos locales ejecutados bajo Ollama en infraestructura propia (qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b), con el objetivo de aislar el razonamiento interno del modelo de cualquier acceso a calculadoras, intérpretes o buscadores. Esta condición —sin herramientas— es la condición de prueba del límite: muestra qué puede hacer la IA estadística por sí misma, sin externalizaciones. La inclusión de los modelos locales no es solo un gesto de soberanía de cómputo (capítulo 08): aporta la única variación de escala genuinamente medible del experimento, y sobre ella la exactitud no creció de forma monótona con el número de parámetros. El Banco puede extenderse además a otras familias locales (por ejemplo Llama, Mistral o Phi) y a modelos con herramientas habilitadas, con la condición de que las condiciones de cada evaluación sean documentadas explícitamente y no se mezclen en las comparaciones. La comparación entre condiciones (con y sin herramientas) es en sí misma informativa: si un modelo sin herramientas falla en aritmética exacta pero acierta con una calculadora Python, eso confirma que el fallo es de cómputo puro, no de comprensión de la tarea —lo cual es precisamente lo que la tesis argumenta.
9.2.5 Métricas
Las métricas del Banco operan en dos niveles. Para las tareas directas, la métrica primaria es la exactitud binaria (correcto/incorrecto), registrada por intento y por modelo. Las métricas secundarias incluyen: tasa de acierto por modelo (aciertos/total de intentos), variabilidad entre intentos del mismo modelo sobre la misma tarea (que mide estabilidad, no solo exactitud media), y correlación entre confianza declarada por el modelo y exactitud efectiva. Esta última métrica tiene relevancia filosófica, y lo que los datos de los modelos de API muestran es una mala calibración bidireccional: la confianza declarada no predice la exactitud en ninguna de las dos direcciones. Por un lado, la confianza alta no garantiza el acierto: en T2 (camino más corto) Sonnet declara confianza alta también en su segundo intento, que es incorrecto. Por otro lado, la confianza baja tampoco anticipa el fallo: en T1, ambos modelos declaran confianza baja en todos sus intentos y, sin embargo, aciertan tres de cuatro veces. En T5 los dos intentos fallidos de Opus llevan confianza media —ni alta ni baja—, de modo que tampoco ahí la señal discrimina. En T3 y T4 todos los intentos son correctos con confianza alta o media. El patrón, en suma, es que ni la confianza alta acompaña sistemáticamente al acierto ni la confianza baja al error: la señal de confianza autodeclarada no funciona como predictor fiable en ninguna dirección. Lo que los datos permiten afirmar, con la cautela que impone una muestra de pocos intentos, es que los mecanismos de autorregulación del modelo no producen, bajo este protocolo, señales de confianza calibradas respecto de la exactitud en tareas aritméticas exactas; establecer el alcance de ese hallazgo requeriría una muestra mayor.
Para las tareas inversas, las métricas son cualitativas: se registra el foco de la respuesta (¿a qué agente o elemento de la escena dirige la atención el modelo?), la coherencia interna del razonamiento, y la plausibilidad situacional. Las cuatro respuestas de los modelos de API a T6 —sobre la escena urbana ambigua de un niño que pisa la calzada con semáforo en rojo, pavimento mojado y una moto acelerando— produjeron tres focos distintos: el repartidor en moto (Sonnet, intento 1), el niño (Sonnet, intento 2), y el acompañante del niño (Opus, intento 1), con el segundo intento de Opus identificando al niño y secundariamente al acompañante. Ninguna de estas respuestas es incorrecta en sentido aritmético; todas son plausibles en sentido situacional; y precisamente por eso ilustran que el juicio de relevancia no tiene función de corrección única. Los modelos locales refuerzan el punto por contraste: uno de ellos (qwen3:14b) dirigió la alerta a «una mujer mayor» que no figura en la escena —una alucinación de entidad—, lo que muestra que producir un foco plausible y producir un foco fiel a la situación son cosas distintas, y que la fluidez en este registro no garantiza el anclaje en lo dado. Esta variabilidad no es un defecto del modelo: es la evidencia de que estamos ante un tipo de pregunta estructuralmente diferente.
9.3 Protocolo de extensión: cómo añadir una teoría o un modelo
El Banco Epistémico Urbano está diseñado para ser extensible. Su valor como herramienta científica depende de que investigadores y docentes puedan añadir teorías, tareas y sujetos sin romper la comparabilidad con las entradas existentes. El protocolo de extensión opera en tres planos: añadir una teoría al catálogo, añadir una tarea a una teoría existente, y añadir un sujeto (modelo) a la batería de evaluación.
9.3.1 Añadir una teoría al catálogo
Para incorporar una nueva teoría al catálogo, el contribuyente debe proveer: (a) la referencia bibliográfica primaria de la teoría, con año de publicación original; (b) la formulación matemática en notación estándar; (c) un script Python reproducible que calcule la verdad de referencia para al menos una instancia canónica; (d) una descripción del dominio de aplicación urbana; y (e) una clasificación según si la teoría produce tareas directas (con verdad de referencia aritmética), tareas inversas (sin verdad de referencia computable) o tareas mixtas. Esta última categoría es importante: algunas teorías urbanas tienen una parte computable —un índice de centralidad, un gradiente de densidad— y una parte interpretativa —qué significa ese índice para la política urbana— que no admite formalización sin un horizonte normativo previo.
El catálogo se versiona en el repositorio junto con los scripts de cómputo puro. La reproducibilidad exige que cualquier investigador que clone el repositorio pueda recalcular las verdades de referencia ejecutando los scripts sin modificación. Los números que aparecen en experimento/resultados.json —349.625.969.488.102.520.908.371 para T1, 2.704.156 para T3, 651.396.404 para T5— deben ser reproducibles a partir de los scripts y los datos de entrada almacenados en el repositorio.
9.3.2 Añadir una tarea
Una tarea nueva sobre una teoría existente debe especificar: los valores de entrada exactos (no rangos ni parámetros vagos), la pregunta formulada en el formato que se administrará al modelo, la verdad de referencia calculada por cómputo puro antes de cualquier evaluación, y la justificación de por qué esa tarea es relevante para la teoría urbana que instancia. Las tareas deben diseñarse de modo que sean administrables a un modelo de lenguaje como prompt de texto plano, sin información visual ni datos en formatos binarios. Esta restricción no es una limitación técnica del Banco: es una decisión metodológica que iguala las condiciones entre modelos y mantiene la comparabilidad.
9.3.3 Añadir un sujeto
Añadir un nuevo modelo requiere: identificar el modelo por nombre y versión exactos (o por hash de pesos si es local), documentar las condiciones de evaluación (temperatura, herramientas habilitadas o deshabilitadas, formato del prompt, número de intentos), y ejecutar la batería completa de tareas existentes bajo esas condiciones. Los resultados deben registrarse en el formato JSON del repositorio, con un campo modelo que identifique el sujeto de forma no ambigua. La comparabilidad entre modelos sólo es válida si las condiciones de evaluación son idénticas; cualquier diferencia de condiciones debe documentarse explícitamente y tenerse en cuenta en el análisis.
9.3.4 Criterios de reproducibilidad y versionado
El repositorio sigue el principio de que toda afirmación empírica del Banco debe ser reproducible por un tercero con acceso a los mismos datos y scripts. Esto implica: control de versiones explícito de los scripts de cómputo puro; registro de las versiones exactas de los modelos evaluados; almacenamiento de los prompts completos administrados a cada modelo; y separación estricta entre los archivos de verdad de referencia (calculados antes de la evaluación) y los archivos de respuestas (registrados durante la evaluación). Cualquier modificación posterior de una verdad de referencia invalida las comparaciones previas y exige una nueva ronda de evaluación; este principio de invariancia de la verdad de referencia es la condición de integridad científica del Banco.
9.4 Casos de uso: investigación y docencia
El Banco Epistémico Urbano tiene dos casos de uso primarios que no son independientes entre sí: la investigación —medir qué aporta realmente la IA estadística sobre un baseline clásico— y la docencia —mostrar el límite en condiciones controladas y reproducibles, en vivo si es posible.
9.4.1 Investigación: medir el salto epistémico real
En el uso investigativo, el Banco funciona como un benchmark de evaluación comparativa. La pregunta que permite responder es: dado un conjunto de tareas derivadas de teorías urbanas clásicas, ¿cuánto de lo que produce la IA estadística es explicado por el cómputo puro y cuánto constituye un añadido irreductible a ese cómputo? Esta pregunta es más precisa que la pregunta habitual —«¿es la IA mejor que el método tradicional?»— porque no supone que «mejor» tenga un único significado, y porque distingue entre lo que el cómputo puro puede hacer (exactitud aritmética determinística) y lo que la IA estadística puede hacer además de eso (plausibilidad contextual, generalización, formulación en lenguaje natural).
Los resultados del experimento propio permiten formular una respuesta provisional: en las tareas computables (T1–T5), la IA estadística alcanza tasas de acierto altas (Sonnet 90%, Opus 70% sobre intentos totales computables) pero con variabilidad entre intentos que el cómputo puro no tiene —el algoritmo determinístico siempre produce el mismo resultado sobre la misma entrada. En T1, Opus falla en el segundo intento produciendo 349.634.804.376.851.666.458.571 en lugar de 349.625.969.488.102.520.908.371; en T5, Opus falla en ambos intentos produciendo 651.397.404 y 651.400.404 en lugar de 651.396.404. Estos fallos no son marginales: en un sistema de gestión urbana real, un error de este tipo en una suma de sensores o en una ruta de tráfico óptima tiene consecuencias operativas directas. La conclusión investigativa no es que la IA es inútil para estas tareas; es que la IA estadística no es un sustituto del cómputo puro cuando se requiere exactitud garantizada, y que la distinción entre imitación plausible y cómputo exacto tiene consecuencias prácticas que la retórica de la ciudad inteligente frecuentemente borra.
En T6, el Banco ofrece un tipo de resultado cualitativamente diferente: las cuatro respuestas de los modelos de API exhiben focos distintos (el repartidor, el niño, el acompañante, el niño y el acompañante) sobre la misma escena ambigua. Esto no mide un fallo sino una capacidad: la IA estadística puede operar sobre escenas no formalizadas y producir juicios situacionales coherentes que el cómputo puro no puede ni siquiera iniciar. Sin embargo, la pluralidad de focos en T6 es también evidencia de la tesis de Dreyfus: no hay función de relevancia que el algoritmo pueda ejecutar porque la relevancia no es un predicado del mundo sino una relación entre el mundo y un agente con historia, cuerpo y horizonte de fines (Dreyfus, 1992). La IA estadística imita esa relación con fluidez notable; no la instancia.
Investigaciones futuras pueden usar el Banco para preguntas más específicas: ¿varía el rendimiento con el tamaño de la instancia (grafos de 10, 25, 100 barrios)? ¿Mejora la exactitud aritmética cuando se habilitan herramientas de cómputo externas? ¿Qué tipo de formulación del prompt maximiza la exactitud en tareas de cómputo puro? ¿Hay diferencias sistemáticas entre modelos de distinto tamaño paramétrico en tareas de recursividad profunda? Estas preguntas son respondibles con el Banco sin requerir infraestructura computacional extraordinaria: el experimento propio se realizó con dos modelos de API, sin GPU local, con scripts Python de pocas líneas.
9.4.2 Docencia: mostrar el límite en vivo
En el uso docente, el Banco funciona como un dispositivo pedagógico de demostración. La experiencia de ver a un modelo de lenguaje fallar en una multiplicación de doce dígitos —o producir un resultado diferente en el segundo intento sobre la misma tarea— es cualitativamente distinta de leer una afirmación sobre las limitaciones de la IA estadística. El Banco permite construir ese momento de demostración de forma reproducible y extensible.
La secuencia pedagógica estándar que proponemos tiene cuatro pasos. Primero, presentar la teoría urbana clásica y su formalización computable: por ejemplo, el algoritmo de Dijkstra sobre una red de transporte y su complejidad temporal. Segundo, calcular la verdad de referencia con el script Python frente al grupo, para que la exactitud del cómputo puro sea visible y verificable. Tercero, administrar la misma tarea al modelo de lenguaje en vivo, mostrando el prompt, la respuesta y la comparación con la verdad de referencia. Cuarto, discutir qué tipo de operación realizó el modelo: ¿ejecutó el algoritmo, o produjo una respuesta plausible por asociación estadística? Esta discusión conecta directamente con los conceptos de juicio determinante y juicio reflexionante en el sentido de Hui siguiendo a Kant: el algoritmo aplica una regla dada a un caso dado; la IA estadística hace algo que se parece a eso pero no lo es (Hui, 2020).
T6 tiene un papel pedagógico especial: muestra que hay preguntas urbanas que la IA responde con fluidez y que el algoritmo no puede ni formular. La escena del niño, la moto y el pavimento mojado produce respuestas plausibles y hasta emotivamente coherentes en los modelos evaluados; el cómputo puro no puede decir nada porque no hay función de entrada que le indique qué contar como relevante. Este contraste —la IA fluye donde el algoritmo se detiene; el algoritmo es exacto donde la IA titubea— es la lección central que el Banco materializa en términos demostrables.
El Banco permite también incorporar teorías no computables como ejercicio de clasificación: ¿es la teoría del derecho a la ciudad de Lefebvre computable? ¿Bajo qué condiciones podría serlo parcialmente? ¿Qué se pierde al formalizar una categoría normativa como «espacio vivido»? Estas preguntas no tienen respuesta en el Banco —porque el Banco trabaja con teorías computables— pero el Banco crea el contraste conceptual que las hace urgentes.
9.5 Posición epistémica del Banco: no mide quién gana sino dónde el cómputo deja de ser pertinente
La posición epistémica del Banco Epistémico Urbano no es la de un ranking de rendimiento. No se trata de declarar un modelo ganador ni de establecer una jerarquía entre cómputo clásico e IA estadística. Se trata de trazar una topografía de pertinencia: qué tipo de preguntas urbanas admiten verdad de referencia aritmética, qué tipo de preguntas no la admiten, y en qué regiones el salto de uno a otro tipo es filosóficamente significativo.
Esta posición epistémica conecta directamente con la tesis central. Si sostenemos que disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva, el Banco es la contraprueba constructiva: muestra que hay conocimiento urbano clásico —teorías de escala, modelos de red, funciones de densidad— que puede aplicarse sobre datos reales con rigor y reproducibilidad sin requerir infraestructura de cómputo masiva. La comparación con la IA no es la conclusión del Banco sino su método: sirve para calibrar qué se gana y qué se pierde cuando se sustituye el cómputo puro por la predicción estadística, o cuando se añade la predicción estadística donde el cómputo puro no puede arrancar.
Bettencourt (2013) muestra que las leyes de escala urbana no son simplemente patrones estadísticos sino expresión de procesos de interacción social cuya estructura subyacente, aunque modelada matemáticamente, no queda completamente formalizada. Ese margen entre el modelo y el mecanismo es exactamente el espacio en el que el Banco trabaja: no para cerrar la oscuridad con más datos, sino para mapearla con precisión. Saber dónde el cómputo es exacto, dónde es plausible pero inestable, y dónde no puede empezar porque la pregunta no tiene estructura aritmética, es una forma de conocimiento urbano que el Banco produce de forma sistemática.
Hay un sentido adicional en el que el Banco materializa la tesis: su construcción misma es un ejercicio de aplicación del conocimiento existente. Las teorías del catálogo no son nuevas; los algoritmos de cómputo puro están documentados en la literatura desde hace décadas; los modelos de lenguaje son accesibles por API. Lo que el Banco añade no es más potencia computacional sino una arquitectura de comparación que hace presentable, usable y aplicable lo que ya existe. En términos de Hui, el Banco es un ejercicio de tecnodiversidad aplicada: no postula una única forma correcta de conocer la ciudad, sino que mantiene abiertas dos formas —el cómputo determinístico y la predicción estadística— y traza con precisión sus fronteras de pertinencia (Hui, 2020).
Por último, conviene señalar la paradoja performativa que el Banco comparte con la tesis en su conjunto: el Banco Epistémico Urbano fue parcialmente construido orquestando sistemas de IA bajo supervisión humana. Los scripts de cómputo puro, los prompts de las tareas, el formato JSON de los resultados, el análisis de los datos: ninguno de estos componentes requería IA estadística para ser producido, pero en la práctica la IA fue utilizada como herramienta de elaboración bajo supervisión del investigador. Esto no invalida el argumento; es consistente con él. La IA es una herramienta útil cuando opera bajo supervisión humana con tareas bien definidas y verificación independiente de resultados. La tesis que el Banco defiende no es que la IA sea inútil: es que el salto epistémico que la IA produce no es proporcional a su costo material, energético y político cuando ese costo se compara con la economía de la aplicación del conocimiento ya existente. El Banco ilustra esa proporción en sentido performativo —ilustrativo, no probatorio, como la nota reflexiva del capítulo 10 (10.4) precisa al distinguir lo que el caso muestra de lo que no demuestra.
El capítulo siguiente —la Nota reflexiva (capítulo 10)— desarrolla en primera persona del singular las implicaciones de haber construido esta tesis orquestando sistemas de IA bajo supervisión humana, y examina qué significa que la herramienta criticada sea también la herramienta utilizada.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Bettencourt, L. M. A. (2013). The Origins of Scaling in Cities. Science, 340(6139), 1438-1441.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Hui, Y. (2016). The Question Concerning Technology in China: An Essay in Cosmotechnics. Falmouth: Urbanomic.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Wiener, N. (1950). The Human Use of Human Beings: Cybernetics and Society. Boston: Houghton Mifflin.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
10. Nota reflexiva: una tesis construida orquestando IA bajo supervisión humana
Esta nota cumple, dentro del argumento global, una función singular y un tanto incómoda: vuelve sobre las condiciones materiales de producción del propio trabajo. Los capítulos anteriores sostuvieron, con apoyo en el experimento (T1–T6) descrito en el capítulo «04. Metodología experimental» y cuantificado en «05. Resultados», que la inteligencia artificial estadística mejora la imitación sin cruzar ningún umbral categorial, y que las limitaciones decisivas de la urbanidad computada no son técnicas sino políticas, económicas y ontológicas. Ahora bien, esta tesis fue redactada y construida orquestando sistemas de IA estadística bajo supervisión humana. La condición no es anecdótica: es performativa. El trabajo es, en parte, un ejemplar de aquello que examina. En consecuencia, en este capítulo me permito —contra el registro general en primera persona del plural— escribir en primera persona del singular, porque la supervisión, el juicio de relevancia y la responsabilidad por el resultado son irreductiblemente míos y no se delegan en ningún sistema. Examino aquí cinco cuestiones: cómo se produjo el trabajo, qué ironía encierra ese modo de producción, por qué el humano funcionó como horizonte y no como insumo, qué riesgos tiene argumentar con un caso que es a la vez prueba, y qué implicación normativa se sigue para la noción de soberanía.
10.1. Descripción honesta del método de producción
Comienzo por la descripción, en el sentido estricto fijado en la introducción metodológica: qué ocurrió, antes de qué significa. La producción de esta tesis combinó tres tipos de operación que conviene no confundir. Primero, operaciones de generación lingüística delegadas a modelos de lenguaje: redacción de borradores, reformulación de párrafos, traducción de notas, sugerencia de estructuras, recuperación parafrástica de argumentos de la bibliografía. Segundo, operaciones de cómputo determinístico ejecutadas por programas exactos y no por modelos estadísticos: el cálculo de la verdad de referencia de las tareas T1 a T5 (la multiplicación de doce dígitos cuyo valor exacto es 349625969488102520908371, el conteo combinatorio de rutas cuyo valor exacto es 2704156, la iteración recursiva afín que arroja 23842, la suma de cuadrados que arroja 651396404, y el camino más corto resuelto con un algoritmo determinístico). Tercero, operaciones de juicio: la decisión sobre qué tareas diseñar, qué teoría urbana computable incluir en el catálogo del capítulo «03», qué contaba como acierto, qué fuentes eran admisibles y, sobre todo, qué de todo lo generado merecía permanecer en el texto.
Conviene ser preciso sobre el reparto, porque la honestidad metodológica es aquí parte del argumento. La IA estadística hizo trabajo de imitación competente: produjo prosa académica plausible, encadenó argumentos verosímiles y propuso conexiones entre autores. No fijó nada. Lo que fijé yo —y solo yo podía fijar— fue el marco: la tesis central, la terminología estable, la regla dura de fuentes según la cual ante la duda sobre la existencia de una obra no se cita, y el criterio de relevancia que descarta lo verosímil cuando no es pertinente o no es verdadero. Esta distinción reproduce, dentro del taller de escritura, la misma frontera que el experimento midió en el dominio de las ciudades. Los modelos de lenguaje resolvieron con soltura las tareas donde basta la plausibilidad estadística respaldada por un patrón frecuente, pero erraron precisamente donde se exige fidelidad aritmética sin atajos: en T1 uno de los dos intentos de Opus devolvió 349634804376851666458571 en lugar del valor correcto, y en T5 ambos intentos de Opus devolvieron 651397404 y 651400404, números cercanos pero falsos. El cómputo no admite cercanía; o se acumula con precisión o se estima, y estimar no es computar. La verdad aritmética de esos agregados no la produjo ningún modelo de lenguaje: la produjo un programa determinístico, y la verificación de las respuestas fue, una vez más, una decisión humana sobre qué cuenta como correcto.
10.2. La ironía performativa: la herramienta sobredimensionada que argumenta su sobredimensionamiento
Paso de la descripción a la interpretación. El hecho de haber escrito esta tesis con asistencia intensiva de modelos de lenguaje no debilita su argumento; lo encarna. La tesis sostiene que disponemos de una herramienta epistémica sobredimensionada respecto de su aplicación efectiva sobre la ciudad, y que el salto epistémico prometido no se produce. Usar esa misma herramienta para construir el argumento es, en apariencia, una contradicción performativa; en realidad es una demostración por ejemplar. Si bastara escalar el cómputo para cruzar un umbral categorial, entonces el sistema que me asistió debería haber podido, por sí solo, fijar la tesis, decidir la relevancia y garantizar la verdad de las cifras. No pudo. Hizo exactamente lo que el capítulo «06. Crítica técnica» predice que hace: imitar bien, sin garantizar verdad aritmética ni decidir relevancia. La herramienta sobredimensionada sirvió, pues, como banco de pruebas involuntario de su propia descripción.
La ironía tiene un valor argumentativo y no meramente retórico. Hui advierte contra la monocultura tecnológica que presenta el desarrollo de la IA como una flecha única e inevitable hacia una inteligencia general (Hui, 2020). Frente a esa narrativa de aceleración, el modo de producción de esta tesis ofrece un contraejemplo doméstico y verificable: un sistema de altísimo coste material y energético resultó útil como amplificador de la imitación lingüística y como acelerador de tareas mecánicas, pero el conocimiento —en el sentido de aquello por lo que respondo, lo que sostengo como verdadero y pertinente— no migró a la máquina. Permaneció en la frontera donde un humano decide. La economía de la aplicación que defiende la tesis se ilustra aquí en miniatura: el valor no estuvo en un modelo más potente, sino en hacer presentable, usable y aplicable un saber que ya existía, tarea para la cual la potencia bruta del modelo fue auxiliar y nunca soberana.
10.3. El humano como horizonte: la operación T6 no delegable
La interpretación anterior se apoya en una tesis más fuerte, que ahora argumento. En la arquitectura del experimento, las tareas T1 a T5 son directas: tienen una entrada estructurada, una función objetivo explícita y una salida verificable contra una verdad de referencia. La tarea T6 es inversa y se marcó deliberadamente como NO_COMPUTABLE: una escena urbana ambigua, entregada en lenguaje natural, sin métrica de peligro ni función objetivo, en la que se pide un juicio de relevancia sobre a quién dirigir una alerta. Lo decisivo, y por eso la tarea es inversa, es que la formalización que haría falta para escribir el algoritmo es ella misma el juicio que se pide. No hay función de entrada-salida antes de que un humano fije qué cuenta como relevante. Los modelos produjeron respuestas plausibles y coherentes —unas focalizaron en el niño que pisa la calzada, otras en el repartidor en moto como agente activo del peligro, otras en el acompañante capaz de retener al niño—, todas defendibles, ninguna verdadera o falsa en el sentido en que lo eran las cifras de T1 a T5. Esa pluralidad de respuestas razonables no es un defecto del modelo: es la marca de que el problema pertenece al dominio del significado contextual, donde el cómputo puro no puede siquiera arrancar.
Sostengo que la producción de esta tesis fue, de principio a fin, una sucesión de operaciones del tipo T6. Cada vez que decidí que un párrafo generado era irrelevante aunque fuera correcto, o que una cita propuesta debía descartarse porque la obra podía no existir, o que una estructura argumentativa servía mejor a la tesis que otra igualmente verosímil, ejecuté un juicio de relevancia que ningún modelo podía ejecutar por mí, porque ese juicio es el que constituye el marco dentro del cual el modelo opera. Aquí se vuelve operativo el aparato conceptual del capítulo «07. Crítica ontológica». En términos de Dreyfus, la relevancia presupone un mundo, un horizonte de significatividad que no se da como conjunto de datos sino como trasfondo de prácticas en el que ciertas cosas importan y otras no (Dreyfus, 1992). En términos kantianos retomados por Hui, lo que el modelo no hace es juicio reflexionante: no asciende del caso a la regla, no se da sus propios fines, sino que opera siempre dentro de fines que otro fijó (Hui, 2020). El humano no fue, entonces, un insumo más del proceso de producción, una fuente de datos entre otras; fue el horizonte dentro del cual el cómputo adquirió sentido. La supervisión no fue control de calidad añadido al final: fue la condición que hizo del cómputo conocimiento y no ruido plausible.
10.4. Riesgos y límites de la autoevidencia: por qué esto ilustra pero no demuestra
Debo ahora aplicar a esta misma nota el rigor que la tesis exige, distinguiendo lo que el caso muestra de lo que no muestra. La autoevidencia es un recurso peligroso. Un argumento que se ofrece a sí mismo como prueba corre tres riesgos que conviene nombrar sin atenuarlos. El primero es la circularidad complaciente: usar el hecho de que escribí la tesis con IA como si fuera por sí mismo evidencia concluyente de la tesis. No lo es. Que en este caso particular el juicio de relevancia haya sido irreductiblemente humano no demuestra que deba serlo siempre y en todo sistema posible; muestra, más modestamente, que en una instancia controlada y verificable la potencia del modelo no sustituyó al juicio. La instancia ilustra el argumento; no lo clausura. La carga de la prueba sigue recayendo en el experimento sistemático (T1–T6) y en la crítica conceptual de los capítulos «06», «07» y «08», no en la anécdota de la producción.
El segundo riesgo es el sesgo del superviviente epistémico: yo describo el reparto entre máquina y humano desde el lugar de quien supervisó, y es precisamente ese lugar el que está en cuestión. Un crítico podría sostener que la frontera entre orquestar y ser orquestado es más porosa de lo que esta nota admite. La respuesta es metodológica: esa frontera se mantiene solo si la supervisión deja rastro verificable —fuentes controladas, cifras computadas aparte y contrastadas, regla dura ante la duda bibliográfica. El Banco Epistémico Urbano es, también en este sentido, el dispositivo que convierte la supervisión declarada en supervisión auditable.
El tercer riesgo es la complacencia tranquilizadora: concluir que, puesto que el humano conserva el juicio de relevancia, no hay nada que temer. Esa lectura traiciona el argumento. Que el modelo no cruce un umbral categorial no lo vuelve inocuo; al contrario, su capacidad de producir prosa plausible y cifras casi correctas es justamente lo que lo hace peligroso cuando se lo usa sin supervisión, porque el error de T5 —651397404 en lugar de 651396404— es del tipo que pasa desapercibido. La autoevidencia, bien entendida, no consuela: advierte. Muestra que la diferencia entre conocimiento y plausibilidad depende de un trabajo humano que es costoso, frágil y fácil de omitir, y que omitirlo no produce un error escandaloso sino uno discreto y verosímil.
10.5. Implicación normativa: la supervisión humana como soberanía y aplicación responsable
Cierro pasando de la interpretación a la argumentación normativa, que es donde esta nota se conecta con la tesis política de los capítulos «08» y «11». Si la supervisión humana es la condición que hace del cómputo conocimiento, entonces sostener esa supervisión no es una preferencia metodológica: es una forma concreta de soberanía. La tesis ha insistido en que las limitaciones decisivas de la urbanidad computada son políticas, económicas y ontológicas, y en que la pregunta central es quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía. La nota reflexiva permite formular una respuesta situada: la soberanía de cómputo no es solo la propiedad de la infraestructura material —los centros de datos, la energía, los modelos—, sino también, y de modo más íntimo, la retención del juicio de relevancia en manos humanas responsables. Una ciudad que delega en un sistema estadístico la decisión sobre qué cuenta como relevante en una escena urbana ambigua no ha ganado eficiencia: ha cedido la operación T6, que es la operación soberana por excelencia.
Esta soberanía tiene una dimensión cosmotécnica en el sentido de Hui. Mantener el juicio humano como horizonte no es nostalgia antitecnológica; es la condición para que existan muchas maneras de habitar la relación entre técnica y mundo, en lugar de una sola optimización universal impuesta por la monocultura del cómputo (Hui, 2020). La supervisión, así entendida, es el lugar donde la tecnodiversidad se vuelve práctica: cada acto de decidir qué se computa y qué no, con arreglo a qué fines y a qué forma de vida urbana, es un acto de afirmación de un cosmos particular frente a su disolución en datos sin resto. Wiener ya advertía, en términos cibernéticos, que el uso humano de los seres humanos se degrada cuando se trata a las personas como engranajes intercambiables de un sistema de control, y que el valor de la máquina depende enteramente de los fines humanos a los que sirve (Wiener, 1950). La supervisión es la traducción contemporánea de esa advertencia: no se trata de rechazar la herramienta, sino de no confundir su potencia con autoridad.
De aquí se sigue la implicación práctica que enlaza esta nota con la conclusión. La aplicación responsable del conocimiento urbano —hacer presentable, usable y aplicable el saber clásico ya existente, que es la tarea pendiente que la tesis defiende— exige instituciones, protocolos y hábitos de supervisión que no son automatizables, porque automatizarlos sería delegar precisamente la operación que no se delega. El Banco Epistémico Urbano del capítulo «09» es la propuesta técnica; la supervisión humana documentada es su condición de legitimidad. La presente tesis, construida orquestando modelos de lenguaje bajo un juicio que no se cedió, queda así como ilustración performativa de su propio argumento —en el sentido que la sección 10.4 fijó: ilustra, no demuestra—: la herramienta fue grande, el salto no ocurrió, y lo decisivo siguió siendo quién decide. El capítulo siguiente, «11. Conclusiones: aplicar antes que escalar, fragmentar antes que optimizar», recoge esta lección y la generaliza en una orientación normativa para la urbanidad computada.
Referencias
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Wiener, N. (1950). The Human Use of Human Beings: Cybernetics and Society. Boston: Houghton Mifflin.
11. Conclusiones: aplicar antes que escalar, fragmentar antes que optimizar
Este capítulo cierra el argumento de la tesis. Su función no es introducir evidencia nueva sino recapitular la que ya ha sido presentada y leerla a la luz de la triple crítica desarrollada en los capítulos 06, 07 y 08, para fijar después las dos contribuciones del trabajo y abrir sus consecuencias. Sostenemos que el conjunto de la tesis converge en una proposición simple y, por ello mismo, exigente: el límite decisivo de la urbanidad computada no se desplaza añadiendo escala, porque no es un límite técnico sino político, económico y ontológico. De esa proposición se sigue una reorientación de la tarea —de la persecución de un modelo mayor hacia la economía de la aplicación— y una pregunta normativa que dejamos deliberadamente abierta: qué cosmotécnica conviene a la ciudad latinoamericana. El capítulo recorre, en este orden, la recapitulación del límite, la doble contribución, el giro hacia la aplicación, la cuestión de la tecnodiversidad urbana y, por último, las limitaciones del trabajo y la agenda futura.
11.1 El límite no se mueve con escala
Conviene recordar el punto de partida. La tesis se abre (capítulo 01) constatando una desproporción: disponemos de herramientas epistémicas sobredimensionadas respecto de su aplicación efectiva sobre la ciudad. La IA estadística —los modelos de lenguaje— se presenta como el instrumento que por fin permitiría saber y gobernar lo urbano, pero el salto epistémico que promete no es proporcional a su costo material, energético y político. El resto de la tesis ha consistido en someter esa promesa a prueba y a crítica.
Descriptivamente, lo que el experimento propio muestra es inequívoco. En las seis tareas T1–T6, ejecutadas sin herramientas externas y solo con el razonamiento interno de seis modelos de lenguaje —dos de API (Sonnet y Opus) y cuatro locales ejecutados bajo Ollama en infraestructura propia (qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b)—, el cómputo a gran escala mejora la imitación sin cruzar ningún umbral categorial. Los modelos de API resolvieron correctamente las tareas estructuralmente memorizables o de baja profundidad —el conteo combinatorio de rutas monótonas (T3, valor exacto 2.704.156) fue acertado en los cuatro intentos, y la iteración recursiva de cuarenta pasos (T4, valor 23.842) también—, pero fallaron precisamente donde la verdad aritmética exige ejecutar un algoritmo dígito a dígito y no predecir tokens plausibles. En la multiplicación de dos enteros de doce dígitos (T1, valor exacto 349.625.969.488.102.520.908.371) uno de los intentos devolvió un número distinto; en la suma de cuadrados de treinta lecturas de sensores (T5, valor exacto 651.396.404) los dos intentos del modelo de API mayor erraron, devolviendo 651.397.404 y 651.400.404. El dato más instructivo es que entre los modelos de API el más costoso obtuvo una exactitud menor (70 %, siete de diez) que el más liviano (90 %, nueve de diez); y que entre los locales, donde el tamaño paramétrico sí es medible, la exactitud no creció con los parámetros —el mayor (qwen3:32b) y el menor (qwen2.5:3b) igualaron resultado (20 %), por debajo del intermedio gpt-oss:20b (40 %)—. La escala, aquí, no compró verdad.
Interpretativamente, esto confirma lo argumentado en la crítica técnica (capítulo 06): la IA estadística no acumula con precisión aritmética sino que estima, y por eso un error de un dígito no es un accidente corregible con más parámetros, sino la firma de un régimen de operación que no es el del cómputo determinístico. Frente a estas mismas tareas, el cómputo puro las resuelve de forma exacta y reproducible con un costo despreciable. La conclusión que se sigue es la que da título a la tesis: la herramienta está sobredimensionada respecto de lo que efectivamente garantiza.
El segundo límite es de otra clase. La tarea inversa T6 —el juicio de relevancia en una escena urbana ambigua— se documentó como NO_COMPUTABLE, y la marca importa. La escena se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro y sin función objetivo; la formalización que haría falta para escribir un algoritmo es el juicio que se pide. Los modelos produjeron respuestas plausibles y mutuamente incompatibles: uno dirigió la alerta al repartidor en moto como agente activo del peligro, otro al niño como víctima, otro al acompañante como agente capaz de prevenir. Ninguna es «la» respuesta correcta porque la tarea no admite verdad de referencia: lo que la divergencia exhibe es que decidir qué cuenta como relevante presupone un horizonte de significatividad —un mundo, en el sentido heideggeriano que recoge Dreyfus (1992)— que no se deja derivar de los datos. Aquí la IA estadística no fracasa por imprecisa sino que opera bien en un terreno donde el cómputo puro ni siquiera puede arrancar; pero hacerlo no constituye un salto epistémico, porque el criterio de relevancia sigue siendo fijado fuera de la máquina.
Argumentativamente, la conjunción de ambos límites cierra la primera tesis. Por abajo, la IA estadística no garantiza verdad aritmética; por arriba, no decide relevancia. Entre ambos extremos, el cómputo a gran escala mejora la imitación sin cruzar ningún umbral categorial. El límite, por tanto, no es una frontera técnica que se corra con más cómputo. Coincidimos con Hui (2020) en que el límite de la inteligencia artificial debe pensarse como límite político y cosmológico antes que como deficiencia funcional: la pregunta decisiva no es qué no puede hacer la máquina, sino qué tipo de mundo produce cuando convierte la ciudad en datos computables. Las limitaciones decisivas de la urbanidad computada son, en consecuencia, políticas, económicas y ontológicas —quién decide qué se computa, con qué cosmotécnica y a costa de qué soberanía de cómputo— y no se mueven con la escala.
11.2 Contribución doble: la triple crítica y el Banco Epistémico Urbano
La tesis contribuye en dos registros articulados, uno crítico y uno constructivo.
En el registro crítico, hemos desplegado una triple crítica de la IA estadística aplicada a lo urbano. La crítica técnica (capítulo 06) localiza, sobre el experimento propio, qué hace y qué no hace un modelo de lenguaje: imita con fidelidad creciente, no ejecuta algoritmos exactos y no acumula sin error. La crítica ontológica (capítulo 07) explica por qué, recurriendo a Hui (2016, 2020) y Simondon (1958): el objeto técnico se constituye por individuación técnica y concretización, y la recursividad —en la lectura que Hui hace de Wiener y de Kant— supondría una capacidad de juicio reflexionante, de hallar la regla a partir del caso, de la que la IA estadística carece. La máquina opera bajo juicio determinante, aplica reglas dadas a casos; no se da sus propios fines ni constituye un mundo. La crítica político-económica (capítulo 08) extrae la consecuencia material: el sobredimensionamiento es también un régimen de costos y de poder, donde la soberanía de cómputo —la capacidad de decidir qué se computa y con qué infraestructura— queda concentrada, y donde la economía de la aplicación queda subordinada a la economía de la escala.
Lo que aporta esta articulación no es ninguno de los tres argumentos por separado, todos con antecedentes reconocibles, sino su encadenamiento sobre un mismo objeto y con evidencia propia. La crítica técnica sin la ontológica se reduce a un catálogo de fallos provisionales, refutable con la siguiente generación de modelos; la ontológica sin la político-económica se vuelve abstracta y desinteresada de las condiciones materiales; y la político-económica sin las dos primeras pierde su fundamento, pues no podría explicar por qué el gasto no compra el salto que promete. Las tres juntas muestran que el límite es estructural, no coyuntural.
En el registro constructivo, la contribución es el Banco Epistémico Urbano: un banco de pruebas reproducible que compara modelos urbanos clásicos computables contra la IA estadística sobre tareas urbanas con verdad de referencia conocida. Su diseño y su justificación se desarrollan en el capítulo 09; aquí basta fijar su sentido conclusivo. El Banco Epistémico Urbano traduce la crítica en instrumento: convierte la afirmación «la herramienta está sobredimensionada» en una proposición empíricamente contrastable, midiendo, tarea a tarea, dónde el cómputo determinístico es exacto y barato, dónde la IA estadística aporta algo y dónde ninguna de las dos opera. El experimento T1–T6 reportado en esta tesis es la primera corrida, mínima y deliberadamente acotada, de ese banco. Su valor no está en la magnitud de la muestra sino en que fija un protocolo que terceros pueden repetir, ampliar y refutar.
11.3 El giro hacia la aplicación
De la recapitulación se sigue la reorientación práctica que la tesis defiende. Si el límite no se mueve con escala, la tarea pendiente no es construir un modelo más potente sino aplicar el saber urbano clásico que ya existe y permanece, en buena medida, sin usar.
Esto no es un argumento de nostalgia. Es una constatación sobre el estado del conocimiento. Disponemos de un cuerpo de teorías urbanas computables y bien fundadas —la jerarquía de tamaños de Zipf (1949), los lugares centrales de Christaller (1933), la estructura de rentas y localización de Alonso (1964), las leyes de escala urbana de Bettencourt (2013) y West (2017), la nueva ciencia de las ciudades de Batty (2013)— cuyo poder explicativo está disponible y cuyo costo computacional es trivial. La distancia entre ese saber y su uso efectivo sobre decisiones urbanas concretas no es un problema de potencia de cálculo; es un problema de aplicación, de hacer presentable, usable y aplicable lo que ya sabemos. A esa distancia la llamamos la economía de la aplicación, y sostenemos que es el lugar donde se decide hoy el valor epistémico de lo urbano computado, no en la frontera del tamaño de los modelos.
Aquí la triple crítica y el giro práctico se refuerzan. Persiguir el modelo mayor consume la soberanía de cómputo que precisamente haría falta para la tarea de aplicación, y desplaza la decisión sobre qué se computa hacia quien controla la infraestructura. El giro hacia la aplicación es, por eso, también un argumento de soberanía: hacer usable el saber urbano clásico es comparativamente barato, reproducible y descentralizable, y devuelve la decisión epistémica a quien habita y gobierna la ciudad. La advertencia de Kitchin (2014) sobre la promesa de la ciudad en tiempo real opera aquí como recordatorio: la abundancia de datos y de cómputo no produce, por sí sola, comprensión urbana; puede incluso oscurecer las preguntas que el saber clásico ya formulaba con claridad.
11.4 Tecnodiversidad urbana: qué cosmotécnica para la ciudad latinoamericana
La consecuencia normativa de la tesis se ordena bajo el concepto de tecnodiversidad de Hui (2020). Frente a una monocultura tecnológica que ofrece una única vía —más datos, más parámetros, más cómputo, la misma optimización universal para toda ciudad—, la tecnodiversidad propone una pluralidad de cosmotécnicas, es decir, de modos de articular orden técnico y orden de mundo. Trasladada a lo urbano, la pregunta deja de ser «cómo optimizar la ciudad» y pasa a ser «qué cosmos produce esta IA urbana, y a costa de qué soberanía».
Conviene nombrar el horizonte último de esa pluralidad con el término con que Hui cierra su ensayo. Para Hui, la tecnodiversidad no es un fin en sí: es la condición de una noodiversidad, esto es, de una diversidad de inteligencias o de modos de conocer, y de ahí que formule la tesis de que «el desafío de la inteligencia artificial no es construir una superinteligencia, sino hacer posible una noodiversidad» (Hui, 2020). El giro es exactamente el de esta tesis trasladado a su registro más amplio: del mismo modo que sostenemos que el progreso urbano no está en escalar un modelo único sino en aplicar y pluralizar el saber existente, Hui sostiene que el progreso de la inteligencia no está en una superinteligencia que subordine a todas las demás, sino en sostener la diversidad de las formas de inteligir. Trasladada a la ciudad latinoamericana —y lo decimos como marco del presentador, no como tesis de Hui, que toma el pensamiento chino y no la ciudad como ejemplo—, la consecuencia es que una cosmotécnica urbana no se construye importando la inteligencia que otro entrena, sino cultivando la noodiversidad propia: la coexistencia del cómputo clásico barato y auditable, del juicio situado de quien habita la calle y de los saberes urbanos que no se dejan reducir a función objetivo. La tecnodiversidad de cómputo que esta tesis defiende es, en estos términos, la condición material de una noodiversidad urbana.
Para la ciudad latinoamericana la cuestión es aguda y no la cerramos aquí. La describimos como pregunta abierta porque resolverla excede los materiales de esta tesis y, sobre todo, porque pretender resolverla desde fuera reproduciría la monocultura que la crítica denuncia. Podemos, sin embargo, precisar su forma. La ciudad latinoamericana no es el dato neutral sobre el que un modelo universal se aplica sin resto; es, en la lectura de Lefebvre (1974), espacio producido socialmente, y, en la de Harvey (1973), espacio atravesado por la justicia y la desigualdad. Su escala y su función en la red global —la condición que Sassen (1991) analiza para la ciudad global— la sitúan en una posición asimétrica respecto de quién provee la infraestructura de cómputo y, por tanto, de quién fija qué se computa. Y su densidad histórica —la larga duración de la forma urbana que estudia Mumford (1961)— advierte contra la ilusión de que el gobierno algorítmico inaugura la ciudad desde cero. Una cosmotécnica urbana latinoamericana, en consecuencia, no se deduce: se construye, y la pregunta de qué tradiciones técnicas, qué saberes situados y qué arreglos de soberanía la sostendrían queda abierta como programa, no como conclusión.
Lo que la tesis sí puede afirmar es que el Banco Epistémico Urbano y el giro hacia la aplicación son condiciones de posibilidad de esa construcción. Un instrumento reproducible y barato que mida dónde el saber urbano clásico basta y dónde no, ejecutable sin depender de una infraestructura concentrada, es exactamente la clase de herramienta que una tecnodiversidad urbana necesita para no quedar reducida a consumir el modelo que otro decide entrenar.
11.5 Limitaciones del trabajo y agenda futura
La honestidad del argumento exige delimitar su alcance. La primera corrida del banco es deliberadamente mínima: seis tareas, seis sujetos (dos modelos de API y cuatro locales), dos intentos por modelo, sin uso de herramientas externas. Esta acotación es metodológicamente intencional —aísla el razonamiento interno del modelo de lenguaje del cómputo exteriorizado—, pero no permite generalizaciones cuantitativas robustas. Las cifras de exactitud reportadas (90 % y 70 % para los modelos de API; entre 20 % y 40 % para los locales) describen esta corrida y este conjunto de tareas; no son una medida estable del desempeño de los modelos en general, y no las presentamos como tal. La validez del experimento es ilustrativa y reproducible, no estadística. Conviene articular explícitamente la relación entre estas cifras y el argumento de sobredimensionamiento: el argumento fuerte no descansa en los porcentajes —que una muestra de diez intentos no puede fundar— sino en la diferencia cualitativa de naturaleza entre estimación y cómputo, que los capítulos 06 y 07 establecen por la vía conceptual y que el experimento ilustra con casos concretos. Los porcentajes son instanciaciones del patrón, no su fundamento; la tesis estructural permanece incluso si una corrida más amplia arrojara cifras distintas, porque lo que sostiene al argumento no es la magnitud del fallo sino su tipo.
La segunda limitación es de cobertura teórica. El catálogo de teorías urbanas computables (capítulo 03) y el protocolo experimental (capítulo 04), diferidos en esta versión, deben completarse para que el banco cubra el espectro de modelos clásicos que la tesis invoca; mientras tanto, T1–T6 prueba el método sobre tareas de aritmética, grafo, combinatoria, recursión y juicio, pero no aún sobre los modelos urbanos sustantivos de Christaller, Alonso o Bettencourt en su forma plena.
La tercera limitación es de validación externa. Un banco de pruebas que solo su autor ejecuta no ha demostrado todavía su reproducibilidad; esa es, justamente, su prueba pendiente.
De estas limitaciones se desprende la agenda futura, que enunciamos como tres tareas precisas. Primera, ampliar el corpus: incorporar los modelos urbanos clásicos computables en su formulación completa y extender el conjunto de tareas más allá de T1–T6, con variación sistemática de dificultad y de tipo de verdad de referencia. Segunda, formalizar las métricas: definir de manera explícita y reproducible cómo se puntúa la exactitud, cómo se trata el caso NO_COMPUTABLE y cómo se compara el costo —material, energético, político— de cada vía, de modo que la afirmación de sobredimensionamiento sea cuantificable y no solo argumentada. Tercera, validar el banco con terceros: publicar el protocolo y los datos para que equipos independientes lo repitan, lo critiquen y lo refuten, condición sin la cual el Banco Epistémico Urbano no sería todavía una herramienta científica sino una propuesta.
Cierra esta tesis la observación que la nota reflexiva (capítulo 10) desarrolla y que conviene no perder de vista: este mismo trabajo se ha construido orquestando sistemas de IA bajo supervisión humana. Esa circunstancia no debilita el argumento; lo ilustra de forma performativa —en sentido ilustrativo y no probatorio, según la cautela que el capítulo 10 (10.4) establece. La IA estadística sirvió para imitar, redactar, tabular y acelerar, mientras que la decisión sobre qué computar, qué cuenta como relevante y qué fines persigue el trabajo —el juicio reflexionante que la máquina no ejerce— permaneció del lado humano. La tesis hace, así, lo que afirma: aplica una herramienta sobredimensionada dentro de sus límites, reserva la relevancia para quien la habita y muestra, en su propio modo de producción, que el salto no está en la escala sino en la aplicación. Aplicar antes que escalar; fragmentar antes que optimizar.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Bettencourt, L. M. A. (2013). The Origins of Scaling in Cities. Science, 340(6139), 1438–1441.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Harvey, D. (1973). Social Justice and the City. London: Edward Arnold.
- Hui, Y. (2016). The Question Concerning Technology in China: An Essay in Cosmotechnics. Falmouth: Urbanomic.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
- Lefebvre, H. (1974). La production de l'espace. Paris: Anthropos.
- Mumford, L. (1961). The City in History: Its Origins, Its Transformations, and Its Prospects. New York: Harcourt, Brace & World.
- Sassen, S. (1991). The Global City: New York, London, Tokyo. Princeton: Princeton University Press.
- Simondon, G. (1958). Du mode d'existence des objets techniques. Paris: Aubier.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.