10 de noviembre de 2012

PROGRESO CIENTÍFICO Y APROXIMACIÓN A LA VERDAD (4)

La serie de entradas sobre el concepto de verosimilitud llega a su fase "culminante", en la que expondré la concepción que he venido desarrollando. Recapacitemos algunas cuestiones importantes, que nuestro enfoque tendrá que tener en cuenta inevitablemente:
.
1) la noción de semejanza es relativamente subjetiva: dos cosas pueden ser parecidas para un sujeto, o desde cierto punto de vista, o en función de ciertos intereses, pero no ser tan parecidas en otros casos;
.
2) pese a ello, pretendemos identificar algún concepto razonable de "aproximación a la verdad" según el cual  tenga sentido la afirmación de que el objetivo de la ciencia es aproximarnos a la verdad; y
.
3) este concepto debería poder ponerse en conexión con las normas y criterios metodológicos usados por los científicos, de tal modo que podamos explicar que la razón por la que se siguen aquellas normas es porque haciéndolo así es de esperar que consigamos teorías que estén más próximas a la verdad que siguiendo otras normas.
.
Pues bien, mi sugerencia es hacer la suposición de que el grado (subjetivo) de semejanza entre dos proposiciones, A y B, depende principalmente de tres factores:
.
a) la coherencia entre A y B, que puede ser medida con la fórmula p(A&B)/p(AvB) = p(A&B,AvB); o sea, la probabilidad que el sujeto atribuye a la posibilidad de que A y B sean verdaderas las dos, dividida por la probabilidad de que sea verdadera alguna de las dos (lo cual equivale a la probabilidad de que las dos sean verdadera condicionada a que al menos una de ellas lo es); gráficamente esto corresponde al área comprendida en la intersección de los conjuntos de mundos que corresponden a ambas teorías, dividida por el área de la unión de ambos conjuntos;
.
b) al factor anterior, que considero el principal, añadimos otros dos; en primer lugar, tanto A como B pueden "emborronarse", en el sentido de sustituir B (p.ej.) por la proposición B(d), que afirma que "el mundo verdadero está a una distancia menor que d de algún mundo permitido por B"; es decir, consideramos que B no nos da una descripción "exacta" del mundo, sino "aproximada" (con grado de aproximación igual a d; recordar la entrada número 2 de la serie); una vez hecho esto, aplicamos la noción definida en el párrafo anterior, pero en vez de entre A y B, lo hacemos entre A y B(d); esto nos sugeriría definir la semejanza entre A y B como igual a p(A&B(d)/AvB(d)), eligiendo d de tal manera que el valor de esa fracción sea el máximo posible.
.
c) por último, también podemos tener en cuenta que los enunciados A o B pueden consistir en la conjunción de varios enunciados que, por las razones que sean, consideremos proposiciones independientes entre sí y relevantes para juzgar la semejanza entre las primeras; si, p.ej., B es la conjunción de varios enunciados, B1, B2, ..., Bn, podemos considerar que la semejanza entre A y B equivale al resultado de aplicar la medida de semejanza basada en la coherencia a alguna de las combinaciones de los enunciados B1, ..., Bn, en concreto, a aquella combinación cuya coherencia con A sea mayor.
.
Los criterios b y c permiten establecer que dos enunciados A y B pueden ser semejantes incluso aunque sean lógicamente contradictorios entre sí (y por lo tanto, p(A&B) sea igual a 0): si A es incompatible con B, pero no es incompatible con B(d), o no es incompatible con muchos de los enunciados Bi cuya conjunción forma B, entonces es posible que A nos parezca pese a todo bastante semejante a B. También es importante señalar que los criterios b y c pueden aplicarse a la vez: A puede parecernos semejante a B por ser coherente con algunos Bi expresados éstos en versión no exacta sino aproximada (Bi(d)).
.
Teniendo esto en mente, ¿cómo podríamos definir el "grado de aproximación a la verdad" de una teoría T? Si V representa la verdad más completa que podemos expresar con el lenguaje del que disponemos (o sea, la proposición que describe el "mundo verdadero" de la figura), una posibilidad sería p(T&V(d))/p(TvV(d)) (con la distancia d para la que esto es máximo). Otra posibilidad sería considerar a qué conjunción de proposiciones equivale V y aplicar el criterio c. La solución que me parece más prometedora es utilizar, para la determinación del grado en el que nos parece que T se ha aproximado a la verdad, la proposición que nos dice, precisamente, qué es lo que sabemos sobre la verdad: nuestros "datos empíricos" E, que generalmente consistirán en la conjunción de aquellas regularidades empíricas que las teorías deben "explicar". Mi definición favorita es, por tanto, la siguiente:
.
Vs(T,E) = Semejanza entre T y E * Semejanza entre E y V.
.
Es decir, la verosimilitud de una teoría T, a la luz de los datos empíricos que poseemos, vendrá dada por la semejanza que hay entre la teoría T y los datos E, ponderada por la semejanza que hay entre E y la "verdad completa", V (pues, cuanto más próxima esté E a V, más verosímil nos parecerá una teoría que sea coherente con esos datos).
.
Puesto que, por definición, estamos suponiendo que los datos empíricos son verdaderos (son los que aceptamos como verdadero sobre la verdad), entonces la definición se reduce a lo siguiente:
.
Vs(T,E) = [p(T&E)/p(TvE)][p(T&E)/p(TvE)]
.
= [p(T&E)/p(TvE)][p(V)/p(E)]
.
= [p(T&E)/p(E)][p(V)/p(TvE)]
.
= [p(T,E)/p(TvE)]p(V)
.
Puesto que la probabilidad de V es una constante (será siempre la misma, sean cuales sean T y E), y puesto que lo que queremos es una función que nos sirva para comparar la verosimilitud de dos teorías frente a los mismos datos, o de una teoría frente a un conjunto cambiante de datos, etc., podemos suprimir la referencia a p(V) (que aparecerá en todas las comparaciones del tipo Vs(T,E) > Vs(T',E') a los dos lados de la comparación, y podremos borrarla en los dos lados), y la definición se nos queda asín:
.
Vs(T,E) = p(T,E)/p(TvE).
.
A esa definición le podremos aplicar posteriormente los criterios b y c cuando sea menester.
.
En la próxima entrada empezaré a comentar las (fantásticas) propiedades de esta función.
.

27 comentarios:

  1. ATENCIÓN: chiste malo ecléctico.

    Se me ocurre un nuevo título para esta serie

    Progreso científico y aproximación a la verdad... o del pene estrangulado de Hullk Oigan.

    También sería un buen título para un poema.

    ResponderEliminar
  2. He escrito esto sobre lo que hablabamos en la primera entrada

    http://davidruescas.com/2012/11/11/distance-to-the-truth/

    ResponderEliminar
  3. Muchas gracias, David. He intentado colgar un comentario en tu página, pero me sale un mensaje de error, así que te lo copio aquí:
    .
    I have a problem in trying to understand your suggestion; it is about the idea that theories can be seen as 'probability distributions'. I think this is not the right way to understand theories (consider, e.g., a theory like Newton's gravitation theory, or Darwin's natural selection theory, or Wegener's continental drift). What I do not understand is what would happen to the notion of a CONJUNCTION of two theories according to your view. From the more traditional view of theories as equivalent to SETS of possible worlds (not probability distributions thereof), the conjunction of two theories is simply the intersection of the two corresponding sets (i.e., those worlds that 'satisfy' both theories symmultaneously); but according to your understanding of theories, I simply cannot make sense of the idea of a proposition like "the conjunction of Newton's second law and the law of gravity". For I don't see the point of a notion like 'the conjuntion of two different probability distributions".

    ResponderEliminar
    Respuestas
    1. Tu mismo sugieres inferencia bayesiana en la entrada anterior

      "nuestros datos empíricos no nos dicen cuál de todos los "mundos posibles" es el verdadero, pero sí que nos pueden servir para determinar una distribución de probabilidad entre todos los mundos; es decir, dados nuestros datos empíricos, ¿qué probabilidad tiene el mundo m de ser el verdadero?; digamos, p(m/e)."

      O sea, cualquier teoria susceptible de ser confirmada experimentalmente lo hace en virtud de establecer probabilidades sobre las evidencias E. Esto es asi para cualquera teoria, sea una conjuncion de otras dos, o de 23. La forma en la que se obtiene dicha probabilidad depende de los detalles internos de la teoria, de ahi la parte deductiva de "hipotetico-deductiva".

      Fijate incluso que los datos empiricos que tu llamas E tambien producen probabilidades sobre el estado del mundo. Si tu subes a una bascula y la bascula lee 75, eso no es simplemente _compatible_ con un monton de mundos, p.e. 73,74,75,76,77. En realidad establece un gaussiano (por ejemplo, dependiendo de las propiedades de la bascula) con centro en 70.

      Eliminar
    2. Y gracias por el comentario, te lo publicare yo.

      Eliminar
  4. Jesús:

    Dos cosas.

    La primera, que no veo que hayas conseguido escapar a la crítica de Tichy porque sigues con teorías que pueden ser unas más verosímiles que otras y no dices si aceptas o rechazas que la conjunción de un enunciado verdadero con uno falso vale como un NUEVO enunciado falso.

    La segunda, que el parecido de una teoría con la verdad consiste en si nos da información para diferenciar lo que existe y lo que ocurre de lo que no existe o no ocurre, tanto hechos como regularidades.

    ResponderEliminar
  5. Sursum:
    te recuerdo la definición de Popper: "la teoría A es más verosímil que B si y sólo si todos los enunciados verdaderos que se siguen de B también se siguen de A, y todos los enunciados falsos que se siguen de A también se siguen de B (y, o bien de A se sigue al menos un enunciado verdadero que no se sigue de B, o bien de B se sigue al menos un enunciado falso que no se sigue de A)".
    .
    Esa definición me parece que es equivalente a lo que dices tú en el segundo párrafo, y es precisamente esa definición la que Tichy probó que era inútil: no es posible que una teoría falsa sea más verosímil que otra, entendiendo por "ser más verosímil" lo que decía Popper.
    .
    En cambio, en mi definición no sucede esto último: imagina dos teorías T y T', tales que:
    a) T implica T',
    b) T implica E,
    pero
    c) T' (y por tanto, también T) es falsa (es decir, el mundo verdadero es uno de los que son compatibles con E pero no con T' ni con T).
    .
    En este caso, según mi definición T' es más verosímil que T, a pesar de que ambas son falsas.
    .
    De hecho, en mi definición de la verosimilitud es IRRELEVANTE si la conjunción de dos enunciados es un enunciado "nuevo" o deja de serlo.

    ResponderEliminar
  6. Jesús:

    Imagina que tratamos de decidir entre la teoría de evolución por variación aleatoria y selección natural o por cambio direccional y herencia de caracteres adquiridos. ¿Dirías que se dan las condiciones que pones para decidir si una es más verosímil que la otra? ¿Una implica la otra o son mutuamente incompatibles?

    En la práctica tenemos muchas observaciones que podemos tomar como independientes y toda teoría consiste en suponer una o varias regularidades que tengan como casos particulares algunas de las observaciones y que sean preferibles a otra o a la falta de toda regularidad porque nos permiten explicar más datos y/o con menos hipótesis independientes entre ellas.

    No es nada preocupante no poder explicarlo todo ni con total exactitud. Lo que se busca es saber más postulando menos.

    ResponderEliminar
  7. Sursum
    no entiendo qué tiene que ver lo que dices con lo que he explicado

    ResponderEliminar
  8. Lo que he puesto en mi respuesta anterior es un CASO POSIBLE en el que hay dos teorías falsas y que una es más verosímil que la otra. Pero también puede haber OTROS casos: p.ej., una teoría que explique más leyes empíricas que otra (recuerda el factor "c" del que hablo arriba), y que además tenga una plausibilidad a priori más alta que la otra, también será más verosímil

    ResponderEliminar
  9. Tiene que ver con que para evaluar p(T dado E) has de determinar previamente qué datos son favorables, qué datos son contrarios y qué otros no son pertinentes. Es indispensable contar los datos y no tomar como un nuevo dato algo que no lo es.

    Imagina dos tratamientos T y T' para una misma enfermedad, que hay efectos adversos en cada tratamiento y que hay curaciones en ausencia de tratamiento. La forma como se evalúa un medicamento ES la forma como se evalúa cualquier otra teoría. Pero en la objeción de Tichy, cada enfermo no curado puede contar dos o más veces. Recuerda que si previamente has definido que los enunciado falsos se encuentran en el área que interseca F, no puede haber UN NUEVO resultado falso que sea unión de uno que se encuentra en F y otro que se encuentra en V ya que previamente has dicho que TODOS los enunciados falsos se encuentran en el área F (noV).

    ResponderEliminar
    Respuestas
    1. Sursum:
      tal como explico en la entrada, hay dos posibilidades:
      1) tomar nuestra evidencia empírica como un todo (E), es decir, como si fuera UN ÚNICO enunciado que tiene en cuenta todo lo que sabemos (o creemos saber) empíricamente sobre el tema (y obviamente, lo tiene en cunta "sólo una vez");
      2) considerar E como la conjunción de varios descubrimientos empíricos independientes, y valorar cada teoría en función de aquel SUBconjunto de descubrimientos que sea más favorable para ella (en este caso, obviamente CADA descubrimiento empírico se tiene en cuenta una sola vez).
      .
      Es decir, tal como funciona mi definición de verosimilitud, se trata de un esquema lógico que no es semejante al de Popper, y por lo tanto, simplemente no hay por dónde meter la objeción de Tichy, pues en mi caso, cuentes como cuentes la "evidencia empírica", cada "hecho" sólo se tiene en cuenta "una vez". Naturalmente, lo que hago es delegar en los científicos la consideración de qué cuenta como un "hecho empírico independiente", pero me limito a asumir los criterios que ellos tengan.

      Eliminar
  10. Tu formula de la coherencia recurre a la probabilidad que calculamos de que las teorias sean verdaderas, pero al mismo tiempo decias que esto tenia que valer para teorias que sabemos que son falsas, asi que esa probabilidad seria siempre 0, no?

    ResponderEliminar
    Respuestas
    1. J
      No exactamente: lo que hago es distinguir la probabilidad A PRIORI (p.ej., p(T)) y la probabilidad A POSTERIORI (p(T,E)). Puede ocurrir que la segunda sea muy baja y la primera muy alta, o viceversa.

      Eliminar
    2. Que significa aqui A PRIORI? Antes de conocer los datos? Antes de tener ningun conocimiento del mundo?
      Y si hablamos de dos teorias falsas, que era el caso que tu proponias, la probabilidad no "puede ocurrir" que sea baja. Lo sera seguro, porque sera 0.

      Eliminar
    3. J
      "a priori" significa aquí exactamente lo que significa en la teoría bayesiana: asumimos como hipótesis que los individuos tienen algunas intuiciones sobre qué es más plausible que qué, intuiciones que no están basadas en las observaciones empíricas, sino en "background assumptions" que pueden ser más o menos analizables y/o discutibles, y de las que el modelo sólo asume que satisfacen los axiomas de la probabilidad; a partir de esas "intuiciones", y de su reconstrucción como la función "p", se reconstruye la función de probabilidad a posteriori (p(A,B)= p(A&B)/p(B)), y yo reconstruyo también la función Vs).
      .
      Sobre el valor de Vs para teorías REFUTADAS por los conocimientos empíricos E, en ese caso el supuesto de mi modelo es que se aplican (es decir, los científicos aplican) los criterios "b" y "c" mencionados en esta entrada. Con esos criterios en la mano, puede ocurrir que el valor de Vs de algunas teorías sea muy alto, aunque sean contradictorias con E.

      Eliminar
  11. Y al final no sigue siendo todo subjetivo y calculado "a ojo"? Porque las probabilidades que se otorgan, la distancia entre mundos posibles o saber que una descripcion es la mas exhaustiva parece tan dificil de calcular,o mas, que la proximidad a la verdad.

    ResponderEliminar
    Respuestas
    1. ¡Exactamente! El marco de mi definición es totalmente bayesiano, en el sentido de que TOMA COMO DADA una función de probabilidad SUBJETIVA (insistiré sobre ello en las próximas entradas). Lo que hace es definir, sobre la base de esa función de PROBABILIDAD subjetiva, una función diferente, con un comportamiento matemático muy distinto, a la que llamo función de VEROSIMILITUD (que, obviamente, TAMBIÉN es subjetiva). Pero la "objetividad", como explicaré otro día, se salva por el mismo proceso que en el método bayesiano: se trata de obtener COMPARACIONES de verosimilitud (o de probabilidad, en su caso) que sean intersubjetivamente aceptables, aunque las MEDICIONES de verosimilitud sean subjetivas.
      .

      Eliminar
    2. Ya, pero que ganamos? Si te fias del criterio de los cientificos para calcular probabilidades a priori, por que no te fias de su criterio para decidir qué teorias estan mas cerca de la verdad que otras? Me parece a mi que para este viaje no hacian falta alforjas

      Eliminar
    3. J
      ¿¿¿Cómo que no me fío????
      Todo lo contrario, lo que estoy intentando hacer no es SUSTITUIR el criterio de los científicos por un criterio, digamos, "filosófico", sino más bien intentar proponer una CONJETURA sobre cuál es el criterio DE LOS CIENTÍFICOS. Mi hipótesis es que algo parecido a la función Vs representa los juicios intuitivos de los propios científicos sobre qué teorías "(les) parecen (a ellos) más próximas a la verdad" en qué circunstancias.

      Eliminar
  12. Pues a mi, me gusta el que sean las probabilidades teóricas y/o los datos los que manejen el cotarro de la verosimilitud o la falsedad, asín que sigo expectante, ¡lo que hacen los lunes!

    ResponderEliminar
  13. David
    Tu mismo sugieres inferencia bayesiana
    Tal como acabo de decir más arriba, en efecto: mi teoría presupone el bayesianismo, pero NO IDENTIFICA "verosimilitud" con "probabilidad" (ni a priori, ni a posteriori), sino que introduce una función BASADA en las funciones de probabilidad, pero que no se comporta como ella, sino de modo más parecido a como intuitivamente pensamos que debería comportarse una noción de "aproximación a la verdad" (que no es en modo alguno como debería comportarse una función de probabilidad).
    .
    De modo que, como ya te dije, no tengo nada en contra de basar la idea de "aproximación" en la semejanza de distribuciones de probabilidad, sólo que hay algunos detalles técnicos que se hacen un poco dificiles de entender si interpretamos una teoría como algo IDÉNTICO a una distribución de probabilidad, en lugar de como algo más parecido a como se la interpreta en teoría de modelos. Pero seguro que ambas cosas son compatibles en el fondo.

    ResponderEliminar
  14. No no, yo tampoco identifico las dos cosas, eso me quedo claro en la primera entrada.

    Solo te decia, en respuesta a tu pregunta sobre conjunciones, que el que una teoria tenga asociada una distribucion de probabilidad es condicion necesaria para hacer inferencia, sea la teoria una conjuncion, disyuncion o lo que sea,

    Es posible que si sean compatibles. De hecho, lo mas interesante de todo esto seria _probarlo_ y ver que pasa, no solo proponer los modelos y quedarse ahi.

    ResponderEliminar
    Respuestas
    1. Pues ánimo, David; tú seguro que dominas el asunto mejor que yo.

      Eliminar
    2. Vale, pero luego escribes tu el paper!

      Eliminar