<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "https://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd"> 
<article article-type="research-article" dtd-version="1.2" xml:lang="es" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">ReE</journal-id>
<journal-title-group>
<journal-title>Revista de Estudios Empresariales</journal-title>
</journal-title-group>
<issn pub-type="epub">1988-9046</issn>
<publisher>
<publisher-name>Universidad de Ja&#x00E9;n</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="publisher-id">7823</article-id>
<article-id pub-id-type="doi">10.17561/ree.n2.2023.7823</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Secci&#x00F3;n especial</subject>
</subj-group>
</article-categories>
<title-group>
<article-title>VALORACI&#x00D3;N AUTOM&#x00C1;TICA DE INMUEBLES RESIDENCIALES MEDIANTE MODELOS DE MACHINE LEARNING</article-title>
<trans-title-group>
<trans-title xml:lang="en"><bold>AUTOMATIC VALUATION OF RESIDENTIAL PROPERTIES USING MACHINE LEARNING MODELS</bold></trans-title>
</trans-title-group>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-8803-5165</contrib-id>
<name>
<surname>Guijarro Mart&#x00ED;nez</surname>
<given-names>Francisco</given-names>
</name>
<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
<aff id="aff1">
<label>1</label>
(<institution content-type="original">Universitat Polit&#232;cnica de Val&#232;ncia</institution>)
<institution content-type="orgname">Universitat Polit&#232;cnica de Val&#232;ncia</institution>
<email>fraguima@upvnet.upv.es</email>
</aff>
</contrib>
</contrib-group>
<pub-date pub-type="epub">
<day>24</day>
<month>07</month>
<year>2023</year>
</pub-date>
<pub-date date-type="collection">
    <day>24</day>
    <month>07</month>
<year>2023</year>
</pub-date>
<volume>2023</volume>
<issue>2</issue>
<fpage>27</fpage>
<lpage>39</lpage>
<history>
<date date-type="received">
<day>13</day>
<month>03</month>
<year>2023</year>
</date>
<date date-type="accepted">
<day>31</day>
<month>05</month>
<year>2023</year>
</date>
</history>
<permissions>
<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by/4.0/" xml:lang="es">
<license-p>Este obra est&#x00E1; bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.</license-p>
</license>
</permissions>
<abstract>
<title><bold>Resumen</bold></title>
<p>La literatura reciente sobre valoraci&#x00F3;n inmobiliaria ha aportado diversas evidencias en el &#x00E1;mbito internacional sobre el buen desempe&#x00F1;o de los modelos de <italic>machine learning</italic> en la predicci&#x00F3;n del comportamiento de los precios, sobre todo si se comparan con los obtenidos por los denominados m&#x00E9;todos tradicionales valoraci&#x00F3;n, muy extendidos sobre todo en la pr&#x00E1;ctica profesional. Con todo, se siguen remarcando algunas limitaciones como el dise&#x00F1;o de caja negra y la dificultad en la interpretaci&#x00F3;n de los resultados proporcionados por estas t&#x00E9;cnicas. Este trabajo tiene por objeto comparar los resultados y el desempe&#x00F1;o de diferentes modelos de <italic>machine learning</italic> aplicados en el &#x00E1;mbito de la valoraci&#x00F3;n inmobiliaria residencial. Para ello se ha recopilado una amplia base de datos con ofertas de inmuebles en la ciudad de Madrid, que permite dividir la muestra en los grupos de entrenamiento y test. La comparaci&#x00F3;n entre los modelos se ha llevado a cabo a trav&#x00E9;s de diferentes m&#x00E9;tricas, entre las que destaca el MAPE (<italic>Mean Absolute Percentage Error</italic>) por ser uno de los preferidos por las sociedades de tasaci&#x00F3;n. Las m&#x00E9;tricas utilizadas confirman un buen rendimiento generalizado para el conjunto de modelos entrenados, con variaciones relativamente peque&#x00F1;as tras el proceso de validaci&#x00F3;n.</p>
</abstract>
<trans-abstract xml:lang="en">
<title><bold>Abstract</bold></title>
<p>Recent literature on real estate valuation has provided evidence on the good performance of machine learning models in predicting price behavior, especially when compared to those obtained by traditional valuation methods. The latter are widely used in professional practice. However, some limitations are still highlighted, such as the black box design and the difficulty in interpreting the results provided by these techniques. This work aims to compare the results and performance of different machine learning models applied in the field of residential real estate valuation. For this purpose, a large database of property listings in the city of Madrid has been compiled, which allows the sample to be divided into training and test groups. The comparison between the models has been carried out through different metrics, among which the MAPE (Mean Absolute Percentage Error) stands out as one of the favorites of valuation companies. The metrics we have used confirm a good generalized performance for the set of trained models, with relatively small variations after the validation process.</p>
</trans-abstract>
<kwd-group xml:lang="es">
<title><bold>Palabras clave:</bold></title>
<kwd>valoraci&#x00F3;n inmobiliaria</kwd>
<kwd>machine learning</kwd>
<kwd>gradient boosting machine</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title><bold>Keywords:</bold></title>
<kwd>real estate valuation</kwd>
<kwd>machine learning</kwd>
<kwd>gradient boosting machine</kwd>
</kwd-group>
<kwd-group xml:lang="es">
<title><bold>Clasificaci&#x00F3;n JEL:</bold></title>
<compound-kwd>
<compound-kwd-part content-type="code">R30</compound-kwd-part>
<compound-kwd-part content-type="code">C55</compound-kwd-part>
<compound-kwd-part content-type="code">C58</compound-kwd-part>
</compound-kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title><bold>JEL Codes:</bold></title>
<compound-kwd>
<compound-kwd-part content-type="code">R30</compound-kwd-part>
<compound-kwd-part content-type="code">C55</compound-kwd-part>
<compound-kwd-part content-type="code">C58</compound-kwd-part>
</compound-kwd>
</kwd-group>
<funding-group>
<funding-statement>Esta investigaci&#x00F3;n no ha recibido financiaci&#x00F3;n externa.</funding-statement>
</funding-group>
</article-meta>
</front>
<body>
<sec id="sec-1-7823">
<label><bold>1.</bold></label>
<title><bold>INTRODUCCI&#x00D3;N</bold></title>
<p>Los activos inmobiliarios representan un porcentaje significativo y creciente en la riqueza a nivel mundial, seg&#x00FA;n los datos proporcionados por los diferentes informes sobre el tama&#x00F1;o de mercado de los activos residenciales, publicados por la consultora internacional MSCI (<xref ref-type="bibr" rid="ref-15-7823">MSCI, 2022)</xref>. La importancia de este mercado obliga a realizar valoraciones de sus activos de forma peri&#x00F3;dica y rigurosa, lo que hace que la industria de la valoraci&#x00F3;n sostenga a un n&#x00FA;mero importante de valoradores. Seg&#x00FA;n <xref ref-type="bibr" rid="ref-10-7823">Kok <italic>et al.</italic> (2017)</xref>, s&#x00F3;lo en el &#x00E1;mbito de Estados Unidos se alcanzaban los 74.000 valoradores. Se trata de una industria intensiva en mano de obra, caracter&#x00ED;stica que ha venido marcada fundamentalmente por el tipo de metodolog&#x00ED;as empleadas en la valoraci&#x00F3;n de inmuebles. La utilizaci&#x00F3;n de los m&#x00E9;todos tradicionales de valoraci&#x00F3;n por homogeneizaci&#x00F3;n de comparables requiere de un elevado grado de especializaci&#x00F3;n y de una dedicaci&#x00F3;n horaria importante por parte de los valoradores. Sin embargo, eso no asegura que las valoraciones alcancen un alto grado de precisi&#x00F3;n en algunos casos. Seg&#x00FA;n se se&#x00F1;ala en el estudio de <xref ref-type="bibr" rid="ref-10-7823">Kok <italic>et al.</italic> (2017)</xref>, los valoradores cometen un error relativo del 12% en sus valoraciones respecto del valor final de transacci&#x00F3;n. Esta cifra no es exclusiva de Estados Unidos, lugar donde se hizo el estudio, sino que es equiparable a la que se produce en otros pa&#x00ED;ses como Italia (7,7%) o Jap&#x00F3;n (13,9%), seg&#x00FA;n el estudio de MSCI (<xref ref-type="bibr" rid="ref-15-7823">MSCI, 2022</xref>). Ha de tenerse en cuenta que no todos los mercados alcanzan el mismo grado de madurez y transparencia, y estas variables pueden ser claves a la hora de alcanzar resultados fiables desde un punto de vista valorativo.</p>
<p>Como ha sucedido en otros sectores, el r&#x00E1;pido avance en la capacidad de procesamiento computacional y la cada vez mayor disponibilidad y detalle de bases de datos en el &#x00E1;mbito inmobiliario, ha permitido la aplicaci&#x00F3;n de diferentes t&#x00E9;cnicas vinculadas al &#x00E1;mbito de la inteligencia artificial. Esto ha posibilitado obtener valoraciones con un elevado grado de precisi&#x00F3;n, pero sobre todo reducir el tiempo y coste vinculados a la valoraci&#x00F3;n masiva de inmuebles. Esta reducci&#x00F3;n de costes y el acotamiento de los errores en los procesos de valoraci&#x00F3;n ha favorecido la aparici&#x00F3;n de nuevos modelos, vinculados al <italic>big data</italic> y al empleo de m&#x00E9;todos propios de la inteligencia artificial y el <italic>machine learning</italic>. Entre las ventajas del uso de estas metodolog&#x00ED;as est&#x00E1; la limitaci&#x00F3;n de la intervenci&#x00F3;n humana, con la consiguiente reducci&#x00F3;n de costes, la velocidad de c&#x00F3;mputo, la posibilidad de actualizar valores de tasaci&#x00F3;n casi en tiempo real, la acotaci&#x00F3;n en los errores de valoraci&#x00F3;n, y la eliminaci&#x00F3;n de sesgos propios del an&#x00E1;lisis humano. Resulta complicado medir y analizar de forma sistem&#x00E1;tica los errores producidos por un &#x00FA;nico valorador, o por un peque&#x00F1;o grupo de ellos. Sin embargo, cuando la base de datos empleada por los modelos de <italic>machine learning</italic> incluye cientos de miles de inmuebles, resulta viable emplear diferentes m&#x00E9;tricas de valoraci&#x00F3;n que permiten medir la bondad de los diferentes m&#x00E9;todos empleados (<xref ref-type="bibr" rid="ref-21-7823">Steurer <italic>et al.</italic>, 2021</xref>). Sin embargo, en la literatura se siguen se&#x00F1;alando algunas limitaciones que acompa&#x00F1;an a estos m&#x00E9;todos desde sus or&#x00ED;genes, como la naturaleza de caja negra, que en ocasiones dificulta saber c&#x00F3;mo los modelos han llegado a estimar el precio de los inmuebles; o qu&#x00E9; importancia han tenido cada una de las variables en la formaci&#x00F3;n de los precios (<xref ref-type="bibr" rid="ref-23-7823">Valier, 2020</xref>), si bien &#x00E9;sta es una limitaci&#x00F3;n que en muchos modelos ya ha sido superada.</p>
<p>Este trabajo realiza una comparativa entre diferentes m&#x00E9;todos de <italic>machine learning</italic> para una amplia base de datos de inmuebles localizados en Madrid, permitiendo acotar los errores producidos por diferentes metodolog&#x00ED;as en el &#x00E1;mbito de la normativa espa&#x00F1;ola. El art&#x00ED;culo se estructura como sigue: en la siguiente secci&#x00F3;n se presenta una revisi&#x00F3;n actualizada de la literatura; la secci&#x00F3;n 3 presenta los datos empleados en el an&#x00E1;lisis, realizando una breve descripci&#x00F3;n de los mismos; en la secci&#x00F3;n 4 se describen de forma sucinta los m&#x00E9;todos de valoraci&#x00F3;n de <italic>machine learning</italic> empleados, las m&#x00E9;tricas con que comparar sus resultados, y los propios resultados obtenidos sobre la ciudad de Madrid. Finalmente, el trabajo se cierra con un resumen de las principales conclusiones alcanzadas.</p>
</sec>
<sec id="sec-2-7823">
<label><bold>2.</bold></label>
<title><bold>REVISI&#x00D3;N DE LA LITERATURA</bold></title>
<p>En la literatura podemos encontrar diferentes investigaciones que han tratado de sintetizar una taxonom&#x00ED;a de los m&#x00E9;todos de valoraci&#x00F3;n, que podemos clasificar en dos grandes grupos: los m&#x00E9;todos de valoraci&#x00F3;n tradicionales y los m&#x00E9;todos de valoraci&#x00F3;n avanzados (<xref ref-type="bibr" rid="ref-1-7823">Abidoye <italic>et al.</italic>, 2019</xref>).</p>
<p>Por un lado, los m&#x00E9;todos de valoraci&#x00F3;n tradicionales se fundamentan en la comparaci&#x00F3;n directa entre el inmueble a valorar, al que denominamos inmueble problema, y un conjunto de inmuebles con caracter&#x00ED;sticas similares al inmueble problema, y que han sido objeto de transacci&#x00F3;n reciente. Precisamente el hecho de que estos inmuebles sean similares al inmueble problema en cuanto a ubicaci&#x00F3;n, superficie, antig&#x00FC;edad, etc., hace que reciban la denominaci&#x00F3;n de &#x201C;comparables&#x201D; (<xref ref-type="bibr" rid="ref-14-7823">Ministerio de Econom&#x00ED;a, 2003</xref>). La principal diferencia entre este conjunto y el inmueble problema es que del segundo no se conoce su valor, que se pretende estimar, mientras que de los primeros se conoce el precio de transacci&#x00F3;n, con el requisito de que la compraventa se haya producido recientemente y, por lo tanto, los precios no se encuentren alejados de las cotizaciones actuales que marca el mercado. La comparaci&#x00F3;n que se produce entre las caracter&#x00ED;sticas de los inmuebles puede ser objetiva (superficie, dormitorios, altura, etc.), pero en ocasiones nos encontramos con que la naturaleza de las variables puede ser intr&#x00ED;nsecamente subjetiva (calidad de la edificaci&#x00F3;n, calidad de la ubicaci&#x00F3;n, estado de conservaci&#x00F3;n, etc.), lo que puede introducir importantes sesgos en su determinaci&#x00F3;n por parte de los valoradores.</p>
<p>Por otro lado, los m&#x00E9;todos de valoraci&#x00F3;n avanzados se basan en la aplicaci&#x00F3;n de modelos de optimizaci&#x00F3;n matem&#x00E1;tica, estad&#x00ED;sticos, o de inteligencia artificial (<xref ref-type="bibr" rid="ref-2-7823">Ahn <italic>et al.</italic>, 2012</xref>; <xref ref-type="bibr" rid="ref-7-7823">Guijarro, 2021</xref>; <xref ref-type="bibr" rid="ref-11-7823">Kontrimas y Verikas, 2011</xref>). En general ofrecen una mayor precisi&#x00F3;n en las estimaciones, pero como contrapartida son intensivos en tiempo de computaci&#x00F3;n y en la cantidad de informaci&#x00F3;n requerida para poder aplicarlos. Afortunadamente, el tiempo de c&#x00F3;mputo se ha reducido de manera muy considerable en los &#x00FA;ltimos a&#x00F1;os, favorecido por el desarrollo tecnol&#x00F3;gico. Dentro del grupo de m&#x00E9;todos de valoraci&#x00F3;n avanzados se encuentran el modelo de valoraci&#x00F3;n hed&#x00F3;nica, los m&#x00E9;todos basados en el an&#x00E1;lisis de series temporales -como el modelo ARIMA-, los modelos espaciales y de <italic>kriging</italic>, las redes neuronales artificiales, los &#x00E1;rboles de decisi&#x00F3;n en sus diferentes variantes, las m&#x00E1;quinas de vector soporte, etc. (<xref ref-type="bibr" rid="ref-16-7823">Pagourtzi <italic>et al.</italic>, 2003</xref>).</p>
    <p>Existe un consenso dentro de la literatura en que los m&#x00E9;todos de valoraci&#x00F3;n avanzados proporcionan estimaciones m&#x00E1;s precisas, robustas, fiables y eficientes que los m&#x00E9;todos de valoraci&#x00F3;n tradicionales (<xref ref-type="bibr" rid="ref-4-7823">Baldominos <italic>et al.</italic>, 2018</xref>; <xref ref-type="bibr" rid="ref-9-7823">Ho <italic>et al.</italic>, 2021</xref>; <xref ref-type="bibr" rid="ref-10-7823">Kok <italic>et al.</italic>, 2017</xref>; <xref ref-type="bibr" rid="ref-18-7823">Selim, 2009</xref>), aunque en sus comienzos algunos autores se&#x00F1;alaron que estos m&#x00E9;todos pod&#x00ED;an conducir a errores significativos en los procesos de valoraci&#x00F3;n masiva de inmuebles (<xref ref-type="bibr" rid="ref-13-7823">Lenk <italic>et al.</italic>, 1997</xref>). En una comparaci&#x00F3;n m&#x00E1;s detallada y reciente, <xref ref-type="bibr" rid="ref-23-7823">Valier (2020)</xref> concluye que los modelos de inteligencia artificial ofrecen una mayor precisi&#x00F3;n que los modelos hed&#x00F3;nicos, aunque muchos autores se mantengan reticentes al empleo de los primeros por considerarlos una caja negra, en la que es dif&#x00ED;cil establecer la relaci&#x00F3;n exacta que se produce entre el precio y sus variables explicativas. En el &#x00E1;mbito espec&#x00ED;fico de los modelos heredados de la inteligencia artificial, <xref ref-type="bibr" rid="ref-22-7823">Tchuente y Nyawa (2022)</xref> concluyen sobre una muestra de diferentes ciudades francesas y para un periodo de 5 a&#x00F1;os que las redes neuronales artificiales y el modelo <italic>random forest</italic> superan de forma significativa a otros m&#x00E9;todos cuando no se tienen en cuenta las caracter&#x00ED;sticas de geocodificaci&#x00F3;n de los inmuebles, mientras que los modelos <italic>adaboost, gradient boosting</italic> y el propio <italic>random forest</italic> funcionan mejor cuando las caracter&#x00ED;sticas de geocodificaci&#x00F3;n son incluidas en la muestra de datos. <xref ref-type="bibr" rid="ref-19-7823">Simlai (2021)</xref> analiza el mercado inmobiliario de California, concluyendo que los m&#x00E9;todos de inteligencia artificial proporcionan una descripci&#x00F3;n exhaustiva de los determinantes del valor de las viviendas en el conjunto de secciones censales de California. En comparaci&#x00F3;n con los modelos hed&#x00F3;nicos, las regresiones Ridge, LASSO y Elastic Net proporcionan predicciones fuera de muestra significativamente mejores.</p>
<p>Los m&#x00E9;todos avanzados emplean mediciones objetivas de las caracter&#x00ED;sticas relevantes de los inmuebles, evitando el posible sesgo introducido por los tasadores a la hora de comparar caracter&#x00ED;sticas con un alto componente subjetivo. Adem&#x00E1;s, el alto grado de informatizaci&#x00F3;n permite manejar un n&#x00FA;mero de registros y variables inabarcables por los m&#x00E9;todos tradicionales, con tiempos de c&#x00F3;mputo cada vez m&#x00E1;s reducidos, y con la posibilidad de ser actualizados de manera peri&#x00F3;dica y a un coste m&#x00ED;nimo (<xref ref-type="bibr" rid="ref-3-7823">Arribas <italic>et al.</italic>, 2016</xref>; <xref ref-type="bibr" rid="ref-5-7823">Grover, 2016</xref>). Adem&#x00E1;s de las variables que definen las caracter&#x00ED;sticas de la vivienda o del edificio donde se ubica, se ha podido agregar otra serie de variables vinculadas, por ejemplo, a la calidad medioambiental (<xref ref-type="bibr" rid="ref-6-7823">Guijarro, 2019</xref>). Y todo gracias a las facilidades actuales en la recopilaci&#x00F3;n y manejo de datos, que han permitido superar las limitaciones de las primeras aplicaciones de estos m&#x00E9;todos.</p>
<p>La aparici&#x00F3;n de los modelos automatizados de valoraci&#x00F3;n o AVM (acr&#x00F3;nimo del t&#x00E9;rmino en ingl&#x00E9;s, <italic>Automated Valuation Model</italic>) ha permitido poder avanzar en el uso de m&#x00E9;tricas para medir la <italic>performance</italic> o desempe&#x00F1;o en los modelos de valoraci&#x00F3;n inmobiliaria. En esta l&#x00ED;nea de investigaci&#x00F3;n, en la investigaci&#x00F3;n de <xref ref-type="bibr" rid="ref-21-7823">Steurer <italic>et al.</italic> (2021)</xref> se analizan un total de 48 m&#x00E9;tricas diferentes, definiendo un total de 7 de ellas como las m&#x00E1;s apropiadas para la evaluaci&#x00F3;n del desempe&#x00F1;o de los modelos AVM. Por su parte, <xref ref-type="bibr" rid="ref-20-7823">Sing <italic>et al.</italic> (2022)</xref> recopilan m&#x00E1;s de 300.000 transacciones de vivienda p&#x00FA;blica y privada en Singapur para el per&#x00ED;odo comprendido entre 1995 y 2017. En sus conclusiones destacan que el modelo boosting es el mejor modelo predictivo que produce las estimaciones m&#x00E1;s s&#x00F3;lidas y precisas para los precios de la vivienda en comparaci&#x00F3;n con los modelos de &#x00E1;rbol de decisi&#x00F3;n y de an&#x00E1;lisis de regresi&#x00F3;n m&#x00FA;ltiple; y todo ello bajo el an&#x00E1;lisis de diferentes m&#x00E9;tricas de validaci&#x00F3;n.</p>
<p>El lector interesado en una revisi&#x00F3;n exhaustiva de la literatura acad&#x00E9;mica sobre modelos AVM aplicados en el &#x00E1;mbito inmobiliario puede referirse a <xref ref-type="bibr" rid="ref-24-7823">Wang y Li (2019)</xref>.</p>
</sec>
<sec id="sec-3-7823">
<label><bold>3.</bold></label>
<title><bold>DATOS</bold></title>
<p>El &#x00E1;mbito geogr&#x00E1;fico de an&#x00E1;lisis de esta investigaci&#x00F3;n se circunscribe Madrid capital, ciudad para la que se ha recopilado una muestra de inmuebles ofertados a la venta en un popular portal inmobiliario, y durante el periodo que va desde abril de 2022 hasta septiembre de ese mismo a&#x00F1;o. En total, la muestra cuenta con un n&#x00FA;mero inicial de 28.948 registros. Puesto que algunos inmuebles aparecen publicitados por m&#x00E1;s de una agencia inmobiliaria, se ha procedido a eliminar los registros duplicados, de forma que del proceso han quedado un total de 18.935 inmuebles.</p>
<p>Tambi&#x00E9;n resulta habitual encontrar registros con errores; por ejemplo, en la introducci&#x00F3;n de la superficie, o en el precio del inmueble (colocar el precio de alquiler cuando el inmueble est&#x00E1; a la venta; o al rev&#x00E9;s). Otra situaci&#x00F3;n que puede afectar gravemente a la consecuci&#x00F3;n de un modelo fiable de valoraci&#x00F3;n de inmuebles es encontrarnos con registros cuyas caracter&#x00ED;sticas pueden considerarse claramente at&#x00ED;picas, si las comparamos con el resto de inmuebles de la base de datos. Este tipo de observaciones son denominadas <italic>outliers</italic>. Para depurar la muestra, se ha empleado la distancia de Mahalanobis, tomando como variables discriminatorias el precio y la superficie de los inmuebles. Este proceso de depuraci&#x00F3;n se ha llevado a cabo a nivel de secci&#x00F3;n censal. De esta forma, un inmueble se ha considerado at&#x00ED;pico y ha sido eliminado de la muestra cuando su distancia de Mahalanobis se situaba m&#x00E1;s all&#x00E1; del percentil 97,5% del obtenido para dicho estad&#x00ED;stico sobre el conjunto de la muestra, lo que se ha correspondido con una distancia de 16,67. Esto significa que en el proceso de filtrado se ha depurado un 2,5% de la muestra. Tambi&#x00E9;n se han excluido los inmuebles con un precio de oferta por debajo de los 30.000 euros o por encima de los 5 millones de euros. Se ha limitado la altura de las viviendas a 15, de forma que ese umbral se ha asignado a aquellas que se situaban por encima de esta altura.</p>
<p>Con todo, la muestra ha quedado compuesta definitivamente por un total de 17.486 inmuebles: 8.811 correspondientes a los primeros 3 meses de an&#x00E1;lisis (trimestre T1) y 8.675 correspondientes a los 3 &#x00FA;ltimos (trimestre T2). La <xref ref-type="table" rid="tabw-1-7823">Tabla 1</xref> muestra los principales estad&#x00ED;sticos descriptivos de las variables num&#x00E9;ricas consideradas en nuestro estudio. En la muestra se ha incluido un n&#x00FA;mero importante de variables binarias, que se identifican f&#x00E1;cilmente a trav&#x00E9;s de sus valores m&#x00ED;nimo (0) y m&#x00E1;ximo (1). Simplemente indican la presencia (1) o ausencia (0) de determinada caracter&#x00ED;stica. A trav&#x00E9;s de la media podemos constatar, por ejemplo, que el 68% de los inmuebles tienen ascensor en su edificio, mientras que s&#x00F3;lo un 14% cuenta con piscina.</p>
<table-wrap id="tabw-1-7823">
<label><bold>TABLA 1.</bold></label>
<caption><title><bold>ESTAD&#x00CD;STICOS DESCRIPTIVOS DE LAS VARIABLES ANALIZADAS</bold></title></caption>
<table id="tab-1-7823" frame="hsides" border="1" rules="all">
<col width="16%"/>
<col width="12%"/>
<col width="12%"/>
<col width="12%"/>
<col width="12%"/>
<col width="12%"/>
<col width="12%"/>
<col width="12%"/>
<thead>
<tr>
<th valign="top" align="center"><p>&#x00A0;</p></th>
<th valign="top" align="center"><p><bold>Media</bold></p></th>
<th valign="top" align="center"><p><bold>Desv. t&#x00ED;pica</bold></p></th>
<th valign="top" align="center"><p><bold>Mediana</bold></p></th>
<th valign="top" align="center"><p><bold>M&#x00ED;nimo</bold></p></th>
<th valign="top" align="center"><p><bold>M&#x00E1;ximo</bold></p></th>
<th valign="top" align="center"><p><bold>Asimetr&#x00ED;a</bold></p></th>
<th valign="top" align="center"><p><bold>Curtosis</bold></p></th>
</tr>
</thead>
<tbody>
<tr>
<td valign="top" align="left"><p><bold>Precio oferta</bold></p></td>
<td valign="top" align="right"><p>501.326,50</p></td>
<td valign="top" align="right"><p>492.325,71</p></td>
<td valign="top" align="right"><p>331.000,00</p></td>
<td valign="top" align="right"><p>31.000,00</p></td>
<td valign="top" align="right"><p>5.000.000,00</p></td>
<td valign="top" align="right"><p>2,63</p></td>
<td valign="top" align="right"><p>9,43</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Superficie</bold></p></td>
<td valign="top" align="right"><p>106,07</p></td>
<td valign="top" align="right"><p>61,96</p></td>
<td valign="top" align="right"><p>88</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>529</p></td>
<td valign="top" align="right"><p>1,85</p></td>
<td valign="top" align="right"><p>4,51</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Num. dormitorios</bold></p></td>
<td valign="top" align="right"><p>2,68</p></td>
<td valign="top" align="right"><p>1,09</p></td>
<td valign="top" align="right"><p>3</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>8</p></td>
<td valign="top" align="right"><p>0,45</p></td>
<td valign="top" align="right"><p>0,23</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Num. ba&#x00F1;os</bold></p></td>
<td valign="top" align="right"><p>1,71</p></td>
<td valign="top" align="right"><p>0,9</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>6</p></td>
<td valign="top" align="right"><p>1,45</p></td>
<td valign="top" align="right"><p>2,14</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Ascensor</bold></p></td>
<td valign="top" align="right"><p>0,68</p></td>
<td valign="top" align="right"><p>0,47</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>-0,77</p></td>
<td valign="top" align="right"><p>-1,41</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Num. planta</bold></p></td>
<td valign="top" align="right"><p>2,73</p></td>
<td valign="top" align="right"><p>2,26</p></td>
<td valign="top" align="right"><p>2</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>15</p></td>
<td valign="top" align="right"><p>1,61</p></td>
<td valign="top" align="right"><p>4,24</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Terraza</bold></p></td>
<td valign="top" align="right"><p>0,45</p></td>
<td valign="top" align="right"><p>0,5</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>0,2</p></td>
<td valign="top" align="right"><p>-1,96</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Aire acondicionado</bold></p></td>
<td valign="top" align="right"><p>0,52</p></td>
<td valign="top" align="right"><p>0,5</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>-0,06</p></td>
<td valign="top" align="right"><p>-2</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Calefacci&#x00F3;n</bold></p></td>
<td valign="top" align="right"><p>0,75</p></td>
<td valign="top" align="right"><p>0,43</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>-1,15</p></td>
<td valign="top" align="right"><p>-0,67</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Parking</bold></p></td>
<td valign="top" align="right"><p>0,18</p></td>
<td valign="top" align="right"><p>0,39</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>1,64</p></td>
<td valign="top" align="right"><p>0,68</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Trastero</bold></p></td>
<td valign="top" align="right"><p>0,24</p></td>
<td valign="top" align="right"><p>0,43</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>1,19</p></td>
<td valign="top" align="right"><p>-0,58</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Piscina</bold></p></td>
<td valign="top" align="right"><p>0,14</p></td>
<td valign="top" align="right"><p>0,34</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>2,12</p></td>
<td valign="top" align="right"><p>2,48</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>Zona ajardinada</bold></p></td>
<td valign="top" align="right"><p>0,05</p></td>
<td valign="top" align="right"><p>0,22</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>0</p></td>
<td valign="top" align="right"><p>1</p></td>
<td valign="top" align="right"><p>4,03</p></td>
<td valign="top" align="right"><p>14,27</p></td>
</tr>
</tbody>
</table>
</table-wrap>
<p>Adem&#x00E1;s de las variables num&#x00E9;ricas reflejadas en la <xref ref-type="table" rid="tabw-1-7823">Tabla 1</xref>, aparece una variable categ&#x00F3;rica, la antig&#x00FC;edad. Esta variable viene clasificada en 9 niveles diferentes: desde las viviendas con menos de 1 a&#x00F1;o de antig&#x00FC;edad, a las que tienen m&#x00E1;s de 100 a&#x00F1;os. La <xref ref-type="fig" rid="fig-1-7823">Figura 1</xref> permite constatar que el grupo m&#x00E1;s numeroso es el de viviendas entre 50 y 70 a&#x00F1;os, mientras que el menos representado en la muestra es el de viviendas entre 5 y 10 a&#x00F1;os.</p>
<fig id="fig-1-7823">
<label><bold>FIGURA 1.</bold></label>
<caption><title><bold>DIAGRAMA DE BARRAS DE LA VARIABLE ANTIG&#x00DC;EDAD</bold></title></caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="fig-1-7823.jpg"/>
</fig>
<p>Para completar este an&#x00E1;lisis univariante b&#x00E1;sico, se ha representado en la <xref ref-type="fig" rid="fig-2-7823">Figura 2</xref> la matriz de correlaciones entre las variables num&#x00E9;ricas. Esto permite estudiar cu&#x00E1;les est&#x00E1;n m&#x00E1;s correlacionadas con el precio, que es la variable que se intenta explicar. La figura muestra que la superficie tiene la mayor correlaci&#x00F3;n con el precio (84%), algo previsible, seguida por el n&#x00FA;mero de ba&#x00F1;os (73%) y el n&#x00FA;mero de dormitorios (47%). A priori, variables como la zona ajardinada tienen una escasa vinculaci&#x00F3;n con el precio (3%), algo que puede venir explicada inicialmente por la escasa representaci&#x00F3;n en la muestra de las viviendas con esta caracter&#x00ED;stica. Debe se&#x00F1;alarse que en esta matriz no aparece la variable antig&#x00FC;edad por ser categ&#x00F3;rica, pese a su previsible correlaci&#x00F3;n significativa con el precio; ni tampoco ninguna de las variables ligadas a la ubicaci&#x00F3;n, una de las caracter&#x00ED;sticas m&#x00E1;s referidas en la literatura (<xref ref-type="bibr" rid="ref-17-7823">Pearson, 1991</xref>; <xref ref-type="bibr" rid="ref-8-7823">Hamid, 2007</xref>; <xref ref-type="bibr" rid="ref-12-7823">Kucklick y M&#x00FC;ller, 2020</xref>).</p>
<fig id="fig-2-7823">
<label><bold>FIGURA 2.</bold></label>
<caption><title><bold>MATRIZ DE CORRELACIONES ENTRE LAS PRINCIPALES VARIABLES NUM&#x00C9;RICAS EMPLEADAS EN LA INVESTIGACI&#x00D3;N</bold></title></caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="fig-2-7823.jpg"/>
</fig>
<p>En lo que respecta a la ubicaci&#x00F3;n del inmueble, en el caso de los portales inmobiliarios espa&#x00F1;oles rara vez se informa sobre la localizaci&#x00F3;n exacta de los inmuebles. Los portales agrupan los inmuebles en zonas que ellos mismos definen y que, en muchos casos, se pueden asimilar a las secciones censales, pero son pocas las propiedades en las que se define la calle y el n&#x00FA;mero exacto donde se ubican. Es precisamente la secci&#x00F3;n censal la variable que se ha tomado para informar sobre la localizaci&#x00F3;n aproximada del inmueble. Se han recopilado ofertas para 2.229 secciones censales de Madrid (sobre un total de 2.443 secciones registradas en el &#x00FA;ltimo censo), de forma que la secci&#x00F3;n censal con mayor n&#x00FA;mero de inmuebles suma un total de 58 ofertas. Esto ha posibilitado incorporar la renta familiar disponible media de las secciones censales, como una variable explicativa de car&#x00E1;cter socioecon&#x00F3;mico de la zona. Para completar la informaci&#x00F3;n geogr&#x00E1;fica de los inmuebles, se ha creado una variable denominada &#x201C;&#x00E1;rea de valor&#x201D;, que aglutina secciones censales vecinas en primer orden o superior, hasta completar un n&#x00FA;mero m&#x00ED;nimo de 50 inmuebles. El &#x00E1;rea de valor se puede considerar una secci&#x00F3;n censal de segundo nivel, creada a partir de una secci&#x00F3;n censal con escasa oferta de inmuebles a la que se ha a&#x00F1;adido la oferta de otras secciones censales hasta completar un n&#x00FA;mero suficiente de inmuebles, y que consideramos estad&#x00ED;sticamente significativo para extraer conclusiones sobre la din&#x00E1;mica de precios. La configuraci&#x00F3;n de la ubicaci&#x00F3;n a partir de estas dos variables, permite poder incorporar al modelo el precio de los inmuebles en cada una de ellas, justamente en el trimestre T1 para no contaminar la muestra empleada en el entrenamiento (trimestre T2), as&#x00ED; como el precio de los parking o aparcamientos de esas mismas zonas.</p>
</sec>
<sec id="sec-4-7823">
<label><bold>4.</bold></label>
<title><bold>RESULTADOS DE LOS MODELOS DE MACHINE LEARNING</bold></title>
<p>En esta secci&#x00F3;n se analiza el desempe&#x00F1;o de diferentes modelos de <italic>machine learning</italic>. Para ello, se ofrecen las medidas de <italic>performance</italic> m&#x00E1;s habituales seg&#x00FA;n se constata en la literatura, y que se relacionan a continuaci&#x00F3;n:</p>
<list list-type="bullet">
<list-item><p>RMSE (<italic>Root Mean Square Error</italic>): desviaci&#x00F3;n t&#x00ED;pica de los errores o residuos en la estimaci&#x00F3;n. Si tomamos <italic>&#x0177;</italic><sub><italic>i</italic></sub> como el precio estimado para el inmueble <italic>i</italic>-&#x00E9;simo, <italic>y</italic><sub><italic>i</italic></sub> el precio observado para dicho inmueble, y tenemos <italic>n</italic> inmuebles en la muestra, el RMSE se construye a partir de la expresi&#x00F3;n <xref ref-type="disp-formula" rid="Eq01">(1)</xref>:</p>
<p><disp-formula id="Eq01"><label>(1)</label><mml:math id="M1" display='block'><mml:mi>R</mml:mi><mml:mi>M</mml:mi><mml:mi>S</mml:mi><mml:mi>E</mml:mi><mml:mo>=</mml:mo><mml:msqrt><mml:mstyle displaystyle="false"><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mi>i</mml:mi><mml:mi>n</mml:mi></mml:munderover></mml:mstyle><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mfrac><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mstyle displaystyle="true"><mml:mover><mml:mi>y</mml:mi><mml:mo>^</mml:mo></mml:mover></mml:mstyle><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mi>y</mml:mi><mml:mi>i</mml:mi><mml:mo>)</mml:mo></mml:mrow><mml:mn>2</mml:mn></mml:msup><mml:mi>n</mml:mi></mml:mfrac></mml:msqrt></mml:math></disp-formula></p></list-item>
<list-item><p>MSE (<italic>Mean Square Error</italic>): varianza de los residuos de la estimaci&#x00F3;n; se calcula como el cuadrado del RMSE.</p></list-item>
<list-item><p>MAPE (<italic>Mean Absolute Percentage Error</italic>): el error porcentual absoluto medio, de definici&#x00F3;n similar al RMSE pero tomando errores en valor absoluto en lugar de su cuadrado y dividiendo por el precio observado del inmueble, seg&#x00FA;n la expresi&#x00F3;n <xref ref-type="disp-formula" rid="Eq02">(2)</xref>:</p>
<p><disp-formula id="Eq02"><label>(2)</label><mml:math id="M2" display='block'><mml:mi>M</mml:mi><mml:mi>A</mml:mi><mml:mi>P</mml:mi><mml:mi>E</mml:mi><mml:mo>=</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mi>n</mml:mi></mml:mfrac><mml:mstyle displaystyle="false"><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover></mml:mstyle><mml:mfrac><mml:mfenced open="|" close="|"><mml:mstyle displaystyle="true"><mml:mover><mml:mi>y</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mi>y</mml:mi><mml:mi>i</mml:mi></mml:mstyle></mml:mfenced><mml:mrow><mml:mi>y</mml:mi><mml:mi>i</mml:mi></mml:mrow></mml:mfrac></mml:math></disp-formula></p></list-item>
<list-item><p>RMSLE (<italic>Root Mean Squared Log Error</italic>): error logar&#x00ED;tmico cuadr&#x00E1;tico medio calculado seg&#x00FA;n la expresi&#x00F3;n <xref ref-type="disp-formula" rid="Eq03">(3)</xref>:</p>
<p><disp-formula id="Eq03"><label>(3)</label><mml:math id="M3" display='block'><mml:mi>R</mml:mi><mml:mi>M</mml:mi><mml:mi>S</mml:mi><mml:mi>L</mml:mi><mml:mi>E</mml:mi><mml:mo>=</mml:mo><mml:msqrt><mml:mstyle displaystyle="false"><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mi>i</mml:mi><mml:mi>n</mml:mi></mml:munderover></mml:mstyle><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mfrac><mml:mrow><mml:mo>(</mml:mo><mml:mi>log</mml:mi><mml:mo>(</mml:mo><mml:mstyle displaystyle="true"><mml:mover><mml:mi>y</mml:mi><mml:mo>^</mml:mo></mml:mover></mml:mstyle><mml:mi>i</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo>)</mml:mo><mml:mo>-</mml:mo><mml:mi>log</mml:mi><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mi>y</mml:mi><mml:mi>i</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo>)</mml:mo></mml:mrow><mml:mn>2</mml:mn></mml:msup></mml:mrow><mml:mi>n</mml:mi></mml:mfrac></mml:msqrt></mml:math></disp-formula></p></list-item>
</list>
<p>Una vez configurada la muestra, el modelo de valoraci&#x00F3;n se ha obtenido mediante su programaci&#x00F3;n en el lenguaje estad&#x00ED;stico R, a trav&#x00E9;s de la funci&#x00F3;n <italic>automl</italic> de la librer&#x00ED;a h20. Esta funci&#x00F3;n permite el proceso de automatizaci&#x00F3;n en la selecci&#x00F3;n de los algoritmos de <italic>machine learning</italic>, la generaci&#x00F3;n de caracter&#x00ED;sticas, el ajuste de los hiperpar&#x00E1;metros de cada uno de los algoritmos empleados, el modelado iterativo y la evaluaci&#x00F3;n de modelos. Al tratarse de un modelo supervisado, s&#x00F3;lo se han tenido en cuenta aquellos algoritmos que permiten trabajar con este tipo de modelos, de los que se da una breve explicaci&#x00F3;n a continuaci&#x00F3;n.</p>
<list list-type="bullet">
<list-item><p>Los modelos de aprendizaje profundo, o <italic>deep learning</italic> en ingl&#x00E9;s, se basan en una red neuronal artificial multicapa de alimentaci&#x00F3;n directa que se entrena con descenso de gradiente estoc&#x00E1;stico mediante retropropagaci&#x00F3;n (<italic>backpropagation</italic>). La red puede contener un gran n&#x00FA;mero de capas ocultas compuestas por neuronas con funciones de activaci&#x00F3;n tangencial, rectificadora y de tipo <italic>maxout</italic>. Adem&#x00E1;s, la funci&#x00F3;n <italic>automl</italic> incorpora funciones avanzadas como la velocidad de aprendizaje adaptativa, el recocido de velocidad, el entrenamiento por impulso, el abandono, la regularizaci&#x00F3;n L1 o L2, el punto de control y la b&#x00FA;squeda en cuadr&#x00ED;cula.</p></list-item>
<list-item><p>Los <italic>distributed random forest</italic>, tambi&#x00E9;n conocidos por sus siglas DRF, son una herramienta que se emplea tanto en problemas de clasificaci&#x00F3;n como de regresi&#x00F3;n. Es precisamente este &#x00FA;ltimo el objeto de nuestra investigaci&#x00F3;n. Cuando se proporciona un conjunto de datos, el algoritmo DRF genera un bosque de &#x00E1;rboles de regresi&#x00F3;n, en lugar de un &#x00FA;nico &#x00E1;rbol. Cada uno de ellos se comporta como un aprendiz d&#x00E9;bil construido sobre un subconjunto de filas y columnas. La incorporaci&#x00F3;n de un mayor n&#x00FA;mero de &#x00E1;rboles reduce la varianza, de forma que en los problemas de regresi&#x00F3;n se toma la predicci&#x00F3;n media de todos sus &#x00E1;rboles para realizar una predicci&#x00F3;n final.</p></list-item>
<list-item><p>Los modelos lineales generalizados (GLM, por sus siglas en ingl&#x00E9;s <italic>generalized linear models</italic>) estiman modelos de regresi&#x00F3;n para resultados que siguen distribuciones exponenciales. Adem&#x00E1;s de la distribuci&#x00F3;n normal, la funci&#x00F3;n <italic>automl</italic> considerada en nuestro trabajo tambi&#x00E9;n incluye otras conocidas distribuciones, como poisson, binomial y gamma.</p></list-item>
<list-item><p>El modelo <italic>Gradient Boosting Machine</italic> (GBM) es un m&#x00E9;todo que emplea un aprendizaje hacia delante. La heur&#x00ED;stica se basa en la obtenci&#x00F3;n de buenos, que no &#x00F3;ptimos, resultados predictivos mediante aproximaciones cada vez m&#x00E1;s refinadas, de forma que de forma iterativa se consigue ir alcanzando soluciones cada vez m&#x00E1;s pr&#x00F3;ximas al &#x00F3;ptimo. Se construyen &#x00E1;rboles de regresi&#x00F3;n de forma secuencial sobre todas las caracter&#x00ED;sticas del conjunto de datos empleados.</p></list-item>
<list-item><p>El modelo XGBoost es un algoritmo de aprendizaje supervisado que aplica un proceso denominado <italic>boosting</italic> para obtener modelos precisos. El t&#x00E9;rmino <italic>boosting</italic> hace referencia a la t&#x00E9;cnica de aprendizaje por conjuntos que consiste en construir varios modelos de forma secuencial en los que cada nuevo modelo intenta corregir las deficiencias del modelo anterior. En el proceso de refuerzo de &#x00E1;rbol, cada modelo que se a&#x00F1;ade al conjunto es un nuevo &#x00E1;rbol de decisi&#x00F3;n. XGBoost proporciona un <italic>boosting</italic> de &#x00E1;rbol paralelo.</p></list-item>
<list-item><p>El modelo XRT (<italic>eXtremely Randomized Trees</italic>). Se trata de un algoritmo de &#x00E1;rboles extremadamente aleatorios, que emplean la aleatoriedad de un modelo de <italic>Random Forest</italic> pero tomando un subconjunto de las variables independientes en cada uno de los &#x00E1;rboles entrenados. Los umbrales empleados para cada una de las variables se escogen de forma totalmente aleatorio, y no por optimizaci&#x00F3;n del criterio de impureza. Adem&#x00E1;s, y a diferencia de <italic>Random Forest</italic>, las muestras de entrenamiento de cada uno de los &#x00E1;rboles se escogen sin reemplazo; esto es, no siguen el tradicional modelo <italic>bootstrap</italic>.</p></list-item>
</list>
<p>La ventaja de emplear la funci&#x00F3;n <italic>automl</italic> es que permite lanzar de forma multicore estos algoritmos en forma de grid, de forma que se cuenta con varias instancias de los mismos que se diferencian por los par&#x00E1;metros empleados en el entrenamiento. Precisamente para poder validar los resultados obtenidos, se ha dividido la muestra de forma aleatoria en un 75% para el entrenamiento y un 25% en cada uno de los trimestres para la validaci&#x00F3;n de los modelos.</p>
<p>La <xref ref-type="table" rid="tabw-2-7823">Tabla 2</xref> recoge el desempe&#x00F1;o de los modelos entrenados para la muestra de viviendas en Madrid. Las diferentes m&#x00E9;tricas se han obtenido al aplicar dichos modelos al 25% de la muestra reservada para la validaci&#x00F3;n, y los modelos se han ordenado de menor a mayor RMSE. Podemos comprobar c&#x00F3;mo el modelo GBM ocupa las primeras posiciones, tanto en las versiones individuales (GBM_4 y GBM_1) como en el formato de grid, donde se superponen diferentes modelos GBM. De las 5 m&#x00E9;tricas informadas en la tabla, queremos destacar los valores obtenidos en el MAPE. Podemos comprobar como la mayor parte de los modelos generan un MAPE por debajo del 13%, y que adem&#x00E1;s la ordenaci&#x00F3;n de los diferentes modelos es bastante similar entre las diferentes m&#x00E9;tricas utilizadas.</p>
<table-wrap id="tabw-2-7823">
<label><bold>TABLA 2.</bold></label>
<caption><title><bold>M&#x00C9;TRICAS OBTENIDAS POR LOS MODELOS DE <italic>MACHINE LEARNING</italic></bold></title></caption>
<table id="tab-2-7823" frame="hsides" border="1" rules="all">
<col width="40%"/>
<col width="15%"/>
<col width="15%"/>
<col width="15%"/>
<col width="15%"/>
<thead>
<tr>
<th valign="top" align="left"><p><bold>Modelo</bold></p></th>
<th valign="top" align="center"><p><bold>RMSE</bold></p></th>
<th valign="top" align="center"><p><bold>MSE</bold></p></th>
<th valign="top" align="center"><p><bold>MAPE</bold></p></th>
<th valign="top" align="center"><p><bold>RMSLE</bold></p></th>
</tr>
</thead>
<tbody>
<tr>
<td valign="top" align="left"><p><bold>GBM_grid_1_model_2</bold></p></td>
<td valign="top" align="center"><p>0,1710</p></td>
<td valign="top" align="center"><p>0,0292</p></td>
<td valign="top" align="center"><p>0,1217</p></td>
<td valign="top" align="center"><p>0,0188</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_4</bold></p></td>
<td valign="top" align="center"><p>0,1714</p></td>
<td valign="top" align="center"><p>0,0294</p></td>
<td valign="top" align="center"><p>0,1227</p></td>
<td valign="top" align="center"><p>0,0188</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_1</bold></p></td>
<td valign="top" align="center"><p>0,1719</p></td>
<td valign="top" align="center"><p>0,0296</p></td>
<td valign="top" align="center"><p>0,1225</p></td>
<td valign="top" align="center"><p>0,0189</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_grid_1_model_2</bold></p></td>
<td valign="top" align="center"><p>0,1728</p></td>
<td valign="top" align="center"><p>0,0298</p></td>
<td valign="top" align="center"><p>0,1242</p></td>
<td valign="top" align="center"><p>0,0190</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_2</bold></p></td>
<td valign="top" align="center"><p>0,1728</p></td>
<td valign="top" align="center"><p>0,0298</p></td>
<td valign="top" align="center"><p>0,1243</p></td>
<td valign="top" align="center"><p>0,0189</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_3</bold></p></td>
<td valign="top" align="center"><p>0,1733</p></td>
<td valign="top" align="center"><p>0,0300</p></td>
<td valign="top" align="center"><p>0,1248</p></td>
<td valign="top" align="center"><p>0,0190</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_3</bold></p></td>
<td valign="top" align="center"><p>0,1736</p></td>
<td valign="top" align="center"><p>0,0302</p></td>
<td valign="top" align="center"><p>0,1220</p></td>
<td valign="top" align="center"><p>0,0191</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_5</bold></p></td>
<td valign="top" align="center"><p>0,1740</p></td>
<td valign="top" align="center"><p>0,0303</p></td>
<td valign="top" align="center"><p>0,1243</p></td>
<td valign="top" align="center"><p>0,0191</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GBM_grid_1_model_1</bold></p></td>
<td valign="top" align="center"><p>0,1743</p></td>
<td valign="top" align="center"><p>0,0304</p></td>
<td valign="top" align="center"><p>0,1221</p></td>
<td valign="top" align="center"><p>0,0192</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>DRF_1</bold></p></td>
<td valign="top" align="center"><p>0,1751</p></td>
<td valign="top" align="center"><p>0,0307</p></td>
<td valign="top" align="center"><p>0,1270</p></td>
<td valign="top" align="center"><p>0,0192</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XRT_1</bold></p></td>
<td valign="top" align="center"><p>0,1753</p></td>
<td valign="top" align="center"><p>0,0307</p></td>
<td valign="top" align="center"><p>0,1257</p></td>
<td valign="top" align="center"><p>0,0193</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>DeepLearning_1</bold></p></td>
<td valign="top" align="center"><p>0,1758</p></td>
<td valign="top" align="center"><p>0,0309</p></td>
<td valign="top" align="center"><p>0,1279</p></td>
<td valign="top" align="center"><p>0,0193</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>GLM_1</bold></p></td>
<td valign="top" align="center"><p>0,1778</p></td>
<td valign="top" align="center"><p>0,0316</p></td>
<td valign="top" align="center"><p>0,1294</p></td>
<td valign="top" align="center"><p>0,0195</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_grid_1_model_1</bold></p></td>
<td valign="top" align="center"><p>0,1792</p></td>
<td valign="top" align="center"><p>0,0321</p></td>
<td valign="top" align="center"><p>0,1291</p></td>
<td valign="top" align="center"><p>0,0197</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_grid_1_model_3</bold></p></td>
<td valign="top" align="center"><p>0,1816</p></td>
<td valign="top" align="center"><p>0,0330</p></td>
<td valign="top" align="center"><p>0,1318</p></td>
<td valign="top" align="center"><p>0,0199</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_2</bold></p></td>
<td valign="top" align="center"><p>0,1824</p></td>
<td valign="top" align="center"><p>0,0333</p></td>
<td valign="top" align="center"><p>0,1329</p></td>
<td valign="top" align="center"><p>0,0201</p></td>
</tr>
<tr>
<td valign="top" align="left"><p><bold>XGBoost_1</bold></p></td>
<td valign="top" align="center"><p>0,1914</p></td>
<td valign="top" align="center"><p>0,0366</p></td>
<td valign="top" align="center"><p>0,1435</p></td>
<td valign="top" align="center"><p>0,0210</p></td>
</tr>
</tbody>
</table>
</table-wrap>
<p>La <xref ref-type="fig" rid="fig-3-7823">figura 3</xref> muestra la importancia relativa de las variables independientes utilizadas para explicar el precio de la vivienda en Madrid. La matriz se construye colocando por filas las variables independientes, y por columnas los diferentes modelos entrenados y ordenados seg&#x00FA;n su precisi&#x00F3;n. Atendiendo a los tonos, que van desde el azul con una importancia m&#x00ED;nima de 0 hasta el rojo con una importancia m&#x00E1;xima de 1, podemos constatar c&#x00F3;mo la variable m&#x00E1;s relevante es el precio mediano del metro cuadrado en el &#x00E1;rea de valor. Esto es, los precios observados en el trimestre T1 ejercen una gran influencia, como era previsible, en los precios de los inmuebles en el trimestre T2. Adem&#x00E1;s, este hecho se reproduce para la pr&#x00E1;ctica totalidad de los modelos. Las siguientes variables en importancia son la renta familiar disponible media de las secciones censales y el precio mediano del metro cuadrado en las secciones censales. En definitiva, el posicionamiento de estas 3 variables es un claro indicador de la relevancia que tiene la ubicaci&#x00F3;n en la explicaci&#x00F3;n de los precios inmobiliarios; tanto a nivel de secci&#x00F3;n censal como a nivel de la novedosa &#x00E1;rea de valor configurada en nuestra investigaci&#x00F3;n.</p>
<fig id="fig-3-7823">
<label><bold>FIGURA 3.</bold></label>
<caption><title><bold>IMPORTANCIA RELATIVA DE LAS VARIABLES PARA LOS DIFERENTES MODELOS DE <italic>MACHINE LEARNING</italic> ENTRENADOS</bold></title></caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="fig-3-7823.jpg"/>
</fig>
<p>Junto a estas variables, aparecen como especialmente relevantes la superficie del inmueble y el n&#x00FA;mero de planta (altura) en la que se ubica dentro del edificio. Esto es, una variable que informa directamente de una caracter&#x00ED;stica intr&#x00ED;nseca de la vivienda y otra que lo hace del edificio al que pertenece la vivienda.</p>
<p>El resto de variables presenta una importancia muy moderada, pr&#x00F3;xima en muchos casos a 0. Como vimos en la matriz de correlaciones, ello no supone que no est&#x00E9;n relacionadas con el precio. Pero su importancia se ve claramente minimizada cuando previamente se han incorporado las variables antes mencionadas, que son las que finalmente mayor porcentaje en la variabilidad de los precios explican.</p>
</sec>
<sec id="sec-5-7823">
<label><bold>5.</bold></label>
<title><bold>CONCLUSIONES</bold></title>
<p>La correcta valoraci&#x00F3;n de inmuebles, de forma individual o en conjunto, resulta un proceso clave en muchas decisiones de tipo corporativo y financiero. Se trata de un sector con alta regulaci&#x00F3;n, donde los agentes deben demostrar de forma peri&#x00F3;dica la precisi&#x00F3;n y calidad de sus procesos. Es por ello que las sociedades de tasaci&#x00F3;n dedican un esfuerzo importante en el dise&#x00F1;o e implementaci&#x00F3;n de modelos de valoraci&#x00F3;n focalizados en la acotaci&#x00F3;n de los errores de valoraci&#x00F3;n. En este sentido, la incorporaci&#x00F3;n de la inteligencia artificial en estos procesos viene marcada por el uso intensivo de datos, la eficiencia en tiempo y recursos necesarios para su desarrollo, y una acotaci&#x00F3;n significativa de los errores de predicci&#x00F3;n en comparaci&#x00F3;n con m&#x00E9;todos m&#x00E1;s tradicionales de valoraci&#x00F3;n.</p>
<p>Este trabajo pretende servir de muestra sobre c&#x00F3;mo algunas de las t&#x00E9;cnicas de machine learning ligadas a algoritmos de aprendizaje supervisado permiten implementar modelos de valoraci&#x00F3;n sobre amplias bases de datos, limitando de forma muy significativa los errores de predicci&#x00F3;n. Varios de estos modelos se han aplicado sobre una muestra de viviendas en la ciudad de Madrid, destacando entre ellos el modelo Gradient Boosting Machine. Adem&#x00E1;s, este modelo tambi&#x00E9;n permite identificar las variables m&#x00E1;s significativas desde un punto de vista de relevancia valorativa. Como destacan muchas de las referencias ligadas a este campo, la correcta modelizaci&#x00F3;n de algunas variables puede marcar una diferencia significativa en la capacidad de predicci&#x00F3;n de los modelos. Esto es, no es suficiente incorporar todas las variables que puedan explicar la variabilidad de los precios, sino que en ocasiones algunas de estas variables originales deben ser transformadas para facilitar el trabajo de los modelos de machine learning. En este caso, la variable &#x00E1;rea de valor vinculada a la ubicaci&#x00F3;n de las viviendas se constituye como la m&#x00E1;s relevante, por encima de la secci&#x00F3;n censal o la renta neta del hogar ligada a la propia secci&#x00F3;n censal.</p>
</sec>
<sec id="sec-6-7823">
<title><bold>FINANCIACI&#x00D3;N</bold></title>
<p>Esta investigaci&#x00F3;n no ha recibido financiaci&#x00F3;n externa.</p>
</sec>
</body>
<back>
<ack>
<title><bold>AGRADECIMIENTOS</bold></title>
<p>Los autores quieren agradecer expresamente el apoyo recibido por parte de Euroval y el Instituto de An&#x00E1;lisis Inmobiliario (INSTAI), que han facilitado los datos y el equipo inform&#x00E1;tico necesarios para poder desarrollar los modelos de valoraci&#x00F3;n inmobiliaria investigados en este trabajo.</p>
</ack>
<ref-list>
<title><bold>REFERENCIAS</bold></title>
<ref id="ref-1-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Abidoye</surname>, <given-names>R. B.</given-names></string-name>, <string-name><surname>Junge</surname>, <given-names>M.</given-names></string-name>, <string-name><surname>Lam</surname>, <given-names>T. Y.</given-names></string-name>, <string-name><surname>Oyedokun</surname>, <given-names>T. B.</given-names></string-name>, &#x0026; <string-name><surname>Tipping</surname>, <given-names>M. L.</given-names></string-name></person-group> (<year>2019</year>). <article-title>Property valuation methods in practice: evidence from Australia</article-title>. <source><italic>Property management</italic></source>, <volume>37</volume>(<issue>5</issue>), <fpage>701</fpage>&#x2013;<lpage>718</lpage>.</mixed-citation></ref>
<ref id="ref-2-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Ahn</surname>, <given-names>J. J.</given-names></string-name>, <string-name><surname>Byun</surname>, <given-names>H. W.</given-names></string-name>, <string-name><surname>Oh</surname>, <given-names>K. J.</given-names></string-name>, &#x0026; <string-name><surname>Kim</surname>, <given-names>T. Y.</given-names></string-name></person-group> (<year>2012</year>). <article-title>Using ridge regression with genetic algorithm to enhance real estate appraisal forecasting</article-title>. <source><italic>Expert Systems with Applications</italic></source>, <volume>39</volume>(<issue>9</issue>), <fpage>8369</fpage>&#x2013;<lpage>8379</lpage>.</mixed-citation></ref>
<ref id="ref-3-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Arribas</surname>, <given-names>I.</given-names></string-name>, <string-name><surname>Garc&#x00ED;a</surname>, <given-names>F.</given-names></string-name>, <string-name><surname>Guijarro</surname>, <given-names>F.</given-names></string-name>, <string-name><surname>Oliver</surname>, <given-names>J.</given-names></string-name>, &#x0026; <string-name><surname>Tamo&#x0161;i&#x016B;nien&#x0117;</surname>, <given-names>R.</given-names></string-name></person-group> (<year>2016</year>). <article-title>Mass appraisal of residential real estate using multilevel modelling</article-title>. <source><italic>International Journal of Strategic Property Management</italic></source>, <volume>20</volume>(<issue>1</issue>), <fpage>77</fpage>&#x2013;<lpage>87</lpage>.</mixed-citation></ref>
<ref id="ref-4-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Baldominos</surname>, <given-names>A.</given-names></string-name>, <string-name><surname>Blanco</surname>, <given-names>I.</given-names></string-name>, <string-name><surname>Moreno</surname>, <given-names>A. J.</given-names></string-name>, <string-name><surname>Iturrarte</surname>, <given-names>R.</given-names></string-name>, <string-name><surname>Bern&#x00E1;rdez</surname>, <given-names>&#x00D3;.</given-names></string-name>, &#x0026; <string-name><surname>Afonso</surname>, <given-names>C.</given-names></string-name></person-group> (<year>2018</year>). <article-title>Identifying real estate opportunities using machine learning</article-title>. <source><italic>Applied Sciences</italic></source>, <volume>8</volume>(<issue>11</issue>), <fpage>2321</fpage>.</mixed-citation></ref>
<ref id="ref-5-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Grover</surname>, <given-names>R.</given-names></string-name></person-group> (<year>2016</year>). <article-title>Mass valuations</article-title>. <source><italic>Journal of Property Investment &#x0026; Finance</italic></source>, <volume>34</volume>(<issue>2</issue>), <fpage>191</fpage>&#x2013;<lpage>204</lpage>.</mixed-citation></ref>
<ref id="ref-6-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Guijarro</surname>, <given-names>F.</given-names></string-name></person-group> (<year>2019</year>). <article-title>Assessing the impact of road traffic externalities on residential price values: A case study in Madrid, Spain</article-title>. <source><italic>International Journal of Environmental Research and Public Health</italic></source>, <volume>16</volume>(<issue>24</issue>), <fpage>5149</fpage>.</mixed-citation></ref>
<ref id="ref-7-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Guijarro</surname>, <given-names>F.</given-names></string-name></person-group> (<year>2021</year>). <article-title>A mean-variance optimization approach for residential real estate valuation</article-title>. <source><italic>Real Estate Management and Valuation</italic></source>, <volume>29</volume>(<issue>3</issue>), <fpage>13</fpage>&#x2013;<lpage>28</lpage>.</mixed-citation></ref>
<ref id="ref-8-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Hamid</surname>, <given-names>A.</given-names></string-name></person-group> (<year>2007</year>). <article-title>Combining geographic information systems and regression models to generate locational value residual surfaces in the assessment of residential property values</article-title>. <source><italic>Pacific Rim Property Research Journal</italic></source>, <volume>13</volume>(<issue>1</issue>), <fpage>35</fpage>&#x2013;<lpage>62</lpage>.</mixed-citation></ref>
<ref id="ref-9-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Ho</surname>, <given-names>W. K.</given-names></string-name>, <string-name><surname>Tang</surname>, <given-names>B. S.</given-names></string-name>, &#x0026; <string-name><surname>Wong</surname>, <given-names>S. W.</given-names></string-name></person-group> (<year>2021</year>). <article-title>Predicting property prices with machine learning algorithms</article-title>. <source><italic>Journal of Property Research</italic></source>, <volume>38</volume>(<issue>1</issue>), <fpage>48</fpage>&#x2013;<lpage>70</lpage>.</mixed-citation></ref>
<ref id="ref-10-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Kok</surname>, <given-names>N.</given-names></string-name>, <string-name><surname>Koponen</surname>, <given-names>E. L.</given-names></string-name>, &#x0026; <string-name><surname>Mart&#x00ED;nez-Barbosa</surname>, <given-names>C. A.</given-names></string-name></person-group> (<year>2017</year>). <article-title>Big data in real estate? From manual appraisal to automated valuation</article-title>. <source><italic>The Journal of Portfolio Management</italic></source>, <volume>43</volume>(<issue>6</issue>), <fpage>202</fpage>&#x2013;<lpage>211</lpage>.</mixed-citation></ref>
<ref id="ref-11-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Kontrimas</surname>, <given-names>V.</given-names></string-name>, &#x0026; <string-name><surname>Verikas</surname>, <given-names>A.</given-names></string-name></person-group> (<year>2011</year>). <article-title>The mass appraisal of the real estate by computational intelligence</article-title>. <source><italic>Applied Soft Computing</italic></source>, <volume>11</volume>(<issue>1</issue>), <fpage>443</fpage>&#x2013;<lpage>448</lpage>.</mixed-citation></ref>
<ref id="ref-12-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Kucklick</surname>, <given-names>J. P.</given-names></string-name>, &#x0026; <string-name><surname>M&#x00FC;ller</surname>, <given-names>O.</given-names></string-name></person-group> (<year>2020</year>). <article-title>Location, location, location: Satellite image-based real-estate appraisal</article-title>. <source>arXiv preprint</source> <comment>arXiv:2006.11406</comment>.</mixed-citation></ref>
<ref id="ref-13-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Lenk</surname>, <given-names>M. M.</given-names></string-name>, <string-name><surname>Worzala</surname>, <given-names>E. M.</given-names></string-name>, &#x0026; <string-name><surname>Silva</surname>, <given-names>A.</given-names></string-name></person-group> (<year>1997</year>). <article-title>High-tech valuation: should artificial neural networks bypass the human valuer?</article-title>. <source><italic>Journal of Property Valuation and Investment</italic></source>, <volume>15</volume>(<issue>1</issue>), <fpage>8</fpage>&#x2013;<lpage>26</lpage>.</mixed-citation></ref>
<ref id="ref-14-7823"><mixed-citation publication-type="book"><person-group person-group-type="author"><collab>Ministerio de Econom&#x00ED;a</collab></person-group> (<year>2003</year>). <chapter-title xml:lang="es">Orden ECO/805/2003, de 27 de marzo, sobre normas de valoraci&#x00F3;n de bienes inmuebles y de determinados derechos para ciertas finalidades financieras</chapter-title>. <publisher-loc>Madrid, Espa&#x00F1;a</publisher-loc>.</mixed-citation></ref>
<ref id="ref-15-7823"><mixed-citation publication-type="webpage"><person-group person-group-type="author"><collab>MSCI</collab></person-group> (<year>2022</year>). <article-title>Real Estate Market Size 2021/22</article-title>. <source>Annual update on the size of the professionally managed global real estate investment market</source>. <ext-link ext-link-type="uri" xlink:href="https://www.msci.com/www/research-report/real-estate-market-size-2021-22/03296053034">https://www.msci.com/www/research-report/real-estate-market-size-2021-22/03296053034</ext-link>. <date-in-citation content-type="access-date">Consultado el 02/01/2023</date-in-citation>.</mixed-citation></ref>
<ref id="ref-16-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Pagourtzi</surname>, <given-names>E.</given-names></string-name>, <string-name><surname>Assimakopoulos</surname>, <given-names>V.</given-names></string-name>, <string-name><surname>Hatzichristos</surname>, <given-names>T.</given-names></string-name>, &#x0026; <string-name><surname>French</surname>, <given-names>N.</given-names></string-name></person-group> (<year>2003</year>). <article-title>Real estate appraisal: a review of valuation methods</article-title>. <source><italic>Journal of Property Investment &#x0026; Finance</italic></source>, <volume>21</volume>(<issue>4</issue>), <fpage>383</fpage>&#x2013;<lpage>401</lpage>.</mixed-citation></ref>
<ref id="ref-17-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Pearson</surname>, <given-names>T. D.</given-names></string-name></person-group> (<year>1991</year>). <article-title>Location! Location! Location! What Is Location?</article-title>. <source><italic>The Appraisal Journal</italic></source>, <volume>59</volume>(<issue>1</issue>), <fpage>7</fpage>.</mixed-citation></ref>
<ref id="ref-18-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Selim</surname>, <given-names>H.</given-names></string-name></person-group> (<year>2009</year>). <article-title>Determinants of house prices in Turkey: Hedonic regression versus artificial neural network</article-title>. <source><italic>Expert systems with Applications</italic></source>, <volume>36</volume>(<issue>2</issue>), <fpage>2843</fpage>&#x2013;<lpage>2852</lpage>.</mixed-citation></ref>
<ref id="ref-19-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Simlai</surname>, <given-names>P.E.</given-names></string-name></person-group> (<year>2021</year>). <article-title>Predicting owner-occupied housing values using machine learning: An empirical investigation of California census tracts data</article-title>. <source><italic>Journal of Property Research</italic></source>, <volume>38</volume>(<issue>4</issue>), <fpage>305</fpage>&#x2013;<lpage>336</lpage>.</mixed-citation></ref>
<ref id="ref-20-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Sing</surname>, <given-names>T. F.</given-names></string-name>, <string-name><surname>Yang</surname>, <given-names>J. J.</given-names></string-name>, &#x0026; <string-name><surname>Yu</surname>, <given-names>S. M.</given-names></string-name></person-group> (<year>2022</year>). <article-title>Boosted tree ensembles for artificial intelligence based automated valuation models (AI-AVM)</article-title>. <source><italic>The Journal of Real Estate Finance and Economics</italic></source>, <volume>65</volume>(<issue>4</issue>), <fpage>649</fpage>&#x2013;<lpage>674</lpage>.</mixed-citation></ref>
<ref id="ref-21-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Steurer</surname>, <given-names>M.</given-names></string-name>, <string-name><surname>Hill</surname>, <given-names>R. J.</given-names></string-name>, &#x0026; <string-name><surname>Pfeifer</surname>, <given-names>N.</given-names></string-name></person-group> (<year>2021</year>). <article-title>Metrics for evaluating the performance of machine learning based automated valuation models</article-title>. <source><italic>Journal of Property Research</italic></source>, <volume>38</volume>(<issue>2</issue>), <fpage>99</fpage>&#x2013;<lpage>129</lpage>.</mixed-citation></ref>
<ref id="ref-22-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Tchuente</surname>, <given-names>D.</given-names></string-name>, &#x0026; <string-name><surname>Nyawa</surname>, <given-names>S.</given-names></string-name></person-group> (<year>2022</year>). <article-title>Real estate price estimation in French cities using geocoding and machine learning</article-title>. <source><italic>Annals of Operations Research</italic></source>, <volume>308</volume>(<issue>1</issue>), <fpage>571</fpage>&#x2013;<lpage>608</lpage>.</mixed-citation></ref>
<ref id="ref-23-7823"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Valier</surname>, <given-names>A.</given-names></string-name></person-group> (<year>2020</year>). <article-title>Who performs better? AVMs vs hedonic models</article-title>. <source><italic>Journal of Property Investment &#x0026; Finance</italic></source>, <volume>38</volume>(<issue>3</issue>), <fpage>213</fpage>&#x2013;<lpage>225</lpage>.</mixed-citation></ref>
<ref id="ref-24-7823"><mixed-citation publication-type="journal"><person-group person-group-type="allauthors"><string-name><surname>Wang</surname>, <given-names>D.</given-names></string-name>, &#x0026; <string-name><surname>Li</surname>, <given-names>V. J.</given-names></string-name></person-group> (<year>2019</year>). <article-title>Mass appraisal models of real estate in the 21st century: A systematic literature review</article-title>. <source><italic>Sustainability</italic></source>, <volume>11</volume>(<issue>24</issue>), <fpage>7006</fpage>.</mixed-citation></ref>
</ref-list>
</back>
</article>
