Gridding of station observations by means of hybrid interpolation

  • Gridded maps of meteorological variables are needed for the evaluation of weather and climate models and for climate change monitoring. In order to produce them, values at locations where no observing stations are available need to be estimated from point-wise observations. For the interpolation of meteorological observations deterministic and stochastic methods are often combined. Deterministic methods can account for ancillary information such as elevation, continentality or satellite observations. Stochastic methods such as kriging reproduce observed values at the station locations and also account for spatial variability. In the first two studies of this thesis, a flexible interpolation method for the gridding of locally observed daily extreme temperatures is developed that also provides an optimal estimate of the interpolation ncertainty. In the third study, an observational dataset is created using this interpolation method and then applied to evaluate a climate simulation for Africa. In the first study, the Regression-Kriging-Kriging (RKK) method is tested for the interpolation of daily minimum and maximum temperatures (Tmin and Tmax) in different regions in Europe. RKK accounts for elevation, continentality index and zonal mean temperature and is applicable in regions of differing station density and climate. The accuracy of RKK is compared to Inverse Distance Weighting, a common deterministic interpolation method, and to Ordinary Kriging, a common stochastic interpolation method. The first step in RKK is to use regression kriging, in which multiple linear regression accounts for topographical effects on the temperature field and kriging minimizes the regression error, to interpolate climatological means. In the second step daily deviations from the monthly climatology are interpolated using simple kriging. Owing to the large climatological differences across the investigation area the interpolation is performed in homogeneous subregions defined according to the Köppen-Geiger climate classification. Cross validation demonstrates the superiority of RKK over the simpler algorithms in terms of accuracy and preservation of spatial variability. The interpolation performance however strongly varies across Europe, being considerably higher over Central Europe (highest station density) than over Greenland (few stations along the coast line). This illustrates the strong impact of the station density on the accuracy of the interpolation result. Satellites provide comprehensive observations of climate variables such as land surface temperature (LST) and cloud cover (CC). However, LST is associated with high uncertainty (standard error ~ 1-2°C), preventing its direct application in meteorology and climatology. The second study investigates the usefulness of LST and CC as predictors for the gridding of daily Tmin and Tmax. The RKK algorithm is compared with similar interpolation methods that apply LST and CC in addition to the predictors used with the RKK algorithm. The investigation is conducted in two regions, Central Europe and the Iberian Peninsula, which differ strongly in average cloud cover (Central Europe is approximately 30% cloud free and the Iberian Peninsula approximately 60 % cloud free). RKKLST (in which monthly mean LST is used as an additional predictor) yields for Central Europe no clear improvement over RKK, yet it reduces the interpolation error over the Iberian Peninsula. This finding can be explained by the higher percentage of cloud free pixels over that region in summer which enables a more robust determination of monthly mean LST. Adding a regression step for daily anomalies (using the predictor CC) yields the RKRK method and improves the preservation of spatial variability over the Iberian Peninsula. Moreover, a successive reduction of the station number (from 140 to 10 stations) reveals an increasing superiority of RKKLST and RKRK over RKK in both regions. The application of a gridded observational dataset for climate monitoring or climate model validation requires knowledge of the uncertainties associated with the dataset. The estimation of the interpolation uncertainty, here the inter quartile range is the used uncertainty measure, is therefore an important issue within the frame of this thesis. By means of cross validation it is shown that the largest uncertainties occur in regions of low station density (e.g. Greenland), in mountainous regions and along coastlines (in these regions model evaluation results should be interpreted carefully). The magnitude of the interpolation error mainly depends on the station density, while the complexity of terrain has substantially less influence. On average over all regions and investigation days the target precision of the uncertainty estimate is reached. However, on local scales and for single days it can be clearly over- or underestimated. The application of satellite-derived predictors (LST and CC) yields no noteworthy improvement of the uncertainty estimate. In the last study two regional climate simulations for Africa using the ERA-Interim driven COSMO-CLM (CCLM) model at two different horizontal resolutions (0.22° and 0.44°) are validated. It is assessed whether observed patterns and statistical properties of daily Tmin and Tmax are correctly represented in the model. The ERA-Interim reanalysis and a specially created observational dataset are used as reference. The observational dataset is generated by applying the RKRK algorithm (developed within the second study). The investigations show an occasionally large bias in Tmin and Tmax. The hemispheric summers are generally too warm and the temporal variability in temperature is too high, particularly over extra tropical Africa. The diurnal temperature range is overestimated by about 2°C in the northern subtropics but underestimated by about 2°C over large parts of the African tropics. CCLM reproduces the observed frequency distribution of daily Tmin and Tmax in all African climate regions, and the extreme values in the lower percentiles (5, 10, 20%) for Tmin are well simulated. The higher percentiles (80, 90, 95%) for Tmax are however overestimated by 2-5°C. For both Tmin and Tmax the 0.22° simulation is on average 0.5°C warmer than the 0.44° simulation. Additionally, the higher percentiles are about 1°C warmer for both Tmin and Tmax in the higher resolution run, while the lower percentiles in both runs match very well. Although the temperature pattern is represented in more detail along the coastlines and in topographically complex regions, the higher resolution simulation yields no qualitative improvement. To summarize, the choice of the appropriate algorithm mainly depends on the interpolation conditions. In cases where the station density is high across the target region and the predictor space is adequately covered by observing stations, the computationally less demanding RK algorithm should be preferred. In regions where the station density is low the more robust RKRK algorithm should be the first choice. Due to the strong physical relation of both CC and LST to Tmin and Tmax the missing information is at least partially compensated for. The estimation of the interpolation uncertainty could be improved by applying a normal score transformation to the data prior to a kriging step. This is because the kriging assumption that the increments of the variable of interest are second order stationary can be approximately met by a normal score transformation.
  • Rasterkarten meteorologischer Variablen sind in der Meteorologie und Klimatologie von großer Bedeutung. Einerseits werden sie zur Evaluation von Wetter- und Klimamodellen benötigt, andererseits werden sie zur Überwachung des Klimas verwendet. Zu diesem Zweck müssen aus punktuell gemessenen Werten Schätzungen für die nicht beprobten Flächen berechnet werden. Für die Interpolation von meteorologischen Variablen werden oftmals stochastische und deterministische Methoden miteinander kombiniert. Stochastische Methoden (z.B. Kriging) reproduzieren beobachtete Werte an den Messpunkten und übertragen deren Werte unter Berücksichtigung der räumlichen Variabilität auf die gesamte Fläche. Deterministische Methoden berücksichtigen z.B. Hilfsvariablen wie Höhe, Kontinentalitätsindex oder Satellitendaten bei der Interpolation. Das Ziel der vorliegenden Arbeit ist es, zunächst eine flexible Interpolationsmethode für die Rasterung punktuell gemessener täglicher Temperaturextrema zu entwickeln, welche eine optimale Angabe des Vertrauensintervalls der interpolierten Werte ermöglicht. Anschließend soll mit Hilfe dieser Interpolationsmethode ein Beobachtungsdatensatz erstellt und für die Evaluation eines Klimamodells eingesetzt werden. In einer ersten Studie wird der Regressions-Kriging-Kriging (RKK) Algorithmus zur Interpolation täglicher Minimum- und Maximum- Temperaturen (Tmin und Tmax) in verschiedenen Regionen Europas getestet. RKK berücksichtigt Höhe, Kontinentalitätsindex sowie zonale Mitteltemperatur und ist flexibel in Regionen unterschiedlicher Stationsdichte und unterschiedlichen Klimas einsetzbar. RKK wird mit Inverse Distance Weighting, einer gängigen deterministischen Interpolationsmethode, sowie Ordinary Kriging, einer gängigen stochastischen Interpolationsmethode, verglichen. Bei RKK wird zunächst Regressions-Kriging zur Interpolation von Klimawerten verwendet, wobei die Beeinflussung des Temperaturfeldes durch Geländeeigenschaften mit Hilfe multipler linearer Regression berücksichtigt wird. Anschließend werden tägliche Abweichungen zur Klimatologie mittels Simple Kriging interpoliert. Aufgrund der großen klimatischen Unterschiede innerhalb des Untersuchungsgebietes erfolgt die Interpolation in homogenen Subregionen, deren Einteilung an die Köppen-Geiger Klimazonenklassifikation angelehnt ist. Kreuzvalidierung verdeutlicht die Überlegenheit von RKK gegenüber den beiden übrigen Interpolationsmethoden bezüglich Genauigkeit (RMSE) und Varianzerhaltung. Die Qualität der Interpolation ist räumlich sehr unterschiedlich. So liefert die Interpolation über der Region Mitteleuropa (wo die Stationsdichte am höchsten ist) deutlich bessere Resultate als über der Region Grönland (wo nur einzelne Stationen entlang der Küste vorhanden sind). Dies verdeutlicht den starken Einfluss der Stationsdichte auf die Qualität des Interpolationsprodukts. Satelliten ermöglichen eine flächendeckende Beobachtung von Klimavariablen wie der Erdoberflächentemperatur (LST) und der Wolkenbedeckung (CC). LST Messungen sind mit erheblichen Unsicherheiten behaftet (Standardfehler ~ 1-2°C), weshalb eine direkte Anwendung in Meteorologie und Klimatologie nicht sinnvoll ist. In einer weiteren Studie wird daher der Frage nachgegangen, ob der Einsatz von LST bzw. CC als Prädiktoren in Regionen geringer Stationsdichte zu einer Verbesserung des Interpolationsprodukts führt. Um dies zu untersuchen wird der RKK Algorithmus mit ähnlichen Algorithmen verglichen, welche zudem LST bzw. CC als Prädiktoren verwenden. Die Untersuchung wird für zwei Regionen (Mitteleuropa und Iberische Halbinsel) durchgeführt, welche sich insbesondere in der durchschnittlichen Wolkenbedeckung unterscheiden (Mitteleuropa rund 30% und Iberische Halbinsel rund 60% wolkenfrei). Der RKKLST Algorithmus (verwendet monatlich gemittelte LST als zusätzlichen Prädiktor) erzielt für Mitteleuropa zwar keine nennenswerte Verbesserung des Produkts, verzeichnet allerdings über der Iberischen Halbinsel vor allem im Juli einen geringeren Interpolationsfehler als RKK. Dies liegt an der höheren Prozentzahl wolkenfreier Pixel (ca. 60%) während der Sommermonate über der Iberischen Halbinsel, die Regressionsschrittes für tägliche Anomalien (RKRK), wobei CC als Prädiktor dient, führt insbesondere über der Iberischen Halbinsel zu einer Verbesserung der Varianzerhaltung. Darüber hinaus zeigt eine sukzessive Verringerung der Stationszahl (von 140 auf 10 Stationen) über beiden Testregionen eine zunehmende Überlegenheit von RKKLST und RKRK gegenüber RKK. Wird ein Beobachtungsdatensatz zur Überwachung des Klimas oder zur Evaluation eines Klimamodells angewendet, ist es entscheidend, dessen Unsicherheiten zu kennen. Ein großes Augenmerk dieser Arbeit liegt daher auf der Abschätzung der Interpolationsunsicherheit, wobei der Interquartilbereich als Fehlermass verwendet wird. Mittels Kreuzvalidierung kann gezeigt werden, dass sowohl in Regionen geringer Stationsdichte (z.B. Grönland) wie auch über dem Gebirge und entlang der Küste die größten Interpolationsfehler auftreten (hier sollten z.B. Modellevaluationsergebnisse vorsichtig interpretiert werden). Die Größe der von den Algorithmen erzeugten Fehlerintervalle wird hauptsächlich von der Stationsdichte beeinflusst, während die Topographie einen deutlich geringen Einfluss hat. Zwar wird die Zielgenauigkeit der Fehlerintervalle im Mittel über alle Stationen und Untersuchungstage für sämtliche Algorithmen näherungsweise erreicht, jedoch wird das Fehlerintervall lokal beziehungsweise an Einzeltagen zum Teil beträchtlich überbzw. unterschätzt. Die Verwendung satellitengestützter Prädiktoren (LST und CC) führt zu keiner nennenswerten Verbesserung der Fehlerintervalle. In einer letzten Studie werden zwei regionale Klimasimulationen des an den lateralen Grenzen durch ERA-Interim Reanalysedaten angetriebenen COSMO-CLM (CCLM) Modells unterschiedlicher horizontaler Auflösung (0.22° und 0.44°) für Afrika evaluiert. Es wird geprüft, ob beobachtete Muster, sowie statistische Eigenschaften täglicher Tmin und Tmax Werte adäquat reproduziert werden. Als Referenz dienen dabei die ERA-Interim Reanalyse und ein eigens hierfür erstellter Beobachtungsdatensatz. Der Beobachtungsdatensatz wird mit Hilfe des in der zweiten Studie entwickelten RKRK Algorithmus erstellt. Die Untersuchungen zeigen einen teils erheblichen Bias zwischen Modell und Beobachtungen. Die hemisphärischen Sommer sind im CCLM generell zu warm und die zeitliche Variabilität der Temperatur ist insbesondere über den außertropischen Gebieten zu hoch. Der tägliche Temperaturbereich wird vom Modell über den nördlichen Subtropen um ca. 2°C unterschätzt, über weiten Teilen der Tropen hingegen um rund 2°C überschätzt. CCLM reproduziert beobachtete Häufigkeitsverteilungen täglicher Tmin und Tmax Werte in allen afrikanischen Klimaregionen gut. Die Extremwerte in den unteren Perzentilen (5, 10, 20%) für Tmin werden ausgezeichnet simuliert, die oberen Perzentile (80, 90, 95%) für Tmax werden allerdings um 2-5°C überschätzt. Die 0.22° Skala des CCLM Modells ist im Mittel für Tmin und Tmax um rund 0.5°C wärmer als die 0.44° Skala. Auch die oberen Perzentile sind auf der 0.22° Skala um jeweils ca. 1°C wärmer, während die unteren Perzentile beider Skalen gut übereinstimmen. Zwar werden die Temperaturfelder auf der 0.22° Skala entlang der Küste und über topographisch komplexen Regionen detaillierter dargestellt, allerdings kann durch die Anwendung der höher auflösenden Simulation keine qualitative Verbesserung festgestellt werden. Zusammenfassend kann gesagt werden, dass die Wahl des geeigneten Algorithmus primär von den Interpolationsbedingungen abhängt. Ist die Stationsdichte über der Zielregion hoch und der Merkmalsraum adäquat abgedeckt, sollte der weniger rechenaufwendige RK Algorithmus verwendet werden. In Regionen geringer Stationsdichte ist der robustere RKRK Algorithmus vorzuziehen. Dank der physikalischen Beziehung zwischen LST bzw. CC und Tmin und Tmax wird zumindest ein Teil der fehlenden Information kompensiert. Die normal score Transformation der Daten vor jedem Kriging-Schritt führte zu einer verbesserten Abschätzung der Interpolationsunsicherheit.

Download full text files

  • Thesis.pdf

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Author:Stefan Krähenmann
Referee:Bodo AhrensORCiDGND, Franz Rubel
Document Type:Doctoral Thesis
Date of Publication (online):2014/05/05
Year of first Publication:2013
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2013/07/11
Release Date:2014/05/05
Page Number:161
First Page:1
Last Page:161
Diese Dissertation steht außerhalb der Universitätsbibliothek leider (aus urheberrechtlichen Gründen) nicht im Volltext zur Verfügung, die CD-ROM kann (auch über Fernleihe) bei der UB Frankfurt am Main ausgeliehen werden.
Institutes:Geowissenschaften / Geographie / Geowissenschaften
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 55 Geowissenschaften, Geologie / 550 Geowissenschaften
Licence (German):License LogoArchivex. zur Lesesaalplatznutzung § 52b UrhG