Daha çox

QGIS-də çoxbucaqlı üst-üstə düşən sahələr necə aradan qaldırılır?

QGIS-də çoxbucaqlı üst-üstə düşən sahələr necə aradan qaldırılır?


QGIS istifadə edərək eyni təbəqədəki çoxbucaqlı üst-üstə düşmələri, tercihen ən böyük poliqonun üst-üstə düşmə sahəsini (ən böyük səthə sahib olan) çıxarmaq üçün bir yol varmı?

Bütün çoxbucaqlılarım eyni qatdadır və bu əməliyyatı əl ilə düzəltməkdənsə, bütün təbəqədə bir anda etmək istərdim.


İstifadə edə bilərsənŞerit poliqonlarını aradan qaldırınaşağıda gördüyünüz kimi kiçik poliqonları aradan qaldırmaq üçün bir vasitədir:

Çoxbucaqlıları aradan qaldırmaq üçün iki seçiminiz var:

  1. Sahə: çoxbucaqlıların, çoxbucaqlıların içərisində yerləşdikləri təqdirdə ləğv ediləcəyi sahəyə əsasən çoxbucaqlıları aradan qaldırın
  2. Ümumi sərhəd: iki çoxbucaqlı arasında ümumi bir sərhəd varsa, onlar aradan qaldırılacaqdır.

Sizin vəziyyətinizdə, aradan qaldırılmaq üçün daha kiçik poliqonlara ehtiyacınız olduğundan, seçim 1'in sizin üçün ən yaxşısı olduğunu düşünürəm.

Şerit poliqonlarını aradan qaldırmaq vasitəsini tapa bilərsinizVektor -> Geoprosessinq alətləri -> Şerit poliqonlarını aradan qaldırın


Bunu ilə edə bilərsiniz Vektor -> Geoprosessinq Vasitələri -> Fərq Menyu Mar.

Avropanın yaxınlığında iki özbaşına şəkillər üst-üstə düşdü:

Fərq alət pəncərəsi, giriş vektor qatının yerləşdiyi yer böyük_polygon və fərq təbəqəsidir kiçik_polygon.

Nəticədə fərq çoxbucaqlıdır:


Hansı poliqonun üst-üstə düşən hissəni ölçüyə görə ala biləcəyini seçə bilməzsiniz, ancaq bunun xaricində axtardığınızı etməlisiniz: / a / 381790/107424


Süni quş yırtıcısına davranış reaksiyası təbii populyasiyaların enliyi və yırtıcılıq intensivliyinə görə dəyişir

Ekoloji qarşılıqlı əlaqələrin intensivliyinin ümumiyyətlə aşağı enliklərdə artması gözlənilir ki, bu da geniş məkan miqyasında yırtıcı davranışı formalaşdırmaq potensialını təklif edir. Yenə də heyvan davranışının əksər taksonomik qruplar üçün əsas ətraf mühit gradiyentlərində necə dəyişdiyini nisbətən məhdud bir anlayış var. Bu işdə diri balığın davranış reaksiyasını araşdırdım, Qambusiya holbrooki, simulyasiya edilmiş bir quş yırtıcısına. Balıq, 15 ° enlem boyunca yayılmış 17 populyasiyadan qaynaqlanır. Bu enli genişlikdə, bənzərsiz quşların zənginliyi əhəmiyyətli dərəcədə dəyişdi. İddia olunan yırtıcı təzyiqə uyğun olaraq, antipredator reaksiyaları, daha çox nəticə çıxarılan yırtıcı təzyiqə sahib bölgələrdə daha çox idi. Yırtıcı zənginlik və enlik, tədqiqat bölgəsi boyunca əhəmiyyətli dərəcədə dəyişdi və bu, potensial əlaqəli ölçülməmiş dəyişənlər də daxil olmaqla davranışçı təkamülün sürücülərini daha da ayırmaq lazım olduğunu göstərir. Buna baxmayaraq, bu tədqiqat geniş bir məkan miqyasında (2000+ km) heyvan davranışının formalaşmasında ətraf mühitin dəyişməsinin vacibliyini nümayiş etdirir ki, bu da xəstəlik ötürülməsi və işğal dinamikası kimi bir sıra ekoloji proseslərin anlaşılması üçün vacib ola bilər.

Bu abunə məzmununun önizləməsidir, təşkilatınız vasitəsilə giriş.


2.1 GSFLOW

GSFLOW, PRMS və MODFLOW-dan dəyişdirilmiş model kodları istifadə edərək su hövzəsində yeraltı su axınına qədər məkan paylanmış səthi simulyasiya edir. Bir neçə kvadrat kilometrdən bir neçə min kvadrat kilometrə qədər olan su hövzələrinin simulyasiyaları üçün nəzərdə tutulmuşdur (Markstrom et al., 2008). GSFLOW bağımsız PRMS-IV modeli və müstəqil MODFLOW modelinə bərabər rejimlərdə işləyə bilsə də, burada yalnız "inteqrasiya olunmuş" versiya təsvir olunur. Evapotranspirasiya, infiltrasiya, axıntı və axın daxil olmaqla dayaz torpaq zonasında yerüstü su hövzəsi prosesləri GSFLOW-un PRMS alt komponenti ilə təmsil olunur. Daha dərin doymamış zonada şaquli torpaq suyu hərəkəti və üfüqi sulu təbəqələrdən doymuş axın daxil olmaqla “torpaq zonası” ndan aşağıda yeraltı su axını MODFLOW alt komponenti ilə təmsil olunur. Axınlar və yeraltı su sistemləri arasında axın və mübadilə də MODFLOW alt komponenti ilə təmsil olunur. GSFLOW-un əsas xüsusiyyətlərini burada tətbiq etmək və nəticələrini şərh etmək üçün yeni istifadəçilərə rəhbərlik etmək üçün izah edirik Markstrom et al. (2008) modelin tam təfərrüatlarını sənədləşdirin.

Şəkil 1GSFLOW-GRASS həndəsəsinin əsas xüsusiyyətləri. (a) Hər seqment şəbəkədəki bir linkdir. Hər bir qovşaqda iki qol seqmenti birləşərək vahid bir seqmentə axır. Hər biri nömrələnib. Göstərildiyi kimi hər hansı bir qaydada olmalı deyillər, lakin eyni seqment zamanı hesablanacaq bütün seqmentlərə yenilənmiş daxilolmalar üçün aşağıya doğru artan nömrələmə sxemi tələb olunur. (b) Subbasin HRU-lərin hər birindəki axın birbaşa müvafiq axın seqmentinə yönəldilir. Sol üst tərəfdəki ox, nümayəndəli qol qovşağının xaricindən axının da drenaj şəbəkəsinin bir hissəsi ola biləcəyini göstərir. HRU'ları müəyyənləşdirməyə topoloji yanaşmamız, HRU'ları əhatə etdikləri axın seqmentləri ilə eyni sayda göstərməyə imkan verir. Kodumuz gələcək inkişafların bu simmetriyanı rahatlaşdıra biləcəyi şəkildə yazılmışdır. (c) MODFLOW, PRMS əsaslı axın şəbəkəsinin əsasını tutan bir şəbəkə üzərində işləyir və hər hüceyrənin ardıcıl nömrələnmiş unikal bir identifikatoru var. (d) “Ağırlıq rezervuarı” PRMS HRU ilə MODFLOW şəbəkəsinin kəsişməsi ilə müəyyən edilir. "Çatışmalar" hər bir PRMS axın seqmentinin tək bir MODFLOW ızgara hücrəsində yerləşdiyi və göstərildiyi kimi ardıcıl olaraq aşağı axarda nömrələnmiş hissəsi kimi müəyyən edilir.

2.1.1 Domain diskretizasiyası

GSFLOW, hesablama vahidlərini yaratmaq üçün hibrid bir məkan domeni diskretizasiyası yanaşmasını (Şəkil 1) qəbul edir. Axın seqmentləri, həm PRS-də, həm də GSFLOW-un MODFLOW alt komponentlərində istifadə olunan çay şəbəkəsindəki əlaqələrdir (şəkil 1a). Üfüqi olaraq, PRMS alt komponenti əsas diskretləşdirilmiş vahidi olaraq istənilən formalı hidroloji cavab vahidlərindən (HRU) istifadə edir (şəkil 1b). Bunlar yuxarı torpaq zonasının və səthin axın şəbəkəsi ilə örtülməyən hissəsinin hesablanması üçün istifadə olunur. MODFLOW alt komponenti daha dərin yeraltı səth üçün düzbucaqlı qəfəs hüceyrələrindən istifadə edir (şəkil 1c) və axın şəbəkəsini çatışmazlıqlara daha da ayırmaq üçün (şəkil 1d). Seqmentlər əvəzinə axın şəbəkəsi üçün əsas hesablama vahidi olaraq qurulması, yeraltı sular və səth mübadilələrinin incə məkan həllinə imkan verir. MODFLOW ızgara hüceyrələri kimi, HRU'lar da düzbucaqlılara düzəldilə bilər (Gardner və digərləri, 2018), eyni zamanda yanaşmalarda olduğu kimi subbasinlərə uyğun topoloji olaraq təyin olunurlar (şəkil 1). Ümumiyyətlə, ızgara domenlərinin qurulması və paralelləşdirilmiş hesablama sistemlərinə asanlıqla yayılması daha asandır və torpaq və torpaq örtüyü heterojenliyinin çevik məkan spesifikasiyasına imkan verir. Bunun əksinə olaraq, tRIBS (Vivoni et al., 2004) və PIHM (Qu və Duffy, 2007) daxil olmaqla modellərdə istifadə olunan üçbucaqlı düzensiz şəbəkələr (TIN) kimi qeyri-müəyyən sahələr kompleks əraziyə daha təsirli şəkildə uyğunlaşa bilər. PIHM (Qu və Duffy, 2007) vəziyyətində, VÖENlər daha çox su tarazlığı performansı üçün kütlə qoruyan sonlu həcm metodu (LeVeque, 2002) vasitəsi ilə də tətbiq edilmiş, iç içə VÖENlər daha yüksək qətnamə istənildikdə səmərəli həllər təmin edə bilər. müəyyən hədəf sahələri (Wang et al., 2018). Qeyri-müəyyən domenlərə sahib olan digər hidroloji modellərdə SWAT (Arnold və Fohrer, 2005), SAC-SMA (Ajami və digərləri, 2004), HEC-HMS (Feldman, 2000) və TOPNET (Bandaragoda) daxil olmaqla səmərəli hesablama vahidi kimi topoqrafik olaraq müəyyən edilmiş alt qablar istifadə olunur. və s., 2004).

Şəkil 2GSFLOW-un PRMS komponentindəki torpaq-su anbarları. Hər HRU daxilində, suyun artırılması qaydasında və istifadəçinin müəyyən etdiyi parametrlərə əsasən üç konseptual su anbarı üçün torpaq-su uçotu hesablamaları aparılır. İqlim məcburiyyəti kapilyar rezervuara tətbiq olunur, ağırlıq rezervuarı GSFLOW-un MODFLOW komponenti ilə təmsil olunan daha dərin doymamış və doymuş zonalarla su mübadiləsi aparır və imtiyazlı axın anbarında Dunnian axını və sürətli interflow meydana gəlir. (Markstrom et al., 2008)

Şaquli olaraq, GSFLOW-un PRMS alt komponenti, torpaq sütunu içərisindəki fiziki yerlərə birbaşa uyğun gəlməyən, əksinə istifadəçi tərəfindən göstərilən konseptual hədlərə əsaslanan konseptual dayaz torpaq zonası su anbarlarına ayrılır. Konkret olaraq, HRU çərçivəsində torpaq zonası üç su anbarı növünə bölünür - kapilyar su anbarı, ağırlıq rezervuarı və güzəştli axın anbarı, səmərəli su mühasibat hesablamalarından istifadə edərək suyun yığılmasını artırmaq üçün doldurulur (Bölmə 2.1.2) (Şəkil 2). PRMS torpaq zonasının altında daha dərin doymamış zonanı və doymuş zonanı təmsil edən MODFLOW ızgara hüceyrələri dayanır. Şəbəkə hüceyrələri vahid üfüqi diskretizasiyaya sahib olsa da, müxtəlif hidrostratiqrafiyanı yerləşdirmək üçün şaquli qat qalınlığı dəyişkən ola bilər. PRMS və MODFLOW şəbəkələrini bir-birinə bağlamaq üçün istifadəçi bir HRU ilə bir grid hüceyrəsinin hər fərqli kəsişməsində çəkisi rezervuarlarını təyin etməlidir (şəkil 1d). GSFLOW-un MODFLOW komponenti də istifadəçinin təyin etdiyi bir axın şəbəkə axını seqmentlərini qolları təmsil edir və bir axın seqmentinin MODFLOW ızgara hüceyrələri ilə kəsişməsi axının çatmasını təyin edir (Şəkil 1a, d).

GSFLOW həm PRMS komponenti həm də MODFLOW komponenti üçün gündəlik hesablama vaxtı addımından istifadə edir. Axınlar hər bir addımda hər bir komponent arasında dəyişdirilir. Simulyasiya dövrü ərzində müxtəlif yeraltı sərhəd şərtlərini təmsil etmək üçün birdən çox MODFLOW “stres dövrü” çağırıla bilər, lakin uzunluqları tam gün olmalıdır.

2.1.2 Proses təsviri

Bu hissəyə Cədvəl 1-də verilmiş seçilmiş parametrlərlə GSFLOW-da təmsil olunan əsas hidroloji proseslərin qısa təsviri daxildir. Tam təfərrüatlar GSFLOW təlimatında tapıla bilər (Markstrom və digərləri, 2008). Xüsusilə, Markstrom və s. (2008) PRMS modulları tərəfindən tutulan bütün yerüstü su proseslərini, MODFLOW stres paketləri tərəfindən tutulan yeraltı su proseslərini və GSFLOW tərəfindən tutulan model birləşmə prosedurlarını ümumiləşdirir.

Cədvəl 1GSFLOW parametrlərini seçin (Markstrom et al., 2008).

GSFLOW-un PRMS komponenti, ümumi mövcud iqlim məlumatlarını model simulyasiyaları üçün lazım olan tam məcburi girişlərə çevirə bilən modulları ehtiva edir. Bunlara potensial günəş radiasiyasının, potensial evapotranspirasiyanın və qar yığılması və ya tükənməsinin təyini üçün metodlar daxildir, bunlara bir və ya bir neçə müşahidə nöqtəsindən məlumatların bütün su hövzəsi boyunca məkan üzrə paylanması üçün fərqli alqoritmlər daxildir.

Doymamış zona axını üçün PRMS Richards tənliyini tətbiq etmir, əksinə hər HRU üçün giriş və çıxışları təyin etmək üçün HRU daxilində üç konseptual su anbarı növü arasında mübadilə (GSFLOW təlimatı, Şəkil 19) hesablama baxımından sürətli torpaq-su marşrut hesablamalarını tətbiq edir. , Cədvəl 9). “Kapilyar zona” rezervuarı infiltrasiya yolu ilə qəbul etdiyi kapilyar qüvvələr tərəfindən tutulan suyu təmsil edir (parametrə əsasən) pref_flow_den) və buxarlanma və transpirasiya yolu ilə suyu itirir (parametrlərə əsasən) torpaq_moist_max, torpaq_rechr_maxtorpaq_tipi). Sahə tutumuna çatdıqdan sonra (parametr torpaq_moist_max), suyun kapilyar zonadan “cazibə su anbarlarına” köçürülməsi, suyun yavaş ara axın kimi üfüqi aça biləcəyi (parametrlərə əsasən) yavaş_sef_linslowcoef_sq) və ya MODFLOW (parametrlərə əsaslanaraq) tərəfindən idarə olunan daha dərin yeraltı sahəyə şaquli olaraq boşaldın ssr2gw_rate, ssr2gw_expssrmax_coef). Gravitasiya anbarları, hidravlik başlıq dəyərləri torpaq zonasının alt həddini aşdıqda MODFLOW komponentindən yeraltı su axıdılması da ala bilər. Ağırlıq rezervuarı anbarının bir hissəsi “güzəştli axın anbarı” na keçir (parametrlərə əsasən) pref_flow_densat_threshold), sürətli interflowın baş verdiyi (parametrlərə əsasən) fastcoef_linfastcoef_sq). Güzəştli axın anbarı dolduqda (parametrə əsasən) sat_threshold), sonra su torpaq zonasından Dunnian (doyma artıqlığı) axını kimi çıxır. Hortonian (infiltrasiya artıqlığı) axın hesablamaları HRU-lərin keçirilməz fraksiyaları üçün tətbiq olunur (parametr ilə təyin olunur) hru_percent_imperv). Səth axını və interflow, əlaqəli HRU'ların istifadəçi tərəfindən göstərilən indeksləşdirilməsini izləyən və nəticədə axın şəbəkəsinə çatan bir şəlalə axın sxemindən istifadə edərək HRU'lar arasında yönləndirilir.

GSFLOW-un MODFLOW komponenti daha dərin doymamış zonadakı su axını (UZF stres paketi), axınlar (SFR paketi) və doymuş yeraltı su qurğuları (BCF, LPF və ya UPW axın paketləri) hesablayır. Doymamış zona axını, yerçekimi ilə idarə olunan axınla müqayisədə kapilyar (təzyiq qradiyenti) axınının əhəmiyyətsiz olduğunu düşünən kinematik bir dalğa yanaşması istifadə edərək hesablanır. Kapilyarların üstünlük təşkil etdiyi effektlər bunun əvəzinə yuxarıda təsvir olunan PRMS komponentinin torpaq zonasında təmsil olunur. MODFLOW komponentindəki doymamış zona axını ıslatma və qurutma cəbhələrini təmsil edən dalğalar kimi hesablanır. PRMS komponentindən çıxan cazibə rezervuarı drenajı MODFLOW komponentinin doymamış zonasının üstünə axır, əgər su qatı MODFLOW domeninin yuxarı hissəsi ilə müəyyən edilmiş torpaq zonası bazasından yuxarı deyilsə - bu halda cazibə anbarları birbaşa doymuş zona. Doymuş zona simulyasiyaları (MODFLOW) yeraltı su axını tənliyinə sonlu fərq metodu tətbiq edir.

MODFLOW komponenti tərəfindən hesablandığı axın axını, yuxarı axın axınlarından girişləri, PRMS komponentindən səth axını və aralıq axını, doymuş zonanın axıdılmasından baza axını və mümkün əsas doymamış sahələrdən axınları əhatə edir. Çıxışlara aşağı axın axınlarına, yeraltı suya sızma və mümkün altındakı doymamış sahələrə axın daxildir. Axın axını boyunca boşalma, müəyyən axınlı hidravlik xüsusiyyətləri olan Darcy qanununa uyğundur. Axın axını və baş hesablamaları üçün beş fərqli seçim mövcuddur (parametr ICALC). İstifadəçi hər bir giriş üçün axın dərinliyini təyin edə bilər, Manning tənliyini fərz edilmiş geniş düzbucaqlı bir kanala tətbiq edə bilər, səkkiz nöqtəli əsaslı bir kanal üçün Manning tənliyini tətbiq edə bilər və daşqın həndəsəsini istifadə edə bilər, stansiyada boşalma, axın genişliyi arasındakı güc qanunu əlaqələrini tətbiq edə bilər. və axın dərinliyi (Leopold və Maddock, 1953) və ya hər seqment üçün hidrolik həndəsələrin giriş axtarış cədvəlini təyin edin. Axın axını ya sabit vəziyyət axını (parametr) kimi simulyasiya edilə bilər IRTFLG = 0), bununla da növbəti axına axın balans girişlərinə çatır və ya keçici axın (parametr) IRTFLG & gt 0) su səthinin yamacının sürtünmə yamacına yaxınlaşdığı və bu səbəbdən arxa suyun təsirlərini inkar etdiyi kanallarda yerüstü su marşrutu üçün kinematik dalğa formulasiyasından istifadə etmək.

GSFLOW-da istifadələri üçün orijinal müstəqil PRMS və MODFLOW kodlarında bəzi dəyişikliklər edildi. Xüsusilə PRMS-in torpaq zonası quruluşu, MODFLOW yeraltı domeni ilə əlaqəsini asanlaşdırmaq üçün əhəmiyyətli dərəcədə dəyişdirilmişdir. Digər dəyişikliklər GSFLOW təlimatında qeyd olunur (Markstrom və digərləri, 2008). Orijinal təlimatda təsvir olunmayan 1.2.0 versiyasından başlayan əlavə bir xüsusiyyət, yeraltı su axını üçün MODFLOW-2005-ə (Harbaugh, 2005) daha çox sayda möhkəm bir yeniləmə olan MODFLOW-NWT (Niswonger et al., 2011) daxil edilməsidir. .


Metodlar

Nümunə ölçüsünü əvvəlcədən təyin etmək üçün heç bir statistik metoddan istifadə edilməmişdir. Təcrübələr randomizə olunmamışdır və tədqiqatçılar təcrübələr və nəticələrin qiymətləndirilməsi zamanı bölüşdürülmədən kor olmamışdır.

Verilənlər bazası

Məməlilərlə viruslar birliyi məlumat bazasını qurmaq üçün əvvəlcə hər hansı bir məməlidə meydana çıxan bütün virusları Beynəlxalq Viruslar Taksonomiyası Komitəsindən (ICTVdb) çıxardıq və ayrıca ayrı-ayrılıqda ICTV 8-ci buraxılışın əsas siyahısında sadalanan hər bir virusdan keçdik və axtarış apardıq. məməli ev sahibləri üçün ədəbiyyat. Bütün viral növ adları, 2010-cu ildə məlumat toplamağımızın başlanğıcında virus taksonomiyası üzrə qlobal səlahiyyət sahibi olan ICTV 8-ci buraxılışla sinonimləşdirildi (istinad 16). 2010–15-ci illərdə EcoHealth Alliance-da müəlliflər və tədqiqatçı köməkçiləri və təcrübəçilər qrupu 1940–2015-ci illər arasında ədəbiyyatda dərc olunmuş 586 unikal virusun hər biri üçün məməlilər növü dərnəklərini ilkin mərhələdə virus adı və sinonimləri əsas axtarış sözləri kimi istifadə edərək tərtib etdi. onlayn istinad məlumat bazaları (Web of Science, PubMed və Google Scholar) əlavə olaraq əldə etdiyimiz mənbələrdə göstərilən kitablarda, icmallarda və ədəbiyyatda axtarış aparmaqla yanaşı. Yaxşı tədqiq edilmiş viruslar üçün host axtarışını daraltmaq üçün əlavə olaraq ev sahibi ilə əlaqəli nəşrləri tapmaq üçün 'ev sahibi (lər)', 'su anbarı', 'vəhşi həyat', 'heyvanlar', 'nəzarət' və digər müvafiq terminləri daxil etdik. üçündür. Dərnəklər, primat, ətyeyən və quş heyvanları virusları üçün Qlobal Məməl Parazit Verilənlər Bazası ilə, 2006-cı ilin noyabr ayından etibarən versiyası (GMPD, http://www.mammalparasites.org) 29 və yarasalar və gəmiricilərə xas olan digər dərc olunmuş təhlillərlə tamlığı yoxlanıldı. , 30,31. Tür səviyyəsində ev sahibi məlumatı olmayan bütün qeydləri və əsas istinadları izləyə bilmədiklərimizi istisna etdik. Eksperimental infeksiya tədqiqatlarından, zooloji parklardan və ya əsir yetişdirilən müəssisələrdən və ya hüceyrə mədəniyyəti kəşflərindən məməli-virus birləşmələrinin qeydləri istisna edilmişdir. Ev sahibi heyvanlar, Qida və Kənd Təsərrüfatı Təşkilatı (FAO) 32-dən alınan ev heyvan növlərinin siyahısından sonra ev və ya yabanı olaraq təyin olundu və biz qara siçovulları çıxardıq (Rattus rattus) və yerli siçan (Mus əzələsi) bu iki növ öz ‘ətrafdaxili’ kateqoriyasını təşkil etdiyinə görə evcilləşdirilmiş siyahıdan. IUCN Qırmızı Siyahısı növlərinin təsvirlərinə görə ev sahibi növlər, ya insan dəyişdirilmiş yaşayış yerlərində meydana gələn və ya insanlar tərəfindən ovlandığı, hər ikisi də insanla əlaqə üçün təxmin edilən kateqoriyaya ayrıldı.

Maraqların patogenini müəyyənləşdirməkdə bəzi aşkarlama metodlarının digərlərindən daha etibarlı olmasına nəzarət etmək üçün hər bir host-virus birləşməsi üçün istifadə olunan aşkarlama metodunu qeyd etdik və aşkarlama metodunun etibarlılığına görə bunları 0, 1 və ya 2 olaraq qiymətləndirdik. istifadə olunur. Virus izolyasiyası və PCR aşkarlanması ardıcıllıqla təsdiqlənərək 2 (= ciddi məlumatlar), seroloji metodlar 0 və ya 1 olaraq qiymətləndirildi, virus və ya serum neytrallaşdırma testləri (= 1) və fermentə bağlı immunoassaylar (ELISA), antigen aşkarlama analizləri və (= 0) kimi qiymətləndirilən digər seroloji analizlər. Əlaqəli viruslarla qarşılıqlı reaktivliyə görə potensial qeyri-müəyyənliyi aradan qaldırmaq üçün ‘ciddi məlumatlar’ ayrıca təhlil edildi. Hər bir məməli-virus cütü üçün ciddi bir təsbit təyin etmək üçün ədəbiyyatı hərtərəfli axtardıq və yalnız molekulyar və ya viral izolyasiya işləri olmadıqda bu cütlük üçün seroloji tapıntıları daxil etdik. Potensial seroloji çarpaz reaktivliyin səs-küyünü azaltmaq üçün məlumatları bölüşdürdük və bütün məlumat dəsti (0 + 1 + 2 aşkarlama keyfiyyəti) və sərt məlumatlar (2 bal) üçün ayrı-ayrı analizlər apardıq. Host-virus birləşmələrinin tam siyahısı, aşkarlama metodları və əlaqəli istinadlar http://doi.org/10.5281/zenodo.596810 adresindəki məlumat və kod deposumuzda verilmişdir.

Zoonotik virus tərifimiz, ən azı bir əsas nəşrdə insanlarda və ən azı bir başqa məməli ev sahibində aşkar edilmiş və istiqamətliliyi nəzərdə tutmayan hər hansı bir virusu əhatə edir. Məməli virus birləşmələrinin tam məlumat dəsti keçmişi və ya cari viral infeksiyanın dəlillərini nümayiş etdirir ki, bu da tökülmənin ölçülməsi üçün məqbul bir vəkil olduğunu göstərir və sərt məlumat dəstimiz, müəyyən bir virusa məruz qalmış ola bilən növlərin göstəricilərə qarşı çıxarılması üçün daha güclüdür. ev sahibi növlər daxilində çoxalma üçün bəzi dəlillər. İki tərəfli tökülmə tərifimiz ÜST-nin bir zoonozu “təbii olaraq onurğalı heyvanlardan insanlara və əksinə bulaşan hər hansı bir xəstəlik və ya infeksiya” kimi təyin etdiyi bir təklifi izləyir (http://www.who.int/zoonoses/ az /) və Woolhouse və Gowtage-Sequeria (2005) uyğun olaraq yaxınlarda qeyri-insani patogenlərdən (məsələn, primatlardakı HİV) inkişaf etmiş insan patogenlərini istisna edir (istinad 1).

Modellərimizdə insanlardan vəhşi təbiətə ötürülmənin təsirini aradan qaldırmaq üçün, GAM modeli uyğunlaşdırma və seçim prosedurumuzu da (aşağıya baxın) ehtimal olunan 'əks zoonoz' virusları istisna edən bir məlumat dəsti üzərində apardıq. Əvvəlcə bütün məlumatlarımızı axtardıq və insanlardan primatlara yoluxma ilə əlaqəli açıq vəziyyətləri, məsələn zooloji parklar və vəhşi təbiət reabilitasiya mərkəzlərindən (əvvəllər qeyd olunduğu kimi) qeydlər daxilində silindik. Bundan sonra, ən çox yayılmış əks zoonoz viruslar (adeno ilə əlaqəli virus-2 insan adenovirus D insan herpesvirusu 4 insan metapnevovirusu insan tənəffüsü sitsitial virusu) olmadan bir məlumat dəsti yaratmaq üçün insanlardan ən çox yayılmış insan primatlarına ötürülən bir neçə insan virusunu da götürdük. qızılca virusu parotit virusu) 34,35. Ters zoonozlar və əlaqəli kodlar istisna olmaqla bu əlavə analizləri http://doi.org/10.5281/zenodo.596810-da təqdim edirik.

Ümumi virus zənginliyi, müəyyən bir ev sahibi növdə aşkarlanan unikal ICTV viruslarının sayı və zoonoz viral zənginlik, verilənlər bazasında insanlarda da aşkar edilmiş müəyyən bir ev sahibliyi növündə bənzərsiz ICTV tərəfindən tanınan virusların sayı olaraq hesablanmışdır .

Həm ev sahibi həm də virus üçün araşdırma meylini qiymətləndirmək üçün Web of Science və Zoological Record daxil olmaqla ISI Web of Knowledge və PubMed-də müəyyən bir ev sahibi və ya patogen üçün tədqiqat nəşrlərinin sayını axtardıq. Bir aparıcı üçün araşdırma sənədlərinin sayı üçün iki dəyər yazdıq. Birincisi, hər ev sahibi növ üçün 1940–2013-cü illər arasında nəşr olunan sənədlərin sayını qeyd etdiyimiz Zooloji Abstraktlarda elmi binomial bir sadə axtarış idi. Elmi binomiya və mövzu açar sözündən istifadə edərək hər növ üçün xəstəliklə əlaqəli nəşrlərin sayını qeyd etdik: xəstəlik * VƏ virus * VƏ patogen * VƏ parazit *. * Operatoru, hər bir terminlə başlayan bütün sözləri tutmaq üçün axtarış meyarlarımızda istifadə edildi, məsələn, ‘parazit *’ ‘parazit’, ‘parazites’ və ‘parazitic’ üçün hitləri qaytaracaqdı. Bu axtarış kriteriyaları hər növ üçün xəstəlik və ya xəstəlikləri, virus və ya virusları, patogen və ya patogenləri, parazit parazitlərini və ya parazitologiyasını araşdıran sənədləri geniş əhatə edirdi. Model seçiminə hər dəfə yalnız hər bir sahibə görə tədqiqat səyləri daxil edilmişdir. Bu ölçümlər bir-biri ilə çox əlaqəli olduğundan və bir sahibə düşən xəstəliklə əlaqəli sitatların sayı bir model xaricində (bütün məlumat zoonozları) hər ev sahibinə düşən ümumi nəşr sayını üstələdiyi üçün, xəstəlik ilə əlaqəli nəşrləri növ başına tədqiqat səyimiz kimi istifadə etməyə qərar verdik. izahı yaxşılaşdırmaq üçün bütün modellər üçün ölçü. PubMed və Web of Science-da virus adı ilə açar söz axtarışından istifadə edərək 586 virus növünün hər biri üçün nəşr sayını qeyd etdik. Model seçiminə hər dəfə yalnız bir virus tədqiqatı səyinin bir ölçüsü daxil edildi.

Bədən kütləsinin filogenetik olaraq düzəldilmiş ölçüsünü istifadə etdik (‘Filogenetik siqnal’ altında aşağıdakı detallara baxın) əsas həyat tarixçəsini dəyişən əsas olaraq, bu, məlumat dəstimizdəki növlər üçün demək olar ki, tam bir məlumat bazasının mövcud olduğu yeganə idi. PanTHERIA verilənlər bazasında 36 qeyd olunan bədən kütləsini 709 növ üçün istifadə etdik. 3 növ üçün AnAge verilənlər bazasında 37 qeyd olunan ikinci seçim variantını - bədən kütləsini istifadə etdik. 11 növ üçün PanTHERIA-da qeydə alınan ekstrapolyasiya olunmuş bədən kütləsinin növlərdən asılı olaraq bədən uzunluğu və ya ön kol uzunluğuna əsaslanan üçüncü seçim variantını istifadə etdik. 36 növ üçün, qeydə alınan bədən kütləsi olan cins üzvləri üçün ortalama bədən kütləsini istifadə etdik. Uzun ömür 38, reproduktiv müvəffəqiyyət və bazal metabolik nisbətlə əlaqəli digər həyat tarixi dəyişkənlərini araşdırdıq, lakin bunlar son dərəcə itkin qeydlər sayəsində xaric edildi.

Filogenetik siqnal

Blomberg’s K 40-dan istifadə edərək modelimizdəki hər dəyişən üçün filogenetik siqnalın miqdarını təyin etməklə analizlərimizdə paylaşılan əcdad 39 sayəsində ev sahibi növ xüsusiyyətlərinin müstəqil olmaması məsələsini həll edirik. Blomberg’s K, fərqli uzunluqlu filogenetik ağacdan istifadə edərək Braun hərəkəti sıfır təkamül modeli altında gözləməyə nisbətən xüsusiyyət fərqini kəmiyyətlə müəyyən bir xüsusiyyətdəki filogenetik siqnalı ölçür. Blomberg'in K dəyərləri 0-dan sonsuzluğa qədər ölçülür, dəyəri 0 filogenetik siqnala bərabər deyil və daha çox oxşar xüsusiyyət dəyərlərini bölüşən bir-birinə yaxın növlər üçün güclü filogenetik siqnala bərabər olan dəyərlər 1-dən yüksəkdir. Filogenetik müqayisəli metodların tətbiq ediləcəyi aydın şəkildə təyin olunmuş K dəyəri kəsikləri olmasa da, & lt1 və ya daha mühafizəkar olaraq & lt0.5-in mənasız dəyəri filogenetik cəhətdən müstəqil olan xüsusiyyətlər üçün tipikdir. Əhəmiyyətli K dəyərləri və gt0.5 ilə araşdırdığımız tək ana dəyişən ev sahibi bədən kütləsi və insanlara birbaşa filogenetik məsafəmiz olan ölçüdür. Çox dəyişkən analizlərdə, məsələn, filogenetik ümumiləşdirilmiş ən kiçik kvadrat modellərdən (məsələn, PGLS) 41 istifadə edərək, filogeniyaya nəzarət etmək üçün bir neçə vasitə mövcud olsa da, hazırda GAM-lardan istifadə edərək filogeniyaya nəzarət etmək üçün heç bir modelləşdirmə yanaşması yoxdur. Daha da əhəmiyyətlisi, analizimizdəki bütün dəyişənlər arasında filogeniyaya nəzarət üçün topdansatış səyləri burada uyğun deyildi, çünki filogenetik məsafənin insanlarla nisbi əhəmiyyətini digər ev sahibi xüsusiyyətlərə qarşı, insan vəhşi təbiətlə təmas tədbirlərini də daxil olmaqla, açıq şəkildə test edirik. müəyyən bir ev sahibi növ üçün zoonotik viruslar. Bu, birbaşa filogenetik məsafə ölçülərimiz xaricində, 1-dən çox olan əhəmiyyətli bir Blomberg K dəyəri ilə modellərimizdəki yeganə dəyişən kimi sol bədən kütləsi, bölüşdürülmüş təkamül tarixinin filogenetik özvektor reqressiyası (PVR) Bədən kütləsi üzrə 42,43. PVR yanaşması, filogenetik cəhətdən müstəqil olmayan dəyişənlər üçün filogenetik siqnalı aradan qaldırmağa və sonra düzəldilmiş dəyərləri yenidən GAM-lərimizə daxil etməyə imkan verir, eyni zamanda insanlara filogenetik məsafə kimi dəyişkənləri dəyişməz olaraq saxlayır. R paketi PVR istifadə edərək bədən kütləsi üçün PVR və sitokrom istifadə edərək xüsusi qurma maksimum ehtimal sahibimiz filogeniyasını hesabladıq. b məməlilər supertree 28,44 sırası səviyyəli topologiyası ilə məhdudlaşan ardıcıllıqlar. Filogenetik siqnala nəzarət edən bədən kütləsi üçün yeni dəyişənimiz (PVRcytb_resid) filogenetik siqnalın böyük hissəsini K = 3.5 düzəldilmədən və PVR düzəlişindən sonra K & lt 0.5 ilə çıxardı. Bədən kütləsi ölçümümüz eyni şəkildə, daha böyük dəyərlər daha böyük bədən kütləsi olan növlərə bərabərdir. PVR bədən kütləsi, ümumi virus zənginliyi və zoonotik virus modelləri üçün GAM model seçimimizə daxil edildi.

Ev sahibi filogenetik analiz və filogenetik ana genişliyi

Analizlərimizdə iki fərqli məməli filogenetik ağacından istifadə etdik və zoonotik viral zənginliyi ilə müşahidə etdiyimiz əlaqəni ən yaxşı izah edən bir model seçmə çərçivəsindən istifadə etdik. Əvvəlcə məməli süd ağacı R (paket meymunu, funksiya açılışı. Göstərişlər) ilə kəsilib, məlumat bazamıza 283,45-də yalnız 753 növ üçün sinonim növlər daxil edildi. IUCN Qırmızı Siyahısı 33 istifadə edərək, verilənlər bazamızdakı məməli supertree və ev sahibi birliklər arasındakı bütün ev sahibi növ adlarını sinonimləşdirdik. Növlər ‘mal-qara’ siyahısına salınıbsa, ehtimal olunurdu Bos taurus, ev sahibi növlərin elmi adı ilə bağlı qeyri-müəyyənlik varsa, bütün digər qeydlər istisna edilmişdir. İkincisi, maksimum sitoxrom ehtimalı b ağac, bu Newick ağac sənədinə görə, müvafiq sifarişlərinə və məməli supertree 6-ya uyğun gələn sifariş səviyyəli topologiyasına görə məhdudlaşdırılan taksonlarla çoxfurcating bir ağacın məhdudiyyətindən istifadə edərək meydana gəldi: (MONOTREMATA, ((DIDELPHIMORPHIA, (DIPROTODONTIA, PERAMELEMORPHIA)) ), (PROBOSCIDEA, ((PILOSA, CINGULATA), ((((RODENTIA, LAGOMORPHA), (PRIMATES, SCANDENTIA)), ((((CETARTIODACTYLA, PERISSODACTYLA), CARNIVORA), CHIROPTERA)), EULOT))) ). Bu sitoxromdan istifadə edərək daha yüksək qətnamə növ səviyyəsində məməli ağacı yaratdı b məlumatlar, sitokromdan istifadə edərək kəşfiyyat filogenetik analizlərində əldə ediləndən daha yüksək səviyyəli taksonomik əlaqələrin daha etibarlı bir şəkildə yerləşdirilməsi ilə b yalnız məlumat. GenBank giriş nömrələri və sitoxrom b hər növ üçün ardıcıllıq uzunluğu məlumatlarımızda və kod deposumuzda verilmişdir. Sitoxrom b gen parçaları 143 ilə 1140 bp arasında dəyişdi; taktaların 558/665 (% 84) hissəsi üçün & gt1000 bp. Sitoxromdan alınan məlumatlar b məməli supertree topologiyası ilə məhdudlaşan ağac bütün uyğun GAM-larda ən yaxşı seçim olaraq seçildi.

Ardıcıllıqlar MUSCLE istifadə edərək Geneious R6-da standart ayarla hizalandı və 46 səhvləri üçün əyani olaraq yoxlandı. Məhdudlaşdırma ağacı olan və olmayan ən yaxşı maksimum ehtimal ağacı, parsimon toxumlu GTR modeli istifadə edərək CIPRES Science Gateway server v.3.1 (istinad 47) vasitəsi ilə XSEDE-də RAxML-HPC2 istifadə edilərək hazırlanmışdır. parametrlər (raxmlHPC-HYBRID -s infile -n result -x 12345 -g constraint.tre -N 1000 -c 25 -p 12345 -fa -m GTRCAT).

Daxil olmaqla bütün növlər arasında cütlüklə patristik məsafələrin matrisləri Homo sapiens, R paketi meymunu 45-dəki ‘kopenetik’ funksiyanı istifadə edərək iki filogeniyadan hesablanmışdır. Filogenetik ağaclar (Budulmuş supertree və sitokrom üçün Newick formatı b ağac) və insanlardan filogenetik məsafənin matrisləri məlumat və kod deposunda verilmişdir.

Orta, orta, maks., Min., IQR və standart sapma (ümumi funksiya kimi təmsil olunur) hesabladıq F hər virusa görə bilinən bütün məməli sahiblərindən filogenetik sahib genişliyi (PHB) tənliyində (1) hər bir məməli-məməli dərnəyi üçün insanlar xaricində verilmiş bir virusun bütün sahibləri üçün cütlü patristik məsafələrdən istifadə edərək, burada mən verilənlər bazasındakı hər bir məməli olduğu kimi indeksləşdirir jJ verilənlər bazasındakı ümumi məməliləri təmsil edir. Bu PHB dəyərlərini bir virus növü, cins və virus ailəsi səviyyəsində orta, orta və ya maksimum dəyərlərdən istifadə edərək, virus qrupu başına sahib genişliyinin daha yüksək səviyyəli taksonomik dəyişkənlərini yaratmaq üçün topladıq. Parazit konakçılığının 48,49,50-ni anlamaq üçün əvvəlki tədqiqatlarla inkişaf etdirilən ölçüyə bənzəyirik, lakin burada fərqli virus taksonomik səviyyələrində toplana bilən viral ana genişliyini ölçmək üçün ümumiləşdirilə bilən bir dəyişən yaradırıq.

Genişləndirilmiş məlumatlar şək. 9 etmək üçün sitokromun takson adları və terminal qolları b supertree ilə məhdudlaşan ağac, vəhşi təbiət növləri üçün ən uyğun zoonotik virus GAM-dan (proqnozlaşdırılan mənfi zoonotik viral zənginlik) qalıqdan istifadə edilərək rəng kodlaşdırıldı və R paket meymun 45-də plot.phylo funksiyasından istifadə edildi. Qalıq dəyər rənglərini daha yaxşı görüntüləmək üçün əlavə olaraq terminal taksonlarındakı simvollar (dairələr) willeerd.nodelabels funksiyasından istifadə edərək əlavə edilmişdir (http://dx.doi.org/10.5281/zenodo.10855). Bütün dəniz məməliləri, ev heyvanları və itkin məlumatları olan digər taksonlar itkin məlumatlar üçün boz kimi kodlaşdırılmışdır.

Viral zənginlik istilik xəritəsi (Genişləndirilmiş Məlumat Şəkil. 2) R paketi xəritəsi və 'tam' hiyerarşik klasterləşdirmə alqoritmi istifadə edərək hüceyrələri satırlar və sütunlar arasında oxşar viral zənginliklərə görə sıralamaq üçün istifadə edilmişdir. R v.3.3.0-da yaradılan bütün qutu sahələri, histoqramlar və digər bütün rəqəmlər (istinad 51). Birincil rəqəm yaratmaq üçün R kodu kod deposunda verilir.

GAM uyğunluğu və seçimi

We fit a set of generalized additive models (GAMs) that included all of our selected potential variables explaining the number of total viruses or number of zoonoses in hosts, as well as whether viruses were zoonotic (for conceptual framework and summary of each GAM see Extended Data Fig. 1 for full variable list and data sources see Supplementary Table 1). Our use of GAMs, an incorporation of smooth spline predictor functions into the generalized linear model (GLM) framework, allowed us to examine the functional form of our predictor variables (for example, Figs 2 and 4). Categorical and binary variables (for example, host order, IUCN status of hunted or not, and certain viral traits) were fit as random effects of each variable level. We used automated term selection by double penalty smoothing 52 to eliminate variables from the models. This method removes variables with little to no predictive power and has been shown to be comparable or superior to comparing alternate models with and without variables. We did use the model comparison method for domestic animals, where the sample size was not sufficient for fitting all variables. In this case dropping variables by double penalty smoothing still allowed pruning the model list to eliminate redundant models. Where there were competing variables measuring the same mechanistic effect, we fit alternate GAMs using only one of each of these variables (as specified in below and in the Extended Data Fig. 1). These included phylogenetic variables, citation counts from alternate databases, and different measures of human population/host overlap. For example, to capture host phylogeny we used phylogenetic distance based on either the mammal supertree 20 or a purpose-built cytochrome b constrained by the topology of the mammal supertree, but never both in the same model. For human population variables, we looked at either variables measuring overlap of species range with human-occupied areas, or human population in those areas, as area- and population-based measures were highly co-linear. For citation variables, we looked at either all citations or the number of disease-related citations for each host species, not both, and similarly citations in either PubMed or Web of Knowledge. We used a binomial GAM to analyse the 586 mammalian viruses in our database and identify viral traits that may serve as predictors of zoonotic potential. Co-linearity was not a major issue among variables included in the same model.

We inspected models within 2 AIC units of the model with the lowest AIC, and present the outputs of the best-fit and all other top models (<2 ΔAIC) in our data and code repository. In general, variable effects retained the same functional form and effect size across models within 2 ΔAIC—differences were limited to the adding or dropping of very weak, insignificant effects, or switching between highly correlated competing variables such as citation counts from different databases.

For our model of number of zoonoses per host, we used the total number of observed viruses per host as an offset, effectively fitting a model of proportion of zoonotic viruses per host. We found this variable had a coefficient near to one when it was used as a linear predictor, indicating its appropriateness as an offset.

We repeated the model selection process for all models using the more stringent set of data that used only virus identified in mammal hosts using viral isolation, PCR, or other methods of nucleic acid sequence confirmation, that is, that excluded all associations detected via serology.

All models were fit using the MGCV package for R (version 1.8-12.). We used the model with the lowest AIC to predict the number of expected zoonotic viruses for each host species, using all the data from our database that had complete observations for the best model. Our top models consistently outperform the alternatives by wide margins, as measured by AIC. We used standard methods in the R package MGCV to calculate deviance explained, which is defined as (D._null – D._model)/D._null. In this formula, D._null is the deviance (−2 × likelihood) of an intercept-only, (or, in the case of the zoonoses model, offset-only), model, while D._model is the deviance of our best-fit model.

Analyses were limited to terrestrial mammal species as defined by the IUCN Red List (marine mammals were excluded) and we ran separate analyses for wild and domestic animals. As domestic animals made up a much smaller dataset (n = 32 species) with a unique set of explanatory variables that differed from the wild species analyses, these models were fit separately. Domestic species results are also discussed separately (see Supplementary Discussion) as they are tangential to the primary findings.

Model cross-validation

We used k-fold cross-validation to evaluate goodness of fit for all models. The data was divided into ten folds, selected randomly. For each fold, the model was re-fit based on the other nine folds, and goodness of fit was assessed by conducting a nonparametric permutation test comparing the predicted values versus the real values for the kth fold, where a non-significant result indicates that predictions are unbiased. Poisson models goodness-of-fit may be compared via a parametric χ 2 permutation test on deviance values, but this test is inappropriate in the case of models with low mean values, as is our case for some of our GAMs 53 . The k-fold cross-validation confirmed the robustness of our model predictions for wild mammals, code and outputs from these tests for each best-fit GAM are provided in Supplementary Table 2.

In addition to randomly selected k-fold cross-validation, we evaluated the robustness of our models via a non-random geographic cross-validation, code and summary document provided in our code and data repository. In order to meaningfully organize species in our dataset by geographic areas, we used the 34 zoogeographic regions for terrestrial mammals recently redefined by Holt və s. 54 . Using QGIS 55 , a mammal-specific zoogeographical shapefile provided by Holt’s group at the University of Copenhagen (http://macroecology.ku.dk/resources/wallace) was intersected (using QGIS Vector > Geoprocessing Tools > Intersect) with a shapefile of IUCN’s host ranges for all mammals in our database. Areas of these intersections were then calculated using an equal-area projection (Mollweide), and each host was assigned to only the region that contained the greatest proportion of its range. We systematically removed all observations (species) from each given zoogeographical region, re-fit the model using all observations from outside the region, then performed a non-parametric permutation test comparing the predicted values to the observed values for that region. Non-significant results indicate that model predictions are unbiased. Significant results for a given zoogeographic region suggest that there are location-specific biases that remain unexplained. This systematic zoogeographic cross-validation supported the overall robustness of our model predictions for several models, that is, all-data zoonoses, all-data total viral richness, and stringent-data total viral richness models. For these models, even though a majority of zoogeographic regions were unbiased, we still identified several zoogeographic regions that showed significant bias. Our zoogeographic cross-validation was equivocal for the stringent-data zoonoses model, with eight regions that showed evidence of bias and seven regions which showed no evidence of bias (Supplementary Table 3).

The presence of biased regions in our zoogeographic cross-validation suggested the possibility that there is a systematic bias associated with geography not captured by the predictor variables in our models. To further investigate this, we added zoogeographical region as a categorical random effect to each of our best-fit models. For three of our best-fit GAMs (all-data total viruses, stringent-data total viruses, and stringent-data zoonoses) the addition of zoogeographical region as a categorical random effect decreased the model AIC and increased the total deviance explained by 3–5%. The all-data zoonoses model, which was used to create the series of maps in the main manuscript, does not improve with the inclusion of zoogeographical region. However, the improved predictive power of models using region-specific terms is offset by the increase in degrees of freedom (that is, if we included 31 zoogeographic regions as separate terms) and, more importantly, a decreased interpretability of our models—especially when compared to the geographical variables we used, such as host area or species range overlap with human modified habitat. We opted not to include these random effects in our final GAMs in favour of keeping only variables interpretable in the context of our host trait-specific framework. Instead, we indicate areas of geographic bias directly on our spatially mapped outputs. (See ‘Calculating and visualizing missing viruses and missing zoonoses’, below.) Summaries of these models, along with changes in relative deviance explained for the other explanatory variables when zoogeographic region is added as a random effect, are provided in our code and data repository.

Spatial variables

For all the wildlife hosts we used the geographic range information obtained from the IUCN spatial database version 2015.2. Wildlife host species shapefiles needed to replicate analysis are hosted on our Amazon S3 storage (https://s3.amazonaws.com/hp3-shapefiles/Mammals_Terrestrial.zip) 33 . IUCN depict species’ range distributions as polygons based on the extent of occurrence (EOO), which is defined as the area contained within a minimum convex hull around species’ observations or records. This convex hull or polygon is further improved by including areas known to be suitable or by removing unsuitable or unoccupied areas based on expert knowledge. To accurately calculate the area in km 2 of each host species we projected the polygons to an equal area projection (Mollweide).

We calculated various thresholds of mammal sympatry based on percentage of range overlap for each wild species in our database using IUCN shape files for all mammals globally. We define mammal sympatry as the number of mammalian species that overlap with the target species’ geographic range. We calculated mammal sympatry for each wild species in our database at six different thresholds based on the percentage area overlap with the target species geographic range, that is, the number of other wild mammal species with any (>0%), ≥ 20%, ≥ 40%, ≥ 50%, ≥ 80%, or 100% range overlap. The six different thresholds for mammal sympatry were included as competing terms in our model selection for the total viral richness models.

We derived and tested several global measures to estimate the level of human contact with each wild species in our database. To estimate the area of host geographic range covered by crops, pastures, rural and urban areas—as measures of global human contact with a given wildlife species—each species polygon was intersected (overlapped) with spatial data representing those land cover types. Additionally, we calculated the total number of people within each host geographic range using data from HYDE database 56 , and also separately totalled the number of people in rural and urban populations. We obtained data on the distribution of cropland, pastures, rural and urban areas also from the HYDE database 56 for the years 1970, 1980, 1990, 2000 and 2005 with a spatial resolution of 5 × 5 arc minutes, equivalent to 10 km by 10 km at the equator. These datasets were created by combining information from satellite imagery and sub-national crop and pasture statistics 56 . In our GAMs, we used several transformations of these variables as competing proxies for human–wildlife contact: the log-transformed area of host range that overlapped each type of human-modified land cover, log-transformed human population in the host range, log-transformed human population density in the host range, and the log-ratio of urban and rural human populations in the host range. For each of these, we also included as a variable the change in value from 1970 to 2005. Human–wildlife contact variables that significantly covaried were excluded (set as competing terms) during the model selection process. The ratio of urban to rural human population was used to disentangle variables of human–wildlife contact that significantly covaried. For example, the total area of a species range that overlapped with urban and rural areas was highly correlated with the total geographic area variables we examined (for example, total area, and area in crop, pasture, rural, and urban). The ratio of urban to rural population allowed us to separate these signals and best represent this proxy of per-species human–wildlife contact. All spatial analyses were performed in R (3.3.2) 51 , using the following R libraries: raster 57 , rgdal 58 , and sp 58 .

Calculating and visualizing missing viruses and missing zoonoses

We used each respective best-fit, all-data GAM from the total viral richness and proportion zoonoses models to calculate the estimated number of viruses that would be observed if the research effort variable for each species was equal to that of the most-studied wild species in our database (Vulpes vulpes with 4,433 total publications and 1,477 disease-related publications). We used the prediction of the total virus richness GAM as the offset for the zoonoses GAM. We then calculated the missing viruses and missing zoonoses by subtracting the observed number of viruses and zoonoses from the predictions based on maximum research for each wild mammalian species.

We used geographic range maps from the IUCN spatial database (2015.2) to visualize the spatial distribution of observed host–virus associations, observed host–zoonoses associations, these associations as predicted under maximum research, and the maximum predicted minus the observed viruses, or the missing viruses and missing zoonoses (for example, Fig. 3 Extended Data Figs 3, 4, 5, 6, 7, 8 Supplementary Table 4). We also generated maps comparing species richness of all species in the IUCN database against those with viral associations in our database. For each species, the distribution range was converted to a grid system with cells 1/6 of a geographic degree (approximately 18 km × 18 km at the equator line). Each grid cell was assigned a value of one to indicate presence. We repeated this process and assigned the observed and predicted-under-maximum-effort number of zoonotic viruses to their correspondent grid cells. Viral and host species richness maps, and both the missing viruses and missing zoonoses maps were calculated by overlying individual grids. Each richness map represents the sum of all values for a given grid cell. We repeated the process for all the host species in our database and created viral and species richness maps for the following orders: Carnivora, Cetartiodactyla, Chiroptera, Primates and Rodentia. These taxa were selected because they represent 681/736 (92.5%) of wild mammal species in our database.

In the process of translating our non-spatial, species-level predictions to geographic space (that is, layered raster maps), we identified several geographic areas where our model predictions of the number of total and zoonotic viruses were systematically biased, that is, P < 0.05 (Supplementary Table 3). In order to visualize the geographic biases of our non-spatial model predictions in our maps (see above regarding zoogeographic cross-validation), we demarcate regions with significant bias with hatching. Hatched regions represent areas where model predictions of total or zoonotic viral richness deviate systematically for the collection of species in that grid cell. For each grid cell we calculated whether the bias exceeded that expected from a random sampling of hosts. This was accomplished by summing the residuals from 100,000 random draws of species in our dataset that was equal to the number of species present in that grid cell, then identifying grid cells where the observed bias was outside the middle 95% of the randomly drawn distribution. We calculated this for all mammals, and separately for each order across all grid cells. Areas with observed bias (outside of 95% of the randomly drawn distribution) are shown with hatched regions on each missing virus and missing zoonoses map.


Nəticələr

Eco-Linguistic-Niches (ELNs)—i.e. the range of geographic and environmental parameters that characterize a linguistic territory—were modelled for 29 top-level linguistic groups of NG (see Methods), including 9 Austronesian language family groups and 20 Trans-New Guinea (TNG) language family groups (identified by index numbers given in Fig 1, S1 Fig., Text 2 in S1 File).

(A) Linguistic areas (Polygons) of Trans New Guinea (TNG) and Austronesian language groups (identified by index numbers given in C * includes groups 1–7, see Materials and Methods.) and location of villages (dots) used as occurrences for Eco-Linguistic Niche Modeling map background generated by using R::Raster—CRAN Repository, public domain software. (B) Principal Component Analysis of Eco-Linguistic Niches of New Guinea language groups and Eigen values of the most explanatory axis. Red arrows show environmental variable contributions. Environmental variable codes are explained in Table 2. Ellipses represent the inertia distributions for groups belonging to TNG (green) and Austronesian (blue) language groups. Grey background represents the available environment in New Guinea.

The applied consensus method (see Methods) effectively allows one to calculate a best-fit ELN model from the 10 most commonly used predictive algorithms in ENM for each of the 29 linguistic groups present in the studied region. Comparisons of geographic distributions and ecological space positions of ELNs with actual linguistic areas of the 29 modelled groups show that: 1) the territory of a linguistic group only rarely corresponds to the territory of the predicted ecological niche (only seven cases) 2) ELNs are variably reliant on at least six different sets of environmental parameters 3) half of the linguistic groups share their ELN with at least one other linguistic group 4) language diversity within shared ELNs is extremely variable as they number from 1 to 107 languages, 1 to 7 linguistic groups, and one or both of the two modelled linguistic families (Table 1) and 5) although areas of low ecological risk yield a higher number of top-level linguistic groups, they do not yield a higher number of languages.

Index labels (id) for linguistic groups are given in Fig 1. Number (N) of languages counted from the Glottolog database [27]. Geographical regions are indicated on the map in Fig 6.

Geographic distribution of Eco-Linguistic Niches (ELNs)

Each of the 29 modelled ELNs has a different geographic extent (Table 1 in S1 File). When ELNs are compared to linguistic areas, two types of cases can be distinguished: Either the geographic distribution of the ELN is larger than that of the linguistic area (Fig 2C and 2D) or it largely coincides with the linguistic area (Fig 2A and 2B). Most of the modelled ELNs (22 of the 29 linguistic groups) correspond to the former.

(A) Asmat-Kamoro, (B) Roro, (C) Mek, and (D) New Britain language groups ELNs. Colour shades reflect probability of niche presence. Green colour is used for Trans New Guinean ELNs and blue for Austronesian ELNs. The purple lines delimit linguistic areas. (E) Map of New-Guinea with GS values calculated according to the ecological risk formula (see Materials and Methods). Coulour scale indicates the length of the GS in months. (F-J): ELPs of New-Guinea. Each pattern (Highlands, Center, South, South-East and North) corresponds to the sum of similar Eco-Linguistic Niches according to their environmental space positions and their geographical distribution. Colour shades indicate prediction probabilities. Polygons indicate linguistic areas of modelled linguistic groups. The Highland pattern (F) includes from West to East the West Trans New Guinea, Uhunduni, Mek, Engan, Chimbu-Waghi, Kainantu-Goroka and Angan language groups. The Center pattern (G) includes the Ok and Bosavi, the South pattern (H) the Marind and Gogodola-Suki, the South-East pattern (I) the Mekeo, Roro, Motu and the South-East Papuan, and the North pattern (J) New Britain and New Ireland. Map background generated by using R::Raster—CRAN Repository–public domain software.

In both cases, ELNs can present discontinuities in their geographic distribution, i.e. they include territories that are disconnected from the core region around the respective linguistic area. Typically, in ENM of terrestrial mammals, these distant areas are considered inaccessible (be it because of dispersal barriers to or of sister-species in those areas) and therefore are not taken into account [28]. However, it should be pointed out that the territories in which Austronesian languages are spoken across the Indian and Pacific Oceans, from Madagascar to Polynesia, almost always represent coastal/island habitats, which reflect Austronesian maritime lifeways [29]. They are, on the one hand, separated by large water bodies and, on the other hand, potentially connected by seafaring travel. If maritime connections are taken into account, i.e. when overseas territories of the predicted ELNs can be considered accessible, only four linguistic groups remain cases wherein the geography of ELNs and the linguistic area correspond: Austronesian Trobriand (35) and Motu (39) language groups and two TNG groups, Asmat (09) and Eleman (25).

Geographic overlap between ELNs is observed for most language groups, but non-overlapping ELNs also exist. Similar geographic distributions are observed for language groups occupying, respectively, the Western Highlands (00, 08, 16, 18, 29), the Eastern Highlands (19, 21, 22, 24), the South (12, 28) and the South-East (36, 37). In contrast, no major geographic overlap in ELNs occurs in the four mentioned linguistic groups for which the geographical extends of the ELN and the linguistic area correspond.

Ecological space positions of ELNs

A Principal Component Analysis (PCA) of the ELNs of 20 TNG and the 9 Austronesian language groups reveals six clusters within the available ecological space of NG (Fig 1). The first two components of the PCA comprise 65% of the variability (Fig 1). The first axis (41.67%) represents topography and temperature. The second axis (23.6%) mainly reflects precipitation. The first axis separates the language groups 00, 08, 16, 18, 19, 29 on the one hand and 09, 10, 12, 25, 27, 28, 31–34, 35, 37–39 on the other. At the intersection of these two axes, language groups 11, 15, 20–24, 26, 36 are present. According to the weight of the different environmental variables, the first cluster is characterized by topographic variables (altitude, roughness, terrain ruggedness index and slope) as well as annual and diurnal temperature range, the second by other variables related to temperature.

The second axis splits the language groups located in the middle of axis 1 into three clusters. Language groups 11, 15 and 26 are clearly separated from groups 23, 36 and the remaining groups, i.e. 20–22 and 24, have values closer to zero. The cluster of groups 11, 15, 26 is strongly influenced by precipitation and that of groups 23 and 36 by precipitation seasonality. The second axis also separates groups 37 and 38, and groups 12 and 28, with niches determined by specific seasonality values for rainfall and temperature. It is noteworthy that the nine Austronesian language groups are split into three different ecological spaces. The first space (including groups 31–34 and 39) overlaps with TNG language ecological space positions but shows a wider range along axis 1. In the second ecological space (including groups 36–38), two of the three Austronesian groups do not overlap with any TNG ELN. This is also the case for the single language group (35) in the third ecological space. Hierarchical clustering of Schoener’s D and Hellinger’s distance values reveal clusters (Fig 3, Table 2 in S1 File) almost identical to those identified by the PCA. Exceptions concern Turama-Kikorian, which is clearly separated from Bosavi and Ok, as well as Uhunduni. This may be due, at least for the former language group, to the fact that the ELNM was conducted with a small sample of occurrences. The separate positioning of the former three language groups must, however, be explained by information provided by the third axis and subsequent axes of the PCA. These distance values also allow one to identify the position of the ELNs with values close to zero on the 1st and 2nd axis of the PCA. Group 24 shows proximity to the groups dependent on temperature amplitude and altitude (i.e. groups 00, 08, 16, 18, 19, 29). Group 20 is linked to groups 32 and 26 but shows a greater distance value suggesting it constitutes a separate entity. Finally, groups 21 and 22 cluster together. When the ecological space positions of Austronesian and TNG linguistic families are considered separately, their distinctiveness becomes evident (Fig 4). The distribution of the Austronesian linguistic family is parallel to the second axis of the PCA, which mainly reflects the intensity and seasonality of precipitation. The narrowness of the Austronesian distribution within the first PCA axis indicates that Austronesian linguistic groups have a similar ecological space position with respect to temperature (Fig 5B) and topography (Fig 5C). Within these trends, Austronesian linguistic groups concentrate around three different environmental settings (Fig 4): one with low precipitation (Fig 5A) occupied by three of the four mainland groups (Mekeo, Roro and Motu, Fig 1), one (Manus Island) with comparatively higher GS values (Fig 5D), and one situated around high temperatures (Fig 5A) and low altitudes (Fig 5C) where the remaining, mainly island Austronesian, groups are situated (Fig 1). The distribution of the TNG linguistic family covers a much larger part of the available NG ecological space (Fig 4) apparently preferring higher altitudes (Fig 5C) and higher GS values (Fig 5D) over those environmental settings where most Austronesian distribution points are found (Fig 4).

Distance corresponds to 1 –the overlap score (Table 2 in S9). Values vary between 0 and 1. Low values (purple) correspond to strong overlaps and environmental similarity, high values (dark red) to marked environmental differences. Numbers correspond to the index numbers of language groups given in Fig 1.

(A) Trans New Guinea language family, (B) Austronesian language family. Dots represent the distributions of ELN predictions, and the colour shades depict the number of languages. Grey background corresponds to the available environment in New Guinea. Map background generated by using R::Raster CRAN Repository–public domain software.

Arrows show environmental variable contributions. Environmental variable codes are explained in Table 2. Ellipses represent the inertial distributions for groups belonging to Trans New Guinea (green) and Austronesian language groups (blue). Background colour scales correspond to the sum of annual precipitation (A), annual mean temperature (B), altitude (C) and Growing Season (D). Map background generated by using R::Raster CRAN Repository–public domain software.

Eco-Linguistic Patterns (ELPs)

Combining ecological dimensions and geographic distributions of the modelled ELNs allows for the identification of ELPs, which offers a means to estimate linguistic diversity within an environmental framework instead of within political boundaries or geodetic grids (related to Earth´s geometric shape). As explained previously, an ELP corresponds to a single ELN if the ELN has a specific ecological space positions and geographic distribution, or to several ELNs when these ELNs present similar ecological space positions and geographical distribution. Contrary to ELNs, ELPs exclude geographical areas that are considered inaccessible to the language group.

Comparisons of ecological space positions and geographic distributions of ELNs highlight: 1) similarities between two pairs of Austronesian groups, i.e. groups 33 and 34, whose ELNs cover two islands (New Britain and New Ireland) of the Bismarck Archipelago and a large part of the northern NG main island, and groups 37 and 38, for which predicted ELNs are located in the South East of NG 2) that the Eastern and Western Highlands groups (with TNG languages) can be grouped together based on similar geographic and contiguous ecological positions, with the exception of groups 21 and 22, the ELNs of which have a particular geographic distribution and are situated in the center of the PCA 3) that group 29 can be considered, given its few occurrence points for ELNM, as an outlier 4) that TNG groups 09 and 25 (both are cases in which the geographic extend of the ELN and the linguistic area largely coincide) can be separated even if they occupy a relatively similar environmental space, as each geographic area of a predicted niche can be considered accessible only if the niche is relatively geographically continuous [28] and 5) that the geographic distribution distinguish all Austronesian groups from TNG groups with which they overlap according the first axis of the PCA.

Seventeen ELPs can be identified (Table 1, Fig 2): 10 ELPs correspond to ELNs extending the actual linguistic area to which they refer and 7 ELPs correspond to ELNs coinciding with the linguistic area to which they refer. ELP 1 corresponds to language groups 00, 08, 16, 18, 19, 24, 29, for which ELNs depend on temperature range and altitude, and are located in the Highlands. ELP 2 is mainly influenced by precipitation and unites groups 11 and 15 in the center of NG. ELP 3 is composed of groups 12 and 28 in Southern NG and determined by precipitation seasonality and temperature. ELP 4 brings together groups 23, 36, 37, 38 with ELNs determined mainly by precipitation seasonality, located in the Southeastern part of NG. ELP 5 is composed of groups 33 and 34 with overlapping ELNs in the Bismarck Archipelago and across a large part of Northern NG. This ELP is determined by a range of temperatures and a wide range of precipitation/seasonality values. ELNs of groups 20, 21, 22 with PCA values close to the origin, appear to be determined neither by specific environmental variables nor by similar geographic distributions. Although the environmental conditions of group 26 are very similar to those of groups 11 and 15, its distinct geographic distribution classifies the ELN of this group into a distinct ELP. The remaining ELNs, i.e. groups 09, 10, 25, 27, 31, 32, 35 and 39, are all strongly bound to a very confined temperature-dependent environment, which does not display geographic continuities except for the four TNG groups 09 and 10 in Southwestern NG, and 25 and 27 in the Gulf of Papua at the southern coast. However, group 10 in the swampy lowlands of Southwest NG has a very specific geographic position.

ELPs and language diversity

Counting the linguistic groups included in the same ELP equates to calculating the linguistic diversity on ecological rather than geodetic or administrative criteria. In this way, a linguistic diversity of 1 can be attributed to environments wherein a single linguistic group occupies the full geographic extend of its ELN. ELP 1 comprises seven ELNs meaning that seven linguistic groups share a relatively similar environment, and thus corresponds to a diversity value of 7. In the same way, a diversity value of 2 is found in ELP 2, ELP 3, ELP 5, and a diversity of 4 in ELP 4. The same calculation yields a diversity of 1 to the ELNs of linguistic groups that present limited overlap with others. Notably, only ELP 4 includes both TNG and Austronesian linguistic groups. Also, linguistic diversity in terms of the number of languages per language group(s) included in the same ELP is differs greatly (Table 1).

ELNs and ecological risk

Application of the ecological risk formula to the study area identifies higher GS values, and hence lower ecological risk, in the Highlands, where the highest linguistic group diversity is observed (Figs 2E and 5D). On the other hand, most language groups for which the ELN geographic distribution and the linguistic area largely overlap, occur in areas with lower GS values (higher ecological risk). No correlation emerges between GS values and number of languages (Table 1).

ELNs and environmental suitability

The map superimposing all TNG and Austronesian ELNs (Fig 6) identifies the most suitable areas for each of the two language families, that is, areas with an environment suitable for both families and areas inappropriate for both.

A: Geographic areas in mainland and island New Guinea with relevance to the text. B: Environmental suitability map corresponding to the difference (delta) between the mean predictions of TNG ELNs and Austronesian ELNs calculated with formula ΔELN (cf. Methodology section). Map background generated by using R::Raster CRAN Repository–river shapes obtained from Natural Earth–public domain.

This map predicts much of the geographic distribution of both linguistic families. In the case of the Austronesian language family, there is good correspondence with the Glottolog [27] (Fig 7B and 7C), Muturzikin [30] and Ethnologue maps [31]. In the case of the TNG family, similarity exists with the Ross [19], Ethnologue [31], Muturzikin [30] and Glottolog 2.7 [27] maps (Fig 7). The 3.0 and 3.1 versions of the Glottolog [27] maps correspond less to the ELN prediction for TNG, because their TNG family concept targets the more restrictive Nuclear TNG.

Geographical distribution of the Austronesian (blue) and Trans New Guinean language families according to Ross [19] (A), Glottolog versions 2.7 (B) and 3.0 (C) [27], the selected language groups for which Eco-Linguistic Niche modeling (ELNM) was performed (D) and the results of the ELNM (E). Dots in (B) and (C) correspond to the center of the geographical location of the constituent languages of each language family according to Glottolog versions 2.7 (B) and 3.0 (C) [27]. Map A after Ross 2005 [19] Maps B-E generated by using R::Raster–CRAN Repository–public domain software.

Detailed comparison between predicted ELNs and actual linguistic distribution of Austronesian and TNG language families shows that several areas, not included in the analysis, were predicted to have a potentially favorable environment to accommodate populations speaking a language of the linguistic family identified for these regions, e.g. Yos Sudarso Island (also named Pulau Dolok) at the South Coast of West-NG, where people speak TNG languages, according to Ross [19] (Fig 7A). For “Other Austronesian” languages (41) along the North Coast (e.g. the Austronesian language areas of the Ormu and Tobati speakers west of the Humboldt Bay in the central area of the North Coast, as well as those of the Island of Yapen, south of the Biak Island, and Waropen, a neighboring area on the East Coast of the Cenderawasih Bay, cf. Glottolog 3.0 [27] (Fig 7A). Also, the model correctly indicates that the areas labelled as “Other non-Austronesian NG” languages (30) do not contain groups speaking TNG languages. The “Other non-Austronesian NG” category includes, for example, the languages of the Sepik-Ramu basin and languages of the Ndu group in the central area of the Sepik River Valley both in North-East NG, the languages of the Greater Kwerba family at the mouth of Mamberamo River on the North Coast of West-NG, and Morehead-Wasur and Pahoturi on the South Coast (Fig 6). However, some Austronesian groups inhabit areas not predicted by the model, such as the languages of the Sarmi region on the North Coast of West-NG (Fig 7A).

Taken at the linguistic family level, the Austronesian and TNG ELNs only partly overlap, i.e. only in those regions yielding a null differential of ELN predictions (ΔELN = 0) (Fig 6). This means that some environments are most likely occupied by TNG, others most likely by Austronesians, still others by none or both of these two language families.


8. Estimated combined error

Fig. 13 . Estimated effects of the five main sources of errors discussed in this manuscript on the mean NDVI of 1 ha tundra plots on Qikiqtaruk surveyed in 2016 with a Parrot Sequoia at 50 m flight altitude (5 cm GSD). The estimates are presented here with the purpose of giving the reader a feel for the relative importance of the sources of error discussed in this manuscript.

Videoya baxın: ما هو الفرق بين المضلعات المقعرة والمحدبة